HWP문서[ETRI 보도자료] ETRI, 오픈소스로 시각지능 핵심 기술 공개_191212.hwp

닫기

Embargo

없음

배포일자 : 2019.12.05.(목)

배포번호 : 2019-62호

인공지능연구소

시각지능연구실장

박종열(042-860-5935)

E-mail : jongyoul@etri.re.kr

인공지능연구소

시각지능연구실

배유석(042-860-4818)

E-mail : baeys@etri.re.kr

홍보실

실장

정길호(042-860-0670)

E-mail : khchong@etri.re.kr

홍보실

담당

정이찬(042-860-0812)

E-mail : echanzug@etri.re.kr

매수 : 보도자료 3매(사진 5매, 참고자료 3매)

배포처 : ETRI 홍보실

ETRI, 오픈소스로 시각지능 핵심 기술 공개 - 시각지능 구현 알고리즘 및 및 쉽고 자연스러운 얼굴 사진 편집 툴 개발

- 시각지능 학습용 도심환경 이미지 데이터 20만장도 공개

- 외국 의존도 탈피, 국내 시각 인공지능 연구 활성화 기여

국내 연구진이 시각 인공지능 기술의 핵심 알고리즘과 전문 기술 없이도 얼굴 사진을 쉽게 편집할 수 있는 기술을 일반에 공개한다. 시각지능 학습에 필요한 이미지 데이터도 함께 공개해 국내 인공지능 산업 생태계에 큰 도움이 될 전망이다.

한국전자통신연구원(ETRI)은 사물 인식, 행동 추적 등 시각 인공지능 구현에 필요한 핵심 기술인 백본 네트워크(VoVNet)포토샵 없이도 얼굴을 마음대로 편집할 수 있는 기술(SC-FEGAN)을 공개한다고 밝혔다.

아울러 연구진은 시각 인공지능 기술을 학습시키는데 필요한 도심환경 사물 560종 대상 사물인식 학습 데이터 20만 장을 공개한다.

사람의 눈과 달리 컴퓨터가 영상 속 이미지를 분별하고 인식하기 위해서는 복잡한 과정이 필요하다. ETRI가 공개하는 백본 네트워크는 사진 속 객체들의 특징을 찾아내 정보를 추출하고 분석하여 인공신경망으로 모델을 만들어내는 기술이다.

본 기술을 활용하면 사물 검출, 객체 부분별 분할 인식, 안면 인식 등 다양한 기능들을 구현할 수 있어 시각지능의 핵심 기반 기술로 평가받는다. 개발자들은 본 기술을 통해 손쉽게 원하는 서비스나 혁신적인 기능을 구현해 부가가치를 창출할 수 있다.

연구진이 공개하는 또 하나의 핵심 기술은 전문 편집 프로그램 없이도 사람의 얼굴 사진을 쉽고 자연스럽게 편집할 수 있는 기술(SC-FEGAN)이다.

본 기술을 활용하면 사진 속 인물이 하고 있지 않던 액세서리를 추가하거나 머리 모양, 표정까지도 바꿀 수 있다. 심지어 낙서 등으로 인해 일부가 훼손되거나 빈 공간이 생겨도 원하는 내용을 간단하게 그려 복원할 수도 있다. 얼굴 사진에 특화되어 다양한 편집이 가능한 알고리즘인 셈이다.

본 기술에는 딥러닝 기법 중 하나인 갠(GAN) 기술이 사용된다. 인공적으로 데이터를 만들고 이를 판별하면서 진짜 같은 가짜 데이터를 만들어내는데 효과적인 기술이다.

갠은 이미지를 합성하거나 변환하는데 효과적이지만 사용자의 의도나 조건 등을 반영하지 못한다는 단점이 있었다. 하지만 연구진은 기술을 보완해 입력값을 넣어 원하는 결과를 낼 수 있도록 개발했다.

덕분에 인물 사진과 사용자가 원하는 입력값을 알고리즘에 넣으면 조건에 적합하면서도 해당 사진 속 주변환경과 자연스럽게 어울리는 이미지를 만들 수 있다. 본 기술은 컴퓨터 그래픽, 웹 디자인, 산업디자인 등 분야에서 작업 시간을 대폭 줄이고 결과물의 품질을 높일 수 있어 관련 업계에서 많은 활용이 이뤄질 것으로 예측된다.

본 기술은 지난 2월 누구든 코드를 다운로드 받아 테스트해볼 수 있도록 깃허브(Github) 커뮤니티에 처음 공개한 이후 큰 인기를 누리고 있다.

ETRI는 시각 인공지능을 기술을 학습하는데 꼭 필요한 높은 품질의 데이터도 함께 공개했다. 데이터에는 전봇대, 신호등, 자동차 등 CCTV주로 녹화되는 도심 환경에 주로 등장하는 사물들이 들어있다.

연구진은 단순히 임의의 사물로 이뤄진 많은 양의 데이터보다 시각지능 기능 구현 및 학습에 적합한 데이터가 보다 효과적이라고 설명했다. 이미 작년부터 관련 자료를 작년부터 공개해오면서 현재 누적 공개 데이터 개수는 총 20만 장이다.

ETRI 박종열 시각지능연구실장은국내 시각 인공지능 기술이 급속도로 성장하고 있지만 외국 의존도가 점차 높아지고 있어 관련 기술을 공개해 국내 ··연이 보다 경쟁력 있는 기술을 확보하고 생태계 조성을 위해 적극 지원할 예정이다고 밝혔다.

연구진은 향후 시각지능 관련 핵심 기반 기술들과 높은 품질의 데이터를 지속적으로 공개하는 한편, 얼굴 뿐 아니라 냉장고, 가구 등 다른 객체를 대상으로도 쉽게 편집을 할 수 있도록 기술을 고도화할 계획이다.

연구진의 기술은 백본 네트워크 기술은 다음 링크에서 확인할 수 있다.

본 기술은 과학기술정보통신부 혁신성장동력사업의 일환으로 진행되어 관련 특허출원 47건, 특허등록 4건, 논문 34편(SCI 6편), 기술 이전 12건의 성과를 냈다. <보도자료 본문 끝>

참고1

백본 네트워크 활용 기능 구현 및 성능 비교

그림 1. 백본 네트워크를 활용한 사물검출, 파트분할, 포즈, 안면인식

* 왼쪽 위에서부터 반시계방향으로, 사람의 파트 인식(Human Part Segmentation), 사물 분할(Segmentation), 포즈인식(주요 관절 포인트), 안면인식에 적용된 장면

그림 2. 기존 백본 네트워크(Resnet, Densenet) 대비 속도와 성능이 모두 우수

참고2

SC-FEGAN 기술 활용 예시

그림 3. SC-FEGAN으로 사진을 편집한 결과 (코, 입, 머리, 악세사리)

그림 4. SC-FEGAN으로 사진을 복원한 결과 (지우고, 스케치와 부분 사진으로 원본 사진을 복원)

참고3

추가 설명자료

<백본 네트워크>

기존에는 MobileNet이나 ResNet-50 외국 기업이 공개한 백본 네트워크 기술을 많이 사용했다. 하지만 이를 활용하기 위해서는 대형메모리를 지닌 GPU와 성능이 뛰어난 컴퓨터 장비가 추가로 필요해 많은 비용이 들었다.

이에 연구진은 적은 메모리와 상대적으로 낮은 성능의 컴퓨터 사양으로도 시각지능 분석을 할 수 있는 기술 Vovenet을 공개했다. 기존 기술은 좁고 깊게 분석을 진행했다면 연구진은 넓고 얕은 분석 구조를 사용해 빠른 연산으로 적당한 비용의 장비로도 산업에 쓰일 수 있을 정도의 정확도를 내도록 만들었다.

<이미지넷>

ETRI는 지난 2017년 국제 영상인식 대회이미지넷에서 사물 종류별 검출성능 부문 세계 2위의 성적을 달성한 바 있다. 연구진은 당시 보유한 원천기술을 기반으로 본 기술을 산업적 용도로 더욱 활용하는데 적합하도록 설계 방식 개발하는 연구를 진행해왔다. 그 결과, 기존보다 2배 더 빠른 검출 속도를 내면서도 높은 정확도를 유지할 수 있도록 만들 수 있었다.

덕분에 연구진의 기술은 마이크로소프트에서 제공하고 있는 시각지능 기술보다 빠르고 좋은 성능을 제공한다. 순수 국산 기술로 개발되어 필요에 따라 기술 지원 및 다양한 기능적 확장도 가능하다.