인공지능 영상 인식 기술의 최고를 향해
국제 대회에서 우수한 성적 거둔 ETRI 기술
수백 명 이상의 얼굴을 동시에 인식한 뒤, 범인을 색출해내는가 하면 수천 명이 모인 공항에서 CCTV를 통해 범인을 색출해내기도 한다. 이는 어느 영화 속의 한 장면일 뿐일까? 최근 IT 글로벌 기업들이 영상 인식 기술을 출시하면서, 세계 곳곳에서 영상 인식 기술의 발달에 큰 기대를 모으고 있다. 영상 인식이란, 그림으로 된 정보를 컴퓨터를 이용하여 처리하는 일을 말한다. 고도의 그래픽 기술과 함께 인공지능적인 요소가 필수적으로 포함되어야 하는 분야이다. 세계적으로 인공지능과 영상 인식에 대한 관심이 높아지는 가운데, 이와 관련한 국제적인 대회도 개최되고 있다. '이미지넷 대회'는 전 세계 인공지능 기술 경연의 장으로 영상 데이터 내 특정 사물을 정확하게 검색하는 기술을 평가하는 대회다. 그동안 구글, 마이크로소프트, 페이스북 등 세계적인 기관들이 참여하여 기술을 경쟁해 왔다. 올해에도 세계에서 많은 기업이 자신의 기술 수준을 확인하기 위해 이미지 넷 대회에 참가한 가운데, ETRI가 국제영상인식대회(ILSVRC, 이미지넷) 사물검출 분야에서 전 세계 기업과 대학 연합 팀들과 겨루어 우수한 성적을 거두었다. 대회에 참여한 ETRI '딥뷰' 팀과 '콘텐츠 비주얼 브라우징'팀은 각각 사물 종류별 검출 성능 기준 2위, 평균 검출 정확도 기준 3위의 성적을 달성했다.
ETRI 영예의 두 팀, '딥뷰'와 '콘텐츠 비주얼 브라우징'
ETRI가 참가한 사물 검출 분야는 200가지 사물(65,500장) 사진 중 사물의 종류와 위치를 찾아내어 성능을 평가한다. 대회에는 전체 14개 기관이 참가, 10가지 이상의 사물 종류에 대해 최고 성능을 기록한 팀은 2개 팀에 불과했다. 지난해에는 21개 팀이 참가하고, 3개 팀이 위와 같은 성적을 기록했다. 성적은 사물 종류별 검출 성능과 평균 검출 정확도(mAP)로 측정한다. ETRI '딥뷰'팀과 '콘텐츠 비주얼 브라우징' 팀은 딥러닝 기술 기반으로 사물의 종류와 위치를 검색하는 네트워크를 설계·학습해 검출 성능과 정확도를 높이는데 주력했다. '딥뷰'팀의 시각 지능 플랫폼 기술은 영상에 나타나는 다양한 사물과 행동을 이해하는 기술이다. 현재 과학기술정보통신부가 지원하는 인공지능 국가전략프로젝트의 목적으로 개발 중이다. '딥뷰' 팀은 10가지 사물에 대해 최고 성능을 보였다. 사물 종류별 검출 성능이 높다는 것은 특정 사물에 대해 차별화된 기술력을 가지고 있음을 의미한다. '콘텐츠 비주얼 브라우징' 팀의 콘텐츠 비주얼 브라우징 기술은 영상을 통해 콘텐츠의 정보를 검색하는 기술로 과학기술정보통신부가 지원하는 디지털 콘텐츠 원천 기술 개발 사업의 목적으로 개발 중이다. KAIST 신진우 교수팀과 함께 평균 검출 정확도(mAP) 기준 0.61의 결과를 얻었다. mAP는 200가지 전체 사물의 검출 정확도를 나타내는 지표로 사물 검출 분야 종합 수준을 나타내는 것이다.
공공 서비스와 편리한 일상을 위한 기술
ETRI 연구팀은 지난해 본 대회의 사물 분류(Classification) 및 영상 내 사물 위치 검출(Localization) 분야에 참가해, 영상 내 사물 위치 검출 분야에서 에러율 9.92%, 사물 분류 분야 에러율 3.25%로 5위를 달성했었다. 국제 저전력 영상 인식 대회(LPIRC)에서도 '콘텐츠 비주얼 브라우징' 팀이 2위를 차지했다. 국제전기전자기술자협회(IEEE) '리부팅 컴퓨팅' 분야에서 개최한 대회로, 검출 정확도(mAP)와 검출 시 전력 소모량(Power)를 측정하여 경쟁하는 대회다. 앞으로 '딥뷰'팀은 시각 지능 플랫폼 기술을 통해 CCTV 영상분석, 광고 분석 등 공공 서비스가 가능하도록 기술 개발에 주력하고 있다. 이번 대회에서 확보된 사물인식 기술을 바탕으로 시각지능 기술을 발전시켜 경찰청, 지자체, 학교 등이 CCTV, SNS, 블랙박스 심층 분석 및 방송 콘텐츠 분석에 적용할 예정이다. '콘텐츠 비주얼 브라우징' 팀은 향후 건물 검색, 음식 검색 등 지능형 콘텐츠 검색 서비스에 콘텐츠 비주얼 브라우징 기술을 적용할 예정이다. 해당 기술이 상용화 되면, 영상 내 장소, 상품 등 다양한 정보를 편리하고 손쉽게 검색할 수 있을 것으로 기대된다. 한편, 이번 성과는 과학기술정보통신부와 정보통신기술진흥센터(IITP)의 지원으로 수행되었다. 『대규모 실시간 영상 이해 기반의 시각 지능 플랫폼 개발』 및 『온·오프라인에서의 콘텐츠 비주얼 브라우징 기술 개발』 과제의 일환이다.
용어설명
mPA
Mean Average Precision
LPIRC
Low-Power Image Recognition Challenge, 국제 저전력 영상인식 대회
Mini Interview
한동원 SW콘텐츠연구소 소장
이번 대회에서 괄목할 만한 기술력을 발휘해서 기쁩니다. 하지만 관련 연구에 보다 많은 관심이 이뤄져야 하고, 갈 길도 멉니다. 또한, 대회 방식처럼 소통과 협업문화의 확산이 ICT에도 집중적으로 필요합니다.