행동이해엔진 ‘딥뷰’

사람의 눈처럼 영상을
보고 이해한다

행동이해엔진 ‘딥뷰’

인간에게 개와 고양이를 구분하거나 사람의 얼굴을 인식하는 일, 어떤 사람이 어떤 행동을 하고 있는지 보고 알아내는 것은 그리 어렵지 않다. 이러한 인간의 ‘시각지능’에 해당하는 이미지 인식 분야는 딥러닝을 통해 발전하고 있다. 2012년 유튜브 영상 속의 고양이를 구분해 낸 구글의 인공지능과 이미지 속의 사물 인식 정확도를 혁신적으로 향상한 토론토 대학의 인공지능이 구현된 뒤, 혁신적인 발전이 계속되고 있는 것이다.

영상 속 데이터를
사람처럼 인식하고 분석하다
딥뷰 ( Deep View)

기계가 어떤 장면을 사람처럼 인식하고 판단할 수 있다면 어떨까? 그 질문에 답을 만들어가고 있는 곳이 바로 ETRI 인공지능연구소다. ETRI 인공지능연구소는 ‘실시간 대규모 영상 데이터 이해/예측을 위한 고성능 비주얼 디스커버리 플랫폼(딥뷰, Deep View)’의 연구 개발을 진행하고 있다. 영상 속 사람과 사물을 정확하게 인식하고, 그 내용이 무엇인지 사람만큼 정확하게 파악할 수 있는 ‘영상 빅데이터 플랫폼’을 구축하는 기술이다.

이 기술은 대규모 이미지나 동영상을 수집해 도심 공간의 변화를 이해하고 도심 속 재난이나 범죄 위험 예측을 실시간으로 수행할 수 있게 도와준다. 또한 우리에게 필요한 대규모 시각 관련 빅데이터를 구축함으로써 국가 차원의 안정적인 정보 분석이 가능하게 된다.

기존 학계에서 사람 행동 이해 연구는 스포츠 영상이나 유튜브 영상과 같이 범용 데이터를 활용하여 개발되어 실제 행동을 인식하는 데에는 한계가 있었다. 이러한 어려움을 해소하고자 ETRI에서는 지방자치단체와의 협력을 통해 필요한 기능, 요구사항, 데이터 등을 개선하고 실제 환경에서 작동할 수 있는 행동 이해 기술 개발에 초점을 두었다.

실제 생활 속으로 들어오다

ETRI는 ‘딥뷰’ 상용화의 첫걸음으로 CCTV 영상을 활용했다. 도심지역의 쓰레기 불법 투기 행위를 단속하는 데 딥뷰를 활용한 것이다. 실제 딥뷰를 탑재한 CCTV가 세종시 일부 지역과 서울 은평구 도심에서 가동되어 쓰레기 불법 투기 행위를 감시하고 있다. 딥뷰를 탑재한 CCTV는 기존 CCTV가 단순히 사람을 인식하던 것과 달리 사람이 물건을 던지거나 내려놓는 등 투기하는 행동을 인식하고 경고 메시지를 내보내 예방한다.

딥뷰가 탑재된 CCTV는 사람의 관절 위치와 물체를 탐지하고 사람과 물체의 관계를 모델링하는 방법으로 투기 행위를 탐지한다. 아울러 쓰레기 더미를 검출하고 투기 시의 행동을 인식해 관계를 추적하고 추론도 하게 된다. 또한 일정 거리 이상 떨어져 있는지, 쓰레기를 던졌는지, 완전히 버렸는지 등의 다양한 쓰레기 투기 행동의 패턴을 검출한다.

쓰레기 불법 투기 행위 감시는 시작에 불과하다. ‘딥뷰’ 기술이 상용화되면 이외에도 국가 사회안전망 고도화를 위한 기반 기술을 확보할 수 있을 것으로 기대된다. CCTV를 활용해 각종 도심의 안전을 지키는 등의 시민 안전, 국방 및 각종 편의성 증대에 도움을 줄 수도 있다. 시각 지능을 가진 ICT 기술이 도시를 편안하고 안전하게 만들어 우리의 삶의 질을 높이는 것이다.

인공지능의 가능성을 넓히는 ETRI

과학기술정보통신부의 시각 인공지능 플랫폼 기술개발 사업으로 추진되어 2024년까지 본 연구의 진행을 맡은 ETRI는 앞으로 행정안전부의 도심 범죄 예방 시스템, 고속도로 CCTV 등 공공분야에 특화된 기술을 개발할 계획이다.

본 기술의 책임자인 박종열 전 시각지능연구그룹장은 “딥뷰 기술은 전 세계적으로 굴지의 글로벌 기업들이 적극적으로 기술 개발에 참여하고 있는 기술이다. ETRI 연구진은 지난해 ILSVRC(이미지넷 대회)에서 DET(객체탐지)분야 세계 2위를 차지에 기술력을 인정받았다.”며 “향후 공공분야에서 관련 기술을 적용한 서비스 개발을 추진하고 있다.”고 밝혔다. 앞으로 인공지능연구소에서는 국가적으로 요구되는 사회 안전을 지키기 위해 국가 인프라로부터 발생하는 이미지, 동영상에 대한 분석 기능을 확보해 전 국민의 안전을 지키는 눈의 역할을 지속적으로 수행할 계획이다.

지능정보연구본부는 사람처럼 스스로 보고 듣고 배울 수 있는 인공지능 기술을 장기적으로 확보하는 것을 목표로 제 4차 산업혁명 시대를 견인할 핵심 기술인 언어지능, 음성지능, 시각지능, 스마트 데이터 분야를 중점적으로 연구하고 있다. 또한, 딥러닝 이후의 차세대 기술을 준비하기 위한 복합지능과 지속적으로 성장하는 인공지능에 대한 원천 기술도 연구 중이다. 지능정보연구본부는 선택과 집중을 통해 지능정보 핵심 기술을 확보하며, 국내 지능 정보 산업 활성화를 위해 확보된 기술을 오픈 API 플랫폼을 통해 공급하고 확산해 생태계를 지원하고자 한다.

45개의 연구성과 목록보기

사람의 눈처럼 영상을 보고 이해한다

행동이해엔진 ‘딥뷰’

사람의 눈처럼 영상을
보고 이해한다