메인콘텐츠 바로가기


Interview Ⅰ

사회 안전을 지키는 ‘눈’

행동 이해엔진 딥뷰가 온다

지능정보연구본부 박종열 그룹장

딥 러닝은 학습, 인지, 추론, 행동과 같은 과정이 가능한 인공지능의 혁신적인 진화를 만들어 내고 있다. 특히 시각과 청각 같은 감각기관에 해당하는 ‘인지 지능’은 딥 러닝을 통해 2012년을 기점으로 획기적인 변화가 있었다. 현재 시각 인지 분야의 지능은 인간의 수준을 구현한다. 이런 기술이 도심 환경에 접목되면 어떨까? 그 질문에 새로운 답을 열어가는 사람들을 만나보자.

Q.01

행동 이해 엔진 ‘딥뷰’ 간단한
설명 부탁드립니다.

인간에게 개와 고양이를 구분하거나 사람의 얼굴을 인식하는 일은 그리 어렵지 않다. 이러한 인간의 시각지능에 해당하는 이미지 인식 분야는 딥 러닝을 통해 인간을 초월하고 있다. 2012년 유튜브 영상 속의 고양이를 스스로 구분해 낸 구글의 인공지능과 이미지 속의 사물 인식 정확도를 혁신적으로 향상한 토론토 대학의 인공지능이 구현된 지 약 3년 만에 이뤄낸 혁신이다.
_
박종열 그룹장
“저희 과제는 2012년부터 1년간 기획과정을 거쳤습니다. 처음 취지는 ‘대규모 머신러닝을 해보자!’라는 것이었습니다. 그런데 2012년에 영상인식 분야에 큰 변화가 생겼습니다. 구글과 토론토 대학에서 기존에 잘되지 않던 연구를 획기적으로 이루는 사건들이 일어난 것입니다. 이 사건을 계기로 연구진은 대규모 기계학습 방식을 딥 러닝 방식으로 전환했습니다. 코드명을 정할 때 ‘딥뷰(Deep View)’라고 명명했던 이유는 조금 더 심층적으로 대상을 보자는 의미에서입니다. ‘딥(Deep)하게 보자(View)’라고 해서 ‘딥뷰’가 됐습니다. ”
어떤 영상을 인식할 때 아주 가볍게 읽어낼 수 있는 것들이 있다. 가령 모니터가 책상 위에 있고, 컴퓨터 본체가 모니터 옆에 있다는 것들이다. 하지만 딥뷰는 육하원칙으로 사진에 누가 있고, 어떤 행동을 하고 있으며 또 무엇을 하고, 왜 하고 있는지에 대한 내용을 심층적으로 분석하고자 한다. 예를 들어 “저 자리에 모니터가 왜 있지?” 혹은 “저 컴퓨터와 모니터의 관계는?” 이런 식의 심층적인 내용을 본다는 의미다.
인간에게 개와 고양이를 구분하거나 사람의 얼굴을 인식하는 일은 그리 어렵지 않다. 이러한 인간의 시각지능에 해당하는 이미지 인식 분야는 딥 러닝을 통해 인간을 초월하고 있다. 2012년 유튜브 영상 속의 고양이를 스스로 구분해 낸 구글의 인공지능과 이미지 속의 사물 인식 정확도를 혁신적으로 향상한 토론토 대학의 인공지능이 구현된 지 약 3년 만에 이뤄낸 혁신이다.
박종열
그룹장
“저희 과제는 2012년부터 1년간 기획과정을 거쳤습니다. 처음 취지는 ‘대규모 머신러닝을 해보자!’라는 것이었습니다. 그런데 2012년에 영상인식 분야에 큰 변화가 생겼습니다. 구글과 토론토 대학에서 기존에 잘되지 않던 연구를 획기적으로 이루는 사건들이 일어난 것입니다. 이 사건을 계기로 연구진은 대규모 기계학습 방식을 딥 러닝 방식으로 전환했습니다. 코드명을 정할 때 ‘딥뷰(Deep View)’라고 명명했던 이유는 조금 더 심층적으로 대상을 보자는 의미에서입니다. ‘딥(Deep)하게 보자(View)’라고 해서 ‘딥뷰’가 됐습니다. ”
어떤 영상을 인식할 때 아주 가볍게 읽어낼 수 있는 것들이 있다. 가령 모니터가 책상 위에 있고, 컴퓨터 본체가 모니터 옆에 있다는 것들이다. 하지만 딥뷰는 육하원칙으로 사진에 누가 있고, 어떤 행동을 하고 있으며 또 무엇을 하고, 왜 하고 있는지에 대한 내용을 심층적으로 분석하고자 한다. 예를 들어 “저 자리에 모니터가 왜 있지?” 혹은 “저 컴퓨터와 모니터의 관계는?” 이런 식의 심층적인 내용을 본다는 의미다.

Q.02

딥뷰가 적용될 수 있는 분야는
어떤 것들이 있나요?

‘딥뷰’는 영상을 글처럼 읽어 정보를 활용하기 위해 영상 빅데이터 플랫폼을 구축하는 기술이다. 이 때문에 대규모 이미지나 동영상을 수집해 도심 공간의 다차원, 시계열 변화를 이해하고 도심 위험 예측을 실시간으로 수행할 수 있게 도와준다. 아울러 우리에게 필요한 대규모의 시각 관련 빅데이터를 구축함으로써 안정적인 정보 분석 및 미래 예측도 가능해진다.
_
박종열 그룹장
“적용 분야는 무궁무진합니다. 지금 저희가 중점적으로 추진하려는 분야는 ‘공공분야’입니다. 용의자 추적 혹은 치매 노인, 미아 찾기 등입니다. 대규모 CCTV 네트워크가 있는 상태에서 사람을 찾는 것을 우선 적용하려 합니다. 이 외에도 추진하고 있는 기술은 기업들이 요청하는 분야가 있습니다. 방송콘텐츠 분석이라던가, 패션 AI 등 분야가 있습니다. 아직 시험단계지만 이와같은 분야에서도 활용 가능합니다.”
‘딥뷰’ 기술이 상용화됐을 때 CCTV를 활용한 시민안전, 국방 및 각종 편의성 증대에 도움을 줄 수 있다. 이 외에도 시각지식 큐레이션, 모바일 시각지식 증강기술, 원격 시각지능 등 ICT가 도시를 편하고 안전하게 지켜줘 우리 삶의 질을 높여 줄 것으로 기대된다.
‘딥뷰’는 영상을 글처럼 읽어 정보를 활용하기 위해 영상 빅데이터 플랫폼을 구축하는 기술이다. 이 때문에 대규모 이미지나 동영상을 수집해 도심 공간의 다차원, 시계열 변화를 이해하고 도심 위험 예측을 실시간으로 수행할 수 있게 도와준다. 아울러 우리에게 필요한 대규모의 시각 관련 빅데이터를 구축함으로써 안정적인 정보 분석 및 미래 예측도 가능해진다.
박종열
그룹장
“적용 분야는 무궁무진합니다. 지금 저희가 중점적으로 추진하려는 분야는 ‘공공분야’입니다. 용의자 추적 혹은 치매 노인, 미아 찾기 등입니다. 대규모 CCTV 네트워크가 있는 상태에서 사람을 찾는 것을 우선 적용하려 합니다. 이 외에도 추진하고 있는 기술은 기업들이 요청하는 분야가 있습니다. 방송콘텐츠 분석이라던가, 패션 AI 등 분야가 있습니다. 아직 시험단계지만 이와같은 분야에서도 활용 가능합니다.”
‘딥뷰’ 기술이 상용화됐을 때 CCTV를 활용한 시민안전, 국방 및 각종 편의성 증대에 도움을 줄 수 있다. 이 외에도 시각지식 큐레이션, 모바일 시각지식 증강기술, 원격 시각지능 등 ICT가 도시를 편하고 안전하게 지켜줘 우리 삶의 질을 높여 줄 것으로 기대된다.

Q.03

박사님의 최종 목표는 무엇인가요?

사람은 영상을 보고 굉장히 효율적으로 기억하고 추론하는 과정을 수행한다. 하지만 아직 컴퓨터가 사람이 보고 판단하는 부분을 따라 하기 위해서는 아주 작은 부분이라도 엄청난 컴퓨터와 전력을 요구한다.
_
박종열 그룹장
“사실 기억력을 모사(模寫) 가능한 기술이 있지 않으면 구현이 어렵겠지만, 사람이 영상을 보고 기억하는 메커니즘을 구현하고 싶습니다. 대표적인 예가 ‘기억’과 ‘망각’ 입니다. 사람은 어떤 대상을 오랫동안 봤을 때 기억을 뚜렷하게 하지만, 한동안 보지 않으면 기억에서 멀어집니다. 그게 기억과 망각이죠. 하지만 컴퓨터는 기억을 시켜놓으면 계속 기억을 해요. 그렇다고 시간이 지났으니까 지워버리는 것은 바람직한 망각이 아니죠. 주변에서 계속 봐오고, 누적해서 학습했던 것들이 쌓이면서 새로운 정보가 덧대어지며 이전의 데이터를 더욱 선명하게 하거나 자연스럽게 사라지게 하는 것이죠.”
일상의 예를 들면, 하루 동안 움직인 것을 기록하고, 녹음하는 것은 가능하다. 또는 내가 대화했던 내용을 녹음했다가 음성인식을 통해 요약하는 기술도 가능하다. 하지만 내가 본 것을 정리하는 기술은 굉장히 어렵다. 한 시간짜리 영상을 모든 장면으로 기술하면 원본 영상보다 더 많은 데이터가 필요하기 때문이다. 1시간 분량의 HD 영상을 기준으로 1.5GB 데이터가 필요하다. 하루를 저장하기 위해서는 36GB 데이터가 필요한 셈인데 지금과 같은 방식이라면 이보다 훨씬 더 많은 공간이 필요하다는 점이다.
_
박종열 그룹장
“이는 저장하는 것보다 분석하는 것이 불가능하다는 문제가 있습니다. 하지만 이를 기억형태로 저장하면, 36GB가 아니라 1GB나 매우 작은 데이터로 저장돼요. ‘오늘 뭐 했지?’를 떠올렸을 때 모든 장면을 검색하지 않고 누적된 기억을 바탕으로 연상할 수 있게 된다는 의미입니다. 한편으로 영상의 장면이 아닌 의미를 이해하고 기억하면서 더 다양한 지식정보를 받을 수 있고 더욱 다양하게 활용할 수 있게 될 것입니다.”
사람은 영상을 보고 굉장히 효율적으로 기억하고 추론하는 과정을 수행한다. 하지만 아직 컴퓨터가 사람이 보고 판단하는 부분을 따라 하기 위해서는 아주 작은 부분이라도 엄청난 컴퓨터와 전력을 요구한다.
박종열
그룹장
“사실 기억력을 모사(模寫) 가능한 기술이 있지 않으면 구현이 어렵겠지만, 사람이 영상을 보고 기억하는 메커니즘을 구현하고 싶습니다. 대표적인 예가 ‘기억’과 ‘망각’ 입니다. 사람은 어떤 대상을 오랫동안 봤을 때 기억을 뚜렷하게 하지만, 한동안 보지 않으면 기억에서 멀어집니다. 그게 기억과 망각이죠. 하지만 컴퓨터는 기억을 시켜놓으면 계속 기억을 해요. 그렇다고 시간이 지났으니까 지워버리는 것은 바람직한 망각이 아니죠. 주변에서 계속 봐오고, 누적해서 학습했던 것들이 쌓이면서 새로운 정보가 덧대어지며 이전의 데이터를 더욱 선명하게 하거나 자연스럽게 사라지게 하는 것이죠.”
일상의 예를 들면, 하루 동안 움직인 것을 기록하고, 녹음하는 것은 가능하다. 또는 내가 대화했던 내용을 녹음했다가 음성인식을 통해 요약하는 기술도 가능하다. 하지만 내가 본 것을 정리하는 기술은 굉장히 어렵다. 한 시간짜리 영상을 모든 장면으로 기술하면 원본 영상보다 더 많은 데이터가 필요하기 때문이다. 1시간 분량의 HD 영상을 기준으로 1.5GB 데이터가 필요하다. 하루를 저장하기 위해서는 36GB 데이터가 필요한 셈인데 지금과 같은 방식이라면 이보다 훨씬 더 많은 공간이 필요하다는 점이다.
박종열
그룹장
“이는 저장하는 것보다 분석하는 것이 불가능하다는 문제가 있습니다. 하지만 이를 기억형태로 저장하면, 36GB가 아니라 1GB나 매우 작은 데이터로 저장돼요. ‘오늘 뭐 했지?’를 떠올렸을 때 모든 장면을 검색하지 않고 누적된 기억을 바탕으로 연상할 수 있게 된다는 의미입니다. 한편으로 영상의 장면이 아닌 의미를 이해하고 기억하면서 더 다양한 지식정보를 받을 수 있고 더욱 다양하게 활용할 수 있게 될 것입니다.”

Editor epilogue

매년 다양한 연구기관이 참여해 이미지 내 사물 인식의 정확도를 경쟁하는 ‘2017 이미지넷(ImageNet) 경진대회’에서 마이크로소프트가 97.85%의 정확도를 달성하며 인간의 인식률(94.90%)을 초월했다. 한국의 ETRI 딥뷰팀은 평균 검출 정확도 세계 3위의 성적을 달성하며, 소수정예로 국내 최초의 성적을 거뒀다. 앞으로 지능정보연구본부는 CCTV 관제 시스템이나 행정안전부의 도심 범죄 예방 시스템, 고속도로의 CCTV 등 공공분야에 특화한 기술을 개발하여 국민들로부터 사랑받는 연구진이 될 것으로 기대된다.

TOP