AI 연구 위한
데이터셋의 필요성
세계 각국이 미래 신성장동력으로 인공지능(AI)을 채택하며, 관련 산업을 육성하기 위한 움직임이 활발히 일어나는 추세다. 하지만 우리나라는 높은 ICT 성숙도에 비해 AI 산업은 선진국 대비 뒤처지는 것으로 평가받았다. AI 산업을 견인하는 주요 3대 요소는 데이터, 알고리즘, 컴퓨팅 파워가 꼽힌다. 따라서 이들이 실제 AI 응용서비스로 실현되기 위해서는 보다 전략적인 지원이 필요하다는 목소리가 높다.
제4차 산업혁명 성공의 열쇠는 인공지능(AI) 기술의 확보, 양질의 데이터 그리고 데이터와 인공지능 간 유기적인 융합에 달려있다고 한다. AI 선도국들은 미래 산업 변화의 주도권을 선도하기 위해 고품질의 데이터를 확보하는 노력을 국가 차원에서 적극적으로 지원하고 있다.
우리나라의 경우, AI 기술 성능 향상에 필요한 AI 학습용 원천 데이터가 미국·중국 등에 비해 절대적으로 부족한 실정이다. 이에 최근 정부는 데이터 활용을 활성화하기 위한 ‘데이터 댐’ 프로젝트를 가동해 AI 학습용 데이터 구축을 본격적으로 지원하고 있다.
필자는 휴먼케어 로봇을 위한 로봇 인공지능 기술을 연구하고 있다. 다가오는 초고령사회에 대응하기 위한 하나의 해결책으로 휴먼케어 로봇이 지속적인 관심을 받고 있다. 휴먼케어 로봇은 고령자와 함께 생활하면서 고령자를 이해하고 정서적으로 교류하면서 상황에 맞는 건강, 생활, 인지, 정서, 서비스를 제공하는 로봇이다.
휴먼케어 로봇을 위한 최신 기법의 인공지능 연구를 위해서는 로봇이 바라보는 시점에서 고령자의 모습을 촬영한 데이터셋의 확보가 필수적이다. 하지만 로봇이 운용되는 환경에서 휴먼 정보를 인식하기 위한 용도의 데이터셋은 매우 부족하며 특히 고령자 대상의 데이터셋은 전무한 실정이다.
독거노인 일상 행동
3D영상 데이터 공개
필자를 포함한 ETRI 연구진은 휴먼케어 로봇을 위한 행동인식 연구를 위해 2017년부터 다양한 환경에서 3차원 영상 데이터셋을 구축해오고 있다. 2019년 공개한 아파트 테스트베드 환경에서 구축된 ‘ETRI-Activity3D 데이터셋’은 100명의 참가자가 행한 55가지 일상행동이 포함된 3차원 영상 데이터 모음이다.
수집된 데이터의 개수는 총 11만 2,620개이며 이는 로봇 시점으로 촬영된 세계 최대 규모의 3차원 영상 데이터셋이다. 데이터가 공개된 이후에 고령자의 행동을 연구하는 국내외 다수의 기업, 학교, 연구소에서 본 데이터셋을 활용해 다양한 로봇 인공지능 연구를 수행하고 있다.
지난 10월에는 테스트베드가 아닌 고령자가 실제 생활하는 주거환경에서 구축한 실환경 데이터셋을 공개하기도 했다. 독거 고령자가 실제 생활하는 30곳의 가정을 방문해 상용화 기술 연구에 필수적인 실 환경 3차원 영상 데이터셋을 구축한 것이다. 내년에는 20가구를 추가해 보다 확장된 데이터를 공개할 예정이다.
한편, 공동 연구기관인 한국과학기술연구원(KIST) 인공지능연구단은 가상으로 행동 데이터를 만들 수 있는 플랫폼도 개발해 공개했다. 플랫폼을 활용하면 직접 촬영이 어려운 환경에서, 로봇의 시점, 조명 등을 바꿔가면서 다양한 행동 데이터를 대용량으로 얻을 수 있다. 덕분에 학습 데이터 부족 문제와 도메인 적응 문제를 극복하는 데 많은 도움을 줄 수 있다. 양 기관이 공개하는 데이터셋과 기술을 응용하면 로봇지능 실용화를 위한 폭넓은 연구가 가능해질 것이라는 전망이다.
AI 선도국으로 도약하는
대한민국을 꿈꾸며
ETRI는 이외에도 로봇의 비언어적 상호작용 행위를 학습하기 위한 데이터와 핵심기술들도 오픈소스 형태로 공개하고 있다. 현재까지 연구진은 고령자의 일상행동이 발생한 시점을 검출하는 행동 검출 기술 얼굴 특징과 옷차림 등 외형 정보를 인식하는 외형특징 인식 기술 의상의 색상과 스타일을 인식하는 기술 발화에 적합한 제스처를 자동으로 생성하는 기술 등 총 8가지 기술을 공개했다.
관련 정보는 깃허브 사이트(http://github.com/ai4r)에서 찾아볼 수 있다. 데이터는 기관생명윤리위원회(IRB) 승인 및 고령자 개개인에게 개인정보 수집 및 이용 동의를 구하는 과정을 통해 합법적이고 안전하게 수집됐다.
우리 연구진은 고령자와 로봇, 그리고 이들이 상호작용하는 상황을 종합적으로 고려한 로봇 특화 데이터셋이 로봇 인공지능 연구를 가속화 할 수 있기를 기대하고 있다. 이로써 홈서비스 로봇 관련 인공지능 연구에도 도움을 줘 탄력이 붙길 바란다.
좋은 데이터셋을 구축하고 공개하는 과정은 매우 힘들고 고단하다. 기획, 설계, 수집, 정제, 라벨링, 검증, 공개로 이어지는 과정에서 하나라도 중요하지 않은 단계는 없으며 엄청난 시간과 비용이 소요된다. 합법적인 데이터 수집과 공개를 위해 개인정보 수집 및 이용 동의를 구하는 과정도 필요하다.
앞에서 언급한 대로 정부 주도로 AI 학습용 데이터를 구축하는 사업이 활발하게 진행되고 있다. 앞으로는 더 많은 예산을 투입할 예정이라고 하니 인공지능 연구자로서 반가운 일이다. 우리의 디지털 역량과 잠재력으로 AI 경쟁력의 핵심인 양질의 대규모 데이터를 확보해 AI 선도국가로 도약할 대한민국의 미래를 기대해 본다.
글 · 인간로봇상호작용연구실 김도형 책임연구원