sub contents

INTERVIEW

음성을 문자로 변환해주는 대화형 AI 기술

복합지능연구실 김상훈 책임연구원

ETRI가 세계 24개 언어를 음성으로 인식해 문자로 바꿔주는 ‘대화형 AI’ 기술을 개발했다.
이번 연구를 통해 자기 지도학습과 의사 레이블 적용, 대용량 다국어 사전 학습 모델, 오디오 데이터 생성(TTS) 증강 기술 등이 적용됐다.
다국어 확장과 음성인식 기능을 확보한 복합지능연구실 김상훈 책임연구원을 만나 이야기를 들어보았다.

김상훈 박사님, 안녕하세요.
박사님과 센터 소개 부탁드립니다.

안녕하세요. 1992년 ETRI에 입사해 쭉 음성인식 분야만을 연구해온 복합지능연구실 김상훈입니다. 우리 연구실은 크게 음성인식과 통역 분야를 연구하고 있는데, 저는 그중에서도 통역 분야를 좀 더 비중 있게 다루고 있습니다.

이번에 개발한 ‘대화형 인공지능 기술’은 어떤 기술인가요?

이번에 개발한 ‘대화형 인공지능 기술’은 한국어, 영어, 중국어뿐만 아니라 유럽어, 동남아어, 중앙아시아 언어 등 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술입니다. 근래에는 우리나라가 동남아, 중동, 중앙아시아 등 희소언어를 가진 국가와 경제교류를 활발하게 하고 있어요. 그렇기에 언어소통의 문제를 해결하고자 다양한 나라 언어의 음성인식 기술 확보가 필요했습니다. 잘 아시다시피 AI는 학습데이터가 매우 중요한데 희소언어의 경우 데이터를 구하기가 힘들어요. 이를 해결하고자 ETRI는 자기 지도학습, 의사 레이블 적용, 대용량 다국어 사전학습 모델, 음성 데이터 생성(TTS) 증강 등 새로운 기술 개발을 통해 24개 언어로 확장할 수 있었습니다.

‘종단형 음성인식 기술’의 단점을 개선했다고 하는데
이는 어떤 기술이고, 무엇이 개선되었는지 설명 부탁드립니다.

과거의 음성인식 기술은 음향 모델과 언어 모델, 발음 사전 등을 별도로 학습하는 구조였습니다. 최근 적용되고 있는 종단형(End-to-End) 방식은 이들 별개 모델을 하나로 통합, 학습하여 음성인식 성능을 향상시키는 기술입니다. 종단형 음성인식 기술은 문장이 통으로 들어가기 때문에 결과가 나올 때까지 실시간 처리에 어려움이 있었고, 또 학습된 모델을 의료나 법률 등 특정 도메인에 튜닝하기 어려웠다는 단점이 있었습니다. 이에 종단형 음성인식을 실시간 처리가 가능한 구조와 사용자가 원하는 도메인에 튜닝이 용이하게끔 엔진을 새롭게 개발해서 편리성을 높였습니다.

이번 기술의 보완점이 있다면 무엇인가요?

보완할 점은 많습니다. 한국어 같은 주요 언어는 당장 성능이 잘 나올지라도, 좀 더 대화체로 이야기했을 때 음성인식 결과가 잘 나오지 않을 수도 있습니다. 사람과 사람이 대화할 때는 말을 얼버무려도 문맥을 알고 있기 때문에 대화에 큰 오류가 생기지 않지만, 기계는 그렇지 않거든요. 향후에는 AI 스피커 또는 로봇과 대화할 때 기계도 어떤 주제로 이야기가 흘러가고 있다는 것을 알고, 어떤 이야기가 나오는지 예측해서 인식할 수 있도록 문맥 정보 같은 것들을 반영하는 기술 등이 보강되어야 합니다.

마지막으로 박사님의 향후 계획이나 목표가 있다면?

향후 목표는 100개 언어에 대한 통역 기술을 개발하는 것입니다. 그렇게 개발한 기술을 웨어러블 디바이스에 적용해 외국인과 자연스럽게 대화할 수 있는 형상을 만들고 싶어요. 아직 갈 길은 멀지만 이어폰이라든지, 증강현실에서 사용하는 안경 같은 것을 쓰고 이야기하면 통역된 말들이 들리면서 의사소통에 문제가 없도록 구현하고 싶습니다. 또 국내에는 외국인들이 많이 살고 있습니다. 최근에는 외국인들이 사건에 휘말려서 민·형사, 또는 가정과 관련해 법적인 문제로 조사나 판결을 받는 경우가 늘고 있다고 합니다. 특히 그러한 과정에서 의사소통이 원활하게 이루어지지 않아 인권이 보호되지 못하는 문제도 발생하고 있다고 합니다. 현재 저희가 가지고 있는 기술을 사법이나 경찰 영역에 적용하여 도움이 될 수 있으면 좋을 것 같습니다.

다국어 음성인식 적용사례 - 각국 대통령 연설