9개 나라 사람과 대화하는 똑똑한 통역사
일상생활에 스며들 음성인식기 기술
인터넷은 세계인을 하나로 연결해 주었다. 한국에서 456,000km 떨어진 미국인과 대화를 나눌 수 있을뿐더러, 인터넷이 연결된 곳이라면 세계 어느 나라 사람과 이야기를 할 수 있다. 그러나 모국어가 다른 사람에게 자기 생각을 전하려면 언어를 공부해야 한다.
많은 글로벌 기업들은 언어 장벽을 낮추기 위해 언어 번역기를 개발하고 있다. 최근에는 실시간으로 언어를 번역할 수 있는 기술이 개발되었다.
이러한 가운데, ETRI 연구진은 한국어, 영어뿐만 아니라 일본어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 아랍어까지 9개 언어 음성인식기 개발에 성공했다. 문자로 입력하지 않아도 말을 하면 해당 언어로 바로 문자 변환이 가능하게 된 것이다. 일상대화에서 언어별로 최대 95% 수준의 성능을 보여 상용화가 가능한 수준이다.
ETRI 연구진은 음성인식기 기술이 스마트폰을 비롯한 스마트 스피커, 스마트 홈 허브 기능을 가지는 셋톱박스, 냉장고, TV 등, 스마트 가전으로 음성인식 기술이 급격히 퍼지고 있는 점을 고려할 때, 글로벌 시장 진출을 계획하는 국내 업체들에게 큰 도움이 될 것으로 내다봤다.
대용량 데이터, 딥러닝 기술로 개발
ETRI 연구진이 개발에 성공한 음성인식기 기술은 인공지능 기술의 한 분야인 딥러닝 기술을 바탕으로, 대용량 데이터를 이용해 개발되었다. 딥러닝은 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술이다. 사람은 사진을 보고 사물을 구분할 수 있지만, 컴퓨터는 쉽게 구분하기 어렵다. 이를 위해 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 ‘기계학습(Machine Learning)’이 고안되었다. 딥러닝은 기계학습 알고리즘 중 인공신경망에 해당하는 것으로, 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하는 기술이다. 빅데이터와 관련된 대용량 데이터 자동 정제기술, 다국어 발음 생성기술 등 다국어 음성언어처리 핵심기술도 확보해 추후 동남아, 힌디어 등 타 언어로 확대하기 쉽다.
ETRI 연구진이 개발한 기술은 구글(Google) 등 세계 업체와 비교해보았을 때, 한국어에서는 성능 우위를 점하고 다른 언어에서는 대등한 수준을 보였다. ETRI 연구진은 향후, 음성인식기 개발이 일상 대화체의 연속 발화가 가능해 향후 통역은 물론, 인공지능 비서, 방송 자막화, 콜센터 서비스 등에 활용이 가능할 것으로 보고 있다.
서비스 방식은 클라이언트 서버형과 단말 탑재형 등으로 이뤄진다. 응용 분야에 따라 한 번에 수명에서 수십 명까지 동시 접속해 인식이 가능한 수준이라고 설명했다.
현재 국내에는 ETRI와 같이 다국어 음성 데이터(DB)와 말뭉치로 불리는 음성 텍스트의 다국어 데이터(DB)를 보유한 곳이 없어 이를 기반으로 개발된 다국어 음성인식기가 있어야 하는 기업에 큰 도움이 될 것으로 기대된다.
언어장벽 허물고 하나 되는 세계
최근 음성인식 산업계 흐름은 글로벌 시장을 동시에 공략해야 한다. ETRI가 개발한 음성인식 기술을 이용해 인공지능 비서, 자동통역 서비스, 커넥티드 카 등, 주요 다국어 음성인식 관련 세계 시장에 동시 진출할 수 있을 것으로 전망한다.
ETRI는 향후 음성인식 기술을 필요로 하는 국내 이동통신업체를 비롯하여 주요 포털, 음성인식 엔진 기술을 상용화하고 있는 기업체에 기술을 이전할 예정이다. 또한, 일반 콜센터나 보험회사와 같이 상담자의 음성 데이터를 축적하고 분석해야 하는 업체에도 큰 도움이 될 것으로 보고 있다.
한편, ETRI 음성인식 기술은 미래창조과학부의 지원을 받은 ‘언어장벽 없는 국가 구현을 위한 자동통번역 산업 경쟁력 강화 사업’을 통해 개발되었다. 해당 기술 성과와 관련 국내·외 특허 30여 건이 출원되었다. 음성인식 기술을 기반으로 만든 자동통역 앱 ‘지니톡’은 220만 건이나 다운로드 되며 전 국민의 사랑을 받고 있다. 지난해에는 한컴인터프리를 통해 상용화된 ‘한컴 말랑말랑 지니톡’을 통해서도 서비스 중이다.
ETRI는 현재 음성인식 기술을 내년 평창 동계올림픽 자동 통·번역 서비스 부문 공식 후원사인 한글과컴퓨터와 함께 ‘지니톡’ 자동통역 서비스에 적용해 시범서비스 중이다. 향후 2020년 동경올림픽 개최 시점까지는 대상 언어를 14개 언어로 확대하고, 추가로 20개 언어 이상 늘려나갈 예정이다.
용어설명
딥러닝(Deep Learning)
기계 학습 기술의 일종으로 사람의 뇌가 사물을 구분하는 것을 모사한 인공지능 학습법이다.
Mini Interview
ETRI 음성지능연구그룹 김상훈 프로젝트 리더
향후 음성인식기 기술의 고도화를 통해 기술 경쟁력을 높이는 동시에, 지원할 수 있는 언어를 확대해, 국내 업체들의 글로벌 시장 진출에 있어 든든한 버팀목이 되겠습니다.