sub contents

REVIEW

24개 언어를 이해하는 음성인식 기술

ETRI 연구진이 한국어와 영어, 중국어 일본어뿐만 아니라 독일어, 프랑스어, 스페인어, 러시아어 등 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다. 이번 기술은 디지털 전환의 시대에 들어서면서 발전하고 있는 인공지능(AI) 비서, AI 튜터 등 다양한 AI 서비스 확산에 도움이 될 것으로 기대를 모으고 있다.

ETRI의 대화형 인공지능 기술

ETRI는 세계 주요 24개 언어를 음성으로 인식해 문자로 변환할 수 있는 대화형 AI 기술을 개발했다.

음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술을 말한다. 기존에 음성인식 기술을 개발하기 위해서는 대규모의 학습데이터가 필요해, 다국어 확장과 음성인식 성능을 확보하는 일이 쉽지 않았다.

언어 확장의 어려움을 해소하다

다국어 확장을 위해, 연구진은 먼저 다양한 기술을 개발했다. 레이블이 없는 데이터에 인공지능 모델 학습을 가능하게 하는 ‘자기 지도 학습’, 인공지능이 가상의 레이블을 자동으로 생성하여 지도 학습하는 기술인 ‘의사 레이블’, 대용량 데이터를 활용하여 관련 지식을 미리 학습해놓은 인공지능 모델인 ‘대용량 다국어 사전 학습 모델’, ‘음성 데이터의 오디오 데이터 생성(TTS) 증강 기술’ 등을 통해 언어 확장의 어려움을 해결했다.

더불어 ETRI는 기존에 활용되던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였다. 종단형 음성인식 기술은 음향 모델과 언어 모델, 발음 사전 등을 별도로 학습하던 이전의 음성인식 기술에서 나아가 종단형 방식으로 통합 학습하도록 개선돼 음성인식 성능을 향상시켰다. 하지만 통합 학습에 따라 응답속도가 느리고, 의료나 법률 등 특정 도메인에 특화하기 어렵다는 단점이 있었다.

이에 연구진은 스트리밍 추론 기술을 개발해 느린 응답속도를 해결했고, 실시간 처리가 가능해지도록 했다. 아울러 의료와 법률, 과학기술 등 특정한 도메인에 대해서도 음성인식 기술이 쉽게 적용될 수 있도록 하이브리드 종단형 인식 기술도 개발했다.

세계로 뻗어나가는 기술

ETRI는 2020년 종단형 음성인식 기술을 개발한 후, 30여 개의 국내·외 기업에 음성인식 기술을 이전했다. 이를 통해 기업들은 현재 회의록 작성, 자막 통역, 키오스크, 의료·교육, AI 컨택센터 등 다양한 AI 서비스에 ETRI의 음성인식 기술을 활용하고 있다.

연구진은 이번 다국어 확대와 응답속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대하고 사업화를 추진할 예정이다.
특히, 올해 안으로 지원 언어를 30여 개로 확대하고, 국·내외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권 등을 대상으로 사업화를 적극 추진할 계획이다.

한편, ETRI는 공공인공지능 오픈 API·DATA 서비스 포털을 통해 11개 언어의 음성인식 서비스를 제공하고 있다. 또한 이번 연구성과를 기반으로 24개 언어로 음성인식 서비스를 확대해 중소·벤처기업, 학교, 개인 개발자 등 다양한 사용자들에게 다국어 음성인식 관련 사업 기회를 제공할 예정이다.

이번 ‘대화형 인공지능 기술’은 과학기술정보통신부 ‘자율성장형 복합인공지능 원천기술연구’ 사업의 일환으로 개발되었으며, 지난 사업 기간 동안 연구진은 국내·외 논문 17편, 특허 43건, 기술이전 20건과 19억 원의 기술료 수입을 거두었다.