말하는 대로 이루어진다,
음성인식 기술
음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(Acoustic Speech Signal)를 단어나 문장으로 변환시키는 기술이다. 최초의 음성인식 기술은 미국의 통신 업체인 AT&T 벨 연구소에서 시작됐다.
1952년 벨 연구소는 단일 음성으로 말하는 숫자를 인식할 수 있는 시스템 ‘오드레이(Audrey)’를 개발했다.
1962년에는 미국의 컴퓨터/정보기기 제조업체인 IBM이 16개의 영어 단어를 인식하고 간단한 계산까지 할 수 있는 ‘슈박스(Shoebox)’를 공개했다. 이후 미국, 영국, 일본 등에서 인간의 언어를 인식하는 전용 하드웨어를 개발하는 등 음성인식 기술은 빠르게 발전해왔다.
초기 음성인식 기술은 군사용으로 연구됐다. 1970년대, 미국 국방성 산하 국방첨단연구사업국은 음성이해연구 프로그램을 통해 1,000단어를 연속으로 말하는 음성인식을 성공한 바 있다. 이렇듯 군사용으로 사용되던 음성인식 기술은 1990년대부터 상용화되기 시작했다.
낱말 단위의 인식과 표현이 가능한 소비자용 음성인식 제품이 등장했고, 연속적인 발화를 인식할 수 있는 음성인식 제품도 출시됐다.
음성인식 기술이 보다 보편화된 것은, 2000년대에 출시된 스마트폰에 음성인식 기술이 탑재되면서 부터다. 덕분에 사람들은 직관적이고 신속하게 음성인식 기능을 사용할 수 있게 되었다. 더불어 스마트폰 음성인식 기술의 등장으로 인간의 자연어를 처리하고 복잡한 기능을 수행하는 지능형 음성인식 기술도 보편화되기 시작했다.
ETRI는 지난 2020년 12월에 발표한 보고서에서 코로나19 이후 주목해야 할 7대 기술 중 하나로 대화형 AI를 꼽았다. 대화형 AI란 하드웨어, 소프트웨어 등을 통해 인간이 사용하는 ‘자연어’로 인간과 대화하는 일련의 기술을 말한다. 대화형 AI와 깊이 있는 토론을 하는 것은 아직 이르지만, 서비스 영역에서 사용자가 AI에게 원하는 것을 이해시키는 수준에는 이르렀다. 특히 단순 명령어를 인식하는 것을 넘어 사용자와 대화하며 맥락을 파악하고 맞춤형 서비스를 제공할 수 있게 되었다.
대화형 AI가 적용된 대표 기술로는 애플의 음성 기반 개인비서 서비스인 ‘시리(Siri)’가 있다. 시리는 아이폰 사용자의 음성명령을 바탕으로 모바일 검색과 일정 관리, 전화 걸기 등 다양한 편의 서비스를 제공한다. 애플의 시리 출시 이후, 구글은 ‘구글 나우(Google Now)’, 마이크로소프트는 ‘코타나(Cortana)’와 같은 음성인식 기반의 개인비서 서비스를 출시했으며, 일본의 NTT도코모는 ‘샤베테콘쉐루(しゃべってコンシェル)’라는 외국어 통역 서비스를 발표했다.
음성인식 시장은 연평균 성장률(CAGR) 16%로 2027년까지 약 70~80억 달러 규모로 성장이 예상된다. 글로벌 인더스트리 애널리스트(Global Industry Analysts)는 세계 음성인식 시장 규모가 연평균 10.8% 성장하며 2027년에는 27억 달러에 달할 것으로 예측하고 있다. 또한 글로벌 리서치사 포츈(FORTUNE)에 따르면, 미국 내 음성인식 시장규모가 2019년에는 13억 달러로 평가되었고, 2027년까지 50억 달러로 성장할 것으로 전망했다.
음성인식 시장이 확대되는 가운데, 최근 자연어 음성인식은 딥러닝 모델의 최적화, 비지도 학습방식 개발, 멀티모달 융합으로 기술적 성능 개선이 급격히 이루어지고 있다. 이에 ETRI는 남미 등 희소 언어를 포함 총 24개 언어에 대한 음성인식용 모델을 개발했다. 이번 성과의 성능은 글로벌 업체와 비교했을 때 한국어에서는 우위를, 다른 언어에서는 대등한 수준을 보였다.
ETRI는 그동안 2018 평창 동계올림픽 공식 자동통역 서비스에 핵심 기술을 제공한 바 있다. 이번 기술은 올해 안으로 지원 언어를 30여 개로 확대하고, 국내·외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권 등을 대상으로 사업화를 적극적으로 추진할 예정이다.