VOL. 173 april 2021
2021년 올해의 연구자상의 영예는 복합지능연구실 박전규 책임연구원에게 돌아갔다.
박전규 책임연구원을 비롯한 복합지능연구실 연구진이 개발한 음성인식 및 대화처리 기술은
교육부-문화체육관광부와 협력으로 각각 ‘AI펭톡’, ‘AI 세종학당 선생님’이라는 교육 플랫폼으로 탄생했다.
이번 성과는 인공지능이 공교육 현장에 적용된 세계 최초의 사례라는 점,
최근 전 세계에 부는 한국어 열풍에 첨병이 되었다는 점에서 큰 의의가 있다.
ETRI는 2010년경부터 외국어학습을 위한 핵심요소 기술개발을 시작했습니다. 그 결실로 최근 다양한 형태로 사업화가 이루어지고 있고요. 외국어 학습을 위한 기술개발은 3단계에 걸쳐 진행되었습니다. 1단계는 2010년부터 2014년까지 진행되었는데요, 주요 결과를 바탕으로 시범서비스를 울릉군 6개 초중학교에서 시행했습니다. 2015년부터 2018년까지 4년간 진행된 2단계에서는 몇 차례 FGT(Focus Group Test)1)를 진행했습니다.
1~2단계를 거치는 동안 저희가 수행한 노력 중 하나는 전국 주요 시도교육청 및 학교 영어 선생님들을 대상으로 다양한 세미나를 열어 인공지능 기반 교육에 대해 알리는 것이었습니다. 이런 노력 끝에 인공지능 기반 교육이 학생들에게 자기주도 학습을 수행하도록 돕는 도구로서 매우 요긴하고 유효하다는 공감을 얻을 수 있었습니다. 이후 서서히 사업화가 진행되어 공교육 현실에 접목될 수 있었던 것 같습니다.
연구진은 공학자입니다. 그렇기에 저희 역할은 교육자가 필요한 부분을 적극적으로 수용하여 공학적으로 최적화하는 것이고요. 인공지능 학습이 현실적으로 활용되려면 교육정책을 입안하고 실현하는 주무부처인 교육부나 문화체육관광부의 의지, 이를 구현하는 EBS나 세종학당재단의 의지가 없이는 불가능합니다. 이러한 의지와 기술적 완성도가 잘 맞물려서 사업화가 진행되었다고 볼 수 있겠습니다.
1) FGT(Focus Group Test)
컨텐츠를 실험하는 소수그룹
1~2단계 연구 결과물인 지니튜터를 사용하는 모습. 현재 ETRI 연구소기업인 한컴인터프리가 지니튜터의 사용권을 확보했다. © ETRI
외국어학습을 위해서는 기술적으로 몇 가지 요소가 필요합니다. 펭톡에는 음성인식, 발음평가 및 대화처리 기술이 사용되었는데요, 분량으로 보면 약 1만 명 이상의 비원어민 영어 발성이 학습데이터로 사용되었고 대화처리를 위해서도 수만 개 이상의 대화 패턴이 적용되었습니다. 이 과정에서 국내외 주요 대학 교수님들, 영어교육 전문가, 교육기관 등과 협업으로 음성인식, 발음평가, 대화처리 기술을 검증하는 과정을 거쳐 교육에 응용하게 되었습니다.
현 단계에서 인공지능 기반 외국어 말하기 학습 서비스는 학습자의 발성 내용으로부터 문법과 대화 내용의 적합성을 확인하고 피드백을 제시하여 제한적이나마 외국어 교사 역할을 수행하는 것을 목표로 하고 있습니다. 이를 위해 크게 음성인식과 대화처리 기술이 사용되는데 음성인식은 비원어민 학습자의 발성에 대해서 높은 인식 정확도를 나타내면서 동시에 비원어민의 발성 유창성 수준을 제시하도록 최적화되어야 합니다.
음성인식을 거친 텍스트 기반 대화처리는 주어진 주제를 기반으로 문법 및 표현 오류를 검출하여 교육적으로 피드백하는 기술과 학습 주제에 맞춰 대화를 수행하고 관리하는 기술입니다. 이러한 기술적 요소들에 기반하여 양질의 교육용 콘텐츠가 결합되어 비로소 외국어학습 콘텐츠가 만들어진다고 보시면 되겠습니다.
2019년 국내 사교육비 전체 규모는 21조 원 규모입니다. 구간별 평균 교육비는 초등학생 29만 원, 중학생 33.8만 원, 고등학생 36.5만 원이며 이중 영어 사교육비의 비중이 가장 높게 나타나고 있습니다. 사회적으로는 학습 결손, 학교 적응 실패에 대한 우려와 불안감으로 다수 학부모가 초등학교 입학 전부터 자녀에게 영어 선행학습을 실시하고 있고요. 이는 초등학생의 휴식시간 감소, 삶의 만족도 저하로 이어집니다.
또한, 사교육을 받지 못한 학생의 경우에는 학력 격차로 인해 학업 수행은 물론 학교생활에서 자신감, 사회성, 자기 효능감 형성에 어려움을 겪고 있습니다. 이러한 배경에서 교육부의 AI 영어 말하기 학습 서비스는 국가적 공공재로 가치가 있습니다. 향후 초등학생뿐만 아니라 향후 중고등학생과 성인에게도 확대 서비스가 가능한 기술이고요.
또한, 출생률 저하에 따른 인구 부족으로 국내에는 결혼이민자 및 귀화자, 노동인구의 유입이 확대되고 있습니다. 이들에게 가장 시급한 문제는 언어 문제이며, 이는 국가적 관심이 필요한 영역이기도 합니다. 이러한 관점에서 세종학당재단의 AI 한국어 학습 시스템은 국가적 공공재로써 다문화가정뿐 아니라 재외국민, 전 세계 한국어 학습자에게 서비스를 제공할 수 있어 기술적, 문화적인 가치도 있습니다.
음성인식 및 대화처리 기술은 외국어 교육뿐만 아니라 음성 녹취, 대화형 내비게이션 서비스 등 다양한 분야에서 사용되고 있습니다. 최대 96%의 정확도를 자랑하는 녹취 음성인식 기술의 경우2) 녹취록을 작성해야 하는 공무원이나 교육공무원, 콜센터 직원의 부담을 크게 덜어주고 있습니다. 대화형 내비게이션 제작 업체 ㈜파인디지털은 2007년 저희와 기술이전 계약을 맺은 후 업계 2위에서 1위로 부상하기도 했고요. 저희가 개발한 기술들은 사업화 250여 건, 기술이전 120여 건이라는 성과로 이어졌으며 그 과정에서 약 130억 원의 수입이 발생하였습니다.
이처럼 음성인식 및 대화처리 기술은 직접적으로는 인간을 대신해서 받아적고 요약하여 문서를 작성해 주는 역할이나 외국인과 자연스럽게 의사소통이 가능하게 해 주는 자동통역 기술로 사용 될 것입니다. 더 나아가 AI비서, AI튜터, 스마트홈, 자율주행차 등과 같은 IT 분야는 물론 교육, 의료, 복지, 관광, 국방, 자동차, 선박 등 다양한 산업들의 미래 첨단 기술들과 사람들을 연결해 주는 언어지능 응용 SW 개발을 가속화 및 고도화하는 핵심 원천 기술로 향후 큰 파급효과를 일으킬 것입니다.
음성인식 및 대화처리 기술의 기대효과는 궁극적으로 인간의 가장 자연스러운 의사소통 수단인 음성대화를 구현하는 것이고, 시각처리와 더불어 향후에도 인공지능-컴퓨터간 가장 중요한 인터페이스로 활용될 것이라는 사실에 누구도 이견이 없을 것입니다. 이를 위해선 음성인식 원천기술과 응용기술이 조화롭게 발전해야겠죠.
2)
ETRI 녹취음성인식 기술은 발표 녹취는 약 96%, 토론 녹취는 약 94%, 방송 녹취는 약 90%의 정확도를 자랑한다.
시장 측면에서 보면 구글 및 Nuance 등 소수 기업이 과독점하는 특성을 보이지만 한국어에 대해서는 국내 기술이 구글을 상회하는 정확도를 보이고 있는데, 한국은 전세계적으로 자국언어에 대해 구글 동등 이상의 경쟁력을 유지하는 몇 안 되는 나라입니다. 이러한 기술적 우수성을 배경으로 국내 기업들은 활발하게 AI 비서, 콜센터/고객센터, 다양한 민간 및 공공 부문의 회의록 서비스, 차량 인포테인먼트 서비스 등 많은 레퍼런스를 만들어 나가고 있습니다.
앞서 말씀드렸듯, 공교육에 AI 음성인식 기술이 도입된 사례는 우리나라가 처음입니다. 이번 사례는 올 하반기 발행될 유네스코 출판물에 코로나 시대 비대면 교육 사례로 보고될 예정입니다. 공교육 분야 AI 기술 도입에 있어 한국이 가장 보편적인 사례가 되어 우리나라 공교육 제도를 수출할 수 있는 계기가 되지 않을까 예상됩니다.
저희 팀은 적극적으로 기술발표를 하는 등 2018년부터 유네스코와 긴밀한 관계를 유지해오고 있습니다. 특히, 유네스코 AI 교육 담당자와 이야기를 나누며 제삼세계나 저개발 국가에 AI 기반 외국어 학습 프로그램 도입이 필요하다는 것에 뜻이 모아졌습니다. 이런 부분을 고려할 때, 앞으로 ETRI 음성인식 기술이 어떤 형태로든 글로벌화 되지 않을까 예상됩니다.
음성인식 기술은 시각처리와 더불어 가장 혁신적인 성능 개선이 이루어지고 있는 분야입니다. 초기의 DNN(Fully Connected Network), 직전의 LSTM 기술을 넘어서는 종단형(end-to-end) 알고리즘으로 지속적으로 성능이 진화되고 있어요. 하지만 여전히 사투리, 노인, 비원어민 등의 발성과 잡음이 심한 환경에서의 발성에 매우 취약한 특성을 보입니다. 이를 개선하기 위한 노력이 ETRI를 비롯한 국내외 주요 연구기관에서 이루어지고 있습니다. 음성학, 공학, 뇌공학 등 다양한 학문 영역의 학제적인 방법론을 동원하여 정확도를 제고하는 연구가 반드시 동반되어야 할 것으로 전문가들은 보고 있습니다.
예를 들어 사람은 복잡하고 시끄러운 것은 물론이고 다양한 국적의 수많은 사람이 대화하는 국제학회 리셉션장에서 관심 있는 특정인의 목소리에 집중하여 이해할 수 있습니다. 또한, 모국어가 아닌 외국어를 사용하여 논리적인 대화를 나누는 매우 놀라운 능력을 보입니다. 이러한 능력을 구현하는 것이 궁극의 음성지능이 목표하는 것 중 하나일 것입니다.
저는 ETRI와 벤처기업을 거치면서 30년 이상 음성인식을 연구해 왔으며 앞으로도 음성지능의 궁극적인 목표를 달성하기 위해 노력할 것입니다. 최종적으로는 인간 수준의 상식과 통각(apperception)에 기반하여 심도 있는 상호작용 능력의 구현하고 싶습니다. 이는 저희 당대에서 구현이 어려울 수 있습니다. 저희도 물론 최선을 다하겠지만 저희 후배, 후학들이 달성할 수 있도록 그 학문적, 기술적 연결고리를 만드는 것도 중요한 목표입니다.
흔히 과학기술을 양날의 검이라고 표현하곤 한다. 과학기술이 우리 삶에 깊숙이 파고든 지금, 연구자의 선한 동기가 그 언제보다도 절실하게 요구되고 있다. ETRI가 ‘앞서가는 ICT, 보다 나은 세상, 함께 하는 ETRI’를 비전으로 삼은 것도 그런 이유일 것이다. 박전규 책임연구원 역시 보다 더 나은 세상을 만들겠다는 과학기술인의 사명감을 가지고 연구에 임하고 있다. 사명감으로 연구에 매진하는 모든 연구원들의 노력이 보다 나은 미래사회를 향한 일보전진으로 보답받길 기대해본다.