메인콘텐츠 바로가기

ETRI Webzine

VOL.135
August 2019

Special — 인공지능, 언어장벽 없는 세상을 구현하다.

인공지능,
언어장벽 없는 세상을
구현하다.

인공지능 시대를 맞아 각국 ICT 업체들이 너도나도 통·번역 서비스에 뛰어들고 있다. 통·번역 전용 애플리케이션부터 스마트폰 카메라와 이어폰을 활용한 서비스까지 다양한 플랫폼과 기기들은 빠르게 진화하고 있다. 덕분에 다가올 미래는 외국어를 몰라 어려움을 겪는 상황이 줄어들 것이다. 그렇다면 현재, 인공지능이 점점 언어장벽을 허물어 가고 있는데, 그 어디쯤 와 있는지 알아보자.

페이스북 공유하기페이스북 공유하기 트위터 공유하기트위터 공유하기 카카오톡 공유하기카카오톡 공유하기

진화하는 인공지능 통·번역 서비스

최근 사람처럼 문맥을 읽는 ‘인공 신경망 기술’이 발전함에 따라 인공지능 통·번역 서비스가 진화하고 있다. 인공 신경망 기술이란 인간의 신경을 흉내낸 기계학습 기법으로, 오역뿐만 아니라 훨씬 자연스러운 표현력과 정교한 번역을 제공한다. 통·번역 서비스는 입력된 글자를 번역하던 방식에서 음성 통역, 챗봇 번역, 이미지 번역 등 다양한 형태로 발전 중이다.

그중 스마트폰을 활용한 ‘이미지 번역’을 살펴보자. 이미지 번역은 스마트폰 카메라로 외국어를 비추면 설정해 놓은 언어로 실시간 번역되는 기능이다. 한글과컴퓨터, 삼성전자, 네이버, 구글 등이 내장 카메라를 통해 촬영한 텍스트를 번역하는 ‘이미지 번역’기능을 제공하고 있다. 이 외에도 네이버와 카카오는 스마트폰상 챗봇(채팅로봇)을 활용한 번역 서비스도 제공하고 있으며, 인공지능 통·번역 탑재 기기 종류도 점차 다양해지는 추세다.

지난 2017년 구글은 통·번역 기능을 제공하는 무선 이어폰 ‘픽셀 버드’를 공개했으며, 타임케틀도 동시통역 기능을 갖춘 무선 이어폰을 내놨다. 국내에서는 한글과컴퓨터가 지난 6월 17일 휴대용 인공지능 통·번역기 ‘말랑말랑 지니톡 고!’(이하 지니톡 고)를 출시했다. ‘지니톡 고’는 인공지능 기반 휴대용 통·번역기로 한국어, 중국어, 영어, 일본어, 태국어, 인도네시아어, 베트남어 등 7개 언어를 지원한다. ETRI 연구진과 함께 만든 성과물이다. 특히 인터넷 연결 없이도 한국어, 영어, 중국어, 일본어 등 주요 4개 언어의 서비스를 사용할 수 있다. 이젠 사막이나 망망대해에서도 통역이 가능케 된 셈이다. ‘지니톡 고’에는 지난 2018년 평창동계올림픽 공식 통·번역 앱으로 활약한 앱 서비스 ‘지니톡’이 탑재되어 있으며, ‘말하기 학습’, ‘여행 도움’, ‘핫스팟 공유’ 등 해외여행 및 현지 회화에 적합한 부가 도구를 보유해 차별화를 두었다.

‘백조 한 마리’를 번역한 구글과 파파고

번역기는 컴퓨터가 주체가 되어 언어를 번역해주는 기능을 말한다. 특히 인공지능 발전과 함께 눈부신 성장을 보여온 대표적 인공지능 응용기술로 꼽힌다. 특히 인터넷에서 축적된 대량의 텍스트 정보를 분석하고, 번역기 사용자 데이터를 학습하여 오류를 수정하는 등 인공지능 학습량이 많아질수록 번역 정밀도가 올라가 높은 정확도를 갖추는 추세다. 특히 방대한 빅데이터를 보유한 구글, 네이버 등이 보유한 플랫폼을 적극 활용하여 최대 규모의 이용자를 확보하고 있다.

먼저 국내 인공지능 통·번역 시장에서 파파고가 눈에 띈다. 2018년 8월 출시된 파파고는 13개 언어 번역 서비스를 제공 중이다. 네이버의 인공지능 통·번역 서비스 파파고의 월간 이용자 수는 지난 3월 기준 565만 4592명으로 구글(473만 1492명)을 92만 명 차이로 앞섰다.

물론, 글로벌 시장에서는 구글이 앞선 상황이다. 세계에서 가장 많이 사용하는 기계번역 서비스 구글은 2007년 서비스를 공개했다. 이후 지원 언어를 103개로 늘리는 등 꾸준히 통·번역 분야를 육성해 왔다. 현재 구글의 통·번역 서비스는 이세돌과의 대국으로 유명해진 알파고의 딥러닝 기술을 적용해 정확도를 높였다. 구글 초기 ‘구글 번역’에 적용했던 ‘통계 기반 기계번역’ 방식이 ‘인공 신경망 기반’으로 개선되면서 서비스의 문맥 파악력이 향상한 것이다.

그러나 실제 몇 개의 예시 문구로 테스트한 결과 구글이 자신감을 가질 정도의 수준인지 의구심도 든다. 일례로 “옛날에 백조 한 마리가 살았습니다.”라는 문장에서 ‘백조’를 새가 아닌 ‘숫자’로 번역한 것이다. 그 결과 “The 100,000,000,000,001 Lived long ago.”과 같은 결과가 나왔다. 국내 통·번역 서비스인 파파고에서 번역한 “Once upon a time, there lived a swan.”과 같은 번역과 대비된다. 이밖에도 일이 돌아가는 형편이나 까닭을 의미하는 말인 “영문을 모르겠어.”의 경우 구글은 “I don’t know English.”로 번역했고, 파파고는 “I don't know what I'm talking about.”로 번역했다.

ETRI의 ‘제로유아이(Zero UI)’ 기술이 적용된 지니톡 시연 모습

인공지능이 절대 번역할 수 없는 것

현재 인공지능의 언어처리를 위한 딥 러닝 기술을 개발하기 위해서는 자료에 기술된 어절을 숫자로 표현해야 한다. 기존 인공지능 서비스들은 자연어 처리를 위해 구글이 개발한 언어모델 ‘버트(BERT)’를 사용해왔지만, 단순히 입력한 데이터만 늘리는 것은 언어모델 고도화에 한계가 있었다. 이에 최근 국내 연구진은 이러한 제한점을 해결할 수 있는 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 공개했다.

ETRI는 과학기술정보통신부 인공지능 분야의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업을 2013년부터 진행 중이다. 엑소브레인은 ‘내 몸 밖에 있는 인공두뇌’라는 뜻이며, 이 엑소브레인 사업은 언어를 이해하고, 지식을 학습하여 자연어로 지식을 서비스하는 자연어 처리와 관련된 인공지능을 개발 중이다. 이처럼 엑소브레인의 핵심이 되는 인공지능은 텍스트의 문법과 의미를 분석할 수 있는 한국어 분석 기술, 방대한 텍스트에 기술된 지식을 학습하고 저장하는 지식 학습 및 축적 기술, 문장으로 구성된 질문을 이해하고 정답을 추론하는 자연어 질의응답 기술 등이다.

지난 2016년 11월에는 EBS 장학퀴즈에 엑소브레인이 참가해 장학퀴즈 상·하반기 우승자와 수능 만점자를 제치고 우승한 바 있다. 그리고 2017년부터 엑소브레인 과제에서 개발한 한국어 분석 기술 14종을 오픈 API로 보급하기도 했다. 이로써 그동안 구글과 IBM 등이 국내 시장에서 인공지능 솔루션 서비스를 유료로 진행, 시장잠식을 해왔는데 연구진의 오픈 API 보급으로 큰 역할을 하고 있다. 지난 6월 공개한 코버트는 한국어에 최적화된 언어모델로 자연어 처리를 위한 딥러닝 기술개발에 필수적인 데이터다. 처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화된 학습 파라미터, 방대한 데이터 기반 등이 구글과 차별성 있는 특징이라 할 수 있다. 이러한 과정에 의해 코버트는 성능을 확인하는 5가지 기준에서 구글이 배포하는 모델보다 성능이 평균 4.5%가량 우수했다. 특히 단락 순위화 기준에서는 7.4%나 높은 수치를 기록했다. 향후 연구진은 사람이 자연스럽게 인지하는 하나 이상의 단어가 합쳐진 복합어나 관용적 표현에 대한 의미 표현 방법을 모색하고 있다.

한편 구글 번역 최고 담당자인 마이클 슈스터는 자동 번역기가 좋아지더라도 특정 문화를 이해하기 위해 언어를 익히는 것은 여전히 중요하다고 말했다. 그리고 사람처럼 완벽한 번역을 하는 기기는 나오지 않을 수도 있다고 이야기한다. 인간의 언어 속에는 통번역 프로그램이나 내비게이션이 절대 범접할 수 없는 영역이 있기 때문이다. 바로 ‘교감’능력이다. 번역기로 소통은 할 수 있지만, 서로의 언어를 전혀 모르는 상태에서 소통한다면, 인간의 신뢰나 공감은 전혀 생길 수 없다는 것이다. 내비게이션이 길을 안내하는 도구이듯, 파파고나 구글 번역, 지니톡고도 소통의 도구가 되어줄 뿐이다. 인간의 언어는 소통뿐만 아니라 상호협력, 공감, 신뢰 그리고 사회적 문화적 가치를 품고 있다. 때문에 나라마다 제각각인 표현 방식, 어원에 대한 깊은 통찰, 각국의 사고방식과 문화는 통·번역기가 차후 풀어야할 숙제이기도 하다.