내 손안의 음성인식 개인비서를 두다
영화 ‘her’에서는 남자 주인공 ‘테오도르’가 인공지능 운영체제인 ‘사만다’와 언제 어디서나 마치, 사람과 사람 간 대화를 나누는 것처럼 자연스럽게 대화한다. 인공지능 사만다는 테오도르가 이야기하는 것을 들어주고, 그에 맞는 대답과 정보, 감정을 나눈다. ‘CES 2017’에서는 마치 영화 ‘her’에서처럼 우리가 상상했던 기술이 현실화된 ‘제로 UI’ 기술을 선보였다. 음성으로 기기에 명령을 내리고, 기기가 그 명령에 응답하는 것이다. 애플은 스마트 폰의 거추장스러운 키보드를 없애고, 그 자리를 터치스크린으로 대체해 편리함을 가져다주었다. ‘제로 UI’ 기술은 키보드도 터치스크린도 필요 없는 음성 인식 기술을 기반으로 한 더욱 편리한 기술이다.
키보드도 터치도 필요 없는 ‘제로 UI’
사용자 인터페이스(User Interface)는 기계와 인간 사이에 상호작용을 할 수 있도록 도와주는 기술이다. 전통적인 UI는 가장 보편적으로 개인용 컴퓨터 사용 시 사용되는 키보드, 마우스, 모니터, 스피커 등이며, 2007년 애플에서 터치스크린 기반의 멀티터치를 상용화한 아이폰을 출시함으로써 현재 거의 모든 스마트 폰, 태블릿PC, 노트북 등에서는 터치 기술이 새로운 UI로 자리 잡게 되었다.
하지만, 최근 인간과 정보기기(디바이스) 사이의 상호작용을 더욱 자연스럽고 편리하게 하는 사용자 친화적인 인터페이스에 대한 요구가 커지면서, 기존의 기계에 인간을 맞추려는 스크린 기반의 사용자 인터페이스에서 인간의 다양한 감각을 자유롭게 이용하여 기계를 인간에 맞추려는 인터페이스가 계속 등장하고 있다. 바로, 제로 UI다.
제로 UI는 사용자와 기기 간의 장벽을 제거하고 기술과 지속적으로 상호작용하는 개념이다. 즉, 사용자의 생활환경 안에서 사용자의 움직임, 목소리, 눈짓, 생각 등을 시스템이 인지하고 사용자에게 반응할 수 있는 인터페이스 기술을 의미한다.
제로 UI는 기계들의 상황인지를 통한 판단, 사용자의 음성인식, 사용자 제스쳐 인식 등 다양한 기술을 통하여 구현될 수 있으며, 현재 글로벌 IT 기업들이 가장 관심을 가지고 있는 것은 음성인식을 활용한 음성비서이다.
음성비서는 일반적으로 사용자의 목소리로부터 음성을 인식하여 텍스트로 변환하는 음성인식 과정부터 사용자에게 음성으로 반응하는 음성 합성 과정으로 구성된다. 음성비서기술은 사용자가 짧은 명령을 통하여 기기가 태스크를 수행하던 단어 인식 중심의 인터페이스에서 대화/의미 분석 등을 기반으로 보다 자연스럽게 서비스를 제공하는 방향으로 발전하고 있다. 음성비서를 통한 제로 UI 기술은 사용하는 환경에 따라서 스마트 폰에서 동작하는 음성비서와 가정에서 음성인식을 통하여 다양한 기기를 제어하고 일상생활을 돕는 스피커 형태로 구분된다.
글로벌 IT기업들의 스마트 폰 음성 비서
많은 IT 기업들은 스마트 폰에서 동작하는 음성 인식 기술을 기반으로 한 다양한 음성비서 서비스를 선보이고 있다.
애플은 2010년 Siri 사를 인수하고, Nuance 사의 음성인식 엔진을 사용하여 시리(Siri)라고 불리는 음성비서서비스를 선보이며 초기 시장의 포문을 열었다. 애플 시리는 앱스토어에서 앱을 다운로드하거나, 사용자의 요청으로 지금 들리는 음악의 제목을 사용자에게 알려주는 기능 등을 제공함으로써 사용자가 음성을 통하여 스마트 폰과 효과적으로 인터랙션 하도록 도움을 준다. 아이폰 10주년을 맞는 올해 시리의 기능을 대폭 보강한 서비스의 출시를 준비하고 있다. 특히 사생활 보호 정책을 제시하면서, 스마트 폰 내의 음성비서의 기능을 확장하고 외부 데이터의 의존도를 낮추는 방향으로 기술을 개발하고 있다.
구글에서는 2012년 음성인식 기반의 구글 나우(Now)를 출시했다. 구글 나우는 애플 시리와 달리 다양한 플랫폼에서 동작할 수 있는 플랫폼 독립성을 가진다. 음성비서라기 보다는 음성 인터페이스를 기반으로 하는 구글 검색이라고 볼 수 있다. 이후 2016년 구글은 구글 나우 보다 좀 더 사용자 친화적이고 자연스러운 대화형 인터페이스를 장착한 어시스턴트(Assistant)를 선보였다. 구글 어시스턴트는 구글이 가진 다양한 클라우드 서비스 및 방대한 양의 데이터, 사용자와의 인터랙션을 통해 수집했던 사전 정보를 자연어 기반의 음성 인식을 통해 효과적으로 활용함으로써 사용자의 요구사항을 정확하게 파악하고, 적절하게 대응함으로써 사용자의 편의성이 향상되었다. 또, 애플의 시리와 다르게 사용자의 개인정보뿐만 아니라 사용자의 대화기록에서 컨텍스트를 자동으로 추출하여 사용자의 성향을 학습하게 된다.
마이크로소프트에서 개발한 인공지능 음성비서 코타나(Cortana)는 음성인터페이스를 통해 일상생활에서 사용자의 일정을 관리하고 정보 획득을 위하여 웹 사이트를 검색하는 역할을 한다. 또한, 코타나는 실제 사람이 비서 역할을 수행하는 것과 유사하게 행동하도록 설계되었으며, 이를 위해 가상의 노트(notebook)를 가지고 있다. 가상의 노트에는 사용자에 대한 정보와 코타나가 활용할 수 있는 정보들이 기록되어 있다. 노트에 기록되어 있는 정보는 투명하게 관리되며 사용자가 거부감을 표시하면 삭제할 수 있다. 또한, 사용자가 개인의 관심사 등 다양한 정보를 추가적으로 기록할 수 있다. 코타나는 처음 시작할 때 음성을 통한 기본적인 질문을 통하여 사용자와 교감하며, 사용자와의 대화를 기억함으로써 이전의 검색 결과에 대해서 다시 질의하는 다단계 검색이 가능하다. 또한, 코타나는 음성 외에 16개의 이모티콘을 통하여 사용자와 교감하는 점도 기존 음성비서와의 차이점 중 하나이다.
아마존은 2014년 음성인식 비서 알렉사(Alexa)를 탑재한 아마존 에코(Echo)를 출시했다. 알렉사는 클라우드를 기반으로 사람의 음성을 인식하고 반응하기 때문에 많이 사용할수록 클라우드에 데이터가 누적되어 사용자들의 대화패턴과 개인적인 취향 등의 데이터를 잘 반영함으로써 사용자의 만족도를 높일 수 있다. 아마존은 2015년부터 알렉사의 확산을 위하여 알렉사 음성 서비스(AVS: Amazon Voice Service) API(Application Programming Interface)를 개방하고, 다양한 기기에서 입력되는 사용자의 발음과 요청 사항들을 계속 누적하여 음성인식 시스템의 성능을 높일 수 있는 선순환 구조를 구축하기 위해서 노력하고 있다. 현재 알렉사는 공기청정기, 냉장고 등의 가전제품, 인터넷 공유기 등의 IT제품, 자동차 등 다양한 산업의 제품들 적용되어 점점 생태계를 확장해 나가고 있다.
우리 집의 개인 비서, 홈어시스턴트
지난 20여 년 동안 스마트 홈을 구축하기 위한 다양한 방안들이 제시되었지만, 설치와 사용의 용이성, 자연스러운 인터페이스가 결여되어 성공하지 못했다. 최근 음성인식 기술을 결합한 스피커 형태의 인공지능 스피커가 사용자에게 자연스러운 인터페이스를 제공하고, IoT기기들을 통합적으로 제어함으로써 스마트 홈을 구축하는 데 있어서 구심점 역할을 할 것으로 기대되고 있다.
인공지능 스피커 시장에 선도적인 위치를 차지하고 있는 것은 2014년 11월에 출시된 아마존의 알렉사를 탑재한 에코이다. 아마존 에코는 원통형 스피커에 7개의 마이크가 상단과 원형의 전 방향에 배치되어 있으며, 이를 통해 소음이 있는 환경에서도 6~7m 거리에서 음성 명령을 내릴 수 있다. 또한, 미리 설정된 음악 계정을 통해 음악을 재생하고, 다양한 형태의 정보를 음성으로 제공받을 수 있으며 온라인을 통해 상품을 주문하는 것까지 가능하다.
구글 홈(Home)은 구글 어시스턴트를 탑재한 스피커 모양의 AI 개인비서로써 2016년 출시되었다. 구글 홈은 사용자와의 대화를 통해 인터랙션하며, 음악이나 비디오를 보고, 사용자의 질문에 대답하며 조명, 온도 조절기를 포함한 다양한 가전제품을 제어할 수 있다. 아마존의 에코는 사용자가 질문할 때마다 ‘알렉사’를 외쳐서 활성화 시켜야 하지만, 구글 홈은 한번 활성화시킨 후 연관되는 후속 질문을 하는 데 있어 다시 활성화시킬 필요가 없기 때문에 인터페이스의 편리성이 있다.
SK텔레콤에서는 2016년 한국어 전용 인공지능 스피커 ‘누구(Nugu)'를 출시하였다. 누구는 음성 입력을 통하여 음악 스트리밍 서비스를 재생하고, 조명이나 제습기 같은 가전기기를 제어할 수 있으며, 스마트 폰과 연동해 일정관리 등의 비서 역할 등도 수행할 수 있다. 누구의 음성인식 범위는 2~3m 정도로 실내에서 이용하는데 최적화되어 있으며, 대화 수준은 지금은 예정된 질문에만 충분히 대답할 수 있는 수준이지만 향후 사용자의 수가 늘어나고 데이터가 누적되면 음성인식률이 향상될 것으로 예상된다.
알아서 척척! 상황인지 기반 제로 UI 기술 동향
상황인지를 통한 제로 UI 기술은 기기들이 사용자들의 생활을 학습하고, 스스로 주변의 상황을 인지하여 자율적으로 판단함으로서 궁극적으로 사용자와의 인터랙션을 제로에 가깝게 만드는 것을 의미한다. 이것은 사용자의 상황을 인지해 사용자가 요구하지 않아도 필요한 서비스를 적시적소에 제공하는 생활환경지능과 관련이 있다.
네스트 Ecobee3, 줄리(Zuli), 스택 등 많은 IT 기업에서 지능적으로 냉난방을 제어하고, 집 안의 조명을 온오프 하는 등의 생활환경지능 기술을 선보이고 있다. 특히 대부분의 기술이 스스로 사용자의 행동을 끊임없이 학습하고, 사용자가 요청하지 않아도 미리 온도를 조절하거나 조명을 조절하는 등 생활에 편리함을 가져다준다는 특징이 있다.
지금은 일상생활 속에서 존재하는 기기들이 각자 스마트해지거나 일부 다른 기기들과 연동하고 있지만, 향후 스마트해진 기기들이 서로 소통하면서 사용자의 상황을 보다 잘 이해하여 최적의 사용자 경험을 제공하고 사용자와의 인터랙션이 최소화되는 방향으로 발전할 것이다.
※ 논문 다운받기(논문저자 : 정치윤 기술기획연구그룹 선임연구원)
- 본 글은 위 논문을 재구성하여 작성했습니다. 자세한 내용은 논문을 확인해주시기 바랍니다. -