인공지능 기반 음성인식 서비스, 누가 누가 잘하나

말하는 대로 ‘척척’, AI와 음성인식의 만남

[보안뉴스= 이규섭 KT경제경영연구소 책임연구원] 음성인식 기반 서비스들은 2000년대 후반에 본격적으로 소개되기 시작했다. 최근에는 ‘알파고’로 촉발된 인공지능(AI) 기술이 생활 곳곳에 이용되고 있다. 여기서는 해외사례를 중심으로 주요 사업자들이 AI 시대에 음성인식 기술을 어떻게 활용해 기업의 미래를 준비하고 있는지 살펴보고자 한다.

애플 시리
애플은 2011년 처음으로 음성인식 기능인 시리(Siri)를 선보였으나 실용성이 부족해 큰 인기를 누리지는 못했다. 애플은 지난해 6월 개발자 회의를 통해 iOS 10에서는 시리의 확장성을 높인 기능을 선보였다.

새로워진 시리는 아이메시지(iMessage) 외에도 다른 여러 메신저 앱의 메시지를 읽어 주고 작성해 준다. 또한, 시리의 음성인식으로 사람들의 길 안내를 도와주고 특정 브랜드 매장 검색, 포털 사이트와 연동을 통한 맛집 안내도 가능하다. 사물인터넷(IoT) 앱과 연동해 “시리야 방에 조명을 꺼줘”, “집 안에 누가 있는지 확인 좀 해줘” 등 간단한 명령도 쉽게 수행할 수 있다. 음성을 인식해 곧바로 번역해 주는 통역 앱도 제공한다.

앱과 연동해 개인 맞춤형 서비스를 제공하기도 한다. 아이폰7을 출시하면서 무선 이어폰 에어팟(Airpods)의 외부 동작 감시 센서를 2번 두드리면 시리를 실행하는 기능도 추가했다.

구글 나우
구글 나우(Google Now)는 구글의 안드로이드 기반 지능형 개인 비서다. 구글 검색을 확장한 기술로 질문에 대답하거나 추천을 생성하고 웹 서비스에 대한 요청을 처리하는 자연 언어 사용자의 인터페이스를 사용한다. 사용자가 묻는 말에 대답할 뿐 아니라 사용자의 검색 성향에 따라 사용자가 원하는 것을 예측해 전달하는 지능형 개인 비서 소프트웨어다. 이 시스템은 사용자가 단말기에서 반복하는 행동을 인식해 사용자에게 카드 형태로 제공한다.

미국의 과학 잡지인 파퓰러사이언스(Popular Science)는 구글 나우에 대해 “검색, 캘린더 이벤트, 위치, 여행 패턴 등 사용자의 데이터와 움직임을 순수한 목적으로 지속적으로 추적, 수집해 사용자가 생각하기도 전에 필요한 것들을 제안한다”면서, “사용자의 요구를 실제로 사전에 예측, 제안하는 최초의 가상 비서”라고 평했다. 파퓰러사이언스는 구글 나우를 2012년의 혁신기술로 선정했다.

MS 코타나
코타나(Cotana)는 마이크로소프트(MS)가 2014년 선보인 개인 디지털 비서다. MS 윈도10으로 OS가 업데이트되면서 더 똑똑해졌다. 머신러닝(Machine Learning)을 기반으로 사용자의 개별 행동 방식을 학습하고 PC안에 저장된 다양한 정보와 MS의 검색엔진인 빙(Bing)을 결합해 인터넷과 사용자가 제공하는 데이터 기반 맞춤형 서비스를 제공한다.

“하이, 코타나”라고 말한 뒤 음악을 틀어 달라거나 날씨에 대해 물으면 코타나가 요청을 수행하고, 자주 이용하는 항공편이나 차가 주차된 장소 등의 주요 정보를 기억해 뒀다가 알려주기도 한다.

바이두 딥스피치2
중국의 구글로 불리는 바이두(Baidu)는 2016년 9월 1일 베이징에서 열린 ‘바이두 월드 콘퍼런스’에서 AI기반 음성인식 시스템 딥스피치2(Deep Speech2)를 소개했다. 바이두에 따르면 딥스피치2는 음성 인식 정확도가 97%에 이른다. 바이두는 지난 2014년 미국 실리콘밸리에 AI 연구소를 세우고 구글에서 AI 연구를 주도하던 앤드류 응(Andrew Ng) 교수를 영입했다.

딥스피치2는 개인마다 다른 말투, 사투리, 시끄러운 환경에서도 높은 인식률을 보여주며 중국어를 스마트폰에 입력하면 손으로 입력할 때보다 2.8배 빠르고, 오타는 60%가량 줄일 수 있다. 미국 MIT 테크놀로지리뷰는 지난 2월 ‘2016년 10대 혁신 기술’ 중 하나로 딥스피치2를 꼽았다.

아마존 알렉사
아마존 알렉사(Alexa)는 현재 미국 소비자 만족도 최고를 기록하고 있다. 블루투스 스피커 형태의 아마존 에코(Echo)는 2016년 3월 말 기준 미국에서만 4백만 대의 판매를 기록했다. 에코에 탑재된 AI 음성인식 비서 서비스 알렉사는 사용자의 음성을 알아듣고 에코에 연결된 네트워크를 통해 각종 정보를 수집해 그 결과를 전달한다. 현 위치를 파악해 날씨를 알려 주거나, 라디오나 음악 재생, 차량 공유서비스, 피자 주문 서비스를 제공한다.

에코의 가장 큰 장점은 높은 음성인식률이다. 원거리 음장(Far Field) 음성인식 기술을 적용해 주위 소음에도 6~7m 거리의 명령을 인식한다. 2014년 출시 이후 매주 기능이 업데이트되는데 조명, 가전 등 스마트홈 연동이나 구글 캘린더 연동을 통한 일정 관리, 자동차와의 연동을 통한 차고 개폐 등 1,000여 개의 기능으로 더욱 똑똑한 개인 비서가 돼 가고 있다.

ETRI-한컴 인터프리 지니톡
자동 통역 앱 지니톡(GenieTalk)은 한국전자통신연구원(ETRI)이 2008년부터 개발하고 한컴 인터프리가 2015년에 기술이전을 받아 상용화했다.

지니톡은 서비스를 시작한 이래 2015년 기준 220만 건의 다운로드 건수를 기록했다. 지니톡은 스마트폰에서 한국어와 중국어·영어·일본어·스페인어·프랑스어·러시아어간 양방향 자동 통역 서비스를 제공한다.

음성인식률과 자동 통역률이 각각 90%, 80%에 달하며 인식할 수 있는 단어 수는 10만여 개나 된다. 지니톡은 음성인식 통역, 문자 입력 번역, 이미지 내 문자 번역 등 3가지 기본 기능을 제공한다.

스카이프 실시간 번역기
스카이프 실시간 번역기(Skype Transl ator, 이하 번역기)는 클라우드 기반 자동 번역 서비스다. 번역기는 더욱 많은 사용자의 일상에 활용될 수 있도록 지난해 윈도우 데스크톱 앱으로 확대됐으며 간단한 설정만으로도 서로 다른 언어를 구사하는 사용자끼리 실시간 음성 통화를 하거나 문자를 송수신할 수 있게 해준다.

이 서비스는 컴퓨터 스스로 데이터를 통해 학습하고 사람처럼 어떤 대상 혹은 상황을 이해할 수 있게 하는 MS의 머신러닝 기술을 바탕으로 한다. 따라서 많은 사람들이 사용할수록 더욱 지능화돼 보다 향상된 서비스를 이용할 수 있다. 현재 번역기는 영어, 스페인어, 이탈리아어, 중국어(북경어) 총 4개 국어의 음성 서비스를 지원하며, 문자 서비스로는 한국어를 비롯해 총 50개 언어를 지원한다.

NTT 도코모 샤베테콘쉐루
외국어 통역 서비스 샤베테콘쉐루(しゃべってコンシェル, 말하는 콘쉘)는 도코모의 3G 서비스인 아이모도(i-mode)의 개인형 컨시어지 서비스인 아이컨시에르(i-Concier)가 발전된 것이다. 개인 맞춤형 서비스를 위해 편리한 인터페이스가 필요해졌고, 그 수단으로 음성인식 기술이 채택됐는데, 여기에 NTT의 강력한 네트워크 기술이 결합돼 지금의 샤베테콘쉐루가 탄생했다.

샤베테콘쉐루는 말하는 것만으로 원하는 스마트폰 속 원하는 기능을 조작할 수 있고, 날씨나 뉴스 등 궁금한 정보를 말하는 것만으로도 찾을 수 있다. 원하는 캐릭터를 선택해 캐릭터와 대화하는 기능도 제공한다. 지난 2016년 6월에 도코모는 기존의 샤베테콘쉐루를 업그레이드해 본격적으로 서비스를 개시했다.

알리바바 RX5
RX5는 중국의 알리바바가 자사 IoT 운영체제인 윤OS(YunOS)를 탑재해 지난해 7월 출시한 스마트 커넥티드카다. RX5는 음성인식 엔진을 탑재해 애플 시리처럼 차량에 탑승하는 순간부터 음성 명령으로 창문이나 선루프, 에어컨, 음향기기 등 자동차 내부 기기를 제어할 수 있다. 또 음성 명령만으로 내비게이션 목적지를 설정하거나 근처 음식점 등을 검색할 수 있다. 알리바바 클라우드 플랫폼과 연동되기 때문에 더욱 자세한 정보를 제공받을 수 있다.

음성인식 로봇
소니 엑스페리아 에이전트
소니는 지난해 독일 베를린 가전 박람회 ‘IFA 2016’에서 가전제품의 스마트 허브 역할을 하는 로봇인 엑스페리아 에이전트를 소개했다. 소니의 엑스페리아 에이전트는 음성과 얼굴인식 기능을 제공해 사용자가 음성 명령만으로 조명이나 에어컨 등 각종 가전제품을 제어할 수 있게 해준다.

소니 관계자는 독일 베를린 가전박람회 IFA 2016 에서 네슬레의 커피머신 돌체구스토와 연결해 음성으로 커피를 내려 마시는 모습도 시연했다. 뿐만 아니라 음성 명령으로 전화를 걸거나 문자를 보낼 수 있으며 뉴스, 날씨, 교통상황 등의 정보를 음성이나 화면으로 알려준다.

BSH 마이키
글로벌 기업 보쉬의 자회사인 BSH는 ‘IFA 2016’에서 음성인식을 통해 작동하는 로봇 마이키(Mykie)를 소개했다. 마이키는 내 주방 요정(My Kitchen Elf)의 줄임말로 세탁기, 냉장고 등 IoT로 연결된 주방의 모든 가전기기를 제어하는 로봇이다. 화면과 음성을 통해 사용자와 대화를 나눌 수 있으며 요리에 필요한 레시피를 알려주기도 한다. 냉장고 안에 어떤 재료가 있는지 알려주며 부족한 재료는 직접 주문해주기도 한다. 요리를 준비하는 동안 오븐을 예열하거나 커피머신을 작동시키는 등 주방 요정이라는 이름에 걸맞는 역할을 한다.

AT&T 음성인식 콜센터
미국 AT&T의 콜센터는 음성인식 기술을 이용해 실시간으로 속기록을 생성하고 고객의 감정 상태를 파악하는 시스템을 2014년 9월 구축했다. 이 시스템은 고객과 상담원의 대화 내용을 인식해 이를 실시간으로 글자로 써준다. 또 이 고객이 화가 났는지, 차분한 상태인지 고객의 말투를 분석하고 데이터베이스와 대조한 후 해당 상태에 적합한 답변을 상담원이 보는 화면에 띄워 준다.

이 시스템은 머신러닝을 활용해 컴퓨터가 과거 경험에 따라 반응 양식을 바꾸기도 한다. 이를 활용해 상담원은 더 나은 고객 상담 서비스를 할 수 있게 된다. 고객이 다음에 어떤 질문을 할지 예상해서 상담원들이 화면을 보고 대비하는 기능도 있다.

KTDS 씽크 투 텍스트
KTDS는 고객의 목소리를 인식하고 구별해 변환하는 솔루션 ‘씽크 투 텍스트(Think To Text, 이하 TTT)’를 2016년 4월 출시했다. TTT 솔루션은 고객의 전화를 응대하는 콜센터에 최적화됐다. 고객의 문의 유형과 트렌드 분석, 자동상담 요약, 상담 자동분류 등의 기능을 기본적으로 제공한다. 상담 중 고객의 개인정보 삭제 기능도 제공한다. TTT 솔루션은 단순한 단어 인식을 넘어 음성·텍스트 변환과 그 의미를 추출하고 분석하는 기능으로 차별화를 시도했다. 자체 테스트 결과, 음성을 문자로 변환했을 때 정확도는 80~85%를 보였다고 한다.

뉘앙스 커뮤니케이션즈 드라곤 메디컬 360 외
뉘앙스 커뮤니케이션즈의 드라곤 메디컬 360(Dragon Medical 360)은 세계 1만 곳 이상 의료기관에서 약 45만 명의 의사가 활용하고 있는 음성 녹취 서비스다. 음성인식 기술을 활용해 환자 상담과 처방 내용을 전자문서화해 전자의무기록(EMR : Electronic Medical Record) 작성을 지원한다.

IMC의 ‘위스퍼 포 헬스케어(WiSPER for Healthcare)’, 돌비의 ‘퓨전 스피치 EMR(Fusion Speech EMR)’ 그리고 M*Modal의 ‘플로엔시 다이렉트(Fluency Direct)’ 역시 음성인식 기술을 활용한 의료 녹취 기술사업자 서비스를 제공한다. 이중 돌비의 퓨전 스피치 EMR은 음성으로 인식된 데이터를 기록할 뿐만 아니라 제3자 프로그램에서도 활용할 수 있어 사용자 편의성이 뛰어나다.

시사점
4차 산업혁명의 핵심인 AI과 결합한 음성인식 기술은 스마트폰 기반 대화형 개인비서, 스피커형 홈 허브, 커넥티드카, 동시통역, 로봇 등 신산업에 확대 적용되면서 최고의 사용자 인터페이스(UI)로 각광받고 있다. 이러한 기술을 개발하고 확보하기 위해 글로벌 사업자들은 스타트업을 인수하거나 기술 투자를 전개하고 있으며 이를 통한 기존 사업영역을 넘어 새로운 사업 확장을 추진하고 있다.

한편, 음성인식 오류는 사용자의 대화를 지원하기보다는 오히려 방해할 수도 있다. 이러한 리스크를 줄이기 위해서는 음성인식률을 높이고 자연언어 처리 기술과 빅데이터 및 AI 분야의 추가적인 기술 연구 성과가 있어야 할 것으로 보인다. 특히, 대충 얘기하거나, 사투리로 말하거나, 멀리서 말하거나, 주변이 시끄럽거나, 여러 명 중에서 내 목소리를 정확히 인식하기 위해서는 또 한 번의 획기적인 발전이 필요하다.
[글_ 이규섭 KT경제경영연구소 책임연구원]

AI 및 AI 보안 솔루션이 보안 인력의 업무에 어떤 식으로 영향을 미칠것이라고 생각하시나요
	부족한 인력 보충: 만성적인 인력 부족 문제를 해결하는 보완재 역할을 하고 있다(100% 대체는 불가)
	업무 영역의 분리: AI는 대량 데이터 처리를, 전문가는 고도의 전략적 판단을 맡는 등 역할이 완전히 다르다
	업무 총량의 전이: 단순 업무는 줄었으나, AI 모델 관리·검증 등 새로운 형태의 운영 업무가 발생해 전체 업무량은 비슷하다
	인력 대체 가능: 단순 반복 업무를 넘어 분석/판단 영역까지 대체하여 인력을 줄일 수 있다
	신뢰도 부족: 아직은 AI의 오탐이나 환각(Hallucination) 우려로 인해 사람이 일일이 재검토해야 하므로 실질적인 도움은 적다