세계 보안 엑스포  전자정부 솔루션 페어  개인정보보호 페어  국제 사이버 시큐리티 컨퍼런스  세계 태양에너지 엑스포  스마트팩토리  세계 다이어트 엑스포  INFO-CON
“인공기능 기반 음성인식, 물리보안 등 활용분야 다양”
  |  입력 : 2017-02-27 11:45
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
[인터뷰] 한국전자통신연구원 자동통역 연구실 김상훈 자동통역언어지능연구실장

[보안뉴스 김성미 기자] 우리나라의 음성인식 역사는 한국전자통신연구원(ETRI)의 역사와 같이 한다고 해도 과언이 아니다. ETRI는 지난 25년 동안 응용 영역을 달리하면서 음성인식을 꾸준히 연구해왔다. 그 결과물이 2012년 선보인 자동통역 서비스 ‘지니톡(GinieTalk)’과 지난 연말 내놓은 음성인식을 활용한 인공지능(AI) 기술인 ‘엑소브레인(Exobrain)’이다. ETRI 김상훈 실장을 통해 음성인식 기술 현황과 활용분야 등에 대해 들었다.

Q. 자동통역언어지능연구부는 어떤 연구를 수행하는지 궁금합니다
석박사급 50여 명으로 구성된 연구진이 세계적으로 최근 이슈가 되고 있는 음성인식과 인공지능(AI) 등 음성과 언어를 활용하는 분야를 집중 연구하고 있습니다. 대표적인 성과로는 2012년 공개해 장안의 화제가 된 자동통역 서비스 지니톡과 지난 연말 EBS 장학퀴즈에서 인간과 대결해 압승을 거둔 엑소브레인 AI 기술도 있습니다. 이 AI 기술의 핵심은 인간 수준의 문장·문법 분석력입니다. 올해 지니톡은 평창동계올림픽에서 한국어-8개국(영어, 중국어, 일본어, 독일어, 스페인어, 불어, 러시아어, 아랍어) 자동통역 시범 서비스를 제공하게 되며, 엑스브레인은 금융, 법률 등 실생활에 도움이 되는 서비스를 개발할 계획입니다.

Q. ‘지니톡’에 대해 소개해 주시기 바랍니다
자동통역은 서로 다른 언어를 사용하는 사람 간에 의사소통을 가능하게 하는 고난도 융·복합 기술입니다. 1980년대 후반부터 자동통역 기술 개발이 시작됐고 컴퓨터의 급속한 발전과 함께 1990년대부터 본격화 됐습니다, 크게 3가지 핵심기술로 구성되는데 음성인식, 자동번역, 음성합성 기술입니다.

현재 음성인식은 구글 알파고에 적용된 AI 기술인 딥러닝(Deep Learning)과 대량의 학습 데이터를 적용하여 특정 응용영역에서는 사람이 인지하는 수준까지 도달했으며, 자동번역은 최근 신경망 기반의 기계 번역(NMT : Neural Machine Translation) 기술의 적용으로 사람이 직접 번역한 것처럼 보일 정도로 놀라울 정도로 발전하고 있습니다. 음성합성은 1990년대 초 규칙기반 합성에서 2000년대부터 대용량 음성 데이터 기반 음편조합 방식 기술이 주도해 거의 원음에 가까운 고품질 합성음을 생성해내고 있습니다. 현재 사람과의 대화에 필요한 감정표현, 대화체 운율 등에 개발이 이뤄지고 있습니다.

지니톡은 2012년 공개 당시 1주일 만에 100만 다운로드를 기록했고, 네이버 실시간 검색 1위를 하는 등 장안의 화제가 됐습니다. 2013년에는 일본어와 중국어로 언어를 확장했습니다. 현재 지니톡은 여행과 일상생활에서 수만~수십만 단어를 인식할 수 있고, 음성 인식률 90%, 통역률 80%에 달할 정도로 정확한 통역률을 자랑하고 있습니다. 2014년 인천 아시안게임에서도 지니톡 기반의 자동통역 앱 ‘인천광역시 통역비서’가 다운로드 1만 4,400여 회를 기록하며 주목받았습니다.

Q. 네이버 파파고와의 차별점은 무엇입니까
요즘은 기술적 차별점을 얘기하기가 무척 어렵습니다. 세계적으로 유수한 업체간 기술 수준과 서비스 형태가 평준화되고 있고, 인간의 신경을 모방한 딥러닝 기술의 대중화로 대량의 학습 데이터, 고성능 컴퓨터만 있으면 누구라도 음성인식이나 자동번역 기술을 만들 수 있는 시대가 됐기 때문이죠. ETRI든 구글이든 네이버든 기술적 차별성을 찾기가 점점 어려워지고 있는 것이 현실입니다.

그러나 딥러닝 기술을 적용하기 위해서는 정제된 데이터의 대용량 확보가 중요해지므로 ETRI는 학습 데이터를 자동으로 정제하는 핵심 기술을 확보해 음성인식, 통번역 성능을 점진적으로 개선하고 있습니다. 데이터베이스 자동정제 기술은 외부적으로 잘 드러나지 않는 기술이지만 매우 중요한 핵심 기술이고 ETRI만이 가지고 있는 차별화 요소입니다.

사실 ETRI는 국내업체가 개발한 파파고를 경쟁기술로 생각지는 않습니다. 파파고가 더 나아지도록 ETRI가 기술적 지원을 하고, 국산 기술이 외산 기술보다 우위에 있길 바랍니다. 현재 지니톡은 한국어에서 영·중·일어 외에 유럽어까지 양방향 통역이 가능합니다. 올해는 네트워크 없이도 통역이 가능한 단말탑재형 통역기술을 상용화합니다. ETRI는 차별화된 기술로 머지않아 이어셋 하나만 끼면 외국인과 자유롭게 대화할 수 있는 시대를 열고자 합니다.

Q. 지니톡에 적용한 ‘음성인식’은 어떤 기술인가요
우리나라의 음성인식 역사는 ETRI의 역사와 같이 한다고 해도 과언이 아닙니다. 지난 25년 동안 응용영역(전화망, PC, 로봇, 텔레매틱스 등)을 달리하면서 음성인식을 꾸준히 연구해왔지만 10년 주기로 기술적 부침도 많이 겪었습니다. 1980년대만 해도 숫자음 10개 정도의 단어 인식을 했고, 90년대 들어 수천 단어급 명령어 인식이 가능해졌습니다. 현재는 거의 무제한 어휘를 인식하는데 문제가 없고 자연스럽게 발성을 문장을 인식하는 수준까지 왔습니다.

지니톡에 적용하는 음성인식 기술은 딥러닝과 HMM(Hidden Markov Model) 통계기반 기술이 결합한 방식입니다. 실시간으로 인식이 수행되기 위한 네트워크 구조도 최적화돼 있으며 잡음에 강인한 음향 모델과 문법을 기술하는 통계기반 n-gram 기술, 사람이 발성한 음성구간을 정확히 찾아내는 음성끝점검출 등 핵심 기술로 이뤄져 있습니다. 이러한 요소 기술들은 대부분의 인식 엔진도 유사하나 개별 기술의 성능을 좌우하는 노하우가 녹아 있다고 보면 되고, 요소 기술들의 결합을 통해 다국어 대상 단어인식률 정확도 90% 이상에 이르고 있습니다.

현재는 말하는 사람의 모국어 식별과 음성을 통한 성별 구분 기술 등을 지니톡에 적용중입니다. 외국어 전문지식이 없어도 자동통역 개발이 가능한 기술도 연구 중입니다.

Q. 음성인식의 활용 폭은 얼마나 넓은가요
가깝게는 내비게이션 주소 인식, 자동차 전자장치 제어, 집에서 사용하는 사물인터넷(IoT) 제어, 가전 제어, AI 비서와의 대화, 장애인을 위한 음성 딕테이션(Dictation)과 방송콘텐츠 자동 자막화, 금융분야의 콜센터 녹취, 외국인과의 언어소통을 위한 AI, 외국어 발음 평가, 자동통역 등 활용 분야는 참 다양합니다.

물리보안 업계에서도 화자식별이나 화자인식 등을 접목할 수 있습니다. 물리보안 업계와 음성인식 전문 업체와 협업을 통해 사업화를 추진할 수도 있을 것 같네요. 특히, IoT에서 음성인식은 매우 중요한 기술입니다. 집안 구석구석에 배치되는 IoT를 쉽게 제어할 수 있게 하거나 보안이 필요한 응용 분야에서는 접근이 인가된 목소리만 인식하게 할 수도 있겠죠.

현재 ETRI는 사람의 목소리를 잘 알아듣는 기능구현에 목적을 두고 있습니다. 당장은 보안관련 응용(한 사람의 목소리를 잘 구별하는 것 등) 기술 개발을 하고 있지는 않으나 이는 어렵지 않습니다. 그러나 보안은 거의 100%의 정확도를 담보해야 하므로 기존 물리보안의 완결성을 좀 더 높이는 데나 편의성을 향상하는 것에 제한을 둘 수밖에 없을 것 같습니다.
[김성미 기자(sw@infothe.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

#번역   #자동   #김상훈   


비츠코리아 파워비즈시작 2017년7월3일파워비즈 배너
설문조사
애플이 아이폰X에 얼굴인식 방식인 페이스ID를 새롭게 도입한다고 해서 관심이 모아지고 있습니다. 이를 계기로 스마트폰에 탑재되는 생체인식기술 간 보안성 및 편리성 대결도 벌어지고 있는데요. 이를 모두 고려할 때 스마트폰에 탑재되는데 있어 가장 효과적인 생체인식기술은 무엇이라고 보시나요?
지문인식
홍채인식
얼굴인식
화자인식(목소리로 누구인지 식별)
다중인식(지문+홍채, 지문+얼굴 등)
기타(댓글로)