1 / 49

Technical Strategy for Mobile Speech Recognition

Technical Strategy for Mobile Speech Recognition. Team Delta 2005.08.16. 발표순서 및 팀원소개. 20053581 조인현 음성인식 기술동향 20053759 박용조 음성인식 시장동향 20053809 신호철 분석 및 결론. 목적. World Company 인 S 전자의 모바일 사업부에 컨설턴트 로써 음성인식 기술을 이용한 기술전략을 수립하는 것을 목적으로 한다. 음성인식 기술동향. 조인현. Agenda. 1. 음성인식의 정의 및 분류.

Download Presentation

Technical Strategy for Mobile Speech Recognition

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Technical Strategyfor Mobile Speech Recognition Team Delta 2005.08.16

  2. 발표순서 및 팀원소개 • 20053581 조인현 • 음성인식 기술동향 • 20053759 박용조 • 음성인식 시장동향 • 20053809 신호철 • 분석 및 결론

  3. 목적 World Company인 S전자의 모바일 사업부에 컨설턴트 로써 음성인식 기술을 이용한 기술전략을 수립하는 것을 목적으로 한다.

  4. 음성인식 기술동향 조인현

  5. Agenda 1. 음성인식의 정의 및 분류 2. 음성인식의 구조 3. 기술지도 4. 음성인식 표준화동향

  6. 음성인식이란? • Speech Recognition, Voice Recognition • Automatic conversion of spoken words to computer text. • A machine or software capable of recognizing spoken language. The machine or software may take the spoken language and translate it into written text, or follow the spoken instructions to perform other functions. • Acoustic Signal을 입력으로 받아서 무엇을 의미하는지 알아내는 과정을 의미한다.

  7. 음성인식의 분류 음성신호인식 음성 인식 화자독립 화자종속 화자적응 고립단어 연결단어 연속음성 대용량 어휘 소용량 어휘 화자인식 화자식별 화자검증 문맥독립 문맥종속

  8. 음성인식의 구조 음성신호 음성구간 검출 음향분석 인식단위 분할 인식 인식결과 1st Step : 음성 패턴의 학습 ( Training) 2nd Step : 패턴 비교를 통한 인식

  9. Feature Extraction • 특징벡터 추출 기술 • 선형예측계수(Linear Predictive Coefficient) • 현재의 신호는 이전의 신호들의 조합으로 알 수 있다는 개념을 이용(음성이 천천히 변함) • 켑스트럼(Cepstrum) • LPC(Linear Predictive Coding)를 기반으로 얻어진 로그 스팩트럼을 푸리에 변환한 계수를 이용 • 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC) • 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그스케일과 비슷한 멜스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수 추출 • 주파수 대역별 에너지(Filter Bank Energy) • 각 대역통과 필터를 통과한 출력의 에너지 값을 음성 특징으로 사용하는 방법

  10. Decoder • 통계학적 인식기(Statistical recognizer) • DTW (Dynamic Time Wrapping, 동적 정합법) • 시간적 배열 관계를 이용 • HMM(Hidden Markov Model, 은닉 마코프모델) • 확률, 평균, 분산 값을 비교 • 가장 보편적으로 사용되고 있음 • 신경 회로망(Neural Network) • 사람의 뇌를 모델링. • 같은 음성을 계속 반복하여, 시스템 스스로 계수를 결정함.

  11. 음성인식의 어려운 점 • 다양한 변이 • 마이크 및 채널 왜곡(Channel Distortion) • 잡음 • 배경 잡음 • 예) TV리모컨을 음성인식으로 하려다 실패함. • 주위 다른 화자로부터의 영향 • 다양한 발성 • 문맥, 강세, 사투리 • 한국어는 언어 특성상 영어보다 어려움. • 특히 연속숫자 인식 시 어려움

  12. 음성인식 기술지도

  13. 음성인식 기술동향 • 국내 동향 • 한국전자통신연구원(ETRI) : HCI를 위한 음성 입/출력 처리에 관한 연구 • 한국통신 : 증권정보 안내시스템 • 국외 동향 • 미국 • 1970년부터 국방성 주도에 의한 ARPA의 일환으로 시작 • 현재 주요 연구기관에서 아래와 같은 연구진행 • 잡음환경에 강인한 음성인식기술 • 모바일에 적합한 음성인식 시스템 개발 • 대화체 음성 인식을 위한 인식 기법/모델 • 유럽 • 민간/대학이 아닌 유럽연합의 주도로 언어 공학및 인간언어기술과제를 수행 • 일본 • 1970년대 이전부터 시작. • 1986년이래 우정성 주관 하에 ATR연구소 설립 • 화자 독립 음성 인식 • 자유 발화 음성인식

  14. 음성인식 표준화 동향 음성인식 VoiceXML SALT DSR

  15. VoiceXML vs. SALT

  16. VoiceXML • First published in 2000 by VoiceXML Forum • Described as the HTML of the voice Web. • Open standard markup language • Harness the large Web infrastructure to simplify the development and implementation of voice applications • Usually fits .J2EE based development • time-to-market and a diversity of vendor offerings.

  17. SALT • Speech Application Language Tags • SALT extends existing Web markup language such as HTML, XHTML and XML • Version 1.0 enables multimodal to interact with applications in a number of ways. • Usually fits .NET based development

  18. Playback Distributed Speech Recognition 종래기술 1 : Server ASR(Automatic Speech Recognition) Encoded Voice Encoder Decoder Text Channel error로 인한 recognition accuracy 의 저하가 심함. Server ASR 종래기술 2 : Embedded ASR Reco. Engine Text Data Server Decoder 복잡한 Client 장치를 요구 서버에서 음성재생이 안됨. 어휘의 제약이 따름. 출처 : IBM Labs In Haifa, 2005

  19. Speech Reconstruction Text Reco. Engine Back End DSR (cont’) DSR Solution Wireless data channel 4.8kbit/s Encoder Decoder Recognition Feature low bit-rate stream Reco. Engine Front End • 음성특징 추출부가 Client 장치에 위치함. • 추출된 음성 특징 데이터가 Error-Protected data 채널상에 압축되어 전송됨. • 전송되는 음성데이터는 서버 측에서 decompress, lost packet recovery, error mitigation 처리됨. • Recognition Feature 데이터는 Speech Reconstruction이라는 새로운 기술에 의해 재생됨.

  20. DSR 방식의 장점 • 더 높은 인식 성공률 • 서버에서 음성인식이 이루어지므로 많은 메모리와 강력한 CPU Power를 사용한다. • 음성 코덱과 채널에러의 영향을 최소화 할 수 있다. • 더 작은 Mobile Device • 음성특징 추출부만 갖추면 되고 복잡한 음성 인식작업을 수행하지 않는다. • 다른 응용프로그램들이 Mobile Device상에서 실행될 여유를 갖게 된다. • 비즈니스 가치 • 음성과 데이터를 한 채널로 처리할 수 있어 Multimodal 응용에 적합하다.

  21. Multimodal

  22. Road Map • 점차적으로 인식 어휘가 늘어갈 것이며, 결국 수백만 단어 수준의 인식이 가능할 전망이다. • 대화체 인식이 가능해 지면 더욱 지능적이고 편리한 Agent의 등장이 예상된다. 2005 2006 2007 2008 2009 2010 2011 2012 소형 단말기용 수천 단어 인식 수만 단어 핵심어 인식 대화체 인식 Speech Recognition 수십만 단어 낭독체 인식 수십만 단어 DSR 수백만 단어 DSR

  23. 시장동향 박용조

  24. 소목차 1. 세계시장동향 2. 국내시장동향 3. 모바일 음성인식 시장동향 4. 경쟁사 동향 5. Needs 분석

  25. 세계시장규모 출처 : ASR News 2002년

  26. 세계시장규모 Telephone 시장은 이미 mature한 시장성숙을 보임 향후에는 Embedded 분야가 커질 것으로 예측됨. 음성인식기술 Market Segment 출처 : ASR News 2001년 10월

  27. Voice Application Segment 주: Messaging은 Voice Messaging을 의미함. IVR ( Interactive Voice Response ) 출처 : Voice Information Associates

  28. 세계시장 업계동향 출처 : Voice Information Associates Telephony Market ScanSoft 가 최근 SpeechWorks와 Nuance를 인수 합병하며 시장에 일대 큰 반향을 일으킴.

  29. ScanSoft의 M&A 전략 • 2005. 5.9 Nuance와의 합병을 발표 • $221 millions 에 ScanSoft가 Nuance를 합병 • 합병효과 • 300명의 음성인식 전문가와 250개의 특허를 확보 • 75%이상의 시장점유 • 2006년 $25 million의 비용절감과 $315 million의 매출예상 • ScanSoft의 전략 • 향후 음성인식 시장의 성장세가 더욱 두드러질 것으로 보고, 이 분야의 기술과 시장확보가 이번 합병의 목적으로 보임.

  30. 국내시장규모 단위:억 출처 : 보이스웨어 추정

  31. 국내시장동향 • 외국업체 • 2001년 4월 국내에서 독보적이었던 L&H사가 파산하면서 스피치웍스, 뉘앙스, 버발텍, 컨버세이등의 여러회사가 경쟁적으로 국내시장에 진입. • 국내업체 • 보이스웨어, SL2, 보이스피아 등이 외국업체와 경쟁. • 시장상황 • 2003년에 접어들면서 음성인식 시장의 극심한 불황으로 컨버세이나 뉘앙스등의 외국업체가 철수하고 보이스텍, 보이스웨어등 국내 업체들도 구조조정을 실시하여 몸집을 줄였다. • 국내 시장은 아직 초기 단계에 있으며 음성 정보 기술의 케즘(chasm) 단계 유/무가 판별 되고 있지 못한다.

  32. 국내주요업계동향 • SpeechWorks • 2001년 2월 현대증권에 증권거래용 ASR시스템 구축, 국내업계에 충격 • 2002년 3월 DSR기반 휴대통신장비 초기제품 개발. • 보이스웨어 • 국내 최고의 음성인식 솔루션 업체 • 팬택앤큐리텔 P1모델에 TTS(Text-To-Speech) 음성합성모듈탑재. 문자메세지, 스케쥴,알람 등을 목소리로 처리. • SL2(현재 베스티안파트너스) • Web, CTI, 홈네트워크 솔루션 제공. • 용산구청(http://yongsan.go.kr/friend/)에 장애인용 음성 홈페이지 솔루션 공급.

  33. 모바일 음성인식 산업동향 • VoiceSignal • 이 회사의 음성인식 솔루션이 Samsung SPH-A800, Motorola A840, Nokia 7610, PalmOne Treo 650 모델 등에 적용 출시. 화자독립 이름,번호 dialing, 명령인식 기능, Speech-to-Message 기능에 적용됨. • DSR 기술을 이용한 모바일 컨텐츠 서비스지원을 위한 기능이 탑재될 예정. • 현재 시제품 단계의 제품이 출시된 상태.(Motorola) • VoiceXML기반의 Multimodal Browser를 java나 WAP client에 의해 접속하여 서비스를 이용하는 형태.

  34. 경쟁사 동향 • DSR 기술 표준화 주도 • ETSI/Aurora • Motorola, Alcatel, FT, BT, Siemens, Nokia, Ericsson, Qualcomm, IBM, ScanSoft, Nuance, OGI, HP, Intel • 3GPP • Motorola, Nokia, Ericsson, Alcatel, Siemens • Motorola : DSR기술 표준화에 가장 적극적. • DSR기술을 이용한 Application Scenarios를 준비하며 향후 이 시장을 리드할 준비를 하고 있음.

  35. Motorola의 모바일음성인식 응용 전략 • Mobile Work Force – Travel Management • Application Provider : SAP • 2.5G Network with DSR • X+V Multimodal Browser • Mobile Consumer – Movie, Weather, Financial • Application Provider : Wireless Carrier • 2.5G Network with DSR • Server Based X+V • X+V Multimodal Browser • Public Sector – Emergency Response • 위의 기술을 응용한 공공 서비스 • 위급 상황에 음성인식 기술로 모바일 서비스 제공

  36. 모바일 콘텐츠 고객 니즈 분석 2002 2004 향 후 벨소리 : 40.5% 게 임 : 19.4% 금 융 : 4.5% 위치정보 : 4.2% 벨소리 : 82.9% 게 임 : 55.0% 금 융 : 14.8% 위치정보 : 13.2% 개인중심의 네트워크화, 생활 밀착형 컨텐츠 요구증가 스마트폰의 부가기능을 편리하게 이용하고자 하는 고객의 요구 증가 예상 출처 : 2002년 3월과 2004년 9월에 한국인터넷진흥원이 실시한 ‘무선인터넷 주 이용콘텐츠(복수응답)’에 대한 설문조사 결과

  37. 분석 및 결론 신호철

  38. 목 차 1. SWOT 분석 2. 성공 핵심 기술 3. Killer Applications 4. 결론

  39. SWOT 분석

  40. 음성 인식의 한계 ( Weakness ) Mobile Device에 Embedded되기에는 Computing Power의 소모가 너무 크다. 조용한 사무실 환경이아니면, 인식률이 저조하게 나올 수 밖에 없다. 같은 단어에 대해서도 발성자의 개인차에 따라 인식률 차이가 크게 난다.

  41. DSR Personalization Noise Cancellation 음성 인식의 한계 극복 방안

  42. WO & SO 전략 IP 확보, 표준화 동참. SO NC 기술 개발, Personalization 기술 적용 WO Multimodal Killer Application을 제공함으로써 차별화 전략 ST

  43. 성공 핵심 기술 • Noise Cancellation • Decoder단보다 Front-End 단에서의 잡음 제거가 인식률 상승에 도움이 된다. • Noise Cancellation을 이용하여 음성 이외의 잡음을 제거한다. PatternMatching Model Result Front-End Noise Cancellation Feature Extraction Acoustic Data

  44. 성공 핵심 기술 • Personalization • 아무리 화자독립 음성인식이라고 해도, 발성자간의 인식률 격차가 존재한다. • 그러므로, 한 사람이 주로 이용하는 Mobile기기의 특성을 살려서 Personalization을 한다. • 성별 판단 및 배경잡음 조정 등의 간단한 기능뿐만 아니라, 평소 통화음을 gathering하여 인식률을 높일 수 있도록 Adaptation을 한다. • DSR 표준화 참여 • 경쟁사인 Nokia, Motorola 등은 이미 참여 하였으나, S전자 등 한국 회사는 전혀 참여가 없음.

  45. Killer Applications • Multimodal Applications • DSR + 표정인식(distributed) • Target : PDA phone • Multimodal Navigation Agent • SR + Lip reading Lip reading Command Recognition

  46. S전자가 DSR기술에 대한 기술 미확보시의 시나리오.

  47. 결론 • Mobile Device에 음성인식을 적용하기 위해서는,Noise Cancellation, Personalization, DSR은 필수적인 기술이다. • 경쟁사에 비하여 S사의 위 기술에 대한 IP확보 수준은 매우 미비하므로, 발 빠른 기술 전략 수립이 필요하다. • IP확보를 위해 음성인식관련 벤처회사를 인수.(ex.ScanSoft) • 음성인식 표준화 단체 참여 – DSR • 음성인식 개발 T/F 구성 – 적극적인 투자

  48. References • ETSI STQ Aurora Distributed Speech Recognition (DSR) , 2001.9 • SIT 로드맵 – SIT 로드맵 작성 위원회 , 2004.4 • Multimodal Architecture and Interfaces, W3C Working Draft 22 April 2005 • W3C Multimodal Interaction Framework, W3C NOTE 06 May 2003 • ASRNews Report, 2002 • Voice Information Associates Report, 2004 • 한국인터넷진흥원 '무선인터넷 주 이용콘텐츠'에 대한 설문조사, 2002 • 한국인터넷진흥원 '무선인터넷 주 이용콘텐츠'에 대한 설문조사, 2004 • Speech-Enabled Applications, Blair Pleasant, 2004 • Two Technologies Via for Recognition in Speech Market, 2003 • Voice Recognition Market Trends, 2002 • 국내 음성정보처리산업 현황조사 및 비즈니스 모델 개발에 관한 연구, 2002 • 음성정보처리 기술과 현황과 전망, 2002 • An Introduction to Mobile Application Programming, 2005 • SIT 국제 표준화 동향, 2004

  49. Q & A

More Related