240 likes | 584 Views
뇌신경정보학사업 사업단과제. 뇌정보처리 에 기반한 인공청각시스템 개발. 한국과학기술원 뇌과학연구센터 이 수 영. Why?. Cocktail party problem - Human works much better than machine in real-world noisy environment. 달팽이관 의 강인한 음성특징 추출 두귀 를 이용한 음원탐색 / 신호향상 주의집중 을 이용한 잡음제거 연속음성인식. 실세계 10 dB 잡음하 연속음성 95% 인식. 인공청각시스템의 목표.
E N D
뇌신경정보학사업 사업단과제 뇌정보처리에 기반한인공청각시스템 개발 한국과학기술원 뇌과학연구센터 이 수 영
Why? • Cocktail party problem- Human works much better than machine in real-world noisy environment.
달팽이관의 강인한 음성특징 추출 • 두귀를 이용한 음원탐색/신호향상 • 주의집중을 이용한 잡음제거 • 연속음성인식 실세계 10 dB 잡음하 연속음성 95%인식 인공청각시스템의 목표 • 인간의 청각시스템에 관한 인지신경 메카니즘의 이해를 토대로, • 공학적 구현을 위한 최적 모델 및 청각칩을 개발하고, • 이에 기반한 연속음성인식시스템을 개발한다.
Cochlea Cochlear Nucleus Higher-Order Brain Function (Recognition) Auditory Cortex Superior Olive Superior Olive Cochlear Nucleus Auditory Cortex Cochlea • Improvement of Cochlea model • Binaural hearing model • Auditory cortex model • Selective attention model • Continuous-speech recognition system • Speech-recognition chip 인간청각시스템
Auditory Pathway Cochlear Nucleus (CN)- Antero-Ventral Cochlear nucleus (AVCN): activities of the cochlear hair cells- Postero-Ventral Cochlear Nucleus (PVCN): detect the sweep direction of the frequency modulation in speech signals- Dorsal Cochlear Nucleus (DCN): inhibitory signals to the other CN cells. Superior Olive Complex (SOC)- differences on intensity and time between the acoustic signals arrived at the right and left ears. Inferior Colliculus (IC)- extract the amplitude modulation information for continuous speech recognition- Interaural Time Difference (ITD): localization of low frequency signals- Interaural Intensity Difference (IID): the localization of high frequency signals
Auditory Pathway Medial Geneculate (MG)- short-latency and large-latency discharge signals. - direction of sound sources Auditory Cortex-tonotophic map-high frequency selectivity-feedback to cochlear-respond to complex sound
대상 청각 주의 집중 공간 청각 달팽이관 음성인식칩 비선형 음성특징 공간청각 과제 상관특징 (Correlation) 상향식 (Bottom-Up) 주의집중 시간적응 (adaptation) 청각모델 음원탐색 (Localization) 상향식/하향식 복합 주의집중 주파수/시간 Masking 신호분리/ 잡음제거 화자/음색 분리 복잡음/특이음 기전 하향식 (Top-Down) 주의집중 청각피질 제1공동과제 (서울대) 음성인식 시스템 제2공동과제 (포항공대) 구문분석 신경회로망 연속음성인식 시스템 연구내용 및 추진체계
연구팀 구성 • 주관연구기관: KAIST뇌과학연구센터공동연구기관: 서울대(심리학과, 이비인후과)포항공대(전자전산) (서강대) • 직급별 연구원수: 52명 책임급 6명, 선임급 5명, 원급 41명 • 최근 5년 발표논문 수
Cochlea Model BM OHC IHC Synapse / Auditory Nerve
Adaptive Adaptive Gain Control Q Control Feature AGC . . Extraction . . Delay . G . k S - k 1 - - C k S + k Speech TSFB - - D k - S + k 1 Q k + . . . . . . Cochlea Model OHC Motility
Masking • Lateral Inhibition • Recursive
Auditory Cortex -금화조의 Mating Call 측정실험
Binaural Hearing : Interaural Correlation • Summation for all BP filters • Winner-Take-All on ITD Filter Banks (f) Interaural Time Difference (t)
ITD=t ITD=0 fl ITD=-t ITD=-2t fr Binaural Hearing : Cross-Correlation Correlation vs. Higher-order Statistics ITD=2t
Afferent and Efferent Fibers • Afferent fibers- radial fibers (85-95%): 8 fibers / (1-2 IHCs)- spiral fibers (5-15%): 10 OHCs / fiber • Efferent fibers- UCOCB (uncrossed olivocochlear bundle)- COCB (crossed olivocochlear bundle)
Bottom-Up and Top-Down Attention Internal Cue External Cue Attended Output Classifier Output • Bottom-Up: - Masking - Binaural - ICA • Top-Down: - MLP - HMM Bottom-Up Recognition Top-Down Expectation Attended Input Bottom-Up Attention Input Buffer Brain -음소/음절 복원실험 -특정화자 음성분리 Environment Input Stimulus
Attention: Superimposed Numerals Superimposed Attended Attention 2nd Pattern Input 1st Pattern Switching Input
연속음성인식과 주의집중 LTM (문법구조/Lexicon) 학습 청각 시스템 구 구조 분석/예측 해석 비교 및 선택 STM
연구개발목표 연구개발내용 및 범위 ○청각정보 전처리기의 잡음에 강인성 향상 ○short-time 및 long-time 시간적응 모델 개발 ○lateral inhibition에 의한 주파수 masking 도입 ○하향식(top-down) 주의집중이 음성특징추출에 미치는 모델 개발 ○두 귀의 상관관계를 이용한 음원탐색 ○두 귀의 필터뱅크 출력에서 발생하는 신호의 상관행렬에 기초한 음성신호의 분석. ○음원탐색에 대한 다양한 인지적 실험결과를 토대로 음원탐색의 계산모델에 대한 연구 ○주의집중에 의한 음성신호 향상 모델 ○선택적 주의가 잡음 약화, 음소 복원 및 음소 통합에 미치는 영향 분석 ○금화조 실험을 통해 생물학적 특이음의 청신경코드 분석 ○구문분석 능력 연구(95% 실내환경하) ○Contextual Priming 모델의 대화체 연속음성인식 적용 ○형태소, 구구조, 문장구조 분석 능력 연구 ○Nonstationarity와 Differential 학습에 의한 음성분리 기법 ○Multilayer Perceptron을 사용한 Contextual Priming의 음향모델 적용방법 연구 ○HMM과 신경망 기반의 연속음성인식 베이스라인 시스템 개발 ○음성향상을 위한 analog칩 개발 (SNR 10 dB 향상) ○16채널 디지털 음성칩 (실세계 고립단어 95%) ○ICA 기법을 도입한 신호분리 칩(4mm x 4mm)의 설계, 제작 및 검증 ○AGC, 특징추출, 인식부의 통합 설계, 제작 및 사용 prototype 개발 연구목표 및 범위: 1차년도
연구개발목표 연구개발내용및범위 ○청각전처리기의시간masking 모델개발 ○시간masking 모델의개발 ○시간masking과short/long 시간적응통합모델의개발 ○상향식(bottom-up) 주의집중이음성특징추출에미치는연향분석및모델정립 ○두귀를이용한잡음에강인한특징추출모델개발 ○상관행렬의분석에기초한잡음에강인한음성특징추출방법. ○음원탐색을통한잡음제거기법개발 ○음성인식단위와주의집중과의연관성분석 ○선택적주의가음성인식단위의결정과유지에미치는영향측정및분석 ○특이음의선택도향상과관련된청신경반응측정및분석 ○Contextual Priming을이용한HMM/NN 혼합구조의대화체연속음성인식(텔레뱅킹1000단어, 인식률80%) ○Isomap과Locally linear embedding에의한비선형차원축소 ○텔레뱅킹영역대화체연속음성DB 및사전확장 ○Symbolic Neural Network을이용한의도결정방법연구 ○Contextual Priming의대화체언어모델적용방법연구 ○HMM/NN 베이스라인시스템개발 ○음성향상기능을포함하는청각칩개발(SNR 15dB 향상, 고립단어인식율95%) ○두귀를이용한음원탐색모듈의구현 ○음원탐색, 음성향상(잡음제거)와음성특징추출, 인식부를통합하는칩의설계, 제작및검증 연구목표 및 범위: 2차년도
연구개발목표 연구개발내용및범위 ○음성특징추출과복합음/특이음의관련모델개발 ○청각피질의복합음특징추툴모델개발및음성인식응용 ○상향식-하향식주의집중이음성특징에미치는영향의모델 ○두귀를이용한잡음제거(음성향상) 기법개발 ○상관행렬에기초한신호처리및영점교차방법에기초한음성특징추출의결합모델에대한연구. ○다양한음성및잡음에대한음성향상및인식실험 ○주의집중과특이음처리의연관모델개발 ○두귀음성특징의선별적처리와잡음약화에영향을미치는선택적주의측정실험및분석 ○특이음과주의집중관계의동물실험 ○실세계잡음하에서사용가능한연속음성인식시스템개발(1000단어95% 인식율) ○음성탐색및향상, 화자분리, 주의집중을통합한연속음성인식시스템개발 ○텔레뱅킹영역대화체연속음성DB 확장 ○HMM/NN의혼합시스템의성능향상 ○32채널인공청각칩의개발(SNR 15 dB 향상, 연속음성의핵심어검출인식율95%) ○음원탐색, 음성향상, 32채널음성특징추출, 연속음성의핵심어검출인식부를통합하는칩의설계, 제작및검증 연구목표 및 범위: 3차년도