330 likes | 494 Views
Procesamiento y Compresión de Señales de Audio. PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre. Organización:. Audición. Implantes cocleares. Reconocimiento robusto de voz. Presentación de trabajos. ( 1/2 hora y/o memoria) Transparencias en: http://www.ugr.es/~atv
E N D
Procesamiento y Compresión de Señales de Audio PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Organización: • Audición. • Implantes cocleares. • Reconocimiento robusto de voz. • Presentación de trabajos. • ( 1/2 hora y/o memoria) Transparencias en: http://www.ugr.es/~atv E-mail: atv@ugr.es ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Reconocimiento robusto de voz ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Sistemas de reconocimiento automático de voz (ASR) en ruido • El ruido contamina la señal de voz en todas las aplicaciones reales: • Entorno de oficina (ventiladores, HDs, teclados, gente, música….) • Línea de teléfono (entorno y línea) • Telefonía móvil (además canal de radio y codec) • ASR de voz adquirida en automóvil • El ruido degrada ASR ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Consideraciones sobre el ruido en ASR • ¿En qué condiciones se va a adquirir la señal de voz? • Métodos para robustecer el sistema frente al ruido • ASR en ruido es una línea de investigación importante ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Métodos de robustecimiento Principal problema: mismatch train-reco • Representaciones robustas • Compensación de la voz ruidosa • Adaptación de los modelos limpios ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Representación de la voz • Voz cuasi-estacionaria en segmentos de 30-50 ms (duración de los fonemas) • Información relevante para ASR: características espectrales de tiempo corto • Representaciones típicas para ASR: cepstrum-FFT; cepstrum-LPC; MFCC ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Representación de la voz: MFCC • Pre-énfasis • Segmentación en frames (20 – 40 ms) • Ventana de Hamming • Banco de filtros en escala MEL (FBO) • Escalado logarítmico (log-FBO) • Transformada discreta del coseno (MFCC) • Energía; derivadas (Delta); segundas derivadas (Delta-Delta) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Efecto del ruido aditivo • El ruido distorsiona el dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Distorsión del dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Distorsión del dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Distorsión PDF’s ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Aleatoriedad del ruido ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Ruido y ASR • Experimentos con voz contaminada artificialmente • Ruido: AWGN • Tarea de dígitos conectados • Retrain (adaptación ideal) • Baseline (sin robustecimiento) • Degradación debida a mismatch • Degradación debida a pérdida de información ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Métodos para ASR robusto • Representaciones robustas: • Ventanas de liftering (cepstrum-LPC) • Proyección ceptral (cepstrum-LPC) • Modelos auditivos • Cepstrum en escala MEL (MFCC) • Parametrizaciones discriminativas (LDA, DFE) • Eliminación de variaciones lentas: RASTA; CMN; coeficientes Delta y Delta-Delta… ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Métodos para ASR robusto (II) • Compensación de la voz: • Mapeo lineal de parámetros: • Sustracción espectral / filtrado de Wiener • Realce estadístico: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Métodos para ASR robusto (III) • Compensación de los modelos: • Descomposición de HMM: PMC • Filtrado de Wiener dependiente del estado • Adaptación estadística de los modelos • Contaminación del corpus de entrenamiento ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Compensación del efecto del ruido basada en el método de Monte Carlo ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Compensación del efecto del ruido • Compensación en el dominio log-FBO: • Estimación del ruido en log-FBO usando un VAD: • Compensación canal por canal: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Compensación del efecto del ruido • Estimación basada en método de Monte Carlo: • Generamos voz y ruido de acuerdo con las probabilidades: • Calculamos parejas voz-limpia voz-ruidosa: • Calculamos valor esperado de voz limpia dada la voz ruidosa observada: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Compensación del efecto del ruido • Compensación definida como una función: • Implementación práctica: interpolación lineal con algunos puntos (k) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Experimentos de reconocimiento • Base de datos VODIS en francés • Voz grabada en entorno de automóvil • Condiciones reales de ruido • Grabaciones con dos micrófonos: • Far-talk • Close-talk • Test siempre con Far-talk • Diferentes condiciones de conducción ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Experimentos de reconocimiento • Tarea de reconocimiento: números de teléfono (en francés) • Sistema de reconocimiento: • CHMM • Cada palabra representada como un HMM de 10 estados • Cada estado es una pdf mezcla de Gaussianas (entre 1 y 8 Gauss/estado) • Front-end MFCC ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Experimentos de reconocimiento • Métodos comparados: • CMN • Compensación en dominio log-FBO basada en método de Monte Carlo • Adaptación de los modelos a las condiciones de reconocimiento: • Reentrenamiento en condiciones Far-Talk ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Experimentos de reconocimiento (ruido añadido artificialmente) • Ruido AWGN • Añadido artificialmente • Dígitos conectados • Baseline (CMN) y retrain como referencias • Compensación: Monte Carlo, VTS, UTS ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Comentarios • Con AWGN los resultados re-train y compensación coinciden: • Re-entrenamiento es óptimo • Compensación es (casi) óptimo • Con ruido real: • Re-entrenamiento es sub-óptimo • Compensación es sub-óptimo • Mejor solución: compensación de ambos ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Resumen • Importancia del ruido en aplicaciones del Reconocimiento Automático de Voz • Importancia de los métodos de robustecimiento • Mecanismos de degradación: • Mismatch (distorsión del espacio de repr.) • Pérdida de información (aleatoriedad) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR
Resumen (2) • Métodos de robustecimiento: • Orientados a eliminar el mismatch: • Métricas robustas • Compensación de representación • Adaptación de modelos • Experimentos: ruido real / controlado • Resultados: • Combinación de adaptación de modelos y compensación de la representación ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR