700 likes | 902 Views
Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz?
E N D
Procesamiento de señales de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
La comunicación oral ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
¿Qué es la voz? • Onda de sonido (onda de presión) • Producida por el aparato fonador • Utilizada para comunicación (para transmisión de mensajes) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Cuestiones varias: • ¿Qué relación hay entre los fonemas y la señal de voz? • ¿Y entre otras características y la señal de voz? • ¿Cómo podemos analizar las características de la voz? • ¿Cómo se manifiesta una patología de la voz en la señal? • ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? • ¿Cómo podemos interpretar un error en la producción de un fonema? • ¿Cómo podemos interpretar un error en detección o identificación de fonemas? ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Procesamiento de voz • Análisis de voz • Codificación y comprensión de voz • Síntesis de voz • Reconocimiento automático de voz • Reconocimiento y verificación de locutores • Detección de patologías • Diseño de ayudas para la audición ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
¿Qué es la voz? • Producción de la voz • Percepción de la voz • Procesamiento de señales Dificultades al intentar relacionar la señal con las características ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Problemas del procesamiento de voz • Variabilidad • Intra-locutor (estado salud / ánimo, velocidad) • Inter-locutor • Adquisición • Continuidad: concatenación y coarticulación • Información contenida en la señal de voz muy redundante • Multi-interactividad entre niveles: • Nivel fonético • Características suprasegmentales • Nivel semántico: contexto – suplencia mental • Ruido: perturbación + efecto Lombard ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Variabilidad de las señales de voz • 40 ms correspondientes al fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modelos de producción de voz • Órganos de producción de voz • Cavidades infraglóticas • Cavidad laríngea (cuerdas vocales) • Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modelo acústico de producción de voz • Onda acústica: onda de presión en el aire con c = 350 m/s • Longitud de onda l = c / f • Para 100 Hz, l = 3.5 m • Para 4 kHz, l = 8.75 cm • Producción de sonido: • Fonemas sonoros: vibración cuerdas vocales • Fonemas sordos: flujo turbulento • Fonemas oclusivos: obstrucción + apertura ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modelo acústico de producción de voz (II) • Paredes no rígidas: • Pérdidas onda acústica • Forma y sección del tracto vocal varía en el tiempo: • Se producen entre 5 y 20 fonemas por segundo • Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Simplificaciones • Tracto vocal tubo rígido descrito por la “función de área” A(x,t) • Como l > radio del tubo, aproximación de onda plana • (El problema de contorno tridimensional se puede reducir a un problema unidimensional) • Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Función de área ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Ecuaciones de onda ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Condiciones de contorno • Glotis: vibración cuerdas vocales • Labios: p(L)=0 • Onda proporcional a u(L) Solución de las ecuaciones de onda • A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) • Para A(x) sencilla, soluciones analíticas • Para A(x) compleja, métodos numéricos • Medidas de A(x): Rx, TAC, RMN, articulógraf. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Pérdidas por elasticidad • mw masa/unid.long; • bw cte. amortiguación • kw cte. recuperación elástica • Solución para: • L = 17.5 cm • A = cte = 5.0 cm2 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
u(L,f) / uG(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Formantes • Formantes: resonancias del tracto vocal • Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz • El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Pérdidas por radiación de onda • p(L) = 0 no es cierto • Impedancia acústica Z • Impedancia para abertura circular de radio a en plano infinito • El filtrado del tracto vocal considerando las perdidas por radiación es distinto: • Caída para altas frecuencias • 6 dB / década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
u(L,f) / uG(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Solución numérica para función de área correspondiente a fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Acoplamiento del tracto nasal ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modelo acústico de producción de voz • Excitación • Fonemas sonoros • Fonemas sordos • Fonemas oclusivos • Filtrado por tracto vocal / nasal • Formantes (1 por kHz) • Caída 6 dB/década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modelo digital de producción de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Características de la voz • Excitación: • Sonoro (freq. fundamental o pitch) • Sordo • Oclusivo • Combinación • Formantes: • Cavidad buco-nasal • Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Características de la voz TONO • Excitación: • Sonoro (freq. fundamental o pitch) • Sordo • Oclusivo • Combinación • Formantes: • Cavidad buco-nasal • Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros TIMBRE INTENSIDAD DURACIÓN ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Clasificación de los fonemas(desde el punto de vista de la producción) • Actividad de cuerdas vocales • Vocales • Consonantes sonoras • Consonantes sordas • Modo de articulación • Vocales • Consonantes • Lugar de articulación • Vocales • Consonantes ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Clasificación de vocales • Modo de articulación (formante 1) • Cerradas (i,u) • Medias (e,o) • Abiertas (a) • Lugar de articulación (formante 2) • Anteriores (i,e) • Centrales (a) • Posteriores (o,u) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
3000 2500 /e/ /i/ 2000 freq. 2o formante (Hz) 1500 /a/ /u/ /o/ 1000 500 200 300 400 500 600 700 800 900 1000 freq. 1er formante (Hz) Formantes 1º y 2º en vocales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Modo de articulación (cons.) • Oclusivas (b,d,g,p,t,k) • Fricativas (s,f,z,x,y) • Africadas (ch) • Nasales (m,n,ñ) • Líquidas: • Laterales (l, ll) • Vibrantes (r, R) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Lugar de articulación (cons.) • Bilabiales (b,p,m) • Labiodentales (f) • Linguodentales (t,d) • Linguointerdentales (z) • Linguoalveolares (s,n,l,r,R) • Linguopalatales (y,ch,ñ,ll) • Linguovelares (k,g,x) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Fonemas del español ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Análisis de señales de voz • Conceptos de procesado de señales • Transformada de Fourier • Componentes de frecuencia • Espectro de potencia • Filtrado • Ventanas • Muestreo • Espectrogramas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Im(z) r y f x Re(z) Transformada de Fourier • Transformada (FT): • Cambio de representación • Misma información (otra representación) • Existe transformada inversa (FT-1) • Transforma señal compleja en señal compleja: ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Espectro de potencia (1) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Espectro de potencia (2) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Descomposición en componentes freq. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Filtrado excitación señal filtrada • Caracterización del filtro: • Tiempo: respuesta impulsiva • Frecuencia: función de transferencia (o respuesta en frecuencia) filtro ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Filtrado en el tiempo: convolución ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Filtrado en frecuencia: multiplicación ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Transformada de un tren de pulsos ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Transformada de señal periódica ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Muestreo de señales: T. de muestreo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Transformada Fourier: Resumen ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
DFT y FFT • Transformada discreta de Fourier (DFT) • Transformada rápida de Fourier (FFT) • Señales discretas (muestreadas) • Ventana (resolución espectral) • N muestras en t => N muestras en f • FFT: Muy utilizada en procesamiento digital de señales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
La señal de voz /sal/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR