1 / 104

Reconocimiento Automático del Habla

Reconocimiento Automático del Habla. Fonética/Fonología Luis Villaseñor Pineda, Carlos Alberto Reyes Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica. … pero y ¿ qué es el habla ?.

caroun
Download Presentation

Reconocimiento Automático del Habla

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Reconocimiento Automático del Habla Fonética/Fonología Luis Villaseñor Pineda, Carlos Alberto Reyes Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

  2. … pero y ¿ qué es el habla ? • un pensamiento expresado en voz alta… • el mandato abrumador de la conciencia… • una canción de cuna… • el llamado a la justicia en Irak… • el saludo al despertar… • la explicación paciente del profesor de primaria… • el grito de auxilio de la víctima… • la incomprensible anuncio de nuestra partida en el aeropuerto… • la grabación impersonal de nuestra contestadora… • … Laboratorio de Tecnologías del Lenguaje

  3. Según el diccionario… • Voz (l. voce) • 1 Sustantivo femenino. Sonido que, en el hombre y ciertos animales, produce el aire expelido de los pulmones al hacer vibrar las cuerdas vocales. • Hablar (l. fabulari) • 1 Verbo intransitivo. Darse a entender por medio de palabras. Laboratorio de Tecnologías del Lenguaje

  4. Contenido • ¿Qué es un reconocedor automático de habla? • Forma y contenido del habla • Principios físicos del sonido / habla • Mecanismos del lenguaje humano Laboratorio de Tecnologías del Lenguaje

  5. ¿Qué es un reconocedor de habla? • Es un proceso que convierte una señal acústica (sonido) capturada por micrófono -u otro dispositivo- a un conjunto de palabras (texto) • Es la identificacion de las palabras de una elocución • (habla >> transcrición ortográfica) • Basado en técnicas de reconocimiento de patrones • Dichos patrones son aprendidos a partir de grandes conjuntos de datos, usando técnicas estocásticas Laboratorio de Tecnologías del Lenguaje

  6. ¿Para qué sirve un reconocedor de habla? • Su principal objetivo es facilitar/mejorar la comunicación entre el hombre y la computadora, ya que la comunicación hablada es un medio natural para intercambio de información • Además, casi toda actividad humana es social y el habla es parte esencial de esa actividad Laboratorio de Tecnologías del Lenguaje

  7. Problemática • El habla es una compleja combinación de procesos a diferentes niveles que es usada para transmitir información • Variabilidad de la señal: • Variabilidad intra-locutor: estado emocional, ambiente, estado de salud, etc. • Variabilidad inter-locutor: diferencias fisiológicas, acento, dialectos, etc. • Canal acústico: Teléfono, micrófono, ruido ambiental, etc.

  8. Características de un Reconocedor • Tipo de habla: aislada, continua • Dependiente o Independiente del locutor • Número de palabras que reconocen • Tipo de texto que reconocen • Tipo de canal Laboratorio de Tecnologías del Lenguaje

  9. Características de un Reconocedor

  10. Dos grandes áreas: • Principios físicos del sonido en particular del habla • Mecanismos del lenguaje a diferentes niveles (los primeros) Laboratorio de Tecnologías del Lenguaje

  11. Principios físicos del sonido • Todos los sonidos, incluyendo el habla, provocan el movimiento de las moléculas del aire • Algunos producen un movimiento del aire en patrones regulares: • Al tocar una cuerda de una guitarra • Casos contrarios: • Cerrar una puerta • Gráficamente representamos un sonido como una curva senoidal • En un eje la presión del aire en otro eje el tiempo Laboratorio de Tecnologías del Lenguaje

  12. Laboratorio de Tecnologías del Lenguaje

  13. Frecuencia y Amplitud • El número de vibraciones producidas por segundo es llamada frecuencia • Una vibración de 100 veces por segundo tiene una frecuencia de 100 ciclos por segundo o 100 Hertz (Hz) • Los sonidos agudos tienen una alta frecuencia los graves baja • La intensidad de un sonido es la cantidad de aire desplazado • La intensidad se describe en términos de la amplitud de la curva • La amplitud es medida en decibeles dB Laboratorio de Tecnologías del Lenguaje

  14. Frecuencia Dominante • Los ejemplos anteriores son tonos puros • La mayoría de los sonidos son compuestos • Una frecuencia dominante o fundamental (pitch) • Acompañada de un conjunto de frecuencias secundarias (timbre) • En particular para el habla ciertas frecuencias secundarias llamadas formantes sirven para distinguir entre los fonemas Laboratorio de Tecnologías del Lenguaje

  15. Laboratorio de Tecnologías del Lenguaje

  16. Visualización del sonido Amplitud Tiempo Frecuencia Tiempo Laboratorio de Tecnologías del Lenguaje Espectrograma

  17. Transcripción ortográfica • Comunícame con Javier

  18. Transcripción ortográfica • risas, ruidos, respiraciones, silencios, tartamudeos, etc.

  19. Transcripción fonética

  20. Transcripción fonética

  21. Transcripción fonética Laboratorio de Tecnologías del Lenguaje

  22. Fonética • Entrada • Señal acústica • Salida • Alfabeto fonético • Estudia: • Formación de las consonantes y las vocales en el tracto vocal • Clasificación de vocales, consonantes por su forma, posición de la lengua y músculos bucales involucrados Laboratorio de Tecnologías del Lenguaje

  23. Corpus DIMEx100 • Todo inicia a partir de un corpus recolectado de la Web • El Corpus230 (Villaseñor et al., 2004) • 344,619 frases • un vocabulario de 235,891 unidades léxicas • 15 milliones de palabras Laboratorio de Tecnologías del Lenguaje

  24. Corpus DIMEx100 • Selección de 15,000 frases entre 5 y 15 palabras. • Seleccionamos 7000 frases con las más pequeñas perplejidades • Aseguramos un corpus rico y balanceado • Eliiminamos frases con palabras extranjeras o abreviaturas • Finalmente nos quedamos con 5010 frases • El corpus fue grabado por 100 hablantes, cada uno con 50 frases individuales + 10 frases grabadas por todos los hablantes. • En resumen 6000 frases: 5000 frases diferentes grabadas una vez y 10 frases grabadas 100 veces cada una. Laboratorio de Tecnologías del Lenguaje

  25. Fonétizador : TranscríbEMex Laboratorio de Tecnologías del Lenguaje

  26. Distribución fonética de DIMEx100 Laboratorio de Tecnologías del Lenguaje

  27. Comparación con otros estudios Laboratorio de Tecnologías del Lenguaje

  28. Fonología • Entrada: • Secuencia de fonos/sonidos (en un alfabeto fonético) • Salida: • Secuencia de fonemas (letras) en un alfabeto abstracto • Estudia: • Las relaciones entre sonidos y fonemas (unidades las cuales tienen una cierta función en el nivel superior) • Por ejemplo: ocho Laboratorio de Tecnologías del Lenguaje

  29. Algunos grafemas no representan a ningún fonema Un grafema puede representar diferentes fonemas en contextos diferentes Diferentes grafemas pueden representar el mismo fonema h hola c /s/,/k/ cielo, casa c,s,z /s/ cita, silla, zapato Relación grafema-fonema Laboratorio de Tecnologías del Lenguaje

  30. Pronunciación de diptongos: diptongo /io/ en kiosko hiato /i-o/ en tío Acentos regionales: ocho es pronunciado como [o tS o] o [o S o] zeta is pronunciado como /seta/ o /Teta/ Relación grafema-fonema /io/ /i-o/ /otso/ /oSo/ Laboratorio de Tecnologías del Lenguaje

  31. Características de la Percepción Humana • El oído humano está especializado en el reconocimiento de voz • Aunque es capaz de detectar frecuencias de 20 Hz a 20000 Hz • Es mucho más sensible en el rango de la voz: 1000 Hz a 6000 Hz • No procesa las frecuencias de forma individual, sino por grupos de frecuencias Laboratorio de Tecnologías del Lenguaje

  32. Ruido, voz y expectativa • Un oído especializado en el lenguaje • Discriminar entre ruido y palabra • ¡A pesar de que el ruido sea voz! • Capacidad para reconstruir un mensaje • Y si yo viera… • Que elocuente… Laboratorio de Tecnologías del Lenguaje

  33. Ruido, voz y expectativa • Un oído especializado en el lenguaje • Discriminar entre ruido y palabra • ¡A pesar de que el ruido sea voz! • Capacidad para reconstruir un mensaje • Y si yo viera… te mojabas • Que elocuente… a todos los niños Laboratorio de Tecnologías del Lenguaje

  34. Reconocer y Entender RAH • El primer paso para entender es reconocer • En los seres humanos estos dos procesos están fuertemente entrelazados RAH Entendimiento Laboratorio de Tecnologías del Lenguaje

  35. Reconocer • Adquisición de la señal hablada • Extracción de características • Clasificación y modelado de las señales (dentro de esta parte se encuentran los modelos acústicos, léxicos y los de lenguaje). • Métodos de búsqueda y reconocimiento Laboratorio de Tecnologías del Lenguaje

  36. Capturando la señal • La señal de voz es redundante y algunos datos irrelevantes para el proceso de reconocimiento • Para reducir la cantidad de datos: • Usar filtros para eliminar frecuencias arriba de 3100 Hz y debajo de 100 Hz Laboratorio de Tecnologías del Lenguaje

  37. Capturando la señal... • El muestreo: • Tomamos rebanadas muestras de la señal (el cine es el mismo caso) • El número de muestras depende de las frecuencias que deseamos incluir en nuestro análisis: • La tasa de muestreo mínima es el doble de la más alta frecuencia de interés • Para una frecuencia de 3100 Hz necesitamos 6200 muestras por segundo Laboratorio de Tecnologías del Lenguaje

  38. Procesamiento de Señal • Extracción de características • Llevar la señal digital a una representación matemática simple con la cual trabajar • Transformada de fourier discreta (DFT) o FFT • LPC • MFCC Laboratorio de Tecnologías del Lenguaje

  39. Reconocimiento a partir de Patrones • Comparación de patrones Funcionamiento general de un comparador de patrones Laboratorio de Tecnologías del Lenguaje

  40. Reconocimiento a partir de Patrones • Comparación de patrones • Vocabularios pequeños • Variabilidad fonética • Operación a nivel de palabra • Alineación temporal Laboratorio de Tecnologías del Lenguaje

  41. Reconocimiento a partir de Patrones • Modelos estocásticos • Selección no-determinística entre un conjunto de posibilidades • A diferencia del apareo de patrones no existe una comparación entre los modelos almacenados y la entrada • Un análisis probabilístico es la base de la selección (modelos ocultos de Markov) • Grandes cantidades de datos para entrenamiento • Operación a nivel de fonemas y semi-fonemas Laboratorio de Tecnologías del Lenguaje

  42. Reconocimiento a partir de Patrones • Modelos estocásticos • Estructura típica de un modelos ocultos de Markov (HMM) Laboratorio de Tecnologías del Lenguaje

  43. Creando un reconocedor para el Español Mexicano • Se tomaron los modelos acústicos del francés • Para la gran mayoría de manera directa • Para tres fonemas se crearon los modelos de español mezclando modelos del francés • /tS/ => campeche • /x/ => tecnológico • /L/ => desarrollo Laboratorio de Tecnologías del Lenguaje

  44. Creando un reconocedor para el Español Mexicano Francés => Español Mexicano Laboratorio de Tecnologías del Lenguaje

  45. Proceso iterativo Laboratorio de Tecnologías del Lenguaje

  46. Fenómenos del habla espontánea • La enunciación de una locución es un proceso complejo donde la construcción de la oración y su pronunciación son procesos interdependientes “Speech is more than just an audible version of text” (M. Hunt) Laboratorio de Tecnologías del Lenguaje

  47. utt3 : que me traiga no que me que muevas el <sil> (no sé cómo se le llama a las) gabinete (no sé) a esto que está en la pared izquierda Laboratorio de Tecnologías del Lenguaje

  48. Fenómenos del habla espontánea • Expresiones incrustadas utt96 : a ver este esa mesa (por favor) la puedes poner en el centro ? utt119 : ah <sil> ah <sil> sabes qué este quiero que que la gires a a la mesa <sil> de tal forma que (ay dónde está el mouse ?) de tal forma que esta parte <sil> quede pegada a la ventana <sil> esta parte superior <ruido> bueno utt7 : <ruido> eh puedes poner este <ruido> este estante lo puedes poner <sil> eh también en esta pared (pero <sil> no sé ) más o menos a esta altura en la pared de este lado en la pared de del fondo Laboratorio de Tecnologías del Lenguaje

  49. Fenómenos del habla espontánea • Reparaciones / Abandonos utt95 :bueno primero nos tra-traemos la / cómo se le llama a la parte de arriba de la estufa la que absorbe ? utt80 : entonces el primero <no-vocal> el tercero perdón Laboratorio de Tecnologías del Lenguaje

  50. Fenómenos del habla espontánea • Ambigüedad/Redundancia utt39 : ahora sí <sil> el <sil> estante este que está aquí abajo <sil> lo puedes poner en esta esquina <sil> en la esquina de esta pared utt73 : hay espacio para que este estante quede aquíen esta pared ? utt121: puedes llevar esta alacena <sil> aquía esta parte a la parte superior de esta esquina Laboratorio de Tecnologías del Lenguaje

More Related