180 likes | 359 Views
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt. Dpto. Señales, Sistemas y Radiocomunicaciones. Tratamiento Digital de Voz. Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones
E N D
Tratamiento Digital de VozProf. Luis A. Hernández Gómezftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz • Tema 4: Síntesis de Voz • Tipos de Síntesis de Voz y Aplicaciones • Principios básicos de sistemas de conversión de texto a voz • Sintetizadores de Voz • Sistemas y Dificultades
Síntesis de Voz • Tipos de Síntesis de Voz y Aplicaciones (A) Voz Pre-Grabada (codificación) (B) Conversión de Texto a Voz Text-to-Speech TTS (C) Conversión de Concepto a Voz Concept-to-Speech CTS
1791 • El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano
1835 • Sistema parlante diseñado por Sir Charles Wheatstone
Sprachsynthese (TTS, Vocoder) Historie der Sprachsynthese 1939 Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de: • Un oscilador (controlado por un pedal) y una fuente de ruído blanco • Diez filtros paso banda, con salida conectada a potenciómetros • Algunos botones para generar consonantes como t, p, etc... http://www.acoustics.hut.fi/~slemmett/dippa/appa.html Proseminar Sprachdialogsysteme Philipp S. Bach
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico Proceso de Señal Análisis del Texto Análisis Fonético Análisis Prosódico Modelos de Síntesis de Voz SINTETIZADOR Texto Voz • Sonidos(pausas) • Prosodia: • F0 • Duración • Energía
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto Componentes: Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Detección de la Estructura: • Segmentación de párrafos. • Separación de frases. • Tipos de frases. • Detección de estructura de SMS, e-mail, página web, ... • Identificación del Idioma, ... Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Normalización del Texto: • Abreviaturas (Vd. Sr. ), acrónimos (CEE, BMW) , etc. • Fechas, Horas, Cantidades, Números • Corrección automática de errores o expansión de formas de escritura (SMSs) • Identificación de palabras extranjeras, .. Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Análisis Lingüístico: • Análisis sintáctico y semántico (posible) • Desambiguación de palabras. • Estructura de la frase. • Identificación de tipo de frase. Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético Componentes: Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético • Análisis Morfológico: • Palabras de función:pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar) • Palabras de contenido • Prefijos y sufijos, conjugaciones, plurales, aumentativos, etc • Descubrir homógrafas que cambian sentido • Ej.: para (preposición) y para (verbo) Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético • Conversión Grafema-Alófono: • Soluciones basadas en diccionario • Palabras divididas en morfemas (para disminuir diccionario) • Si la palabra no está: usa reglas • Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico Componentes: Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico • Módulo Pausador: • Decisión de dónde insertar pausas –ortográficas y no ortográficas- : • Información gramatical: coeficientes de relación • Número de sílabas • Asignación de la duración adecuada a las pausas Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía
Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico • Modelado Prosódico: • Modelos: • Patrones pre-establecidos • Basados en reglas • Estocásticos, a partir de datos. • Modelado de F0 y duración: ¿independiente o conjunto? • Intensidad, generalmente sólo normalización Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía
Síntesis de Voz • MODELOS PROSÓDICOS • Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos • Escuela Británica – basada en análisis auditivo • Pierrehumbert 1980 – análisis acústico (ToBI) • Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptual • Tilt - Taylor 1998 – base fonética • Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y luego combinar los modelos parciales. • Fujisaki 1983, Grønnum 1992, Möbius et al. 1993, • Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York: • Hispanic Institute. Guadarrama 1974. • http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf