220 likes | 385 Views
Grupo de Tecnología del Habla Departamento de Ingeniería Electrónica ETSIT. MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO. Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez. Proyecto inicial para Natural Vox
E N D
Grupo de Tecnología del Habla Departamento de Ingeniería Electrónica ETSIT MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez
Proyecto inicial para Natural Vox Base de datos en dominio restringido Objetivo: modulación de la frecuencia fundamental (f0) Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo Soporte: Red Neuronal y scripts *.bat y *.per INTRODUCCIÓN Carlos Martín Valle
Perceptrón multicapa • Función de salida sigmoidea • Algoritmo de aprendizaje mediante retropropagación • Unidad: sílaba • Parámetros: • ZSCORE • MODO_NORM • INI • FIN • ACENT • TERMINAC • TERM_ANT • SILABAS • PAL_FUNC • NUM_PAL • POS_PAL • FIN_PAL • CONTEXTO • OCULTA • NUM_FRASE LA RED NEURONAL Carlos Martín Valle
Dominio restringido con voz femenina Proyecto de mejora de voz femenina para Natural Vox Unidad: fonema Inicialmente 22 frases-patrón Finalmente 19 frases-patrón Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa LA BASE DE DATOS (I) Carlos Martín Valle
Grabaciones • Nombres propios y apellidos en oraciones enunciativas (660 frases) • Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 • Sintagmas nominales en oraciones enunciativas (307 frases) • Frases 8, 9, 10, 11, 12 y 14 • Sintagmas nominales, movimientos bancarios y apellidos y pueblos en oraciones interrogativas (600 frases) • Frases 13, 15, 16 y 18 • Agrupaciones • 1, 2, 3, 4, 5, 10, 11, 17 y 19 • 8, 9, 12 y 14 • 13, 16 y 18 • 15 • 6 y 7 LA BASE DE DATOS (II) Carlos Martín Valle
Lenguajes: C, Perl y scripts de MS-DOS • 2 grupos • Para generar ficheros con parámetros de entrada de la Red • Para realizar los experimentos y obtener el modelado de la f0 LOS PROGRAMAS (I) Carlos Martín Valle
Estructura: “Superprograma”: generación de ficheros *.f0, extracción difonemas y resíntesis de frases Generación de experimentos Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in) Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados Procesamiento y presentación de los resultados LOS PROGRAMAS (II) Carlos Martín Valle
Metodología: Se parte del experimento “Vallejo19” y se van modificando los valores de los parámetros Se buscan resultados con diferencias significativas en sus parámetros Se eliminan definitivamente los peores valores de los parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias consistentes Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros LOS EXPERIMENTOS Y SUS RESULTADOS Carlos Martín Valle
Oraciones enunciativas • Experimento “Vallejo19” • Resultados definitivos para todos los experimentos: • Se elimina NUM_FRAS=0->NUM_FRAS=19 • Se elimina CONTEXTO=0 • Se elige ACENT=INI=FIN=1 ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I) Carlos Martín Valle
Resultados finales: • Tamaño intermedio de la capa oculta • Contextos pequeños • SÍLABAS: diferencias no consistentes • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT es innecesario • Codificación fina para PAL_FUNC • FIN_PAL y POS_PAL: diferencias no consistentes • NUM_PAL: no es necesario usar la codificación ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II) Carlos Martín Valle
Oraciones interrogativas • Experimento “Vallejo19” • Frases cortas -> Contextos pequeños ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (I) Carlos Martín Valle
Resultados finales: • Capa oculta con pocas neuronas • Contextos pequeños • SÍLABAS: diferencias no consistentes • TERMINAC: no hace falta usar la codificación • TERM_ANT: mejora no consistente • PAL_FUNC y NUM_PAL: usar codificación • POS_PAL: no es necesario usar la codificación • FIN_PAL: no usar codificación con ventana ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (II) Carlos Martín Valle
Oraciones enunciativas Causa: marcado diferente al del resto de frases Objetivo: determinar la conveniencia de esta agrupación ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (I) FRASE 6 • Resultados: • TERMINAC es indiferente • TERM_ANT es importante. • CONTEXTO=3 • Capa oculta de la Red Neuronal con tamaño pequeño Carlos Martín Valle
No es aconsejable mezclar las frases 6 y 7 • (14,552*437 + 17,265*413) / (437 + 413) = 15,854 < 16,417 ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (II) FRASE 7 • Resultados: • TERMINAC=4 • TERM_ANT es indiferente. • CONTEXTO=1 • Capa oculta de la Red Neuronal con tamaño pequeño FRASES 6 Y 7 Carlos Martín Valle
Oraciones enunciativas • Se descarta la frase 8 por su gran error al modelar • Cambio de estrategia en los experimentos • Se fijan inicialmente los valores de las siguientes variables: • TERMINAC=4 • TERM_ANT=5 • Frases cortas y largas • Se elimina CONTEXTO=1 ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (I) Carlos Martín Valle
Resultados finales: • Tamaño intermedio de la capa oculta • CONTEXTO: 2 y 5 • SÍLABAS: diferencias no consistentes • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT=5: se usa la codificación • PAL_FUNC y POS_PAL: diferencias no consistentes • NUM_PAL: se usa la codificación • FIN_PAL: codificación con ventana ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (II) Carlos Martín Valle
Oraciones interrogativas • Los grupos fonéticos marcados no se sitúan al final de las frases • Resultados finales: • Tamaño grande de la capa oculta • CONTEXTO=1 • SÍLABAS=0 • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT=5: se usa la codificación • PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor ANÁLISIS DE LOS RESULTADOSFRASE 15 (I) Carlos Martín Valle
La inclusión de la frase 15 empeora el modelo de entonación • 13,06630 > 12,09507 • La inclusión de la frase 15 empeora el modelo de entonación • (13,254*946 + 16,223*2326) / (946 + 2326) = 15,364 < 15,598 ANÁLISIS DE LOS RESULTADOSFRASE 15 (II) FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19 FRASE 15 JUNTO CON 9, 12 Y 14 Carlos Martín Valle
La inclusión de la frase 15 empeora el modelo de entonación • 13,65628 > 13,04374 ANÁLISIS DE LOS RESULTADOSFRASE 15 (III) FRASE 15 JUNTO CON 13, 16 y 18 Carlos Martín Valle
La separación de las frases y su posterior agrupación mejoran el reconocimiento • Sin frases 6, 7 y 8 • (12,095*2099 + 13,043*2018 + 16,222*2326 + 13,254*946) / (2099 + 2018 + 2326 + 946) = 13,802 < 14,518 • Con frases 6, 7 y 8 • (12,095*2099 + 13,043*0218 + 16,223*2326 + 13,254*946 + 14,521*437 + 17,265*413 + 20,831*393) / (2099 + 2018 + 2326 + 946 + 437 + 413 + 393) = 14,324 < 14,518 • Respecto al mejor número de J. Sánchez: 14,324 < 15,975 ANÁLISIS DE LOS RESULTADOSFRASE 15 (IV) FRASE 15 JUNTO CON TODAS LAS DEMÁS Carlos Martín Valle
Entorno automatizado Leave-one-out Parámetros obtenidos directamente del sintetizador Utilidad de los parámetros Reagrupación de las frases CONCLUSIONES Carlos Martín Valle
Completar la reestructuración de los programas Usar MUME en lugar del perceptrón usado Experimentar con otros parámetros de la Red Aplicar el sistema a fonemas Evaluación con oyentes LÍNEAS FUTURAS Carlos Martín Valle