280 likes | 643 Views
RECONOCEDOR DE PALABRAS AISLADAS USANDO EL HTK. EJEMPLO DEL USO DEL HTK. PASOS A SEGUIR. Los principales pasos a seguir para la construcción de esta aplicación son los siguientes:. Creación de una base de datos para el entrenamiento. Análisis acústico Definición de los modelos
E N D
PASOS A SEGUIR Los principales pasos a seguir para la construcción de esta aplicación son los siguientes: • Creación de una base de datos para el entrenamiento. • Análisis acústico • Definición de los modelos • Entrenamiento de los modelos • Definición de la tarea • Reconocimiento de una señal de entrada desconocida, Base de datos de prueba • Evaluación del sistema de reconocimiento
DEFINIR EL CORPUS • SI • NO • PRENDER • APAGAR • CANCELAR Grabarlas en formato .wav repitiéndolas 60 veces cada una para entrenamiento y 20 para reconocimiento. Las características fueron PCM de 16 bits con una frecuencia de muestreo de 44.1 KHz.
DICCIONARIO Y GRAMÁTICA Se deben crear los archivos diccionario.txt y gramatica.txt. La gramática para este ejemplo quedó de la forma: Con el siguiente comando de obtiene la red de la gramática de reconocimiento Hparse -A –D –T 1 gramatica.txt red.slf Se obtiene el archivo con extensión .slf (Standard Lattice Format), que contiene la red de la tarea. y el contenido del archivo de diccionario es:
EJEMPLO PRÁCTICO Hparse -A –D –T 1 gramatica.txt red.slf
ANÁLISIS ACÚSTICO Se debe tener en cuenta que al crear esta clase de archivos, se debe de dejar una línea en blanco al finalizar el texto, porque si no se coloca, HTK generará un error
ETIQUETADO DE LA SEÑAL DE VOZ Para etiquetar las señales, se utilizó la herramienta HSLab de HTK, la cual como es sabido, muestra una interfaz gráfica tras su invocación. Para cada señal de voz, se etiquetaron 3 regiones sucesivas: silencio de inicio, la palabra grabada y un silencio final.
EJEMPLO PRÁCTICO Se da click al botón de Mark, con lo que la interfaz gráfica está en la posibilidad de indicar el punto inicial y final en la señal de voz de la etiqueta, misma que se agrega al dar click al botón de Labelas, con lo que se obtiene la señal de voz etiquetada. Para guardar el resultado, se da click al botón Save y aparecerá el nombre del archivo wav que se cargó con la extensión .lab, dar ENTER para crear el archivo, que contiene la información mostrada en la figura de la derecha.
DEFINICIÓN DE UN HMM Cada prototipo tiene que ser generado para cada evento a modelar. En el caso de este ejemplo, se escribe un prototipo para cada uno de los 6 HMM’s que denotan a las palabras “si”, “no”, “prender”, “apagar”, “cancelar” y “sil”
HVite Se tiene que utilizar Hcopy para generar los archivos MFCC de las muestras usando el archivo listamfccprueba.txt para ello