1.13k likes | 1.16k Views
Sistemas de Compresión y Reconocimiento de Voz (experiencia investigativa en la USACH). Universidad de Santiago de Chile Facultad de Ingeniería. Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones. Colombia. chile. UNIVERSIDAD DE SANTIAGO DE CHILE.
E N D
Sistemas de Compresión y Reconocimiento de Voz (experiencia investigativa en la USACH) Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones
Colombia chile
DEPARTAMENTO DE INGENIERÍA ELÉCTRICA UNIVERSIDAD DE SANTIAGO DE CHILE
Objetivos Objetivo general • Dar a conocer una de las líneas de investigación del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH. • Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz. • Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz. • Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz.
Objetivos I- Principales Líneas de Investigación del área de Telecomunicaciones • Procesamiento digital de señales, en especial el procesamiento digital de Voz. • Voz sobre redes de Paquetes • Calidad de Servicio sobre Redes IP • Wireless sensor network, channel coding, network coding. • Robot móviles, manipuladores y androides • Control de sistemas complejos mediante técnicas de redes neuronales. • Identificación de sistemas tipo caja-gris. • Análisis de estabilidad de modelos no lineales iterativos
Objetivos • Importancia del procesamiento Digital de la Voz en lo relacionado con: • La Compresión para el transporte sobre redes de paquetes • El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición.
Objetivos • Técnicas para el procesamiento Digital de la Voz De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz.
Objetivos • Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar: • Un modelo de compresión de voz usando formatos de compresión de imágenes . • Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas.
Introducción • El Universo es todo, sin excepciones.Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo. • Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así. • En cuanto a la materia, el universo es, sobre todo, espacio vacío.
Materia, Energía e Información • Materia-Energía + Información La información pertenece al Universo pero no es Masa ni Energía ni tampoco ocupa un lugar en el espacio
Nuestro interés Nuestro interés son las señales, las que debemos formalizar en su conceptualización
Estudios a través del tiempo • Alexander Graham Bell,creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono. • En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en <plantillas>) de los 10 dígitos del Inglés.
Estudios a través del tiempo • La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90. • Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros. • A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz.
¿Qué es compresión? Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión. Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia. Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedialen formato sin compresión.
¿Qué es reconocimiento de voz? Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial. Reconocimiento de palabras aisladas Reconocimiento de voz continua Dependiente o independiente del locutor Con gramática amplia 0 restringida Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema .
¿Qué es reconocimiento de voz? Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso, “queremos poder hablar con naturalidad y que el sistema identifique las palabras, las frases y el significado”. “Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable.”
¿Qué es reconocimiento de voz? • Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío. • Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz. • Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis. • Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor.
Parámetros Característicos de Señales de Voz Parámetros Característicos de Señales Voz Período Fundamental (PITCH) FORMANTES
Parámetros Característicos de Señales de Voz Período Fundamental(Pitch) • Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales. • La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch.
Parámetros Característicos de Señales de Voz Formantes • Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura. Formantes representativos
Parámetros Característicos de Señales de Voz Valores frecuenciales de los dos primeros formantes de las vocales españolas.
Parámetros Característicos de Señales de Voz Clasificación de sonidos • Sonidos sonoros (Voiced) • Sonidos sordos (Unvoiced) a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y ch, f, h, j, k, p, s, t, z
Parámetros Característicos de Señales de Voz Análisis localizado, características de estacionariedad • La voz no es estacionaria. • La voz es cuasi-estacionaria en intervalos cortos de tiempo.
Técnicas para el análisis de Voz Energía y Magnitud Promedio en corto tiempo • La amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros. • La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como: • La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los segmentos de voz sorda.
Técnicas para el análisis de Voz Métodos para determinación del periodo fundamental (pitch)
Técnicas para el análisis de Voz Método de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal , es conveniente buscar la periodicidad examinando su función de autocorrelación.
Técnicas para el análisis de Voz Características de la Autocorrelación • En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal. • Presenta un máximo absoluto en el origen. • Robusto frente al ruido.
Técnicas para el análisis de Voz Métodos para determinación de Formantes Método de Raíces. Método Peak-Picking
Técnicas para el análisis de Voz Método de Raíces Cálculo de la Frecuencia Central del Formante (i)
Técnicas para el análisis de Voz Método Peak-Picking • Algoritmo de búsqueda de picos en la envolvente espectral de H(z). • Su gran debilidad son las mezclas de los Formantes.
Predicción Lineal Técnicas para el análisis de Voz
Técnicas para el análisis de Voz Predicción Lineal • Principales supuestos: • Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo. • Correlación no nula entre muestras consecutivas de voz.
Técnicas para el análisis de Voz Predicción Lineal • Modelo autorregresivo (AR) o todo-polos de la señal de voz: Un Sn
Técnicas para el análisis de Voz Predicción Lineal • Dada una señal de voz “Sn” (considerada estacionaria) un predictor de orden p sedefine como: Filtro Inverso
Técnicas para el análisis de Voz Predicción Lineal Se desea minimizar el error total al cuadrado, luego se tiene: (7)
Técnicas para el análisis de Voz Predicción Lineal Cálculo de minimización del error: (8)
Técnicas para el análisis de Voz Predicción Lineal Coeficientes de Autocorrelación:
Técnicas para el análisis de Voz Predicción Lineal Aplicando estas definiciones se tiene:
Técnicas para el análisis de Voz Predicción Lineal Para resolver este sistema se pueden usar variados algoritmos, entre los algoritmos propuestos están: Algoritmo Recursivo de Levison-Durbin Algoritmo del Gradiente.
Técnicas para el análisis de Voz COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC) Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos. La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums. Calcula una serie de parámetros de transición denotados por . Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT).
Transformada de Wavalet • En otras palabras, la transformada de Fourier permite analizar una señal globalmente, • Mientras que la TW permite analizarla de forma global y local, lo que le da la propiedad de entregar el comportamiento de la señal en cada instante de tiempo