280 likes | 414 Views
Diseño, implementación y evaluación de técnicas de estimación de fiabilidad en tareas de localización de locutores. Proyecto Fin de Carrera. Autor: David Morales Cervera Tutor: Javier Macías Guarasa. Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones
E N D
Diseño, implementación y evaluación detécnicas de estimación de fiabilidad en tareas de localización de locutores Proyecto Fin de Carrera Autor: David Morales Cervera Tutor: Javier Macías Guarasa
PFC David Morales Cervera Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones Líneas futuras Índice
PFC David Morales Cervera IntroducciónMotivación y objetivos • Marco: Sistemas de reconocimiento automático del habla • Crecimiento espectacular del rendimiento • Tendencia a utilizar micrófonos alejados del locutor • Problemas adicionales paliados usando arrays de micrófonos tareas de localización son fundamentales • Localización: Problemas influyen en fiabilidad de resultados • Objetivos: • Diseño e implementación de técnicas para la generación de medidas de fiabilidad en las estimaciones de posición de locutores en entornos acústicos reverberantes • Evaluación de los algoritmos de estimación de fiabilidad implementados
PFC David Morales Cervera Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones Líneas futuras Índice
PFC David Morales Cervera Estudio teóricoTécnicas deLocalización • Buscamos: • Precisión • Rapidez • Resolución espacial y temporal • Tres tipos de métodos en la literatura: • Basados en diferencias de tiempo de llegada (TDOA) • Maximización de la respuesta en potencia dirigida (SRP: Steered Response Power) • Basados en subespacios de alta resolución
PFC David Morales Cervera TDOA se divide en dos etapas: Se estiman retardos entre pares de señales Se combinan los resultados con la geometría del array SRP se basa en la distribución de potencia de señal captada por el array apuntado: Estudio teóricoTécnicas de Localización
PFC David Morales Cervera Estudio teóricoIntegración en el sistema • Fiabilidad total: • Calcular grado de incertidumbre relación entre la posición real y la estimada del locutor • Fiabilidad parcial (de cada par de micros): • Mejorar las estimaciones de posición
PFC David Morales Cervera Estudio teóricoRedes neuronales artificiales • Conocimiento alcanzado tras aprendizaje • Decisiones: • Topología • Func. Activación • Algoritmo aprendizaje
PFC David Morales Cervera Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones Líneas futuras Índice
PFC David Morales Cervera Diseño e implementación del sistemaMetodología de trabajo • Características del sistema a determinar: • Posibles técnicas de estimación: • Deterministas • Redes neuronales • Datos de entrada: • Todos los disponibles en tiempo real • Datos de salida: • Todos los disponibles • Fiabilidad parcial • Fiabilidad total • Posiciones SRP • Energías par de micros • Contenido espectral • ¿Cómo la calculamos?
PFC David Morales Cervera Diseño e implementación del sistemaMetodología de trabajo • Características del sistema a determinar: • Herramientas disponibles: • Software libre • Para redes: MUME • Para localización: SRP • Estrategia experimental: • Rigurosa • Uso óptimo de recursos • Evaluación cuantitativa y gráficas significativas: • Comportamiento de la red • Relación con medidas de fiabilidad real
PFC David Morales Cervera Conf trn Pesos .wgt val Conf DAT .tau DAT .max tst Result Conf DAT .cnf BD Diseño e implementación del sistemaArquitectura propuesta SRP pos2tau genNNData DAT .asc Mume test Mume train makeLoos Loo_n …
PFC David Morales Cervera Diseño e implementación del sistemaSoluciones propuestas • Datos de red neuronal: • Entrada: • Retardo de cada par de micros • Salida: • Fiabilidad total • Fiabilidad parcial • Conversión de datos • Estrategias de codificación pos2tau genNNData
PFC David Morales Cervera Diseño e implementación del sistemaSoluciones propuestas • Codificación de datos: • Sin procesar • Estandarización sin recorte • Estandarización con recorte • Multi neurona genNNData • ¿Estimación y ?
PFC David Morales Cervera BD Train Test Train Val Test Train Test Diseño e implementación del sistemaEstrategia de experimentación • Uso óptimo de recursos (datos) disponibles • Problemática: • Tamaños entrenamiento y evaluación: • Buenos modelos • Fiabilidad resultados evaluación • Datos sucios • Solución: n-fold cross validation makeLoos
PFC David Morales Cervera Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones Líneas futuras Índice
Evaluación del sistemaBases de datos • Idiap AV16.3 • 16 micros • 3 cámaras • 6216 tramas PFC David Morales Cervera
Evaluación del sistemaBases de datos • HIFI-MM1 • 1200 seq • 12 locutores • 7404 tramas PFC David Morales Cervera
Evaluación del sistemaExperimentos iniciales • Comportamiento red neuronal PFC David Morales Cervera
PFC David Morales Cervera Evaluación del sistemaExperimentos iniciales • Evaluación de valores de : • Eliminamos extremos • Evaluación de # de neuronas intermedias: • Resultados similares • Consideraciones sobre el tiempo de proceso: • 500 iteraciones 5s, 106 iteraciones 2 días • Consideraciones sobre tamaño BD:
Evaluación del sistemaExperimentos sobre HIFI-MM1 • Resultados prometedores PFC David Morales Cervera
Evaluación del sistemaExperimentos sobre HIFI-MM1 • ¡Anomalías! • Relación con errores reales: PFC David Morales Cervera
Evaluación del sistemaExperimentos sobre AV16.3 • Comportamiento irregular: pocos datos PFC David Morales Cervera
PFC David Morales Cervera Índice • Introducción • Estudio teórico • Diseño e implementación • Evaluación • Conclusiones • Líneas futuras
PFC David Morales Cervera ConclusionesAportaciones • Definición metodología rigurosa de trabajo: • Validación cruzada (n-fold cross validation) • Redes neuronales (early stopping) • Desarrollo de aplicaciones y herramientas de soporte: • pos2tau, genNNData, makeLoos, tauMume, SRP, MUME, mumeLib • Experimentación: • Scripts de soporte para facilitar trabajos posteriores • Resultados prometedores y anomalías detectadas
PFC David Morales Cervera Líneas futuras • Revisión de los resultados y datos en busca de posibles causas de las anomalías • Uso de nuevos datos de entrada • Implementación de nuevas estrategias en cálculo fiabilidad parcial • Implementación de nuevas estrategias de normalización • Experimentación con otras BD • Integración de estimación de fiabilidad en SRP
PFC David Morales Cervera ConclusionesObjetivo fundamental • Diseñar, implementar y evaluar técnicas para permitir la obtención de medidas de fiabilidad en las estimaciones de posición de locutores, para mejorar los sistemas de localización basados en la explotación de la estructura espacio-temporal proporcionada por agrupaciones de micrófonos • Primer trabajo del grupo en esa tarea