160 likes | 279 Views
OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS. R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J.M. Pardo cordoba@die.upm.es. Grupo de Tecnología del Habla.
E N D
OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J.M. Pardo cordoba@die.upm.es Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.
PROYECTO IDAS(Interactive telephone-based Directory Assistance Service) • Proyecto europeo a dos años (1998-2000) (LE4-8315) • OBJETIVO • Demostrador que da un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas. • SUBOBJETIVOS: • Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras) y en tiempo real. • Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs).
INTRODUCCIÓN (I) • Interés de las compañías telefónicas: • Ahorro en tiempo de operador • La información proporcionada es reducida • Muy sencilla de ofrecer • La interacción con el usuario es reducida • Dificultades: • No es gratuito • El diálogo debe ser rápido y amigable • Canal telefónico: ruido de fondo • Alto grado de confusabilidad de los apellidos • ¿Cómo conseguir su trascripción exacta?
INTRODUCCIÓN (II) • Soluciones: • Se necesitan métodos alternativos para obtener la información • Pedir al usuario que confirme lo reconocido • Pedir el deletreo si no se confirma lo reconocido • Ambos ralentizan el diálogo • El sistema siempre resulta útil: • Se resuelven un porcentaje elevado de las consultas • Si se recurre a operador el diálogo es breve porque • Es posible que se conozcan algunos datos • El operador recibe una pantalla con información y puede escuchar lo que ha dicho el usuario • Se incrementa el número de llamadas a las que puede atender el operador
ANTECEDENTES: TADE • Entorno para el desarrollo de aplicaciones telefónicas • SVIs desarrollados. • Sistema de atención al cliente en Hewlett Packard con desvío de llamada. • Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. • Buzón vocal con grabación de mensajes y envío de e-mail de aviso. • Lenguaje propio con primitivas de alto nivel. • Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... • Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. • Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. • E-mail: envío de correo electrónico. • Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas.
NUEVAS FUNCIONES INCORPORADAS • Gestión de elementos multimedia • Reproducción y parada de vídeos • Carga y descarga de imágenes • Grabación y reproducción de ficheros de voz • Gestión de agentes animados • Nuevas funciones para gestión línea telefónica • Entorno para depuración • Herramientas de generación de diccionarios • Ejecución de tareas lentas en modo asíncrono
Bienvenida Reconocimiento Ciudad ¿Particular/Empresa? ¿Operador? ACCESO A LA BASE DATOS APLICACIÓN DE PÁGINAS BLANCAS (I) Reconocimiento 1er Apellido 2º Apellido Nombre Reconocimiento Empresa
¿Es correcto? ¿Es correcto? APLICACIÓN DE PÁGINAS BLANCAS (II) Reconocimiento de cada campo Se ofrece 1er candidato SI ¿Es correcto? NO Se ofrece 2º candidato SIGUIENTE RECONOCIMIENTO SI NO Se deletrea y se da el resultado SI/NO
SISTEMA DE RECONOCIMIENTO • Base de datos de habla utilizada: • SpeechDat habla aislada • 9609 palabras entrenamiento • 3840 palabras reconocimiento • Arquitectura del sistema. En 2 etapas: • Preselección: elige los N candidatos más probables • Muy rápido • Verificación: de los N anteriores elige el mejor • Modelos más detallados • Más lento
SISTEMA DE RECONOCIMIENTO.ETAPA DE VERIFICACIÓN (I) • Modelos ocultos de Markov (HMM): • 3 estados por alófono • Modelos de palabra (concatenando sus alófonos) • Modelado continuo (CHMM) • Cada estado usa distribuciones gaussianas ponderadas • Elevado número de parámetros • Lento • Modelado semicontinuo (SCHMM) • Todos los estados comparten un conjunto de gaussianas • Más rápido y sencillo de entrenar • Modelos dependientes e independientes del contexto
SISTEMA DE RECONOCIMIENTO.ETAPA DE VERIFICACIÓN (II) • Modelos independientes del contexto (IC) • No se tiene en cuenta los alófonos que rodean al considerado • Número de modelos reducido (45): se entrenan sin problema • Cuestiones a resolver: • ¿Cuántas distribuciones gaussianas se deben utilizar en cada estado? • Proporcional a los datos disponibles en el entrenamiento para ese estado. • La mejora frente a utilizar el mismo número de mezclas es de un 8%. • ¿Cuál es la forma óptima de incrementar el número de gaussianas? • Determinar cuál es la gaussiana más grande • Crear un nuevo centroide ligeramente desplazado respecto al original • Reasignar los vectores del estado a cada centroide • Proceso iterativo derivado del algoritmo k-means
SISTEMA DE RECONOCIMIENTO.ETAPA DE VERIFICACIÓN (III) • Modelos dependientes del contexto (DC) • Un modelo distinto para cada contexto del alófono (22.000) • Es necesario agrupar las unidades más similares (clustering) • Cuestiones a resolver • ¿Cuál es la mejor medida de distancia entre dos estados? • Nueva distancia basada en Entropía al unir las dos gaussianas. • Objetivo: unir las gaussianas cuyo Entropía sea mínimo. • Mejora del 12%. • ¿Cuál es la mejor manera de hacer el clustering? • Considerar modelos de una sola gaussiana. Al final, se incrementa el número de gaussianas por estado igual que con IC. • Seguir un enfoque iterativo: • Se agrupan estados • Se incrementa el número de gaussianas por estado • Se reestiman los modelos y se repite el proceso • La mejora de 2 es del 6% (18% para datos de entrenamiento)
EVALUACIÓN DEL SISTEMA (I) • Con usuarios finales no expertos • 1420 consultas • Diccionarios de 1.000, excepto de 10.000 en apellidos • Tasa global de obtención del número: 58.80%. • Duración media del diálogo: • 84.2 seg. para teléfono de particular • 62.4 seg. para teléfono de empresa
EVALUACIÓN DEL SISTEMA (II) • Alta confusabilidad entre las palabras del vocabulario: • Muchos errores se deben a un solo fonema mal reconocido • Otros problemas: • Fallos en el detector de principio y fin de palabra • No se entiende el nombre pronunciado por el conversor texto-voz
EVALUACIÓN DEL SISTEMA (III)SATISFACCIÓN DEL USUARIO • Cada usuario pedía 10 empresas y 10 particulares • 58 cuestionarios recibidos: 39 hombres y 19 mujeres • Edades entre 14 y 51; 23.2 de media • Buenos resultados • Punto débil: Mejorar el proceso de corrección
CONCLUSIONES • El servicio funciona en tiempo real en un ordenador Pentium III–450Mhz • Se reduce el tiempo de operadora • Mejoras significativas de las tasas de reconocimiento utilizando modelos continuos y semicontinuos dependientes del contexto • Se han introducido nuevas técnicas en todas las etapas • Tasas de reconocimiento de laboratorio mejores que las del sistema real • Nivel de ruido muy elevado en las llamadas • Aceptación positiva por parte de los usuarios