340 likes | 481 Views
Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente. Martin Barreto Ricardo Bedat Docentes: Juan José Prada – Aiala Rosá. Agenda. Problema Dificultades Solución Arquitectura Componentes Criterios de selección Resultados y Evaluación Conclusión
E N D
Proyecto de Grado – ISRTIdentificador de Segmentos Relacionados Temáticamente Martin Barreto Ricardo Bedat Docentes: Juan José Prada– AialaRosá
Agenda • Problema • Dificultades • Solución • Arquitectura • Componentes • Criterios de selección • Resultados y Evaluación • Conclusión • Demostración
El Problema DOCUMENTO: El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición. Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial. Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales. Pero son los gobiernos quienes deben controlar a las industrias y regular la economía. Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos. • Aumento en el precio
El Problema – Ctrl + F DOCUMENTO: El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición. Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial. Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales. Pero son los gobiernos quienes deben controlar a las industrias y regular la economía. Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos. • Aumento en el precio
El Problema – ISRT DOCUMENTO: El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición. Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial. Si bien los precios reales siguen siendo inferioresa los niveles picoalcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales. Pero son los gobiernos quienes deben controlar a las industrias y regular la economía. Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costosy ayudar a las poblaciones pobres a cubrir sus gastos básicos. • Aumento en el precio
Algunas dificultades encontradas • Desambiguación del significado Frase “Perros violentos” Texto “María tiene una salchichay un doberman. Este último queda enfurecido cada vez que ve un gato”
Algunas dificultades encontradas • Identificación de relaciones semánticas Frase “Perrosviolentos.” Texto “María tiene una salchichay un doberman. Este último perro queda enfurecido cada vez que ve un gato”
Algunas dificultades encontradas • Análisis de correferencias Frase “Perros violentos.” Texto “María tiene una salchicha y un doberman. Este último queda enfurecido cada vez que ve un gato”
Algunas dificultades encontradas • Otras • Identificación de entidades con nombre • Análisis de categoría gramatical • Reconocimiento de locuciones y palabras compuestas • Metáforas y metonimias • Otras…
Algunas dificultades encontradas • Del proyecto • Escaso material relacionado. • Pocas herramientas de software libre vinculadas al área y para el español. • No se encontró ningún sistema que solucione el problema planteado. • Falta de experiencia y conocimiento en el área.
Solución ¿A qué nos enfrentamos? • Decisiones tomadas • Documentos genéricos en texto plano • Dominio genérico • Integrar a Lavinia • Problemas resueltos • Reconocimiento de palabras y oraciones • Identificación de entidades con nombre • Análisis morfológico • Reconocimiento de relaciones semánticas • Expansión de la frase de consulta • Desambiguación semántica • Stop-list{“el”, “o”, “sus”, “de”, “al”, etc.} • Identificación de segmentos relacionados temáticamente
Arquitectura En el fondo se busca encontrar un algoritmo.
Arquitectura Divide y vencerás Dividimos el sistema en sub componentes encargados de resolver una función especifica.
Arquitectura Integrara Lavinia
Arquitectura Integrara Lavinia Contenedor UIMA para permitir la integración con LAVINIA
Arquitectura Integrara Lavinia Cada componente individual puede ser integrado a LAVINA
Interacción de componentesTokenizador y Analizador Morfológico
Interacción de componentesIdentificador de segmentos relacionados • Ponderación de las oraciones • Algoritmos de selección de resultados
Selección de resultados 3 Algoritmos de selección • Los k mejores • Mejores aproximaciones a la consulta • Aproximación por varianza
Selección de resultados 3 Algoritmos de selección • Los k mejores • Mejores aproximaciones a la consulta • Aproximación por varianza
Selección de resultados 3 Algoritmos de selección • Los k mejores • Mejores aproximaciones a la consulta • Aproximación por varianza
Selección de resultados 3 Algoritmos de selección • Los k mejores • Mejores aproximaciones a la consulta • Aproximación por varianza
EvaluaciónDocumentos y frases de pruebas G1 G2 G3 G4 G5 • frase 1-1 • frase 1-2 • frase 1-3 • frase 1-4 • frase 2-1 • frase 2-2 • frase 2-3 • frase 2-4 • frase 3-1 • frase 3-2 • frase 3-3 • frase 3-4 • frase 4-1 • frase 4-2 • frase 4-3 • frase 4-4 • frase 5-1 • frase 5-2 • frase 5-3 • frase 5-4 GDNR
Evaluación Análisis manual Análisis automáticos G1 G2 IC – II - NI G3 • Identificados Correctos • Identificados Incorrectos • No identificados G4 x2 Desambiguación Manual Desambiguación Automática G4 GDNR Total de 928 análisis Criterio Selección 1 Criterio Selección 2 Criterio Selección 3
Resultados de la Evaluación Desambiguación automática
Conclusiones • Problemas propios del área • Trabajos relacionados • Freeling – UIMA – WordNet • Se propuso y alcanzó una solución
Puntos fuertes Trabajos a futuro Altamente parametrizable. Permite múltiples tipos de desambiguación Diferentes algoritmos de selección de resultados Altamente modulado Configurable dinámicamente Integrado a Lavinia Buenos resultados Análisis de familias léxicas. Análisis de Metáforas y Metonimias. Análisis de correferencias y reconocimiento de anáforas. Soportar la existencia de errores ortográficos, de capitalización y de puntuaciones. Identificación de palabras en idiomas diferentes al español.