160 likes | 295 Views
Proyecto de Grado - Idetem. Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa. El Desafio. Desarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase.
E N D
Proyecto de Grado - Idetem Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – AialaRósa
El Desafio • Desarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase. • Se pretende que el sistema sea capas de identificar secciones de texto, que contengan la información deseada, aunque esta no sea explicita. • Por ejemplo: • Dada la frase “Aumento en los precios del combustible” sea capas de devolver porciones del documento que contengan: • “Suba del combustible” • “Subió el valor del combustible” • “Aumentó el barril de petróleo” • Etc.
EL Problema • Consulta: • “Información” DOCUMENTO: El vertiginoso aumento en la cantidad de informacióny la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información , debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
EL Problema • Consulta: • La cantidad de información ha sufrido un gran aumento • Problemas al crear un programa • Recuperación de información. DOCUMENTO: El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
Proyecto Idtem • Objetivo: • Investigación del estado del arte de los sistemas de recuperación y extracción de información. • Desarrollo de un sistema de extracción de información temática. • Integrar el sistema desarrollado al sistema Lavinia. • Analizar los resultados obtenidos.
Estado actual del proyecto • Se analizaron trabajos relacionados, para el Inglés. • Se analizaron herramientas de utilidad para el desarrollo del proyecto. • Se obtuvo una versión de WordNet para el Español. • Se hicieron prototipos de uso de las herramientas. • Se inició con el Diseño del software. • Actualmente se está comenzando la implementación.
Dificultades encontradas • Escaso material relacionado. • Pocas herramientas de software libre. • No se encontró ningún sistema que solucione el problema planteado.
Primera Versión de la Arquitectura En el fondo se busca encontrar un algoritmo.
Primera Versión de la Arquitectura Divide y vencerás Dividimos el sistema en sub componentes encargados de resolver una función especifica.
Primera Versión de la Arquitectura Los componentes resuelven una función, pero existen varias formas de cumplir esta función, cada una con ventajas y desventajas
Primera Versión de la Arquitectura Integrar a Lavinia
Primera Versión de la Arquitectura Contenedor UIMA para permitir la integración con LAVINIA
Primera Versión de la Arquitectura Cada componente individual puede ser integrado a LAVINA
Decisiones a tomar • El uso de un dominio restringido o un dominio global. • Expansión de consultas. • El uso de diccionarios. • Algoritmos de aprendizaje automático o basados en reglas parametrizables. • Definición de la estructura de datos para la comunicación entre los diferentes componentes
Comingnext… • Implementación de la plataforma principal. • Desarrollo de los componentes • Desarrollo de los algoritmos específicos • Desarrollo de la solución. • Testear y evaluar los resultados. • Documentar hasta que el verdirrojo sea campeón de la liga.