1 / 67

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web

Presentación de Trabajo de Fin de Máster PROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS. Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

lyndon
Download Presentation

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Presentación de Trabajo de Fin de MásterPROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013 Autor: José Alberto Benítez Andrades Directora: Ana Mª García Serrano

  2. Introducción • Objetivos • Plantear trabajo de investigación aplicada • Establecer metodología de tratamiento de información estructurada • Estado del arte, 2 perspectivas • Tecnológica • Teórico-práctica • Uso de recursos de la ingeniería lingüística y RI. • Uso de ontologías en el área de la Ingeniería del Conocimiento.

  3. Introducción – Trabajo teórico práctico • Se divide en • Análisis principal del problema a resolver • Estudio de las posibles soluciones existentes para resolver dicho problema • Selección de la solución o soluciones • Elección de las herramientas necesarias para aplicar dicha solución • Desarrollo de herramientas necesarias para abarcar el problema • Fase de aplicación de la solución: Experimentación y análisis de resultados.

  4. Parte1: Panorama Tecnológico • La web Semántica y la Recuperación de Información. • Web Semántica • Concepto, herramientas, estándares • Definición de ontologías: Protégé • Estándares para descripción de contenidos: RDF DC y OWL • Método para extraer relaciones semánticas desde la Wikipedia • Recuperación de información • Modelos clásicos de RI • Estándares y herramientas relacionadas con Lucene, Solr, Apache y Sparql. • Estudio de trabajo relacionado dirigido por P.Castells. • Sistemas pregunta-respuesta

  5. 1.Web Semántica - Introducción • Web actual (web sintáctica) href href href href href href href href href

  6. 1.Web Semántica - Introducción • Problemas de la web actual que resuelve la web semántica • No hay enlaces totales • Escasa precisión de resultados • Alta sensibilidad del vocabulario empleado • Definición oficial de web semántica por Tim Berners-Lee • “El primer paso es colocar los datos en la Web de un modo en que las máquinas puedan entenderlos naturalmente o convertirlos a esa forma. Esto crea lo que yo llamo la Web Semántica: una red de datos que pueden ser procesados directa o indirectamente por máquinas”

  7. 1.Web Semántica - Introducción • Web semántica por Tim Bernes-Lee

  8. 1.Web Semántica - Introducción • Web semántica • Las máquinas deben comprender el significado de la información disponible • Web Semántica = Inteligencia Artifical

  9. 1.Web Semántica - Herramientas y estándares • Lenguaje XML • Personalización óptima para desarrolladores • Ventajas frente a HTML • Ontologías y estándares: RDF, OWL y SPARQL • Ontología: Descripción que define formalmente relaciones entre términos. • RDF (ResourceDescription Framework): modelo estándar para intercambio de datos en la web. • SPARQL: Lenguaje de consulta sobre RDF. • OWL (Web OntologyLanguage): sobre RDF y RDF Schema y añade más vocabulario para describir propiedades y clases.

  10. 1.Web Semántica – Herramientas de desarrollo • Protégé • Editor de ontologías gratuito y de código abierto • Conjunto de herramientas para construir modelos de dominio • Escrita en JAVA • 2 Modos de modelado • Protégé-frames • Protégé-OWL

  11. 1.Web Semántica – Trabajos relacionados • Identificación de patrones léxicos => relaciones semánticas • “AutomaticExtraction of semanticrelationshipsforWordnetbymeans of patternlearningfrom Wikipedia” María Ruiz-Casado, Enrique Alfonseca y Pablo Castells (2005) • Ontologías estructuradas como herencias de conceptos: hiponimia, hiperonimia,meronimiay holonimia • Nodos que representan conceptos vs nodos que representan instancias • Extracción automática de información de un corpus: • Sistemas basados en propiedades de distribución de palabras • Sistemas basados en patrones de extracción y coincidencias • Sistemas basados en el análisis de las definiciones de diccionario (extraen relaciones de hiperionimia)

  12. 1.Web Semántica – Trabajos relacionados • Procedimiento seguido en este trabajo de investigación relacionado: • Rastreo de la versión de Inglés simple de la Wikipedia, coleccionando todas las entradas, desambiguándolas y asociando cada una con relaciones • Desambiguación del sentido de la entrada • Extracción de patrones • Generalización de patrón • Identificación de nuevas relaciones • Conclusiones a las que llegaron • Nuevo algoritmo de generación de patrones léxicos • Patrones encontrados automáticamente de las entradas de la Wikipedia (permitiendo extraer relaciones de hiperonimia, hiponimia, meronimia y holonimia) • Precisión de patrones generados similar a los escritos a mano.

  13. 2.Recuperación de Información • Gran cantidad de información, aparece un nuevo concepto en la informática, la RI. • Principales modelos existentes: Booleano, Espacio Vectorial, Probabilístico y Booleano extendido.

  14. 2.RI: Herramientas • Lucene • Librería de RI escrita en JAVA • Se ha convertido en un estándar • Capaz de indexar y realizar búsqueda sobre cualquier conjunto de datos textual • Aporta: • Análisis de documento • Indexado de documentos • Construcción de consulta • Ejecución de consulta

  15. 2.RI: Herramientas • Componentes de Lucene

  16. 2.RI: Herramientas • Apache Solr • Plataforma de búsqueda basada en Lucene • Características principales: • Búsquedas de texto • Clustering dinámico • Manejo de documentos enriquecidos • Es escalable, permite realizar búsquedas distribuidas y replicación de índices, • Proporciona los datos en diferentes formatos, ventajas para el desarrollador • Se divide en Índice y Servidor

  17. 2.RI: Herramientas • Apache Solr - Partes

  18. 2.RI: Herramientas • Apache Solr - Partes

  19. 2.RI: Trabajos Relacionados • “Semantically enhanced Information Retrieval: an ontology-based approach” – Miriam Fernández Sánchez y Pablo Castells • Perspectiva de la RI en la búsqueda semántica, modelos: • Taxonomías: categorías + relaciones de herencia • Diccionarios: categorías + relaciones de herencia y asociativas (Wordnet) • Métodos algebraicos (LatentSemanticAnalysis) • Solución al problema de la búsqueda con palabras clave: búsqueda semántica.

  20. 2.RI: Trabajos Relacionados • Diseño de buscador semántico

  21. 2.RI: Trabajos Relacionados • El problema principal: necesidad de recuperar resultados precisos cuando la información semántica es incompleta. • Se propuso combinar clasificaciones procedentes de resultados basados en ontologías. • Esta combinación se basó en un algoritmo de normalización de puntuación.

  22. 3.Análisis del dominio: Catálogo on-line • Estructura de las fichas del catálogo del Archivo General de Simancas (AGS) • Poseen 8 campos, facetas: • Fecha, Referencias, Creador, Tipo, Idiomas, Temática, Técnica Utilizada • El primer paso: descargar las fichas en dos formatos • Texto Plano • RDF DC

  23. 3.Análisis del dominio: Catálogo on-line • Web de AGS: • http://www.mcu.es/ccbae/es/consulta/resultados_busqueda.cmd?tipo_busqueda=mapas_planos_dibujos&posicion=1&id=30485

  24. 3.Análisis del dominio: Catálogo on-line • Ejemplo de ficha

  25. Parte 2: Trabajo realizado y experimentos • 7792 fichas obtenidas del AGS • Necesidad de realizar un buscador semántico. • División del trabajo para conseguir la realización de este buscador: • Desarrollo del entorno para la experimentación • Incorporación de información disponible ene l formato estándar decidido • Realización de tres aproximaciones de almacenamiento del catálogo • Descripción del esquema de trabajo planteado y finalmente realizado sobre búsqueda semántica. • Generación de conjunto de preguntas y comparación entre buscador textual y ontológico. • Desarrollo de buscador textual y buscador basado en facetas. • Comparación de aproximaciones con TRECEval. No se puedo realizar de forma completa debido a la falta de disponibilidad de juicios de relevancia.

  26. 4.Propuestas para almacenamiento del catálogo y gestión de la búsqueda • El primer paso, descargar las fichas en RDF DC y texto plano • Trabajar con Protégé: necesidad de convertir RDF DC a OWL • Para ello, se desarrolla una herramienta (parser) que realiza esta conversión • Búsquedas textuales: Apache Solr • Instalación de servidor completo de Apache Solr • Creación de dos directorios: fichas facetadas y sin facetar • Indexación en lenguaje BASH para ambos casos

  27. 4.1.RDF DC a OWL • Ficha en formato RDF DC

  28. 4.1.RDF DC a OWL • Ficha en formato final OWL

  29. 4.1.RDF DC a OWL • Parser desarrollado

  30. 4.1.RDF DC a OWL • Se selecciona el fichero origen • Se selecciona el fichero de destino • Se define el nombre del objeto • Se definen los campos identificadores • Se agregan las propiedades • Pulsamos convertir

  31. 4.1.RDF DC a OWL • Ficheros obtenidos

  32. 4.2.Modelo Ontológico con Protégé • Cargamos el fichero .owl

  33. 4.2.Modelo Ontológico con Protégé • Entidades

  34. 4.2.Modelo Ontológico con Protégé • Información de las entidades

  35. 4.2.Modelo Ontológico con Protégé • Jerarquía de la ontología de forma gráfica

  36. 4.3.Modelo textual con Solr • Una vez instalado Apache Solr, el siguiente paso es crear los directorios donde se almacenan las fichas categorizadas por sus características y sin categorizar, para poder hacer una comparación en la búsqueda de los resultados en ambos casos. • Antes de realizar la indexación, se debe eliminar del fichero los caracteres de control que puedan provocar un fallo por parte del indexador.

  37. 4.4.Propuesta de búsqueda semántica • Se plantearon las siguientes fases: • Análisis del problema principal a resolver • Estudio de las posibles soluciones existentes para resolver el problema de búsqueda • Selección de la solución que vamos a experimentar en este trabajo de investigación • Elección de las herramientas necesarias para poder aplicar la solución elegida • Desarrollo de las herramientas necesarias para abarcar el problema • Fase de aplicación de la solución, realizando la experimentación y analizando los resultados obtenidos tras la prueba.

  38. 4.4.Propuesta de búsqueda semántica • La fase de aplicación a la solución se subdividió en: • Clasificación de consultas • Realización de búsquedas de elementos de forma facetada y de forma textual • Comparación de los resultados obtenidos

  39. 5.Experimentación • Clasificación de consultas: Generación de tabla de preguntas de tipo Q-A. • Realización de búsquedas sobre la base de datos facetada y sin facetar: obtener y almacenar los distintos resultados obtenidos de dichas consultas en nuestra base de datos con datos sin facetar y con datos facetados, para así, en una última fase, poder valorar la diferencia de tiempo / calidad de respuesta en cada uno de los casos. • Comparación de los resultados obtenidos en ambos casos análisis y evaluación de los resultados obtenidos en las consultas realizadas sobre la base de datos de fichas facetadas y sin facetar.

  40. 5.1.Clasificación de consultas

  41. 5.1.Clasificación de consultas

  42. 5.1.Clasificación de consultas

  43. 5.1.Clasificación de consultas • Equivalencia variable – DC - OWL

  44. 5.1.Clasificación de consultas • Demostración con enlaces (ver pdf)

  45. 5.2.Búsquedas facetada y textual • Funcionamiento de consultas Solr • Parser semántico que traduce a lenguaje Solr.

  46. 5.2.1.Funcionamiento de consultas en Solr • Interfaz gráfica • Posibilidad de url manual de búsqueda • http://casa.jabenitez.com/solr/fichasFacetadas/select?indent=on&version=2.2&q=titulo%3A*1952*&fq=&start=0&rows=10&fl=titulo%2Cscore&wt=&explainOther=&hl=on&hl.fl=titulo

  47. 5.2.1.Funcionamiento de consultas en Solr • Versión XML

  48. 5.2.1.Funcionamiento de consultas en Solr • Versión JSON • Versión PHP

  49. 5.2.1.Funcionamiento de consultas en Solr • Parámetros básicos de Solr: • q (query) Especifica la consulta de búsqueda. • fq (filterquery) Permite filtrar los resultados de la búsqueda según criterios. • sort (ordenación) Ordena de forma ascendente o descendente. • fl (fields) Permite especificar los campos que va a devolver Solr. Por defecto *, score • wt (writertype) Indica cuál es el procesador de salida que componga la cadena de respuesta. por defecto wt=xml. • Start Indica la primera fila a devolver del conjunto de elementos resultantes (comienzo de página). • Rows Número máximo de elementos a devolver del resultado (elementos por página). • omitHeader Permite obviar el elemento header en la respuesta.

  50. 5.2.2.Parser semántico que traduce consultas a Solr • Interfaz gráfica del buscador

More Related