670 likes | 783 Views
Presentación de Trabajo de Fin de Máster PROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS. Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013
E N D
Presentación de Trabajo de Fin de MásterPROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013 Autor: José Alberto Benítez Andrades Directora: Ana Mª García Serrano
Introducción • Objetivos • Plantear trabajo de investigación aplicada • Establecer metodología de tratamiento de información estructurada • Estado del arte, 2 perspectivas • Tecnológica • Teórico-práctica • Uso de recursos de la ingeniería lingüística y RI. • Uso de ontologías en el área de la Ingeniería del Conocimiento.
Introducción – Trabajo teórico práctico • Se divide en • Análisis principal del problema a resolver • Estudio de las posibles soluciones existentes para resolver dicho problema • Selección de la solución o soluciones • Elección de las herramientas necesarias para aplicar dicha solución • Desarrollo de herramientas necesarias para abarcar el problema • Fase de aplicación de la solución: Experimentación y análisis de resultados.
Parte1: Panorama Tecnológico • La web Semántica y la Recuperación de Información. • Web Semántica • Concepto, herramientas, estándares • Definición de ontologías: Protégé • Estándares para descripción de contenidos: RDF DC y OWL • Método para extraer relaciones semánticas desde la Wikipedia • Recuperación de información • Modelos clásicos de RI • Estándares y herramientas relacionadas con Lucene, Solr, Apache y Sparql. • Estudio de trabajo relacionado dirigido por P.Castells. • Sistemas pregunta-respuesta
1.Web Semántica - Introducción • Web actual (web sintáctica) href href href href href href href href href
1.Web Semántica - Introducción • Problemas de la web actual que resuelve la web semántica • No hay enlaces totales • Escasa precisión de resultados • Alta sensibilidad del vocabulario empleado • Definición oficial de web semántica por Tim Berners-Lee • “El primer paso es colocar los datos en la Web de un modo en que las máquinas puedan entenderlos naturalmente o convertirlos a esa forma. Esto crea lo que yo llamo la Web Semántica: una red de datos que pueden ser procesados directa o indirectamente por máquinas”
1.Web Semántica - Introducción • Web semántica por Tim Bernes-Lee
1.Web Semántica - Introducción • Web semántica • Las máquinas deben comprender el significado de la información disponible • Web Semántica = Inteligencia Artifical
1.Web Semántica - Herramientas y estándares • Lenguaje XML • Personalización óptima para desarrolladores • Ventajas frente a HTML • Ontologías y estándares: RDF, OWL y SPARQL • Ontología: Descripción que define formalmente relaciones entre términos. • RDF (ResourceDescription Framework): modelo estándar para intercambio de datos en la web. • SPARQL: Lenguaje de consulta sobre RDF. • OWL (Web OntologyLanguage): sobre RDF y RDF Schema y añade más vocabulario para describir propiedades y clases.
1.Web Semántica – Herramientas de desarrollo • Protégé • Editor de ontologías gratuito y de código abierto • Conjunto de herramientas para construir modelos de dominio • Escrita en JAVA • 2 Modos de modelado • Protégé-frames • Protégé-OWL
1.Web Semántica – Trabajos relacionados • Identificación de patrones léxicos => relaciones semánticas • “AutomaticExtraction of semanticrelationshipsforWordnetbymeans of patternlearningfrom Wikipedia” María Ruiz-Casado, Enrique Alfonseca y Pablo Castells (2005) • Ontologías estructuradas como herencias de conceptos: hiponimia, hiperonimia,meronimiay holonimia • Nodos que representan conceptos vs nodos que representan instancias • Extracción automática de información de un corpus: • Sistemas basados en propiedades de distribución de palabras • Sistemas basados en patrones de extracción y coincidencias • Sistemas basados en el análisis de las definiciones de diccionario (extraen relaciones de hiperionimia)
1.Web Semántica – Trabajos relacionados • Procedimiento seguido en este trabajo de investigación relacionado: • Rastreo de la versión de Inglés simple de la Wikipedia, coleccionando todas las entradas, desambiguándolas y asociando cada una con relaciones • Desambiguación del sentido de la entrada • Extracción de patrones • Generalización de patrón • Identificación de nuevas relaciones • Conclusiones a las que llegaron • Nuevo algoritmo de generación de patrones léxicos • Patrones encontrados automáticamente de las entradas de la Wikipedia (permitiendo extraer relaciones de hiperonimia, hiponimia, meronimia y holonimia) • Precisión de patrones generados similar a los escritos a mano.
2.Recuperación de Información • Gran cantidad de información, aparece un nuevo concepto en la informática, la RI. • Principales modelos existentes: Booleano, Espacio Vectorial, Probabilístico y Booleano extendido.
2.RI: Herramientas • Lucene • Librería de RI escrita en JAVA • Se ha convertido en un estándar • Capaz de indexar y realizar búsqueda sobre cualquier conjunto de datos textual • Aporta: • Análisis de documento • Indexado de documentos • Construcción de consulta • Ejecución de consulta
2.RI: Herramientas • Componentes de Lucene
2.RI: Herramientas • Apache Solr • Plataforma de búsqueda basada en Lucene • Características principales: • Búsquedas de texto • Clustering dinámico • Manejo de documentos enriquecidos • Es escalable, permite realizar búsquedas distribuidas y replicación de índices, • Proporciona los datos en diferentes formatos, ventajas para el desarrollador • Se divide en Índice y Servidor
2.RI: Herramientas • Apache Solr - Partes
2.RI: Herramientas • Apache Solr - Partes
2.RI: Trabajos Relacionados • “Semantically enhanced Information Retrieval: an ontology-based approach” – Miriam Fernández Sánchez y Pablo Castells • Perspectiva de la RI en la búsqueda semántica, modelos: • Taxonomías: categorías + relaciones de herencia • Diccionarios: categorías + relaciones de herencia y asociativas (Wordnet) • Métodos algebraicos (LatentSemanticAnalysis) • Solución al problema de la búsqueda con palabras clave: búsqueda semántica.
2.RI: Trabajos Relacionados • Diseño de buscador semántico
2.RI: Trabajos Relacionados • El problema principal: necesidad de recuperar resultados precisos cuando la información semántica es incompleta. • Se propuso combinar clasificaciones procedentes de resultados basados en ontologías. • Esta combinación se basó en un algoritmo de normalización de puntuación.
3.Análisis del dominio: Catálogo on-line • Estructura de las fichas del catálogo del Archivo General de Simancas (AGS) • Poseen 8 campos, facetas: • Fecha, Referencias, Creador, Tipo, Idiomas, Temática, Técnica Utilizada • El primer paso: descargar las fichas en dos formatos • Texto Plano • RDF DC
3.Análisis del dominio: Catálogo on-line • Web de AGS: • http://www.mcu.es/ccbae/es/consulta/resultados_busqueda.cmd?tipo_busqueda=mapas_planos_dibujos&posicion=1&id=30485
3.Análisis del dominio: Catálogo on-line • Ejemplo de ficha
Parte 2: Trabajo realizado y experimentos • 7792 fichas obtenidas del AGS • Necesidad de realizar un buscador semántico. • División del trabajo para conseguir la realización de este buscador: • Desarrollo del entorno para la experimentación • Incorporación de información disponible ene l formato estándar decidido • Realización de tres aproximaciones de almacenamiento del catálogo • Descripción del esquema de trabajo planteado y finalmente realizado sobre búsqueda semántica. • Generación de conjunto de preguntas y comparación entre buscador textual y ontológico. • Desarrollo de buscador textual y buscador basado en facetas. • Comparación de aproximaciones con TRECEval. No se puedo realizar de forma completa debido a la falta de disponibilidad de juicios de relevancia.
4.Propuestas para almacenamiento del catálogo y gestión de la búsqueda • El primer paso, descargar las fichas en RDF DC y texto plano • Trabajar con Protégé: necesidad de convertir RDF DC a OWL • Para ello, se desarrolla una herramienta (parser) que realiza esta conversión • Búsquedas textuales: Apache Solr • Instalación de servidor completo de Apache Solr • Creación de dos directorios: fichas facetadas y sin facetar • Indexación en lenguaje BASH para ambos casos
4.1.RDF DC a OWL • Ficha en formato RDF DC
4.1.RDF DC a OWL • Ficha en formato final OWL
4.1.RDF DC a OWL • Parser desarrollado
4.1.RDF DC a OWL • Se selecciona el fichero origen • Se selecciona el fichero de destino • Se define el nombre del objeto • Se definen los campos identificadores • Se agregan las propiedades • Pulsamos convertir
4.1.RDF DC a OWL • Ficheros obtenidos
4.2.Modelo Ontológico con Protégé • Cargamos el fichero .owl
4.2.Modelo Ontológico con Protégé • Entidades
4.2.Modelo Ontológico con Protégé • Información de las entidades
4.2.Modelo Ontológico con Protégé • Jerarquía de la ontología de forma gráfica
4.3.Modelo textual con Solr • Una vez instalado Apache Solr, el siguiente paso es crear los directorios donde se almacenan las fichas categorizadas por sus características y sin categorizar, para poder hacer una comparación en la búsqueda de los resultados en ambos casos. • Antes de realizar la indexación, se debe eliminar del fichero los caracteres de control que puedan provocar un fallo por parte del indexador.
4.4.Propuesta de búsqueda semántica • Se plantearon las siguientes fases: • Análisis del problema principal a resolver • Estudio de las posibles soluciones existentes para resolver el problema de búsqueda • Selección de la solución que vamos a experimentar en este trabajo de investigación • Elección de las herramientas necesarias para poder aplicar la solución elegida • Desarrollo de las herramientas necesarias para abarcar el problema • Fase de aplicación de la solución, realizando la experimentación y analizando los resultados obtenidos tras la prueba.
4.4.Propuesta de búsqueda semántica • La fase de aplicación a la solución se subdividió en: • Clasificación de consultas • Realización de búsquedas de elementos de forma facetada y de forma textual • Comparación de los resultados obtenidos
5.Experimentación • Clasificación de consultas: Generación de tabla de preguntas de tipo Q-A. • Realización de búsquedas sobre la base de datos facetada y sin facetar: obtener y almacenar los distintos resultados obtenidos de dichas consultas en nuestra base de datos con datos sin facetar y con datos facetados, para así, en una última fase, poder valorar la diferencia de tiempo / calidad de respuesta en cada uno de los casos. • Comparación de los resultados obtenidos en ambos casos análisis y evaluación de los resultados obtenidos en las consultas realizadas sobre la base de datos de fichas facetadas y sin facetar.
5.1.Clasificación de consultas • Equivalencia variable – DC - OWL
5.1.Clasificación de consultas • Demostración con enlaces (ver pdf)
5.2.Búsquedas facetada y textual • Funcionamiento de consultas Solr • Parser semántico que traduce a lenguaje Solr.
5.2.1.Funcionamiento de consultas en Solr • Interfaz gráfica • Posibilidad de url manual de búsqueda • http://casa.jabenitez.com/solr/fichasFacetadas/select?indent=on&version=2.2&q=titulo%3A*1952*&fq=&start=0&rows=10&fl=titulo%2Cscore&wt=&explainOther=&hl=on&hl.fl=titulo
5.2.1.Funcionamiento de consultas en Solr • Versión XML
5.2.1.Funcionamiento de consultas en Solr • Versión JSON • Versión PHP
5.2.1.Funcionamiento de consultas en Solr • Parámetros básicos de Solr: • q (query) Especifica la consulta de búsqueda. • fq (filterquery) Permite filtrar los resultados de la búsqueda según criterios. • sort (ordenación) Ordena de forma ascendente o descendente. • fl (fields) Permite especificar los campos que va a devolver Solr. Por defecto *, score • wt (writertype) Indica cuál es el procesador de salida que componga la cadena de respuesta. por defecto wt=xml. • Start Indica la primera fila a devolver del conjunto de elementos resultantes (comienzo de página). • Rows Número máximo de elementos a devolver del resultado (elementos por página). • omitHeader Permite obviar el elemento header en la respuesta.
5.2.2.Parser semántico que traduce consultas a Solr • Interfaz gráfica del buscador