340 likes | 516 Views
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente. Dra. Rocío Abascal-Mena. DC-2006, México. Contenido. Introducción Propuesta para la creación de un nuevo modelo de documento Extracción de conceptos
E N D
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Introducción • Contexto: Biblioteca Digital. • Instituto Nacional de Ciencias Aplicadas de Lyon, Francia (INSA). • Consulta Integral de Tesis en Red (CITHER) • Difusión de tesis en línea. • Búsqueda a partir de palabras claves. • Búsqueda por catálogo. • Formato PDF (Portable Document Format).
Introducción • Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente. • Nuestro trabajo consiste en: • Modelar la tesis durante su creación. • Permitir la búsqueda de información pertinente. • Uso de “etiquetas semánticas”.
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Etapa 2 Tesis Tesis con las nuevas etiquetas Estudiante Almacenamiento de Etapa 1 la tesis Creación manual de etiquetas Llamado a Llamado a la ( 1 ) ( 2 ) ( 3 ) Nomino base Base de CITHER Conceptos Propuesta para la creación de un nuevo modelo de documentos
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Extracción de conceptos • Estudio comparativo de 4 herramientas de extracción automática de conceptos: • Copernic Summarizer • Nomino • TerminologyExtractor • Xerox Terminology Suite (XTS) • Corpus: 25 documentos científicos. • Análisis basado en la “precisión” y la “exhaustividad”.
Documentos relevantes recuperados Precisión = Documentos recuperados Extracción de conceptos • La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.
Documentos relevantes recuperados Exhaustividad = Documentos relevantes Extracción de conceptos • La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.
Extracción de conceptos • Resultados del análisis de nuestro corpus:
Extracción de conceptos • Selección de Nomino como la herramienta más adecuada a nuestras necesidades. • A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Análisis de la estructura lógica • Dos tipos de análisis: • Estructura lógica • Estructura semántica • Análisis de la estructura lógica: • Observando la organización de la tesis constatamos que: • Siguen un plan, estructura “descomposición lógica”. • Existe una relación entre la estructura “semántica”.
Análisis de la estructura lógica • Análisis de los principales conceptos extraídos de acuerdo a la estructura lógica • Nomino se apoya en dos principios: • “ganancia al alcance”: estipula que la información es aún más importante si es rara • “ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor • Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes
Análisis de la estructura lógica • Resultados • Para nuestro estudio: • Índice • Introducción • Conclusión Son de menor interés
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Análisis de la estructura semántica • “Segmento semántico”: descomposición o corte del documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados. • Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.
Análisis de la estructura semántica • Análisis de la estructuración de la tesis de acuerdo a sus “segmentos semánticos”.
Análisis de la estructura semántica • Un ejemplo de la extracción de conceptos usando dos “segmentos semánticos”.
Análisis de la estructura semántica • Validación del interés de cortar la tesis en diferentes “segmentos semánticos” • Localización de las partes de la tesis más ricas en información • Extracción de conceptos del área de estudio (informática) • Creación de una base de conceptos del área
Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión
Un nuevo modelo de documento • (1) Creación de un documento de tipo TESIS • Estructura lógica (recomendaciones del Ministerio de Educación + Universidad). • Estructura semántica: usando XML Schéma.
Etapa 2 Tesis Tesis con las nuevas etiquetas Estudiante Almacenamiento de Etapa 1 la tesis Creación manual de etiquetas Llamado a Llamado a la ( 1 ) ( 2 ) ( 3 ) Nomino base de conceptos Base de CITHER Conceptos Un nuevo modelo de documento • (2) Puesta en marcha de un sistema que ayuda al estudiante a la hora de redactar su tesis.
Un nuevo modelo de documento Nomino Extracción de conceptos haciendo una llamada a Nomino
Conclusión • Definición de un nuevo modelo de documento tipo “TESIS” • Permitiendo el acceso a las partes pertinentes de los documentos • Conjugando simultáneamente las 2 estructuras: lógica y semántica • Construcción de una herramienta para la generación de tesis • Obedeciendo a una estructura predefinida y controlable • Permitiendo la integración de los conceptos con el fin de describir el contenido • Aprovechando la experiencia del autor
Conclusión • Dra. Rocío Abascal Mena mabascal@correo.cua.uam.mx