1 / 63

Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents.

liza
Download Presentation

Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo Tesis doctoral Laura Plaza Morales Dirigida por Dr. D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban

  2. Contents • Introduction • UsingSemanticGraphs in AutomaticSummarization • Case Studies • Evaluation • Conclusions and FutureWork Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  3. Contenidos • Introducción • Definición del Problema • Motivación y Contribución • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  4. Introducción – Definición del Problema • Sobrecarga de información • Resúmenes mono-documento • Resúmenes multi-documento • Resumen: Transformación de uno o varios documentos mediante reducción de su contenido • Selección de lo importante  Extracción • Generalización de lo importante Abstracción • Predominio de los enfoques por extracción Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  5. Introducción – Definición del Problema • La GeneraciónAutomática de Resúmenes (GAR) esunatareacompleja • Detección de temas • Desambiguación léxica y semántica • Resolución de acrónimos • Resolución de anáforas y referencias • Simplificación y fusión de oraciones • Eliminación de redundancia Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  6. Introducción – Definición del Problema • Técnicas de generación de resúmenesporextracción • Enfoques superficiales • Posición de las oraciones • Frecuencias de los términos • Expresiones o frases indicativas • Técnicas discursivas • Análisis de la estructura del discurso y de las relaciones entre términos • Técnicas basadas en grafos Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  7. Introducción – Motivación y Contribución • Problema:Representación del documentomedianteinformaciónque se extraedirectamente del documento (palabras u oraciones) • Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis. • Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis. El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los resúmenes generados Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  8. Introducción – Motivación y Contribución • Problema: Sistemasgenéricosfrente a sistemasespecializados • Sistemasgenéricos:Capaces de generarresúmenes de cualquiertipo de documento, a costa de reducir la calidad del resultado • Sistemasespecializados:Capaces de generarresúmenes de mayor calidad, aunquerestringidos a un únicodominio de aplicación Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de diferentes dominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  9. Introducción – Motivación y Contribución • Problema: Ningún intento por resolver abreviaciones • Problema: Ningún intento por resolver la ambigüedad Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada dominio/fuente de conocimiento Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  10. Introducción – Motivación y Contribución • Métodogenéricopara la GAR de textos de diferentestipologías y campos de conocimiento • Representación del documentocomo un grafo de conceptos y relaciones del dominio • Técnicas de agrupamientoparadetectargrupos de conceptosfuertementerelacionados, quedeterminan los distintostemastratados en el documento • Generación de distintostipos de resúmenes en función del contenidodeseado • Estudio del efecto de la ambigüedad y la presencia de acrónimos • Evaluación del método en tresdominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  11. Contenidos • Introducción • Uso de Grafos Semánticos para la GeneraciónAutomática de Resúmenes • Casos de Estudio • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  12. Arquitectura Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  13. Etapa I: Pre-procesado • Eliminación de secciones irrelevantes • Eliminación de palabras vacías • Extracción del cuerpo, título y abstract • Segmentación en oraciones (GATE) <CONFIG> <CATEGORY name "DOCUMENT_PREPROCESSING"> <PROPERTY name =“FORMAT”></PROPERTY> <PROPERTY name=“IGNORED_TAGS”></PROPERTY> <PROPERTY name = “STOP_LIST”></PROPERTY> </CATEGORY> <CATEGORY name ="TAG"> <PROPERTY name ="XML_TITLE“></PROPERTY> <PROPERTY name ="XML_ABSTRACT“></PROPERTY> <PROPERTY name ="XML_BODY"></PROPERTY> … </CATEGORY> ….. </CONFIG> Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  14. Etapa II: Traducción de Oraciones a Conceptos • Objetivo: Traducir del léxico de cada oración a conceptos del dominio • Requisitos: • Base de conocimiento • Mecanismo de traducción • Algoritmo de desambiguación (WSD) BC <CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> </CATEGORY> <CATEGORY name =“CONCEPT_FILTER"> <PROPERTY name =“FILTER_1”></PROPERTY> </CATEGORY> ….. </CONFIG> Oración: término1término2 … términon WSD • concepto1concepto2 … concepton Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  15. Etapa III: Representación de la Oración • Objetivo: Crear una jerarquía de conceptos que representa a cada oración • Requisitos: • Relación de hiperonimia en la base de conocimiento • Definir los niveles de la jerarquía a ignorar hiperónimo{1,2,3,n-1,n} hiperónimo{2,3,n-1,n} hiperónimo1 hiperónimo{2,3,n-1,n} hiperónimo1 hiperónimo{3,n-1,n} hiperónimo2 hiperónimo1 hiperónimo3 hiperónimo{n-1,n} hiperónimo2 concepto1 … … concepto3 … hiperónimon hiperónimon-1 concepto2 concepton concepton-1 Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  16. Etapa IV: Representación del Documento • Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento • Fusionar los grafos de las oraciones • Añadir nuevas relaciones entre conceptos • Asignar pesos a las aristas del grafo Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  17. Etapa IV: Representación del Documento • Requisitos: • Definir las relaciones semánticas a utilizar • Definir la fórmula para el cálculo del peso de las aristas <CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> <PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY> </CATEGORY> <CATEGORY name =“RELATIONS"> <PROPERTY name =“HYPERNYMY”>YES</PROPERTY> <PROPERTY name =“RELATION_1”></PROPERTY> <PROPERTY name =“RELATION_2”></PROPERTY> … </CATEGORY> <CATEGORY name “HYPERNYMY"> <PROPERTY name =“WEIGTH”></PROPERTY> </CATEGORY> ….. </CONFIG> Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  18. Etapa IV: Representación del Documento Coeficiente de Jaccard Coeficiente de Dice-Sorensen hiperónimo{1,2,n-1,n} 1/2 1/2 hiperónimo{2,n-1,n} hiperónimo1 2/3 2/3 hiperónimo1 hiperónimo{2,n-1,n} 3/4 3/4 3/4 hiperónimo{n-1,n} hiperónimo2 hiperónimo1 4/5 4/5 hiperónimo{n-1,n} 4/5 … hiperónimo{1,2,n-1,n} concepto2 5/6 5/6 concepto1 1 hiperónimon concepton-1 2/3 2/3 hiperónimo{2,n-1,n} hiperónimo1 1 6/7 concepton 4/5 4/5 hiperónimo1 hiperónimo{2,n-1,n} 6/7 6/7 6/7 hiperónimo{n-1,n} hiperónimo2 hiperónimo1 8/9 4/5 hiperónimo{n-1,n} 8/9 … 10/11 concepto2 10/11 concepto1 1 hiperónimon concepton-1 1 12/13 concepton Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  19. Etapa V: Agrupamiento de Conceptos • Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento • Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999) • Agrupamiento basado en la conectividad (Yoo et al., 2007) • Cálculo del prestigio osalience de cada vértice • Los n vértices de mayor salience se denominan concentradores ohubs • Iterativamente, los hubvertices se agrupan enHubVertex Sets • Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  20. Etapa VI: Asignación de Oraciones a Clusters • Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración? • En función del número de conceptos que coinciden entre el grafo de la oración y el cluster Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  21. Etapa VII: Selección de Oraciones • Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar • Heurística 1: Todas las oraciones se seleccionan del cluster de mayor tamaño (tema principal del documento) • Heurística 2: Todos los clusters contribuyen con un número de oraciones proporcional a su tamaño • Heurística 3: Para cada oración, se calcula una única puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  22. Etapa VII: Selección de Oraciones • Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento • Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  23. GAR Multi-documento Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  24. Contenidos • Introducción • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Resúmenes mono-documento de Artículos Biomédicos • Resúmenes mono-documento de Noticias Periodísticas • Resúmenes multi-documento de Páginas Web Turísticas • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  25. Caso de Estudio: Biomedicina • Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central • Características: • Multiplicidad contenido: texto, tablas, imágenes. • Estructura IMRAD (Introduction, Method, Results And Discussion) • Terminología especializada • Sinónimos y homónimos • Elisiones, neologismos y abreviaciones Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  26. Caso de Estudio: Biomedicina • Etapa I: Pre-procesado: • Formato: xml • Secciones irrelevantes: Autores, Instituciones, Publicación, Conflicto de intereses, Agradecimientos, Contribuciones, Referencias. • Lista de palabras vacías:PubMedStopWords: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html#Stopwords Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  27. Caso de Estudio: Biomedicina • Etapa II: Traducción de oraciones a conceptos • Base de conocimiento: • UnifiedMedicalLanguageSystem (UMLS) • MetaMap • Algoritmos de desambiguación: • Journal Descriptor Indexing • Personalized PageRank Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  28. UnifiedMedicalLanguageSystem • Léxico Especializado • Metatesauro • Conceptos ↔ C0009443:Common Cold • Relaciones ↔C0009443:Common Coldrelated_toC0027442:Nasopharynx • Red Semántica • Tipos Semánticos ↔ T047:Disease orSyndrome • Relaciones Semánticas ↔ Bacterium es_unOrganism • Metatesauro ↔ Red Semántica C0009443:Common Cold↔T047:Disease orSyndrome Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  29. UnifiedMedicalLanguageSystem • MetaMap • Traducción automática de texto a conceptos del Metatesauro Phrase: HeartAttackTrial Meta Candidates (8): 827 C0008976:Trial (Clinical Trial) [Research Activity] 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 660 C0018787:Heart [Body Part, Organ, or Organ Component] 660 C0277793:Attack, NOS (Onset of illness) [Finding] 660 C0699795:Attack (Attackdevice) [MedicalDevice] 660 C1261512:attack (Attackbehavior) [Social Behavior] 660 C1281570:Heart (Entire heart) [Body Part, Organ, or Organ Component] 660 C1304680:Attack (Observation of attack) [Finding] Meta Mapping (901): 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 827 C0008976:Trial (Clinical Trials) [Research Activity] Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  30. UnifiedMedicalLanguageSystem • Ambigüedad en el Metatesauro Phrase: Tissues Meta Mapping (1000): 1000 C0040300:Tissues (Bodytissue) Phrase:are Phrase:oftencold MetaMapping(888): 694 C0332183:Often (Frequent) 861 C0234192:Cold (ColdSensation) MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009443:Cold (CommonCold) MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009264:Cold (ColdTemperature) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  31. Desambiguación • JournalDescritorIndexing • Conceptos semánticamente consistentes con el resto de conceptos en su contexto. • Personalized PageRank • Un grafo que representa la jerarquía completa de la base de conocimiento, para cada palabra ambigua • Adaptación a UMLS • Metatesauro como base de conocimiento • Conjunto de candidatos: Meta Mappings Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  32. Caso de Estudio: Biomedicina Activity Disease Personnel Anatomic Structure Clinical or Research Activity Professional Personnel System or Substance Disorder Or Finding Finding by Site or System Research Activity Disease or Disorder Clinicians Organ System Cardiovascular System Finding Non-Neoplastic Disorder Disorder by Site Study Cardiovascular System Non-Neoplastic Disorder by Site Respiratory and Thoracic Disorder Eliminación de los dos niveles superiores Blood Pressure Finding Clinical Study Non-Neoplastic Cardiovascular Disorder Hypertensive Disease Thoracic Disorder Clinical Trials Non-Neoplastic Vascular Disorder Non-Neoplastic Heart Disorder Heart Disorder Cerebrovascular Disorder Congestive Heart Failure Coronary Heart Disease Cerebrovascular Accident The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension. • Etapa III: Representación de la oración

  33. Caso de Estudio: Biomedicina • Etapa IV: Representación del documento • Relaciones Semánticas: • Relación related to entre conceptos del Metatesauro • Relación associatedwithentre tipos de la Red Semántica The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  34. Caso de Estudio: Biomedicina Disease or Disorder Non-Neoplastic Disorder Disorder by Site Finding by Site or System Respiratory and Thoracic Disorder Disorder of Cardiovascular System Non-NeoplasticDisorder by Site Organ System Cardiovascular Diseases Non-NeoplasticCardiovascular Disorder Cardiovascular System Finding Cardiovascular System Thoracic Disorder Non-Neoplastic Heart Disorder Non-Neoplastic Vascular Disorder Blood Pressure Finding Heart Disorder Congestive Heart Failure Cerebrovascular Disorder Hypertensive Disease Coronary Heart Disease Cerebrovascular Accident Pharmaceutical Adjuvant Cardiovascular Drug Research Activity 1/2 1/2 Diuretic Study Alpha-Adrenergic BlockingAgent 2/3 2/3 Thiazide Diuretics Clinical Study Clinicians 1 3/4 Doxazosin Chlorthalidone Clinical Trials

  35. Caso de Estudio: Periodismo • Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002 • Características: • Estructura: Titular, Entrada y Cuerpo • Organización: Pirámide invertida • Amplitud temática y de vocabulario • Concisión Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  36. Caso de Estudio: Periodismo • Etapa I: Pre-procesado: • Formato: xml • Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación • Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  37. Caso de Estudio: Periodismo • Etapa II: Traducción de oraciones a conceptos • Base de conocimiento: • WordNet • WordNet::SenseRelate • Algoritmo de desambiguación: • Lesk Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  38. WordNet • Conocimiento de ámbito general • Concepto ≈ Synset (Synonym set) {00007626} person#1, individual#1, someone#1, somebody#1, mortal#1, soul#2 • Definición ≈ Gloss person#1 - (a human being; "there was too much for one person to do") person#2 - (a human body; "a weapon was hidden on his person") • Relaciones • Hiponimia/Hiperonimia • Holonimia/Meronimia • Términos coordinados • … Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  39. WordNet • Ambigüedad en WordNet Tissues 1. tissue (part of an organism …) 2. tissue, tissue paper (a soft thin …) Are 1. be (have the quality of being) … 13. cost, be (be priced at) often 1. frequently, often (many times...) 2. much, a great deal, often (frequently...) cold 1. cold, common cold (a mild viral…) 2. coldness, cold (the absence of heat…) 3. cold, coldness (the sensation …) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 39

  40. WordNet::SenseRelate • Traducción de texto a conceptos de WordNet y desambiguación de su significado • Lesk > wsd.pl −−type WordNet::Similarity::lesk −−contextsentencesFile −−formattagged −−stoplistconfig/SRStopWord.txt The red#n#4 car#n#1 be#v#1 parked#a#1 near#a#2 the supermarket#n#1 Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  41. Caso de Estudio: Periodismo • Etapa III: Representación de la oración • Eliminación de los tres niveles superiores de la jerarquía • Etapa IV: Representación del documento • Relaciones Semánticas: • Relación de similitud semántica entre conceptos, calculada según la métrica jcn definida en WordNet::Similarity • Sólo aquellas entre conceptos cuya similitud supera un determinado umbral de similitud Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  42. Caso de Estudio: Periodismo entity physical entity abstract entity abstraction physical object process thing geological formation group measure location phenomenon body of water fundamental quantity 1/2 social group region shore natural phenomenon sea 2/3 coast territory organization physical phenomenon time period territorial division defense 3/4 calendar day atmospheric phenomenon country 4/5 Hurricane Gilbert swept toward the Dominican RepublicSunday, and the Civil Defense alerted its heavily populated south coast to prepare for high winds, heavy rains and high seas day of the_week windstorm weather Dominican Republic 5/6 cyclone wind precipitation rest day 6/7 hurricane rain 1 sunday 1 • Etapa IV: Representación del documento

  43. Caso de Estudio: Turismo • Configuración del método para generar resúmenes multi-documento de páginas web turísticas (Aker y Gaizauskas, 2009) • Características: • Terminología amplia y poco especializada, vocabulario cotidiano • No estructurados • Amplitud temática • Tipo de monumento/lugar descrito, ubicación, información histórica y artística, información sobre horarios de visita, precios, etc. • Foros, publicidad, publicidad de la empresa que aloja la información, etc. Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  44. Caso de Estudio: Turismo • Misma configuración que para el caso de estudio periodístico • Resumen multi-documento  ¡¡Redundancia!! • Eliminación del contenido repetido utilizando el sistema de Implicación Textual de Ferrández et al. (2007) • O1 implica O2  La información de O2 está contenida en O1  O2 se descarta del resumen • O1 implica O2YO2 implica O1 O1 y O2 son semánticamente equivalentes  Se descarta la oración de menor puntuación Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  45. Contenidos • Introducción • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Evaluación • Metodología de Evaluación • Parametrización • Efecto de la ambigüedad • Comparación con otros sistemas • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  46. Evaluación– Metodología • Métricas • Contenido informativo: ROUGE • Comparación automática de resúmenes automáticos y modelos • Legibilidad: Criterios DUC/TAC • Calidad gramatical • Redundancia • Claridad referencial • Foco • Estructura y coherencia • Colecciones • 150 artículos científicos (BioMed Central) • 567 noticias periodísticas (DUC 2002) • 308x10 páginas web turísticas (Aker & Gaizauskas, 2010) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  47. Evaluación– Metodología • Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente • Significancia estadística:Test de los signos de Wilcoxon • Parametrización • Porcentaje de hubvertices • Combinación de relaciones semánticas • Umbral de similitud • Peso de las aristas (Jaccard vs. Dice-Sorensen) • Combinación de criterios de selección de oraciones Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  48. Evaluación– Parametrización Biomedicina Periodismo Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  49. Evaluación– Efecto de la Ambigüedad • Biomedicina * Test de los signos Wilcoxon (p<=0.01) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

  50. Evaluación– Efecto de la Ambigüedad • Periodismo * Test de los signos Wilcoxon (p<=0.05) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

More Related