650 likes | 920 Views
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents.
E N D
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo Tesis doctoral Laura Plaza Morales Dirigida por Dr. D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban
Contents • Introduction • UsingSemanticGraphs in AutomaticSummarization • Case Studies • Evaluation • Conclusions and FutureWork Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contenidos • Introducción • Definición del Problema • Motivación y Contribución • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema • Sobrecarga de información • Resúmenes mono-documento • Resúmenes multi-documento • Resumen: Transformación de uno o varios documentos mediante reducción de su contenido • Selección de lo importante Extracción • Generalización de lo importante Abstracción • Predominio de los enfoques por extracción Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema • La GeneraciónAutomática de Resúmenes (GAR) esunatareacompleja • Detección de temas • Desambiguación léxica y semántica • Resolución de acrónimos • Resolución de anáforas y referencias • Simplificación y fusión de oraciones • Eliminación de redundancia Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema • Técnicas de generación de resúmenesporextracción • Enfoques superficiales • Posición de las oraciones • Frecuencias de los términos • Expresiones o frases indicativas • Técnicas discursivas • Análisis de la estructura del discurso y de las relaciones entre términos • Técnicas basadas en grafos Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución • Problema:Representación del documentomedianteinformaciónque se extraedirectamente del documento (palabras u oraciones) • Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis. • Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis. El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los resúmenes generados Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución • Problema: Sistemasgenéricosfrente a sistemasespecializados • Sistemasgenéricos:Capaces de generarresúmenes de cualquiertipo de documento, a costa de reducir la calidad del resultado • Sistemasespecializados:Capaces de generarresúmenes de mayor calidad, aunquerestringidos a un únicodominio de aplicación Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de diferentes dominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución • Problema: Ningún intento por resolver abreviaciones • Problema: Ningún intento por resolver la ambigüedad Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada dominio/fuente de conocimiento Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución • Métodogenéricopara la GAR de textos de diferentestipologías y campos de conocimiento • Representación del documentocomo un grafo de conceptos y relaciones del dominio • Técnicas de agrupamientoparadetectargrupos de conceptosfuertementerelacionados, quedeterminan los distintostemastratados en el documento • Generación de distintostipos de resúmenes en función del contenidodeseado • Estudio del efecto de la ambigüedad y la presencia de acrónimos • Evaluación del método en tresdominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contenidos • Introducción • Uso de Grafos Semánticos para la GeneraciónAutomática de Resúmenes • Casos de Estudio • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Arquitectura Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa I: Pre-procesado • Eliminación de secciones irrelevantes • Eliminación de palabras vacías • Extracción del cuerpo, título y abstract • Segmentación en oraciones (GATE) <CONFIG> <CATEGORY name "DOCUMENT_PREPROCESSING"> <PROPERTY name =“FORMAT”></PROPERTY> <PROPERTY name=“IGNORED_TAGS”></PROPERTY> <PROPERTY name = “STOP_LIST”></PROPERTY> </CATEGORY> <CATEGORY name ="TAG"> <PROPERTY name ="XML_TITLE“></PROPERTY> <PROPERTY name ="XML_ABSTRACT“></PROPERTY> <PROPERTY name ="XML_BODY"></PROPERTY> … </CATEGORY> ….. </CONFIG> Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa II: Traducción de Oraciones a Conceptos • Objetivo: Traducir del léxico de cada oración a conceptos del dominio • Requisitos: • Base de conocimiento • Mecanismo de traducción • Algoritmo de desambiguación (WSD) BC <CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> </CATEGORY> <CATEGORY name =“CONCEPT_FILTER"> <PROPERTY name =“FILTER_1”></PROPERTY> </CATEGORY> ….. </CONFIG> Oración: término1término2 … términon WSD • concepto1concepto2 … concepton Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa III: Representación de la Oración • Objetivo: Crear una jerarquía de conceptos que representa a cada oración • Requisitos: • Relación de hiperonimia en la base de conocimiento • Definir los niveles de la jerarquía a ignorar hiperónimo{1,2,3,n-1,n} hiperónimo{2,3,n-1,n} hiperónimo1 hiperónimo{2,3,n-1,n} hiperónimo1 hiperónimo{3,n-1,n} hiperónimo2 hiperónimo1 hiperónimo3 hiperónimo{n-1,n} hiperónimo2 concepto1 … … concepto3 … hiperónimon hiperónimon-1 concepto2 concepton concepton-1 Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa IV: Representación del Documento • Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento • Fusionar los grafos de las oraciones • Añadir nuevas relaciones entre conceptos • Asignar pesos a las aristas del grafo Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa IV: Representación del Documento • Requisitos: • Definir las relaciones semánticas a utilizar • Definir la fórmula para el cálculo del peso de las aristas <CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> <PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY> </CATEGORY> <CATEGORY name =“RELATIONS"> <PROPERTY name =“HYPERNYMY”>YES</PROPERTY> <PROPERTY name =“RELATION_1”></PROPERTY> <PROPERTY name =“RELATION_2”></PROPERTY> … </CATEGORY> <CATEGORY name “HYPERNYMY"> <PROPERTY name =“WEIGTH”></PROPERTY> </CATEGORY> ….. </CONFIG> Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa IV: Representación del Documento Coeficiente de Jaccard Coeficiente de Dice-Sorensen hiperónimo{1,2,n-1,n} 1/2 1/2 hiperónimo{2,n-1,n} hiperónimo1 2/3 2/3 hiperónimo1 hiperónimo{2,n-1,n} 3/4 3/4 3/4 hiperónimo{n-1,n} hiperónimo2 hiperónimo1 4/5 4/5 hiperónimo{n-1,n} 4/5 … hiperónimo{1,2,n-1,n} concepto2 5/6 5/6 concepto1 1 hiperónimon concepton-1 2/3 2/3 hiperónimo{2,n-1,n} hiperónimo1 1 6/7 concepton 4/5 4/5 hiperónimo1 hiperónimo{2,n-1,n} 6/7 6/7 6/7 hiperónimo{n-1,n} hiperónimo2 hiperónimo1 8/9 4/5 hiperónimo{n-1,n} 8/9 … 10/11 concepto2 10/11 concepto1 1 hiperónimon concepton-1 1 12/13 concepton Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa V: Agrupamiento de Conceptos • Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento • Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999) • Agrupamiento basado en la conectividad (Yoo et al., 2007) • Cálculo del prestigio osalience de cada vértice • Los n vértices de mayor salience se denominan concentradores ohubs • Iterativamente, los hubvertices se agrupan enHubVertex Sets • Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa VI: Asignación de Oraciones a Clusters • Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración? • En función del número de conceptos que coinciden entre el grafo de la oración y el cluster Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa VII: Selección de Oraciones • Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar • Heurística 1: Todas las oraciones se seleccionan del cluster de mayor tamaño (tema principal del documento) • Heurística 2: Todos los clusters contribuyen con un número de oraciones proporcional a su tamaño • Heurística 3: Para cada oración, se calcula una única puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa VII: Selección de Oraciones • Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento • Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
GAR Multi-documento Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contenidos • Introducción • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Resúmenes mono-documento de Artículos Biomédicos • Resúmenes mono-documento de Noticias Periodísticas • Resúmenes multi-documento de Páginas Web Turísticas • Evaluación • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina • Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central • Características: • Multiplicidad contenido: texto, tablas, imágenes. • Estructura IMRAD (Introduction, Method, Results And Discussion) • Terminología especializada • Sinónimos y homónimos • Elisiones, neologismos y abreviaciones Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina • Etapa I: Pre-procesado: • Formato: xml • Secciones irrelevantes: Autores, Instituciones, Publicación, Conflicto de intereses, Agradecimientos, Contribuciones, Referencias. • Lista de palabras vacías:PubMedStopWords: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html#Stopwords Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina • Etapa II: Traducción de oraciones a conceptos • Base de conocimiento: • UnifiedMedicalLanguageSystem (UMLS) • MetaMap • Algoritmos de desambiguación: • Journal Descriptor Indexing • Personalized PageRank Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
UnifiedMedicalLanguageSystem • Léxico Especializado • Metatesauro • Conceptos ↔ C0009443:Common Cold • Relaciones ↔C0009443:Common Coldrelated_toC0027442:Nasopharynx • Red Semántica • Tipos Semánticos ↔ T047:Disease orSyndrome • Relaciones Semánticas ↔ Bacterium es_unOrganism • Metatesauro ↔ Red Semántica C0009443:Common Cold↔T047:Disease orSyndrome Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
UnifiedMedicalLanguageSystem • MetaMap • Traducción automática de texto a conceptos del Metatesauro Phrase: HeartAttackTrial Meta Candidates (8): 827 C0008976:Trial (Clinical Trial) [Research Activity] 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 660 C0018787:Heart [Body Part, Organ, or Organ Component] 660 C0277793:Attack, NOS (Onset of illness) [Finding] 660 C0699795:Attack (Attackdevice) [MedicalDevice] 660 C1261512:attack (Attackbehavior) [Social Behavior] 660 C1281570:Heart (Entire heart) [Body Part, Organ, or Organ Component] 660 C1304680:Attack (Observation of attack) [Finding] Meta Mapping (901): 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 827 C0008976:Trial (Clinical Trials) [Research Activity] Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
UnifiedMedicalLanguageSystem • Ambigüedad en el Metatesauro Phrase: Tissues Meta Mapping (1000): 1000 C0040300:Tissues (Bodytissue) Phrase:are Phrase:oftencold MetaMapping(888): 694 C0332183:Often (Frequent) 861 C0234192:Cold (ColdSensation) MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009443:Cold (CommonCold) MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009264:Cold (ColdTemperature) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Desambiguación • JournalDescritorIndexing • Conceptos semánticamente consistentes con el resto de conceptos en su contexto. • Personalized PageRank • Un grafo que representa la jerarquía completa de la base de conocimiento, para cada palabra ambigua • Adaptación a UMLS • Metatesauro como base de conocimiento • Conjunto de candidatos: Meta Mappings Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina Activity Disease Personnel Anatomic Structure Clinical or Research Activity Professional Personnel System or Substance Disorder Or Finding Finding by Site or System Research Activity Disease or Disorder Clinicians Organ System Cardiovascular System Finding Non-Neoplastic Disorder Disorder by Site Study Cardiovascular System Non-Neoplastic Disorder by Site Respiratory and Thoracic Disorder Eliminación de los dos niveles superiores Blood Pressure Finding Clinical Study Non-Neoplastic Cardiovascular Disorder Hypertensive Disease Thoracic Disorder Clinical Trials Non-Neoplastic Vascular Disorder Non-Neoplastic Heart Disorder Heart Disorder Cerebrovascular Disorder Congestive Heart Failure Coronary Heart Disease Cerebrovascular Accident The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension. • Etapa III: Representación de la oración
Caso de Estudio: Biomedicina • Etapa IV: Representación del documento • Relaciones Semánticas: • Relación related to entre conceptos del Metatesauro • Relación associatedwithentre tipos de la Red Semántica The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina Disease or Disorder Non-Neoplastic Disorder Disorder by Site Finding by Site or System Respiratory and Thoracic Disorder Disorder of Cardiovascular System Non-NeoplasticDisorder by Site Organ System Cardiovascular Diseases Non-NeoplasticCardiovascular Disorder Cardiovascular System Finding Cardiovascular System Thoracic Disorder Non-Neoplastic Heart Disorder Non-Neoplastic Vascular Disorder Blood Pressure Finding Heart Disorder Congestive Heart Failure Cerebrovascular Disorder Hypertensive Disease Coronary Heart Disease Cerebrovascular Accident Pharmaceutical Adjuvant Cardiovascular Drug Research Activity 1/2 1/2 Diuretic Study Alpha-Adrenergic BlockingAgent 2/3 2/3 Thiazide Diuretics Clinical Study Clinicians 1 3/4 Doxazosin Chlorthalidone Clinical Trials
Caso de Estudio: Periodismo • Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002 • Características: • Estructura: Titular, Entrada y Cuerpo • Organización: Pirámide invertida • Amplitud temática y de vocabulario • Concisión Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo • Etapa I: Pre-procesado: • Formato: xml • Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación • Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo • Etapa II: Traducción de oraciones a conceptos • Base de conocimiento: • WordNet • WordNet::SenseRelate • Algoritmo de desambiguación: • Lesk Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet • Conocimiento de ámbito general • Concepto ≈ Synset (Synonym set) {00007626} person#1, individual#1, someone#1, somebody#1, mortal#1, soul#2 • Definición ≈ Gloss person#1 - (a human being; "there was too much for one person to do") person#2 - (a human body; "a weapon was hidden on his person") • Relaciones • Hiponimia/Hiperonimia • Holonimia/Meronimia • Términos coordinados • … Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet • Ambigüedad en WordNet Tissues 1. tissue (part of an organism …) 2. tissue, tissue paper (a soft thin …) Are 1. be (have the quality of being) … 13. cost, be (be priced at) often 1. frequently, often (many times...) 2. much, a great deal, often (frequently...) cold 1. cold, common cold (a mild viral…) 2. coldness, cold (the absence of heat…) 3. cold, coldness (the sensation …) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 39
WordNet::SenseRelate • Traducción de texto a conceptos de WordNet y desambiguación de su significado • Lesk > wsd.pl −−type WordNet::Similarity::lesk −−contextsentencesFile −−formattagged −−stoplistconfig/SRStopWord.txt The red#n#4 car#n#1 be#v#1 parked#a#1 near#a#2 the supermarket#n#1 Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo • Etapa III: Representación de la oración • Eliminación de los tres niveles superiores de la jerarquía • Etapa IV: Representación del documento • Relaciones Semánticas: • Relación de similitud semántica entre conceptos, calculada según la métrica jcn definida en WordNet::Similarity • Sólo aquellas entre conceptos cuya similitud supera un determinado umbral de similitud Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo entity physical entity abstract entity abstraction physical object process thing geological formation group measure location phenomenon body of water fundamental quantity 1/2 social group region shore natural phenomenon sea 2/3 coast territory organization physical phenomenon time period territorial division defense 3/4 calendar day atmospheric phenomenon country 4/5 Hurricane Gilbert swept toward the Dominican RepublicSunday, and the Civil Defense alerted its heavily populated south coast to prepare for high winds, heavy rains and high seas day of the_week windstorm weather Dominican Republic 5/6 cyclone wind precipitation rest day 6/7 hurricane rain 1 sunday 1 • Etapa IV: Representación del documento
Caso de Estudio: Turismo • Configuración del método para generar resúmenes multi-documento de páginas web turísticas (Aker y Gaizauskas, 2009) • Características: • Terminología amplia y poco especializada, vocabulario cotidiano • No estructurados • Amplitud temática • Tipo de monumento/lugar descrito, ubicación, información histórica y artística, información sobre horarios de visita, precios, etc. • Foros, publicidad, publicidad de la empresa que aloja la información, etc. Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Turismo • Misma configuración que para el caso de estudio periodístico • Resumen multi-documento ¡¡Redundancia!! • Eliminación del contenido repetido utilizando el sistema de Implicación Textual de Ferrández et al. (2007) • O1 implica O2 La información de O2 está contenida en O1 O2 se descarta del resumen • O1 implica O2YO2 implica O1 O1 y O2 son semánticamente equivalentes Se descarta la oración de menor puntuación Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contenidos • Introducción • Uso de Grafos Semánticos para la Generación Automática de Resúmenes • Casos de Estudio • Evaluación • Metodología de Evaluación • Parametrización • Efecto de la ambigüedad • Comparación con otros sistemas • Conclusiones y Trabajo Futuro Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación– Metodología • Métricas • Contenido informativo: ROUGE • Comparación automática de resúmenes automáticos y modelos • Legibilidad: Criterios DUC/TAC • Calidad gramatical • Redundancia • Claridad referencial • Foco • Estructura y coherencia • Colecciones • 150 artículos científicos (BioMed Central) • 567 noticias periodísticas (DUC 2002) • 308x10 páginas web turísticas (Aker & Gaizauskas, 2010) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación– Metodología • Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente • Significancia estadística:Test de los signos de Wilcoxon • Parametrización • Porcentaje de hubvertices • Combinación de relaciones semánticas • Umbral de similitud • Peso de las aristas (Jaccard vs. Dice-Sorensen) • Combinación de criterios de selección de oraciones Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación– Parametrización Biomedicina Periodismo Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación– Efecto de la Ambigüedad • Biomedicina * Test de los signos Wilcoxon (p<=0.01) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación– Efecto de la Ambigüedad • Periodismo * Test de los signos Wilcoxon (p<=0.05) Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios