1 / 45

Codirigida por: Leo Wanner y M. Teresa Cabré Castellví Programa de doctorado:

Codirigida por: Leo Wanner y M. Teresa Cabré Castellví Programa de doctorado: Ciències del Llenguatge i Lingüística Aplicada (2002-2004) Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra.

nerys
Download Presentation

Codirigida por: Leo Wanner y M. Teresa Cabré Castellví Programa de doctorado:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado: Ciències del Llenguatge i Lingüística Aplicada (2002-2004) Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra Hacia un modelo lingüístico de resumen automático de artículos médicos en español Iria da Cunha Fanego 2008

  2. Introducción Estado de la cuestión El artículo médico Marco teórico Corpus Análisis del corpus Desarrollo del modelo de resumen Implementación del modelo Aplicación del modelo y resultados Evaluación Conclusiones Líneas de trabajo futuro Guión de la presentación

  3. En esta tesis se propone una metodología para desarrollar un modelo de resumen automático basado en información lingüística de varios tipos. El modelo intenta “simular” la manera de resumir de los especialistas de un ámbito, en concreto, de la medicina. Mediante este modelo pueden obtenerse resúmenes de diferentes longitudes y características, es decir, resúmenes adaptados según las necesidades de cada uno. Introducción Tema de la tesis

  4. Introducción Definición y parámetros de elaboración del resumen “a condensed version of a source document having a recognizable genre and a very specific purpose: to give the reader an exact and concise idea of the contents of the source” (Saggion y Lapalme 2002) “an abbreviated, accurate representation of the contents of a document, preferably prepared by its author(s) for publication with it” (ANSI)

  5. 1. Analizar los resúmenes que los profesionales de un dominio especializado realizan de sus textos e identificar las estrategias que emplean de cara a desarrollar un modelo de resumen por extracción que las aplique. 2. Formalizar las estrategias empleadas por los especialistas mediante alguna estructura lingüística. 3. Encontrar un modo de integración de estas estrategias. 4. Implementar una parte del modelo de resumen. 5. Desarrollar un método de anotación lingüística eficaz para compensar la parte del modelo que no se pueda implementar por completo. 6. Constatar que es necesario explotar diversas informaciones lingüísticas de los textos para llegar a un resumen adecuado. Introducción Objetivos de la tesis

  6. 1. Los profesionales de un dominio emplean técnicas específicas para resumir sus textos especializados diferentes a las utilizadas para resumir discurso general. 1.1. Estas técnicas se pueden formalizar mediante reglas que formen parte de un modelo de resumen automático que las aplique. 2. La utilización de un solo tipo de información lingüística o solamente de la estadística no es suficiente para llegar a un resumen adecuado y deben integrarse informaciones lingüísticas de varios tipos para poder llegar a una completa representación de los textos y a un posterior resumen de los mismos: información textual, léxica, discursiva y sintáctico-comunicativa. Introducción Hipótesis o ideas de partida

  7. Estado de la cuestión Frecuencias de palabras Títulos Posición de fragmentos Palabras o frases clave Técnicas estadísticas Aprendizaje automático Nivel superficial Cadenas léxicas Correferencia / detección de anáforas Máxima de Relevancia Marginal Nivel medio Técnicas para resumen automático Rhetorical Structure Theory Estructura retórica no jerárquica Rasgos superficiales de la estructura discursiva Nivel profundo Superficiales Superficiales + detección de anáforas + conectores discursivos Cadenas léxicas + estructura retórica Pragmática + retórica Combinación de técnicas lingüísticas

  8. Resumen de textos especializados Estado de la cuestión Swales 1981 Graetz 1985 Fluck 1988 Kaplan et al. 1994 Ciapuscio 1998 Resumen manual Textos especializados en general Luhn 1959 Lehmam 1995 Saggion y Lapalme 2000 Pollock y Zamora 1975 Abracos y Lopes 1997 Teufel y Moens 2002 Farzindar et al. 2004 Resumen automático Resumen manual Swales 1981 Salager-Meyer 1990 Textos médicos Damianos et al. 2002 Johnson et al. 2002 Gaizauskas et al. 2001 Lenci et al. 2002 Kan 2003 Resumen automático

  9. Título del artículo Resumen en español Palabras clave en español Resumen en inglés (abstract) Palabras clave en inglés (keywords) Fundamento Pacientes y métodos Agradecimientos (opcional) Bibliografía Resultados Discusión El artículo médico Estructura y contenido

  10. El artículo médico Resumen del autor como punto de referencia

  11. El artículo médico

  12. El artículo médico Multidimensional Scaling

  13. A M5 M1 M2 M4 M3 M6 L1 L2 L3 L4 L5 L6 El artículo médico Clustering no supervisado

  14. Conclusiones generales Los profesionales médicos adoptan estrategias diferentes en la selección de los contenidos relevantes para sus resúmenes a las empleadas por profesionales de otros ámbitos. Los profesionales de un colectivo tienden a seleccionar los mismos fragmentos de contenido para sus resúmenes. Los resúmenes realizados por profesionales pueden emplearse para extraer criterios sobre cómo debe resumirse un texto especializado de un determinado ámbito y como punto de referencia para una posterior evaluación de un modelo de resumen. Conclusiones específicas El resumen incluye información de los 4 apartados del artículo. El resumen suele incluir información numérica en los apartados de Pacientes y métodos y Resultados. El resumen no incluye definiciones, datos históricos, o referencias a trabajos previos o relacionados. El apartado de Discusión del resumen no es más extenso que los otros. El artículo médico

  15. El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos: Estructura textual del documento Unidades léxicas representativas Estructura discursiva Estructura sintáctica Estructura comunicativa Marco teórico Cómo obtener un resumen adecuado

  16. El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos: Estructura textual del documento Unidades léxicas representativas Estructura discursiva Estructura sintáctica Estructura comunicativa Marco teórico Cómo obtener un resumen adecuado Rhetorical Structure Theory (RST)

  17. El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos: Estructura textual del documento Unidades léxicas representativas Estructura discursiva Estructura sintáctica Estructura comunicativa Marco teórico Cómo obtener un resumen adecuado Rhetorical Structure Theory (RST) Teoría Sentido-Texto (TST)

  18. Marco teórico 1.Rhetorical Structure Theory (Mann y Thompson 1988) • Teoría discursiva de organización del texto. • Estructura jerárquica. • Patrones núcleo-satélites. • Relaciones discursivas: Elaboración, Evidencia, Propósito, Condición, Contraste, etc.

  19. REMA TEMA Marco teórico 2. Teoría Sentido-Texto (Mel’cuk 1988, 2001) • Estructura sintáctica profunda de dependencias (elementos actanciales, elementos atributivos, apenditivos y coordinativos). • Estructura comunicativa (tema / rema).

  20. Subcorpus de referencia 50 artículos médicos + 50 resúmenes (Medicina Clínica / CT del IULA). 3 condiciones: artículos originales, temas de actualidad (cáncer, sida, alcoholismo, anorexia, etc.), publicación entre 1992 y 2002. Subcorpus de contraste Subcorpus de contraste para la 1ª evaluación: 5 artículos originales, 5 resúmenes de los autores, 5 resúmenes por extracción realizados por 5 médicos. Subcorpus de contraste para la evaluación final: 10 artículos originales, 10 resúmenes de los autores, 10 resúmenes por extracción realizados por 3 médicos, 10 resúmenes por abstracción redactados por 3 médicos. Corpus

  21. Análisis del corpus Análisis de los artículos y los resúmenesdel corpus de referencia • Estructura textual. • Unidades léxicas (indicadoras de relevancia o de no relevancia). • Estructura discursiva y sintáctico-comunicativa. Para averiguar las estrategias presumiblemente empleadas por los especialistas a la hora de resumir los textos de su ámbito.

  22. Análisis del corpus I. Análisis de la estructura textual • Análisis de los subtítulos de los artículos médicos y de los resúmenes del subcorpus de referencia con el objetivo de constatar que ambos siguen la estructura IMRD (Swales 1981). 2. Análisis de la relevancia de determinados fragmentos teniendo en cuenta su posición dentro del texto (Edmunson 1969; Hovy y Lin 1997, 1999).

  23. Análisis de unidades léxicas indicadoras de relevancia Unidades léxicas nominales: objetivo, objeto, propósito… Unidades léxicas verbales: realizar, estudiar, presentar, analizar… Unidades léxicas incluidas en el título del artículo (Luhn 1959). Formas verbales en 1ª persona del plural (Torii y Vijay-Shanker 2005). Unidades numéricas en Pacientes y métodos y Resultados. Análisis de unidades léxicas indicadoras de no relevancia Unidades léxicas que ser refieran a datos estadísticos o computacionales (Ejs. ELISA, SPSS, ANOVA…). Unidades léxicas que ser refieran a tablas o figuras (Ejs. Tabla 1, Figuras 7 y 8…). Unidades léxicas que ser refieran a definiciones (Ejs. se define como, definición…). Unidades léxicas que ser refieran a trabajos previos o relacionados (Ejs. et al, otros autores…). Análisis del corpus II. Análisis de unidades léxicas

  24. Análisis de la estructura discursiva (RST). Análisis de la estructura sintáctica (TST). Análisis de la estructura comunicativa (TST). Metodología de análisis: analizar las estructuras discursivas, sintácticas y comunicativas existentes en los artículos del subcorpus de referencia, observar qué fragmentos de los artículos originales incluyen los médicos en sus resúmenes, comprobar si en esas informaciones se dan regularidades en la estructura discursiva, sintáctica y/o comunicativa. Análisis del corpus III. Análisis de la estructura discursiva y sintáctico-comunicativa

  25. Análisis del corpus FUNDAMENTO (del artículo) [En la enfermedad isquémica coronaria (EIC) se han descrito diferentes alteraciones en la circulación sistémica del sistema hemostático, existiendo muy poca información de los posibles cambios que pueden acontecer en la circulación coronaria, cerca de la lesión trombótica y sus diferencias con las alteraciones encontradas a nivel periférico.]1 [La angioplastia transluminal percutánea coronaria (ATPC) ha supuesto un importante avance en el tratamiento de la EIC.]2 [La ATPC generalmente ocasiona una dilatación del diámetro coronario, bien por dilatación directa del fragmento arterial estenosado, o bien por fractura de la placa de ateroma.]3 [La alteración de la pared vascular ocasionada con este procedimiento puede exponer a la circulación nuevas superficies, como subendotelio, placa aterosclerótica o pared media vascular, aumentando el riesgo de formación de trombos.]4 [En este sentido, es conocido el riesgo de oclusión arterial aguda o tardía tras la ATPC,]5 [aunque existen pocos datos que documenten los cambios hemostáticos in situ ocasionados por esta técnica.]6 [Nos planteamos este trabajo con el doble objetivo de investigar si en los enfermos con EIC existen diferencias en distintas variables hemostáticas al efectuar sus determinaciones en la sangre obtenida del seno coronario (SC) respecto a la obtenida de la circulación periférica (CP), así como los posibles cambios que la ATPC pudiera producir en la hemostasia en ambos lugares.]7 Satélite de Background Núcleo de Background FUNDAMENTO (del resumen) Se comparan las variaciones hemostáticas en el seno coronario (SC) y en la circulación periférica (CP) en los pacientes con enfermedad isquémica coronaria (EIC), y se evalúa el efecto de la angioplastia transluminal percutánea (ATPC).

  26. A) Se eliminan los satélites de Concesión, Reformulación, Resultado, Justificación y Circunstancia. B) Se eliminan los núcleos de Interpretación y Evidencia. C) No se separan los satélites de Condición y Resumen de sus núcleos. D) No se separan los núcleos de Contraste, Unión, Lista y Secuencia. E) Se eliminan los elementos apenditivos. F) Se eliminan los satélites de Elaboración correspondientes a elementos atributivos (en concreto, explicativos). G) Se eliminan los satélites de Elaboración referentes al tema de su núcleo. H) No se eliminan los satélites de Elaboración referentes al rema de su núcleo. Análisis del corpus Regularidades discursivas y sintáctico-comunicativas

  27. Desarrollo del modelo de resumen Texto original 1) Nivel textual  Aplicación de reglas textuales: división del texto en apartados y puntuación de oraciones  Aplicación de reglas léxicas: puntuación de oraciones  Aplicación de reglas léxicas: eliminación de oraciones (o fragmentos de oraciones) 2) Nivel léxico Fase I 3) Nivel discursivo y sintáctico-comunicativo  Aplicación de reglas discursivo-sintáctico-comunicativas (DISICO): propuesta de oraciones y/o fragmentos de oraciones candidatos a ser eliminados  Aplicación de reglas de puntuación de oraciones Fase II Resumen

  28. Formalización de reglas textuales IF sentence s is one of the 3 last sentences of the Introduction section THEN Ds := Ds + ds Formalización de reglas basadas en unidades léxicas IF sentence s contains a verbal form in 1st person plural THEN Ds := Ds + ds IF sentence s contains definition or introduction d of a new concept c THEN IF d appears in parentheses THEN ELIMINATE the parenthesis from s ELSE IF |Secs.rem| > 1 ELIMINATE s from Secs.rem Formalización de reglas DISICO IF S is satellite of a BACKGROUND relation B THEN IF |SecSAT.rem| > 1 ELIMINATE S Desarrollo del modelo de resumen

  29. Métodos de evaluación de resúmenes Basados en la coherencia del resumen Métodos intrínsecos Cobertura sobre las fuentes originales Basados en la cobertura de contenidos Cobertura sobre resúmenes modelo Métodos extrínsecos Estado de la cuestón Desarrollo del modelo de resumen Clasificación extraída de Amigó (2006).

  30. Métodos de evaluación de resúmenes Basados en la coherencia del resumen Métodos intrínsecos Cobertura sobre las fuentes originales Basados en la cobertura de contenidos Cobertura sobre resúmenes modelo Métodos extrínsecos Estado de la cuestión Desarrollo del modelo de resumen ROUGE Distancia Euclidiana Clasificación extraída de Amigó (2006).

  31. Desarrollo del modelo de resumen 1ª evaluación del modelo Comparación: 5 resúmenes de nuestro modelo + 5 resúmenes de los autores + 5 resúmenes de 3 médicos + 5 resúmenes baseline. ROUGE Distancia Euclidiana Médico 1 Vector 7:1 Médico 3 Modelo Médico 2 Autor Vector 6:0

  32. Reglas textuales y léxicas: implementación en Perl. Reglas DISICO Problemas: carencia de analizadores discursivos y comunicativos, limitaciones de los analizadores sintácticos de dependencias. Solución: ofrecer al resumidor los textos ya etiquetados. 1. Etiquetaje lingüístico oracional: resumen por extracción. Uso de una base de datos. Implementación de las reglas del modelo: SQL. 2. Etiquetaje lingüístico intraoracional: resumen por extracción + compresión. Diseño de un conjunto de etiquetas XML en 3 niveles. Diseño de una DTD (Document Type Definition). Implementación de las reglas del modelo: Perl. Diseño de una interfaz de aplicación de las reglas. Implementación del modelo

  33. -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ -------------- --------------------------------------- ----------------- ----------------------------- -------------------- Implementación del modelo Resumen por extracción + compresión Resumen por extracción Texto original

  34. Implementación del modelo

  35. Implementación del modelo

  36. Implementación del modelo Texto original segmentador_medico.pl: división del texto en 4 apartados score.pl: puntuación de oraciones eliminacion.pl: eliminación de oraciones  segmentador oracional IULA  lematizador TreeTagger PhpMyAdmin: etiquetaje discursivo semiautomático a nivel oracional oralingmod.pl: resumen por extracción mediante reglas DISICO Interfaz web DISICO / sumcompleto.pl: resumen por compresión mediante reglas DISICO Oxygen XML Editor: etiquetaje discursivo semiautomático a nivel intraoracional Determinación del número de oraciones de cada apartado: se emplea la puntuación de oraciones (obtenida por score.pl) Resumen

  37. Anotadores * Etiquetaje discursivo oracional de los 10 textos del subcorpus de contraste: realizado por 5 personas. * Anotación XML intraoracional de los 10 resúmenes por extracción previamente obtenidos: realizada por nosotros. Características de los resúmenes Resúmenes de 11 oraciones (DISICO_1a: extracción / DISICO_1b: extracción + compresión). Nº de oraciones por cada apartado: Fundamento: 2 or. Pacientes y métodos: 3 or. Resultados: 4 or. Discusión: 2 or. b) Resúmenes de 11 oraciones como máximo (DISICO_2a: extracción / DISICO_2b: extracción + compresión). Oraciones obtenidas por las reglas de eliminación y las DISICO. Si el nº de oraciones obtenidas en algún apartado es mayor que el establecido  se aplican las reglas de puntuación hasta llegar al nº de oraciones establecidas en ese apartado. Aplicación del modelo y resultados

  38. Evaluación del modelo Evaluación con ROUGE Resúmenes candidatos: 1. resúmenes de nuestro modelo (DISICO_1a, DISICO_1b, DISICO_2a, DISICO_2b), 2. resúmenes baseline, 3. resúmenes Ms-Word Autosummarize. Resúmenes de referencia: 1. resúmenes de los autores de los artículos, 2. resúmenes por extracción de 3 médicos, 3. resúmenes por abstracción de 3 médicos.

  39. Evaluación con la Distancia Euclidiana Comparación entre: resúmenes DISICO_1a / DISICO_2a, resúmenes de los autores de los artículos, resúmenes por extracción de 3 médicos, resúmenes baseline, resúmenes del Ms-Word Autosummarize. Evaluación del modelo Resúmenes DISICO_1a (11 oraciones por extracción) Resúmenes DISICO_2a (máx. 11 oraciones por extracción) 39

  40. Generalrestriction: costly adaptation to other areas (although feasible). Restriction with regard to coherence: it does not include anaphora resolution. Restrictions of the rules of the model (*we carry out 2 tasks): a. We count and analyze the sentences from the DISICO_1a summaries that are not selected at least by 3 doctors: 5 sentences. 4 of these errors are solved in DISICO_2a summaries. b. We count and analyze the sentences from the DISICO_1a summaries that are selected at least by 3 doctors, but not by our model: 7 sentences. In general: isolated cases that we do not consider relevant. Exception: multinuclear relation of List. Mechanisms that are not inherent to the rhetorical structure of the text are needed in order to explain why one nucleus of a multinuclear relation is considered important by humans. (Marcu 2000) Model Evaluation Restrictions of the model

  41. Hypothesis 1. Professionals from a domain use specific techniques to summarize specialized texts that are different to the ones used to summarize general speech.Confirmed by the doctor-linguist experiment and by the final evaluation with Euclidean Distance.Hypothesis 1.1. These techniques can be formalized in the form of rules that are part of a model of automatic summarization applying them.Confirmed by the analysis of the strategies used by authors when writing their summaries and by their later formalisation in the rules included in the proposed summarization model. Hypothesis 2. The use of a single type of linguistic information is not enough to obtain an adequate summary, so linguistic information of several types must be integrated [...].Confirmed by the linguistic analysis of the articles and the summaries of the specialists, and by finding that there are regularities in the textual structure, in the use of certain lexical units, and in the discourse and syntactic-communicative structure. Conclusions Conclusions linked with the hypothesis

  42. The linguistic model of summarization that we suggest in the thesis is valid because it obtains good results in its evaluation => our work provides a relevant contribution to the state of the art on automatic summarization in Spanish, specifically, on specialized texts. The summaries written by specialists of an area (in our case, medicine) can be taken as a point of reference for the development and the evaluation of a model of automatic summarization.In short, all goals formulated at the beginning of the thesis have been fulfilled. Conclusions General conclusions

  43. … However, is linguistics enough to provide the best summaries? experiments (da Cunha et al. 2007) show that a combination of linguistic and statistical techniques further optimizes the quality of the summaries. We designed an hybrid summarizer that includes 3 summarizers: CORTEX (Torres-Moreno et al. 2002): based on Vector Space Model. ENERTEX (Fernández et al. 2007): based on statistical physics. DISICOSUM: based on linguistics. We evaluated it with ROUGE and we observed that the results of this hybrid summarizer are better than the results of any of the other 3 summarizers. Conclusions Conclusions beyond the thesis

  44. 1. Application of the summarization model to a higher quantity of medical articles. 2. Adaptation of the summarization model to other genres of the medical domain and to other specialized domains. 3. Development of a discourse parser to integrate it in our summarizer (using machine learning techniques). 4. Continuation with the research about the benefits of the combination of statistical and linguistic techniques. Lines of Future Work

  45. Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado: Ciencias del Lenguaje y Lingüística Aplicada (2002-2004) Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra Hacia un modelo lingüístico de resumen automático de artículos médicos en español Iria da Cunha Fanego 2008

More Related