1 / 30

An evolutionary approach for improving the quality of automatic summaries

An evolutionary approach for improving the quality of automatic summaries. Constantin Orasan. Kokou Valentin Seminar Maschinelles Lernen und Experimentelles Design. Referenz. Constantin Orasan (2003): An Evolutionary Approach for Improving the Quality of Automatic Summaries.

collin
Download Presentation

An evolutionary approach for improving the quality of automatic summaries

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. An evolutionaryapproachforimprovingthequalityofautomaticsummaries Constantin Orasan Kokou Valentin Seminar Maschinelles Lernen und Experimentelles Design

  2. Referenz Constantin Orasan (2003): An Evolutionary Approach for Improving the Quality of Automatic Summaries. In: Proceedingsofthe ACL 2003 Workshop on Multilingual SummarizationandQuestionAnswering, Sapporo, Japan

  3. Überblick • automatische Zusammenfassungen • Corpusanalyse • Methoden • Algorithmen • Evaluation • Zusammenfassung

  4. AutomatischeZusammenfassung 2 Ansätzefür automatischeZusammenfassungen • extractandrearrange • wichtigsten Sätze aus dem Text extrahieren • versuchen die Sätze kohärent neu anzuordnen • bevorzugt wenn robuste Methoden benötigt • understandandgenerate • den Text „verstehen“ • Kurzbeschreibung generieren • Methoden abhängig von der Domäne um zu „verstehen“

  5. AutomatischeZusammenfassung continuityprinciple • benötigt mind. 2 aufeinanderfolgende Äußerungen • Diese beziehen sich auf die gleiche Entität • Tom hat sich ein Auto gekauft • Es ist 12 Jahre alt • Der Motor muss augestauscht werden.

  6. Corpusanalyse • 146 menschliche Kurzbeschreibungen aus JAIR • automatischer Test durch ein simples Skript • prüft Übereinstimmung von Head Noun Phrase • 75% der Paare erfüllen das Prinzip

  7. Corpusanalyse Äußerungen welche das Prinzip verletzen werden manuell geprüft • Verbindung zwischen Äußerungen durch rhetorische Beziehungen (57%) • Wörter wurden durch semantisch äquivalente ersetzt (34%) • Verzweigungen in der Diskursstruktur durch bestimmte Wörter (9%)

  8. Corpusanalyse • continuityprinciple vorhanden in von Menschen produzierten Kurzbeschreibungen • nicht bewusste Nutzung des Prinzips • bessere Ergebnisse bei automatischen Zusammenfassungen • trotzdem nicht sicher dass man kohärenten Text bekommt

  9. Methoden • Minimierung der continuityprincipleVerletzungen • Programm muss wichtigen Information erkennen • Informationen zusammenhängend wiedergeben • 2 Methoden um Sätze zu bewerten • Content basierende Bewertung • Kontext basierende Bewertung • 2 Algorithmen nutzen gleiche Content basierende Bewertung

  10. Methoden Content-basierende Bewertung • Keyword : TF-IDF • Indicatorphrase: Meta-diskurs Marker (in thispaper, wepresent) Wert wird erhöht oder verringert • Location method: wichtige Sätze am Anfang und Ende des Documents • Title andheaders: Werte werden erhöht • Special formatingrules: Sätze mit Gleichungen werden ausgeschlossen da selten in Abstracts

  11. Methoden Kontext basierende Bewertung • Wert wird erhöht wenn Satz und Vorgänger oder Nachfolger continuityprincipleerfüllen • Wenn nicht, wird der Wert verringert • erhöht wird mit dem TF-IDF der gemeinsamen NP Köpfe • verringert mit dem höchste TF-IDF des Dokuments

  12. Algorithmen • Given an extract {Ssumm1,Ssumm2,...,Ssummm} and S thesentencewhichisconsideredforextraction • Find SprecandSnextfromtheextractwhicharetheclosestsentencebeforeand after S in document • Adjustthe score S consideringthecontextSprec,S,Snext.

  13. Algorithmen Greedy Algorithmus • alle noch nicht entnommenen Sätze werden bewertet • der Satz mit höchstem Wert wird entnommen • Algorithmus wird wiederholt bis verlangte Länge der Zusammenfassung erreicht ist

  14. Algorithmen Genetische Algorithmen • codieren das Problem als „Chromosomen“ • Länge der Chromosomen = Anzahl der Sätze der Zus. • nicht sicher das beste Ergebnis zu bekommen • Integer Werte statt binäre Codierung (3,8,10 usw.) • jeder Wert bezeichnet die Position des Satzes im Dokument

  15. Algorithmen

  16. Algorithmen • Fitnessfunktion: Summe der Werte welche in Chromosomen eingetragen sind • Selektion: weightedroulettewheel („fitteres“ ) • Genetische Operatoren: • singlepointcrossover • twomutationoperators

  17. Algorithmen Single pointcrossover

  18. Algorithmen firstmutationoperator secondmutationoperator

  19. Algorithmen • First mutationoperator soll zufällige Sätze einfügen um dem Algorithmus zu helfen • Second mutationoperator fügt zusammenhängende Sätze ein welche die Kohärenz der Zusammenfassung zu verbessern • jeder Operator hat eine bestimmte Wahrscheinlichkeit • Generell startet Population mit zufällig generierten Chromosomen • Population: 500 Chromosomen in 100 Generationen • Lösung für Problem ist das Chromosom mit höchsten Fitnesswert

  20. Evaluation • 90.000 Wörter aus 10 wissen. Texten • 8 versch. Zusammenfassungen von jedem Text • jede einzelne von Menschen gelesen und geprüft • Qualität der Zusammenfassung wird gemessen : • Kohärenz • Zusammenhang • Aussagekraft

  21. Evaluation • Kohärenz wird gemessen an der Anzahl der Diskursbrüche • Brüche entstehen wenn ein Satz scheinbar isoliert ist • Meisten markiert durch bestimmte Phrasen: • Firstly • Secondly • However • On theotherhand

  22. Evaluation • In kürzeren Zusammenfassung haben Kontext Informationen weniger Einfluss auf Diskursbrüche • IndicatingPhrases haben größeren Einfluss als continuityprinciple • Bei längeren Zusammenfassung bessere Ergebnisse erzielt • GA in allen Fällen besser als Basic Method • Greedy sehr nah an Basic Method • continuityprinciple unterschiedliche Beeinflussung der Ergebnisse je nach Text

  23. Evaluation Tabelle 1: Anzahl der Diskursbrüche in den Zusammenfassungen

  24. Evaluation • Verbesserung der lokalen Kohesion hat untergeordneten Effekt auf „baumelnde“ Referenzen • Anzahl der Referenzen verringert sich durch GA • Greddy auch hier nicht besser als Basic Method • Häufigsten Referenzen beziehen sich auf Bilder, Tabellen • As weshowed in Table 3… • Howyousee in Figure 2… • Oft kein Text und deswegen sollte es nicht vorkommen in Zusammenfassung

  25. Evaluation Tabelle 2: Anzahl der „baumelnden“ Referenzen in den Zusammenfassungen

  26. Evaluation • Content- basierende Metrik zur Beurteilung Kontext-basierender Methoden • Berechnet die Ähnlichkeit zwischen Zusammenfassung und Originaldokument • Gute Ergebnisse liegen bei einem Wert nahe 1 • GA erzielt für einige Texte die besten Ergebnisse • Greedy scheint nützliche Informationen auszuschliessen • Für einige Texte schlechtere Ergebnisse als bei Basic und Baseline

  27. Evaluation Tabelle 3: Ähnlichkeiten zwischen Zusammenfassung und Originaldokument

  28. Evaluation Vergleichen der Ergebnisse • Baseline : TF-IDF (Satz mit höchstem TF-IDF Wert) • content-basierende Methode (alle Parameter ) • Greddy Algorithmus (+ Kontext Informationen) • Genetische Algorithmus (+ Kontext Informationen) • wie Sätze aus dem Dokument extrahiert werden

  29. Zusammenfassung • Zwei Algorithmen kombinieren Content und Kontext Informationen • Greedy wählt immer einen Satz nach dem anderen aus • Einmal ausgewählt kann er nicht verworfen werden • GA bestimmt ein Set von extrahierten Sätzen • Überwindet die Begrenzung des Greedy Algorithmus • GA konsistent bessere Ergebnisse als die andern Methoden • Teilweise textabhängig wie sehr continuityprinciple Ergebnisse beeinflusst

  30. Diskussion • Da continuityprinciplemanchmal zu geringer Effekt • Kombination der CenteringTheory Prinzipien • Algorithmus auf andere Textarten anwenden • Sportartikel, Wirtschaftstexte

More Related