1 / 33

Ralph Grishman „ Information Extraction: Techniques and Challenges “

Ralph Grishman „ Information Extraction: Techniques and Challenges “. Referat von Felix Jungermann 12.11.2002. Ralph Grishman – „ Information Extraction: Techniques and Challenges “. 1. Einleitung. 1.1 Über den Artikel. - Autor Ralph Grishman. - Professor an der Universität von New York.

Download Presentation

Ralph Grishman „ Information Extraction: Techniques and Challenges “

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ralph Grishman „Information Extraction: Techniques and Challenges“ Referat von Felix Jungermann 12.11.2002

  2. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 1. Einleitung 1.1 Über den Artikel - Autor Ralph Grishman - Professor an der Universität von New York - Mitbegründer des Proteus Projekts - Verfasst im Jahr 1997 12.11.2002 Felix Jungermann -2-

  3. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 1.2 Was versteht man unter I.E.? - Gezielt Informationen aus grossen Textbeständen - Identifikationen von Ereignissen und Beziehungen - Strukturierte Repräsentation (ähnlich Datenbank) - Grosses Interesse durch MUC - MUC-3: Terrorismus - Wer, was, wann, wo, mit welchen Folgen? 12.11.2002 Felix Jungermann -3-

  4. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 19 March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT). INCIDENT TYPE bombing DATE March 19 LOCATION El Salvador: San Salvador (city) PERPETRATOR urban guerrilla commandos PHYSICAL TARGET power tower HUMAN TARGET - EFFECT ON PHYSICAL TARGET destroyed EFFECT ON HUMAN TARGET no injury or death INSTRUMENT bomb 12.11.2002 Felix Jungermann -4-

  5. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Andere MUC: JointVentures oder Positionswechsel - Keineswegs volles Textverständnis - Volles Textverständnis = alle Informationen - I.E. : Bestimmung von Semantik der Ausgabe 12.11.2002 Felix Jungermann -5-

  6. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 1.3 Wieso besteht Interesse an I.E.? - Viele Informationen NUR in natürlichsprachlichen Texten - Aktuelle Möglichkeiten: Textarchiv, Internet - Aktuelle Möglichkeiten stossen auf Grenzen! - Grosse Vorteile bei Verarbeitung techn. Texte - Beispiel Krankenblatt 12.11.2002 Felix Jungermann -6-

  7. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Effizienz immer noch schlecht! - Systeme mit schlechter Performanz trotzdem von Vorteil - Informationen müssen „gut“ vorliegen, damit aktuelle Systeme gut arbeiten 12.11.2002 Felix Jungermann -7-

  8. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 2. I.E. am Beispiel MUC - Erhalt des „training corpus“ - Systeme werden bearbeitet - Abgabe des „test corpus“ - Vergleich zwischen „answer key“ und „test corpus“ - precision und recall ( F-Note = (2*p*r)/(p+r) ) 12.11.2002 Felix Jungermann -8-

  9. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3. Grundlegende Techniken der I.E. 3.1 Einführung - Prozess besteht aus zwei grundlegenden Teilen - Lokale Textanalyse - Analyse der erarbeiteten Bestandteile - Fakten ins Ausgabeformat konvertieren 12.11.2002 Felix Jungermann -9-

  10. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Fakten werden mithilfe von Mustern extrahiert - Muster dürfen keinen konkreten Wortstücken oder -abfolgen entsprechen - Daher: Strukturierung der Eingabe! - Lexikalische Analyse - Namenserkennung - Syntaxanalyse 12.11.2002 Felix Jungermann -10-

  11. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3.2 Mustererkennung und Strukturaufbau - Beispiel: Sam Schwartz retired as executive vice president of the famous hot dog manufacturer, Hupplewhite Inc. He will be succeeded by Harry Himmelfarb. 12.11.2002 Felix Jungermann -11-

  12. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Um endgültiges template zu generieren, benötigt man semantische Strukturen - „entity“ - „event“ - Diese werden aus der Syntax extrahiert 12.11.2002 Felix Jungermann -12-

  13. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3.3 Lexikalische Analyse - Zerlegung des Textes in Sätze - Worte der Sätze werde im Lexikon „nachgeschlagen“ - Proteus benutzt „Complex Syntax dictionary“ und andere Lexika 12.11.2002 Felix Jungermann -13-

  14. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3.4 Namenserkennung - Erkennung echter Namen sowie anderer spezieller Formen, wie z.B. Datumsangaben - Verschiedene Merkmale für Namenserkennung - Personennamen <> Firmennamen - Firmenlexikon ist hilfreich! 12.11.2002 Felix Jungermann -14-

  15. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Das Beispiel momentan: [name type: personSam Schwartz] retired as executive vice president of the famous hot dog manufacturer, [name type: companyHupplewhite Inc.] He will be succeeded by [name type: personHarry Himmelfarb]. - Erkennen von Aliasnamen - Aliasnamen sind hilfreich als Referenz für Namen 12.11.2002 Felix Jungermann -15-

  16. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3.5 Syntaktische Struktur - Komplette Syntaxidentifikation ist problematisch - Einige Systeme bilden komplette Syntaxstrukturen - Proteus (und andere) gehen Kompromisse ein: - Substantive und linke nähere Bestimmung - Prädikatgruppen mit Hilfsverben 12.11.2002 Felix Jungermann -16-

  17. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Das Beispiel unterteilt in Substantiv- (ng) und Prädikatgruppen (vg) : [ng entity: e1 Sam Schwartz][vg retired] as [ng entity e2 executive vice president] of [ng entity: e3 the famous hot dog manufacturer], [ng entity: e4 Hupplewhite Inc.][ng entity: e5 He][vg will be succeeded] by [ng entity: e6 Harry Himmelfarb]. - Informationen der Gruppen werden noch untersucht 12.11.2002 Felix Jungermann -17-

  18. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Für jede Substantiv-Gruppe wird eine sogenannte semantische entity erstellt entity e1 type: person name: „Sam Schwartz“ entity e2 type: position value: „executive vice president“ entity e3 type: manufacturer entity e4 type: company name: „Hupplewhite Inc.“ entity e5 type: person entity e6 type: person name: “Harry Himmelfarb” 12.11.2002 Felix Jungermann -18-

  19. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Grössere Substantiv-Gruppen werden gebildet - Verbindung von zwei Gruppen - Entity enthält dann hinzugefügte Informationen - Aufstellen der isa-Hierarchie 12.11.2002 Felix Jungermann -19-

  20. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Es ergibt sich folgende Markierung für das Beispiel: [ng entity: e1 Sam Schwartz][vg retired] as [ng entity e2 executive vice presidentofthe famous hot dog manufacturerHupplewhite Inc.][ng entity: e5 He][vg will be succeeded] by [ng entity: e6 Harry Himmelfarb]. 12.11.2002 Felix Jungermann -20-

  21. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Nun ergeben sich die entities wie folgt: entity e1 type: person name: „Sam Schwartz“ entity e2 type: position value: „executive vice president“ company: e3 entity e3 type: manufacturer name: „Hupplewhite Inc.“ entity e5 type: person entity e6 type: person name: “Harry Himmelfarb” 12.11.2002 Felix Jungermann -21-

  22. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 3.6 Szenario-Mustererkennung - Bis jetzt Vorbereitung für Szenario-Mustererkenn. - Dem zu untersuchenden Positionswechsel liegen zwei Muster zugrunde: - person retires as position - person is succeeded by person 12.11.2002 Felix Jungermann -22-

  23. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Ereignis-Klauseln (events) werden aufgestellt [clause event: e7 Sam Schwartz retired as executive vice president of the famous hot dog manufacturer Hupplewhite Inc.] [clause event: e8 He will be succeeded by Harry Himmelfarb.] 12.11.2002 Felix Jungermann -23-

  24. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Nun werden die events zusätzlich verzeichnet: entity e1 type: person name: „Sam Schwartz“ entity e2 type: position value: „executive vice president“ company: e3 entity e3 type: manufacturer name: „Hupplewhite Inc.“ entity e5 type: person entity e6 type: person name: “Harry Himmelfarb” event e7 type: leave-job person: e1 position: e2 event e8 type: succeed person: e6 person2: e5 12.11.2002 Felix Jungermann -24-

  25. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Pronomen werden geprüft - Verbindungen des Pronomens werden auf eine eine kurz zuvor benutzte entity des Typs person übertragen 12.11.2002 Felix Jungermann -25-

  26. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Also folgt: entity e1 type: person name: „Sam Schwartz“ entity e2 type: position value: „executive vice president“ company: e3 entity e3 type: manufacturer name: „Hupplewhite Inc.“ entity e6 type: person name: “Harry Himmelfarb” event e7 type: leave-job person: e1 position: e2 event e8 type: succeed person: e6 person2: e1 12.11.2002 Felix Jungermann -26-

  27. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Weiteres Nutzen der isa-Hierarchie - Über mehrere Sätze verstreute Informationen müssen kombiniert werden - Schlussfolgerungen über Informationen - Was impliziert zum Beispiel „succeed“? 12.11.2002 Felix Jungermann -27-

  28. Ralph Grishman – „Information Extraction: Techniques and Challenges“ • Beispiele: Sam was president. He was succeeded by Harry. • Sam will be president; he succeeds Harry. • leave-job(X-person, Y-job) & succeed(Z-person, X-person) • -> start-job(Z-person, Y-job) - start-job(X-person, Y-job) & succeed(X-person, Z-person) -> leave-job(Z-person, Y-job) ... event e7 type: leave-job person: e1 position: e2 event e8 type: succeed person: e6 person2: e1 event e9 type: start-job person: e6 position: e2 12.11.2002 Felix Jungermann -28-

  29. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 4. Probleme im Aufbau 4.1 Partielle oder vollständige Analyse - Frühere Systeme führten komplette syntaktische Analysen durch - Man benötigt jedoch nur Struktur in Hinsicht aufs Szenario! 12.11.2002 Felix Jungermann -29-

  30. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Proteus arbeitet mit Metaregeln - subject=company verb=hired object=person Beispiel-Syntaxbaum 12.11.2002 Felix Jungermann -30-

  31. Ralph Grishman – „Information Extraction: Techniques and Challenges“ - Folgende Strukturen sind denkbar: v ng1 ng2? ng1 v ng2 ng2 v ng1 etc. - Diese werden dann von dem System erstellt: hired company person? company hired person person was hired by company person, who was hired by company person, hired by company etc. - Aktuelle Systeme arbeiten mit Werten um 80% (mit handgeklammerten Texten trainiert!!!) 12.11.2002 Felix Jungermann -31-

  32. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 4.2 Portabilität - Umstellen der Systeme ist problematisch! - Umstellen muss leichter und automatisiert werden - AutoSlog für MUC-4 - Systeme mithilfe ML wurden entwickelt - Viele Beispiele <> wenige bearbeitete Beispiele - Proteus arbeitet mit interaktivem Tool 12.11.2002 Felix Jungermann -32-

  33. Ralph Grishman – „Information Extraction: Techniques and Challenges“ 4.3 Performanz-Probleme - MUC-6: beste Systeme erreichten F von nur 51-56 - Ähnliches Design - Mittlerer Level schnell zu erreichen - Steigerungen „sehr teuer“ - Unwissen über aktuelles Szenario - Je mehr Extraktionen, umso besser 12.11.2002 Felix Jungermann -33-

More Related