1 / 29

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?. Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007. Hauptthemen. Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode

sherine
Download Presentation

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

  2. Hauptthemen • Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? • Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode Allomorphmethode • Probleme • Quellen

  3. Was ist ein Lemma? • altgriechisch : “das Herausgenommene” • allgemein in der CL: normierte Grundform für alle zu einem Wort gehörenden Wortformen • Beispiel: • Hauses und Häuser werden zu Haus lemmatisiert

  4. Was ist Lemmatisierung ? • Rückführung einer Wortform auf ihr Lemma. Oberflächenform • Die grammatische Wortform (hier: „lief“) hat eine eindeutige • morphologische Zuweisung (hier: Verb 3.Pers Sing) • und wird Oberflächenform genannt. • Eingabe zum Beispiel.: lief • Ausgabe des Lemmatisierers: laufen

  5. Was ist Lemmatisierung ? • Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch Bsp: gibst  geben In diesem Zusammenhang sind Grundformen: • Unflektierte Simplizia verschiedener Wortarten • Unflektierte Ableitungen und Komposita • Wortbildungsmorpheme

  6. Was ist Lemmatisierung ? Bemerkung: Wenn wir in einem Wörterbuch nach einem Wort suchen, führen wir selbst eine „Mentale Lemmatisierung“ durch. Möchte man z. Bsp. in einem Wörterbuch die spanische Bedeutung für „geht“ nachschlagen, so schaut man unter dem Eintrag „gehen“ nach (und beschäftigt sich danach mit der Konjugation des Wortes). „geht“ ist hier die Oberflächenform; „gehen“ das Lemma.

  7. Welche Lexikonarten werden für die Lemmatisierung verwendet? • Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden • Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird. • Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

  8. Lemmatisierer sind morphologische Analyseprogramme • Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung. • für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht. • Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).

  9. Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ? Ein Tagger führt : 1.eine Lemmatisierung durch 2. weist den eingegebenen Wörtern (2) eine Wortart zu 3. bestimmt Kasus, Numerus und Genus. Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes. Jeder Tagger beinhaltet einen Lemmatisierer.

  10. Wie wird Lemmatisierung maschinell durchgeführt? Zum Lemmatisieren braucht man also 1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie) 2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter) (natürlich kann man (2) aus (1) erzeugen)

  11. Wie wird Lemmatisierung maschinell durchgeführt? • Zwei-Ebenen-MorphologieZwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) : • Zwei Ebenen Ausgangsform und Oberflächenform • Regeln unabhängig voneinander • Regeln können parallel angewendet werden • Jede Regel kann in einen Transducer übersetzt werden

  12. Wie wird Lemmatisierung maschinell durchgeführt? Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer Ausgangsform: r a s + s t    Oberflächenform: r a s 0 0 t

  13. Wie wird Lemmatisierung maschinell durchgeführt? • Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden. • Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.

  14. Wie wird Lemmatisierung maschinell erstellt? • Wortformmethode • Morphemmethode • Allomorphmethode

  15. Wortformmethode • Oberflächenform wird lediglich mit Lexikoneintrag verglichen. • Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert. • Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.

  16. Wortformmethode

  17. Morphemmethode • Oberflächenform wird zuerst in Allomorphe segmentiert • danach können die morphosyntaktischen Eigenschaften bestimmt werden • Nachteil: Alle möglichen Formen müssen produziert werden

  18. Morphemmethode

  19. Allomorphmethode • Ähnlich Morphemmethode • Unterschied: • Segmentierte Allomorphe werden zuerst überprüft • Dann konkateniert

  20. Allomorphmethode Vorteil gegenüber Morphemmethode: Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.

  21. Allomorphmethode

  22. Zusammenfassung Lemmatisierer: sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen. Diese Basis bezeichnet man als Lemma. Die davon abgeleitete Form als Oberflächenform.

  23. Zusammenfassung • Komponenten der Wortformerkennung: • Lexikon • Erkennungsalgorithmus • Kategorisierung • Lemmatisierung

  24. Probleme • Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung • Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz • Was passiert mit Wortformen, die nicht im Lexikon gefunden werden? • Eigennamen • Komposita im Deutschen • In der Regel keine Derivationsanalyse

  25. Probleme • Homographie • Gleiche Flexionsendungen bei mehreren Wortklassen • (-en in laufen, Regen, Tonnen) • Allomorphe • Gleiche Bedeutung aber unterschiedliche Morpheme • morphologische Mehrdeutigkeit • Mehrere Zerlegungsmöglichkeiten • (Be-inhalten vs. Bein-halten)

  26. Das Programm Morphy • Morphy ist ein Programm, welches das passende Lemma zu einer eingegebenen Oberflächenform liefert. • Morphy beinhaltet ein Morphologiesystem und eine Taggingkomponente. • Entwickelt wurde Morphy von Wolfgang Lezius im Rahmen eines Projektes der Paderborner Arbeitsgruppe Kognitionsforschung

  27. Das Programm Morphy

  28. Die Morphymethode

  29. Quellen Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin www.spinfo.uni-koeln.de www.ifi.unizh.ch/cl/Glossar/Lemma.html www.wolfganglezius.de Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie

More Related