290 likes | 628 Views
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?. Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007. Hauptthemen. Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode
E N D
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007
Hauptthemen • Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? • Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode Allomorphmethode • Probleme • Quellen
Was ist ein Lemma? • altgriechisch : “das Herausgenommene” • allgemein in der CL: normierte Grundform für alle zu einem Wort gehörenden Wortformen • Beispiel: • Hauses und Häuser werden zu Haus lemmatisiert
Was ist Lemmatisierung ? • Rückführung einer Wortform auf ihr Lemma. Oberflächenform • Die grammatische Wortform (hier: „lief“) hat eine eindeutige • morphologische Zuweisung (hier: Verb 3.Pers Sing) • und wird Oberflächenform genannt. • Eingabe zum Beispiel.: lief • Ausgabe des Lemmatisierers: laufen
Was ist Lemmatisierung ? • Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch Bsp: gibst geben In diesem Zusammenhang sind Grundformen: • Unflektierte Simplizia verschiedener Wortarten • Unflektierte Ableitungen und Komposita • Wortbildungsmorpheme
Was ist Lemmatisierung ? Bemerkung: Wenn wir in einem Wörterbuch nach einem Wort suchen, führen wir selbst eine „Mentale Lemmatisierung“ durch. Möchte man z. Bsp. in einem Wörterbuch die spanische Bedeutung für „geht“ nachschlagen, so schaut man unter dem Eintrag „gehen“ nach (und beschäftigt sich danach mit der Konjugation des Wortes). „geht“ ist hier die Oberflächenform; „gehen“ das Lemma.
Welche Lexikonarten werden für die Lemmatisierung verwendet? • Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden • Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird. • Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung
Lemmatisierer sind morphologische Analyseprogramme • Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung. • für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht. • Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).
Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ? Ein Tagger führt : 1.eine Lemmatisierung durch 2. weist den eingegebenen Wörtern (2) eine Wortart zu 3. bestimmt Kasus, Numerus und Genus. Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes. Jeder Tagger beinhaltet einen Lemmatisierer.
Wie wird Lemmatisierung maschinell durchgeführt? Zum Lemmatisieren braucht man also 1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie) 2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter) (natürlich kann man (2) aus (1) erzeugen)
Wie wird Lemmatisierung maschinell durchgeführt? • Zwei-Ebenen-MorphologieZwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) : • Zwei Ebenen Ausgangsform und Oberflächenform • Regeln unabhängig voneinander • Regeln können parallel angewendet werden • Jede Regel kann in einen Transducer übersetzt werden
Wie wird Lemmatisierung maschinell durchgeführt? Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer Ausgangsform: r a s + s t Oberflächenform: r a s 0 0 t
Wie wird Lemmatisierung maschinell durchgeführt? • Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden. • Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.
Wie wird Lemmatisierung maschinell erstellt? • Wortformmethode • Morphemmethode • Allomorphmethode
Wortformmethode • Oberflächenform wird lediglich mit Lexikoneintrag verglichen. • Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert. • Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.
Morphemmethode • Oberflächenform wird zuerst in Allomorphe segmentiert • danach können die morphosyntaktischen Eigenschaften bestimmt werden • Nachteil: Alle möglichen Formen müssen produziert werden
Allomorphmethode • Ähnlich Morphemmethode • Unterschied: • Segmentierte Allomorphe werden zuerst überprüft • Dann konkateniert
Allomorphmethode Vorteil gegenüber Morphemmethode: Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.
Zusammenfassung Lemmatisierer: sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen. Diese Basis bezeichnet man als Lemma. Die davon abgeleitete Form als Oberflächenform.
Zusammenfassung • Komponenten der Wortformerkennung: • Lexikon • Erkennungsalgorithmus • Kategorisierung • Lemmatisierung
Probleme • Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung • Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz • Was passiert mit Wortformen, die nicht im Lexikon gefunden werden? • Eigennamen • Komposita im Deutschen • In der Regel keine Derivationsanalyse
Probleme • Homographie • Gleiche Flexionsendungen bei mehreren Wortklassen • (-en in laufen, Regen, Tonnen) • Allomorphe • Gleiche Bedeutung aber unterschiedliche Morpheme • morphologische Mehrdeutigkeit • Mehrere Zerlegungsmöglichkeiten • (Be-inhalten vs. Bein-halten)
Das Programm Morphy • Morphy ist ein Programm, welches das passende Lemma zu einer eingegebenen Oberflächenform liefert. • Morphy beinhaltet ein Morphologiesystem und eine Taggingkomponente. • Entwickelt wurde Morphy von Wolfgang Lezius im Rahmen eines Projektes der Paderborner Arbeitsgruppe Kognitionsforschung
Quellen Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin www.spinfo.uni-koeln.de www.ifi.unizh.ch/cl/Glossar/Lemma.html www.wolfganglezius.de Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie