120 likes | 218 Views
Wie arbeitet der Brill-Tagger und warum macht er Fehler? .
E N D
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er betreibt keine Satzanalyse, sondern betrachtet nur das zu taggende Wort und dessen nahe Umgebung um zu entscheiden, welche Wortklasse am wahrscheinlichsten sein wird. Die Regeln und statistischen Werte lernt der Tagger selbständig aus einem manuell korrigierten sog. Trainingscorpus.
1. Das Vorgehen des Taggers • 1.1. Nachschlagen im Lexikon • 1.2. Lexikalische Regeln • 1.3. Bigramregeln • 1.4. Kontextregeln
1.1. Nachschlagen im Lexikon Das Lexikon besteht aus einer Liste von Wörtern, gefolgt von ihren möglichen Tags, wobei das im Trainingscorpus wahrscheinlichste zuerst steht. Falls der Kandidat im Lexikon steht, so wird ihm das im Trainingscorpus wahrscheinlichste Tag provisorisch zugewiesen. Falls der Kandidat nicht im Lexikon steht, so wird großgeschriebenen Kandidaten (das gilt natürlich nur im Deutschen) provisorisch das Tag Nomen (NN) zugeteilt, während für kleingeschriebene Kandidaten unbekannt (XX) provisorisch festgelegt wird. Daraufhin wird mittels der folgenden Regeln versucht, die Wortklasse zu präzisieren.
1.2. Lexikalische Regeln Kleingeschriebene, nicht im Lexikon vorhandene Kandidaten werden auf ihre interne Struktur wie Präfixe und Suffixe untersucht. Die folgende selbstgelernte lexikalische Regel besagt beispielsweise, dass ein Wort mit dem 3-buchstabigen Suffix -bar wahrscheinlich (Wahrscheinlichkeitswert=5) ein Adjektiv in prädikativer Position (ADJD) ist:
1.3. Bigramregeln Nur für nicht im Lexikon (1.) gefundene Kandidaten zieht der Tagger eine Sammlung von Bigrammen zu Rate, die aus einem beliebig großen, im Genre dem Trainingscorpus verwandten, aber ungetaggten Corpus gewonnen wird. Aus dieser Bigrammsammlung findet der Tagger heraus, welche Worte häufig unmittelbar vor oder hinter dem Kandidaten zu pflegen stehen (adjacant pairs). Je nach deren Wortart entschließt sich der Tagger dazu, das provisorische Tag des Kandidaten zu belassen oder in eine anderes zu transformieren.
1.4. Kontextregeln Kontextregeln gelten für bekannte Wörter und können über den Bigrammrahmen hinausgreifen. Sie transformieren ein provisorisch dem Kandidaten zugewiesenes Tag in ein anderes im Lexikon aufgeführtes, falls die Wortumgebung dies opportun macht. Die folgende selbstgelernte Regel besagt beispielsweise, dass flektierteVollverben (VVFIN) in flektierte Hilfsverben (VAFIN) transformiert werden sollen, falls in den nächsten 3 Wörtern ein Partizip (VVPP) auftaucht. VVFIN VAFIN NEXT1OR2OR3TAG VVPP Diese Regel kommt bei Verben zum Einsatz, die gemäßs Lexikon sowohl Voll- als auch Hilfsverben sein können, also vor allem bei sein und haben.
2. Typische Fehler • 2.1. Faule und übereifrige Kontextregeln • 2.2. Eifrige lexikalische Regeln • 2.3. Zu kleines Lexikon
2.1. Faule und übereifrige Kontextregeln Schon aus dem obigen Beispiel ist ersichtlich, dass diese Regeln, die zwar in der Mehrzahl der Fälle richtige Resultate liefern, auch Fehler machen. Steht ein Partizip weiter weg als drei Tags vom provisorisch als Vollverb getaggten Kandidaten, was leicht der Fall sein kann, so vermag obige Regel das Vollverb nicht mehr in ein Hilfsverb zu verwandeln. Umgekehrt kann diese Regel auch echte Vollverben fälschlicherweise in Hilfsverben überführen. Während der Satz Der Brief ist lang. richtig getaggt wird, verwandelt obige Regel das ist im folgenden Satz zu unrecht in ein Hilfsverb: Der Brief ist lang, erreicht hat er aber nichts. Eine richtige Syntaxanalyse könnte hier Abhilfe schaffen, wäre aber rechnerisch wesentlich aufwendiger.
Ohne Syntaxregeln hat der Tagger beispielsweise auch große Schwierigkeiten, die Relativpronomen der, die, den etc. von Artikeln zu unterscheiden. Aufzählungen von Nomen, getrennt durch Kommata, sind nämlich in unserem Trainingscorpus etwa gleich häufig wie Relativsätze. Deshalb kommt der Tagger erst gar nicht auf die Idee, diese Artikel nach Kommata in Relativpronomina zu transformieren. In einigen Fällen schafft es der Tagger aber trotzdem, Relativpronomina richtig zu erkennen, z. B. durch folgende Kontextregel: ARTDEF PRELS SURROUNDTAG C PPER Diese Regel besagt, dass ein definitiver Artikel (natürlich nur falls er gemäßs Lexikoneintrag auch ein Relativpronomen sein könnte) nach einem Komma und vor einem Personalpronomen in ein Relativpronomen transformiert werden soll.
Tatsächlich ist ein Satzelement wie Der Brief, den ich lese wesentlich häufiger als ein Satzelement wie Der Brief, die mir zugestellte Postkarte, und alle Postsendungen sonst ...
2.2. Eifrige lexikalische Regeln Mit Worten, die nicht im Lexikon stehen, stellen lexikalische Regeln allerlei sinnvolles und sinnloses an. Während die weiter oben zitierte Regel bar hassuf 3 ADJD 5 meist sinnvoll ist, wird durch sie das unbekannte Wort Privatbar auch zu einem Adjektiv gemacht. Da viele Adverbien in -ch enden, wird der unbekannte Hirsch durch eine ähnlich fleissige Regel
2.3. Zu kleines Lexikon Viele der allerhäufigsten Wörter in einem kleineren Trainingscorpus erscheinen nie oder nur in einer Wortart. Dieser Punkt ist vorläufig der Hauptgrund für viele seltsam anmutende Fehler. Hier wird sich die Situation auch rasch bessern durch das Anwachsen des Taggers und den Einbau externer Wortlisten.