100 likes | 270 Views
Automatische Klassifikation von Nomen nach Begriffstyp. Christof Rumpf Heinrich-Heine-Universität 19.05.2005. Gegenstand des Projekts. Problem Automatische Klassifikation von Nomen nach Begriffstyp aufgrund morphosyntaktischer Kontextmerkmale. Methode
E N D
Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität 19.05.2005
Gegenstand des Projekts • Problem • Automatische Klassifikation von Nomen nach Begriffstyp aufgrund morphosyntaktischer Kontextmerkmale. • Methode • Erlernen eines statistischen Modells für die Klassifikation mit handannotierten Korpora, in denen die Kontextmerkmale vermerkt sind.
Kontextuelle Merkmale • Morphologische Eigenschaften • Deadjektivische Nomen sind haüfig relational oder funktional: Grösse, Intelligenz, … • Deverbale Nomen: Krümmung, Dauer, … • Komposita: -wert, -grad, -grösse, … • Grammatische Besonderheiten • Possessivkonstruktionen: seine Mutter • Definitheit: Vohandensein definter Artikel • Subkategorisierung: bestimmte Verben verlangen FB als Komplement
Annotierung von Korpora Dieses PDAT Lehr- und Lernbuch NN_SBist VAFIN der ARTDEF Versuch NN_RB1, $, eine ARTUNDEF EinführungNN_RB1in APPR die ARTDEF SemantikNN_FB1zu PTKZU bieten VVINF , $, die PRELS einerseits ADV die ARTDEF wichtigsten ADJA Themen NN_RB1 • Automatische Annotierung kontextueller Merkmale durch • Part-of-Speech-Tagging • Morphologische Analyse • Manuelle Annotierung von Begriffstypen
Bayes‘sche Disambiguierung Wort w hat n Lesarten. Lerne mittels Trainings-korpus, welche Wörter v im Kontext von w mit Les- art k auftreten. Die Lesarten für ein Wort sind verschieden häufig, bzw. wahrscheinlich. Bestimme die Lesart k von Wort w aufgrund der Wahrscheinlichkeit von k und den Wörtern im Kontext von w. Die Lesart mit der höchsten Wahrschein-lichkeit gewinnt.
Maximum Entropy Model • Definiere kontextuelle Features, die zur zur Disambiguierung beitragen können • Lerne anhand eines annotierten Korpus die Gewichte (Evidenz) der Features • Verwende den Algorithmus Generalized Iterative Scaling zum Annotieren neuer Korpora, sodass die Gewichte genauso verteilt sind, wie im Trainingskorpus
Ratnaparkhi (1996) model context feature constraint