170 likes | 345 Views
TnT - Statistischer Part-of-Speech Tagger. 2. Teil der Präsentation des TnT Taggers von Thorsten Brants. Gliederung. Installation und Beschreibung des Programms Erläuterungen zu Bestandteilen praktisches Beispiel mit Hilfe meiner GUI. Download von TnT.
E N D
TnT - Statistischer Part-of-Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos am 17. Juni 2002
Gliederung • Installation und Beschreibung des Programms • Erläuterungen zu Bestandteilen • praktisches Beispiel mit Hilfe meiner GUI Präsentation von Berenike Loos am 17. Juni 2002
Download von TnT • Download des TnT Taggers nach Registrierung möglich. Weitere Informationen: http://www.coli.uni-sb.de/~thorsten/tnt/ Präsentation von Berenike Loos am 17. Juni 2002
Installationshinweise für Windows • in dem mitgelieferten Manual gibt es noch keine Installationshinweise für Windows • deshalb sind die ersten Schritte unter Windows auf der folgenden Seite beschrieben Präsentation von Berenike Loos am 17. Juni 2002
Installation von TnT unter Windows • Es handelt sich um ein Kommandozeilenprogramm, also müssen die einzelnen *.exe Dateien über die DOS Eingabeaufforderung aufgerufen werden • damit TnT von jedem Verzeichnis aus gestartet werden kann: Start → Ausführen... → Öffnen: Sysedit → in autoexec.bat eintragen: Set PATH=C:\tnt Set VAR=C:\TNT\MODELS Präsentation von Berenike Loos am 17. Juni 2002
Bestandteile des TnT Taggers • tnt-para.exe für die Erstellung neuer Modelle • tnt.exe zum Taggen • tnt-diff.exe zum Vergleichen zweier getaggter Dateien • tnt-wc.exe zum Zählen von Wörtern und Tags • Ordner mit Modellen trainiert am Negra-Korpus (deutsch), WSJ-Korpus und Susanne-Korpus (englisch) • Manual Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 1. Modell (tnt-para.exe) • Ein Modell bietet Kriterien, anhand derer der Tagger Entscheidungen trifft • Vorbild für ein Modell ist eine getaggte Datei • Jedes Modell wird in zwei Dateien gespeichert: • Datei, die lexikalische Häufigkeiten repräsentiert, Endung *.lex • Datei, die kontextuelle Häufigkeiten repräsentiert, Endung *.123 Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 2. ungetaggte Datei (tnt.exe) • Dateiendung *.t • Vor Kommentaren steht %% • Nur ein Wort pro Zeile • Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 3. getaggte Datei (tnt.exe und tnt-para.exe) • Dateiendung *.tt • Vor Kommentaren steht %% • Jede Zeile enthält ein Wort und dazugehörigen Tag durch Leerzeichen getrennt • Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 4. Vergleich (tnt-diff.exe) • Zwei getaggte Dateien, die auf der selben ungetaggten Datei basieren, können verglichen werden • Möglichkeit zum Vergleich: • eine Datei mit bestehendem Modell getaggt und • eine Datei mit neuem Modell oder • eine Datei von Hand getaggt Präsentation von Berenike Loos am 17. Juni 2002
Vorgang des Taggens mit dem Modell trainiert am Negra-Korpus Modell negra.123 neu.tt neu.t Testkorpus negra.lex + = negra.tnt Trainings- korpus Präsentation von Berenike Loos am 17. Juni 2002
Vorgang des Taggens mit Modell an neuem Korpus trainiert neues Modell neu.123 text.tt text.t Testkorpus neu.lex + = neu.tt (von Hand bearbeitet) Trainings- korpus Präsentation von Berenike Loos am 17. Juni 2002
Entwicklung einer GUI für den TnT Tagger Vereinfachung der Bedienung: • zeilenweise Texteingabe möglich, da Zeilenumbrüche automatisch nach jedem Wort eingefügt werden • automatische Erstellung neuer Dateinamen • Überprüfung, ob Dateiname schon vorhanden Präsentation von Berenike Loos am 17. Juni 2002
GUI entwickelt für den TnT Tagger Präsentation von Berenike Loos am 17. Juni 2002
GUI entwickelt für den TnT Tagger Präsentation von Berenike Loos am 17. Juni 2002
Literatur & Links • T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000. • TnT Tagger: http://www.coli.uni-sb.de/~thorsten/tnt/ • Tagset des Deutschen: http://www.ifi.unizh.ch/CL/tagger/UIS-STTS-Diffs.html Präsentation von Berenike Loos am 17. Juni 2002
Folien unter: www.berenike.de Infos und Vorschläge an: loos@berenike.de Präsentation von Berenike Loos am 17. Juni 2002