320 likes | 444 Views
Computerlinguistik. 2. Vorlesung (20.10.2011). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Tagging Formale Methoden Parsing
E N D
Computerlinguistik 2. Vorlesung (20.10.2011) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse
Computerlinguistik Tagging „Tagging“ bedeutet die automatisierte Zuweisung von Deskriptoren (Tags) zu den Token der Eingabe. Ein „Tagger“ ist daher zumeist so aufgebaut, dass er mit einem so genannten „Tokenizer“ startet. Ein Tokenizer unterteilt einen Eingabetext in solche Token, die für die weitere Analyse (für das eigentliche Tagging) genutzt werden können. Token sind dabei Leerzeichen, Satzzeichen, Zahlsequenzen, Wörter etc. (z.B. auch evtl. vorhandene sonstige Segmentierungsmarkierungen).
Computerlinguistik Tokenisierung – Beispiel „Bald nachdem sich das 17. Jahrhundert verabschiedet hatte, endete der Spanische Erbfolgekrieg, in den viele Nationen Europas verwickelt waren.“ (Tuchman: Der erste Salut, Kapitel 4) Wörter „Baldnachdemsichdas 17. Jahrhundertverabschiedet hatte, endete der Zahlsequenz „Bald nachdem sich das 17. Jahrhundert verabschiedet hatte, endete der
Computerlinguistik Tokenisierung – Beispiel „Bald nachdem sich das 17. Jahrhundert verabschiedet hatte, endete der Spanische Erbfolgekrieg, in den viele Nationen Europas verwickelt waren.“ (Tuchman: Der erste Salut, Kapitel 4) Satzzeichen „Bald nachdem sich das 17. Jahrhundert verabschiedet hatte,endete der Leerzeichen „Baldnachdemsichdas17.Jahrhundertverabschiedethatte,…
Computerlinguistik Tokenisierung – Beispiel Der Punkt in „das 17. Jahrhundert“ wird als Satzzeichen eingestuft.
Computerlinguistik Tagging • Nach der „Tokenization“ werden die Token, die als Wort-Token eingestuft wurden, weiter verarbeitet, indem man den getaggten Token Annotationsmerkmale zuweist oder indem man sie auf der Grundlage von Tags und von Annotationen mit weiteren Tags versieht. • Insbesondere die Wortart (syntaktische Hauptkategorie) der Worttoken wird dabei bestimmt.
Computerlinguistik Tagging • Die Bestimmung der syntaktischen Hauptkategorie ist nicht unbedingt einfach. Sie erfordert häufig die Einbeziehung kontextueller Information. • Lightthe fire. „light“ ist ein Verb. • Switch thelightoff. „light“ ist ein Nomen. • Many hands make a light work. „light“ ist ein Adjektiv. • Lars stand auf. „auf“ ist Verbpartikel. • Lars stand aufder Brücke. „auf“ ist eine Präposition.
Computerlinguistik Tagging • Bei der Bestimmung der syntaktischen Hauptkategorie werden folgende Ressourcen, zum Teil unter Einbeziehung des Kontextes, genutzt: • Lexikon • Gazetteer-Listen • „Guesser“
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • Das Lexikon liegt im einfachsten Fall als eine Liste von Vollwortformen vor. • Ökonomischer ist die Einbindung einer morphologischenAnalyse. • Auf der Grundlage des Lexikons werden dann Annotationsmerkmale zugeordnet. Die Annotationsmerkmale sind, natürlich ebenso wie eine möglicherweise eingebundene morphologische Analyse, sprach-spezifisch. Gängigerweise werden aber die Merkmale benutzt, die von GATE (http://gate.ac.uk/) zur Verfügung gestellt werden. Diese orientieren sich am Englischen.
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • Annotationsmerkmale zugeordnet nach GATE http://gate.ac.uk/ • (besonders geeignet für Englisch): • CC – coordinating conjunction: ‘and’, ‘but’, ‘nor’, ‘or’, ‘yet’, ... • CD – cardinal number • DT – determiner: ‘a’, ‘an’, ‘every’, ‘no’, ‘the’, ‘another’, ‘any’, ‘some’, ... • EX – existential there (‘There was a party in progress’). • FW – foreign word
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • IN – preposition or subordinating conjunction • JJ – adjective • JJR – adjective/comparative • JJS – adjective/superlative • JJSS – unknown, but probably a variant of JJS • LRB – unknown • LS – list item marker (numbers and letters) • MD – modal verbs: ‘can’, ‘could’, ‘dare’, ‘may’, ‘might’, ‘must’, ...
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • NN – noun, singular or mass • NNS – noun, plural • NP – proper noun, singular • NPS – proper noun, plural • PDT – predeterminer: ‘all/PDT his marbles’, ‘quite/PDT a mess’ • POS – possesive ending • PP – personal pronoun • PRP – unknown, but probably possessive pronoun
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • RB – adverb: words ending in ‘-ly’, also ‘quite’, ‘too’, ‘very’, ‘enough’, ... • RBR – adverb, comparative • RBS – adverb, superlative • RP – particle • SYM – symbol: technical symbols or expressions that aren’t English words. • TO – literal ‘to’ • UH – interjection: Such ‘oh’, ‘please’, ‘uh’, ‘well’, ‘yes’.
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • VBD – verb, past tense • VBG – verb, gerund or present participle • VBN – verb, past participle • VBP – verb, non-3rd person singular present • VB – verb, base form: subsumes imperatives, infinitives and subjunctives. • VBZ – verb, 3rd person singular present
Computerlinguistik Tagging – Lexikon – Annotationsmerkmale • WDT – wh-determiner • WP$ – possesive wh-pronoun: includes ‘whose’ • WP – wh-pronoun: includes ‘what’, ‘who’, and ‘whom’ • WRB – wh-adverb: includes ‘how’, ‘where’, ‘why’. • Includes ‘when’ when used in a temporal sense. • Die vollständige Liste findet man unter http://gate.ac.uk/sale/tao/splitap7.html#x32-593000G
Computerlinguistik Tagging – Lexikon – Annotation • Beispiel: • Annotation des Tokens „pillars“ • aufgrund des vorliegenden Lexikons und einer morphologischen Analyse
Computerlinguistik Tagging – Gazetteer • Gazetteer-Listen sind Listen mit Namen. Diese Listen werden speziell für den vorgegebenen Gegenstandsbereich angefertigt, zu dem der Text gezählt wird. Es gibt beispielsweise Listen mit • Vornamen, weiblich bzw. männlich • Nachnamen • Namen von Ländern, Provinzen, Städten, Flüssen etc. • gebräuchlichen Abkürzungen, etwa für Maßeinheiten
Computerlinguistik Tagging – Gazetteer „Europa“ findet sich im Gazetteer als „Named Entity“ (NE).
Computerlinguistik Tagging – Gazetteer Der „Spanische Erbfolgekrieg“ findet sich nicht im Gazetteer. „Spanische“ wird als Adjektiv kategorisiert.
Computerlinguistik Tagging – Gazetteer • Jedes Token, das in einer der Gazetteer-Listen geführt wird, wird mit einer zusätzlichen Annotation vom Typ „Lookup“ versehen. Dieses hat die Merkmale „majorType“ und „minorType“, die so mit Werten versehen werden, dass nachvollzogen werden, in welcher Gazetteer-Liste das Token gefunden wurde. • Ein Token, das in der Gazetteer-Liste für Städte gefunden wurde, erhält zum Beispiel die Werte „majorType = location“ und „minorType = city“.
Computerlinguistik Tagging – Gazetteer zusätzliche Annotations- schicht
Computerlinguistik Tagging – Guesser • Ein Guesser versucht, für unbekannte Wörter auf der Grundlage der syntaktischen Einbindung und der am Wort erkennbaren morphologischen Endungen deren Wortart usw. zu erraten, wonach dem Wort die entsprechenden Annotationen hinzugefügt werden. • „Dieser Rat ist es, der im wesentlichen die Staatsgeschäfte erledigt, zum Beispiel die Einleitungen zum Kriege trifft, die Aushebungen und Werbungen anordnet, den Feldherrn ernennt und ihm eine Anzahl Gerusiasten beiordnet, aus denen dann regelmäßig die Unterbefehlshaber genommen werden [...]“ (Mommsen: Römische Geschichte) NNS
Computerlinguistik Tagging – Named Entities • Auf den erzielten Annotationen kann man dann aufbauen und weitere, komplexere Annotationen erzeugen. Dies wird insbesondere für die so genannte „named entity recognition“ gemacht. • Beispielsweise kann man eine Annotation vom Annotationstyp „person“ erzeugen, die über Annotationsmerkmale wie „firstName“, „lastName“, „gender“ und „title“ verfügt, indem man Regeln zur „person“-Annotation erzeugt, die die Sequenz „Ser Barristan Selmy“ als „person“ annotiert und die Merkmale „firstName = Barristan“, „lastName = Selmy“, „gender = male“ und „title = Ser“ hinzufügt.
Computerlinguistik Tagging – Named Entities • Beispiel: Annotation von „Herr Prof. Dr. Peter Martini“ Titel Titel Titel Vorname Nachname Person
Computerlinguistik Tagging – Named Entities • „Named entities“ mit entsprechenden Annotationen können je nach Gegenstandsbereich voneinander abweichen. Beispiele sind • Personen („Ser Barristan Selmy“) • Organisationen („Queensguard“, „Dummy GmbH“, „2./PzBtl412“) • Ort, Gebäude („Kitchener Hall“, „der Kölner Dom“) • Adressen („1600 Pennsylvania Avenue NW, Washington, DC 20500“) • Datum, Epoche („5. November 2009“, „der Bürgerkrieg“) • Geldbetrag („30 Silberlinge“)
Computerlinguistik Tagging – Sentence Splitting Nicht nur auf Wort-Token, sondern auch auf Satzzeichen-Token kann man weitere Analysen aufbauen, z.B. einen „Sentence Splitter“ ...
Computerlinguistik Tagging – wörtliche Rede ... oder die Annotation von wörtlicher Rede.
Computerlinguistik Tagging Parsing In diesem Beispiel sieht man Nominalphrasen, die mittels verschiedener Regeln, z.B. „NP DT JJ NNS“ erzeugt wurden.
Computerlinguistik Literatur Cunningham, H. et al. (2006). Developing Language Processing Components with GATE, Version 5 (a User Guide). http://gate.ac.uk/sale/tao/split.html Jurafsky, D. & Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, NJ: Pearson Education, 2. Auflage. Martin, G.R.R. (2011). A Dance with Dragons. Bantam Books. Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.
Computerlinguistik Literatur Mommsen, T. (1854). Römische Geschichte. 6. Auflage: DTV, 2002. Tuchman, B. (1988). Der erste Salut. Frankfurt a.M.: Fischer. Voutilainen, A. (2003). Part-of-Speech Tagging. In: Mitkov, R. (Ed.), The Oxford Handbook of Computational Linguistics.