390 likes | 489 Views
Computerlinguistik. 8. Vorlesung (03.12.2009). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Parsing Tagging Ontologien
E N D
Computerlinguistik 8. Vorlesung (03.12.2009) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem
Computerlinguistik Unifikation HPSG und LFG sind unifikationsbasierte Grammatiktheorien. Unifikation ist eine (mathematische) Operation auf so genannten Merkmal-Wert-Matrizen. Die mathematische Theorie, die der Unifikation zugrunde liegt, ist die Gittertheorie.
Computerlinguistik Unifikation Merkmal-Wert-Matrizen sind Mengen von Paaren. Das erste Element eines solchen Paares ist das Merkmal („Attribute“ oder „Feature“); das zweite der Wert („Value“). Merkmale sind atomar. Werte sind entweder atomar oder ihrerseits Merkmal-Wert-Matrizen. Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet.
Computerlinguistik Unifikation Beispiel: cat: nomen pred: „clown“ agreement: kasus: nominativ numerus: singular genus: maskulin person: 3 Der Wert des Merkmals „agreement“ Ist eine Matrix.
Computerlinguistik Unifikation Weil Merkmal-Wert-Matrizen Mengen sind, ist die Anordnung der Merkmal-Wert-Paare in der Matrix irrelevant. kasus: nominativ numerus: singular numerus: singular kasus: nominativ ist identisch zu
Computerlinguistik Unifikation Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet. • pred: „das“ • kasus: nominativ • kasus: akkusativ • numerus: singular • genus: neutrum ist nicht erlaubt.
Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. • pred: „das“ pred: „das“ • kas: nomnum: sg = kas: nom • num: sg gen: neutr num: sg • gen: neutr Nochmals: Die Reihenfolge der Paare ist „egal“!
Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. • pred: „das“ • kas: nom num: pl = fail • num: sg gen: neutr
Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. • spec:cat: det head: cat: n spec: cat: det • pred: „der“pred: „bus“ = pred: „der“ • head: cat: n • pred: „bus“
Computerlinguistik Unifikation Formale Definition der Unifikation: Sei M eine Merkmal-Wert-Matrix. • M M = M für alle M • M [ ] = M für alle M; [ ] ist die „leere“ Matrix.
Computerlinguistik Unifikation Formale Definition der Unifikation: • Merkmal1: Wert1 Merkmal1: Wert2 Merkmal1: Wert3 Restmatrix1 Restmatrix2 Restmatrix3 mit Wert3 = Wert1, falls Wert1 atomar und Wert2 = Wert1 mit Wert3 = Wert1 Wert2, falls Wert1 Matrix und mit Restmatrix3 = Restmatrix1 Restmatrix2 =
Computerlinguistik Unifikation Formale Definition der Unifikation: • Merkmal1: Wert1 Merkmal1: Wert1 Restmatrix1 Restmatrix3 mit Restmatrix3 = Restmatrix1 Matrix2 , falls kein Merkmal-Wert-Paar mit Merkmal1 in Matrix2 enthalten ist. Matrix2 =
Computerlinguistik Unifikation Formale Definition der Unifikation: Falls keiner der genannten Fälle zum Erfolg führt, misslingt die Unifikation. Anmerkung: Unifikation ist kommutativ. M1 M2 = M2 M1
Computerlinguistik LFG – „Credo“ Syntax ist lexikongesteuert. Satz c-structure f-structure a-structure Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung Vollständigkeitsbedingung Kohärenzbedingung LEXIKON Phrasenstrukturregeln X‘-Theorie Prinzipien der f-structure Assoziation
Computerlinguistik LFG X‘-Theorie In der LFG haben Sätze keinen „head“.
Computerlinguistik LFG – Phrasenstrukturregeln In der LFG sind die Regeln mit Funktionsschemata annotiert: S NP VP (SUBJ =) = VP V NP NP (OBJ1 =) (Obj2 =) NP DET N Die Metavariablen (down) und (up) dienen dem Aufbau der f-structure aus der c-structure.
Computerlinguistik LFG – Phrasenstrukturregeln • Die Metavariablen (down) und (up) dienen dem Aufbau • der f-structure aus der c-structure. • (up) verweist auf die f-structure des Mutterknotens. • (down) verweist auf die f-structure des Knotens selbst. (Beispiel folgt.)
Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon (Vollformlexikon): handed: V ( TENSE = Past) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) clown: N ( NUM = SG) ( PRED = „clown“) child: N ( NUM = SG) ( PRED = „child“)
Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon: balloon: N ( NUM = SG) ( PRED = „balloon“) a: DET ( NUM = SG) ( SPEC = INDEF) the: DET ( SPEC = DEF)
Computerlinguistik LFG – c-structure S VP NP NP NP V DET N DET N DET N a clown handed the child a balloon
Computerlinguistik LFG – c-structure annotiert S = VP NP NP SUBJ = OBJ1 = OBJ2 = NP V DET N DET N ( TENSE = PAST) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) DET N SPEC = INDEF NUM = SG SPEC = INDEF NUM = SG SPEC = DEF a clown handed the child a balloon PRED = „clown“ NUM = SG PRED = „child“ NUM = SG PRED = „balloon“ NUM = SG
Computerlinguistik LFG – f-structure Aufbau der f-structure S f1 f3 VP f2 NP NP f4 f5 NP V DET N DET N DET N a clown handed the child a balloon
Computerlinguistik LFG – f-structure Aufbau der f-structure: Die funktionalen Gleichungen (f2 SPEC) = INDEF (f5 NUM) = SG (f2 NUM) = SG (f5 NUM) = SG (f2 NUM) = SG (f5 PRED) = „balloon“ (f2 PRED) = „clown“ (f1 SUBJ) = f2 (f3 TENSE) = PAST f1 = f3 (f3 PRED) = „hand(( SUBJ)(OBJ2)( OBJ1))“) (f3 OBJ1) = f4 (f4 SPEC) = DEF (f3 OBJ2) = f5 (f4 NUM) = SG (f4 PRED) = „child“ (f5 SPEC) = INDEF
Computerlinguistik LFG – f-structure Aufbau der f-structure: die Merkmal-Wert-Matrizen f1 f1, f3 SUBJ: f2 OBJ1: f4 f1, f3 OBJ2: f5 usw. (Tafel)
Computerlinguistik LFG – Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung: Jedem Merkmal darf maximal ein Wert zugeordnet werden. (Dies ergibt sich auch aus der Unifikation.) Vollständigkeitsbedingung: Jede f-structure, die durch einen pred-Eintrag angefordert wird, muss existieren und dabei einen eigenen pred-Eintrag enthalten. Kohärenzbedingung: Jede regierbare grammatische Funktion, die auftritt muss von dem regierenden pred-Eintrag verlangt werden.
Computerlinguistik LFG – Wohlgeformtheitsbedingungen Vollständigkeitsbedingung und Kohärenzbedingung sind Subkategorisierungsbedingungen. Wird eine der Wohlgeformtheitsbedingungen verletzt, so ist der Satz nicht wohlgeformt (nach den vorliegenden Regeln).
Computerlinguistik LFG – a-structure c-structure constituent structure f-structure functional structure a-structure argument structure Die a-Structure wird durch das Einsetzen der pred-Einträge erstellt. „hand(( SUBJ)(OBJ2)( OBJ1))“) ( SUBJ PRED) = „clown“ ( OBJ2 PRED) = „balloon“ ( OBJ1 PRED) = „child“ hand(clown, balloon, child)
Computerlinguistik Literatur • Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. • Kaplan, R. & Bresnan, J. (1982). Lexical-Functional Grammar: A formal system for grammatical representation. In: Bresnan, J. (Ed.), The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. Nachgedruckt in: Dalrymple, M., Kaplan, R.M., and Maxwell III, J.T. (Eds.), Formal Issues in Lexical-Functional Grammar. Stanford, CA: CSLI, 1995. • Sells, P. (1985). Lectures on Contemporary Syntactic Theories (= CSLI Lecture Notes 3). Stanford, CA: CSLI. • Shieber, S.M. (1986). An Introduction to Unification-Based Approaches to Grammar(= CSLI Lecture Notes 4). Stanford, CA: CSLI.
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem
Computerlinguistik Maschinelle Übersetzung Bei der maschinellen Übersetzung unterscheiden wir • (ältere) regelbasierte Verfahren, • (neuere) statistikbasierte Verfahren und • (noch neuere) hybride Verfahren.
Computerlinguistik Beispielbasierte Übersetzung Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Wir suchen nun die Übersetzung von Heute verkehren keine Züge zwischen Köln und Frankfurt.
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Heute verkehren keine Züge zwischen Köln und Frankfurt. Vandaag rijden geen treinen tussen Köln en Frankfurt. ??
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Probleme: Wir benötigen jeweils relevantes Sprachmaterial. Wir müssen identifizieren, was einander entspricht (Alignment).
Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte Übersetzung Korpus nigatsu jūsannichi 13. Februar nigatsu jūgonichi 15. Februar nigatsu nijūgonichi 25. Februar sangatsu jūsannichi 13. März sangatsu sanjūnichi 30. März Aufgabe ? 12. Mai
Computerlinguistik Literatur • Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. • Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. • Somers, H. (2003). Machine Translation: Latest Developments. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics.