260 likes | 411 Views
Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium „Exploitation of natural language corpora“ 12/7/02. Hintergrund I.
E N D
Analyse multilingualer Korpora für übersetzungswissenschaftliche FragestellungenElke TeichFR 4.6, Angewandte Sprachwissenschaft, UdSKolloquium „Exploitation of natural language corpora“ 12/7/02
Hintergrund I • Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen • Hermeneutik: law of interference, law of growing standardization (Toury 95) • Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) • Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) • Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)
Hintergrund II • Gegenstand: Interaktion Intonation und Grammatik • Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) • Verhältnis stress und Informationsfokus • Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) • Datenbanken gesprochener Sprache • Einzelsätze: ToBI, SFG; EMU • Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU
Ziele des Vortrags • Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen • Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus
Korpusbasierte Übersetzungswissenschaft • Beobachtungen & Hypothesen: Übersetzungen • sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte explicitation • haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte • haben mehr Sätze als vergleichbare ZS-Originaltexte • haben eine niedrigere type-token ratio als vergleich- bare ZS-Originaltexte • haben eine geringere lexikalische Dichte als vergleich- bare ZS-Originaltexte • sind „normaler“ als vergleichbare ZS-Originaltexte normalization, standardization • lassen QS durchscheinen interference, shining-through • Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte simplification
Beispiel Übersetzungen D-E, E-D max min • Effekte: zielsprachenspezifisch? quellsprachenabhängig?
Beispiel Übersetzung E-D BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibt‘s in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski) • Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55S) • Interpretation? Erklärung? Sprachtypologie Genre (+Register)
Kritikpunkte, Schlußfolgerungen • andere ZS: Beobachtungen teilweise nicht bestätigt • Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? • Alternativer Ansatz: Basis Kontrastive Linguistik • Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text • Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) • Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus • Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query
parallel corpus monolingually comparable corpus monolingually comparable corpus parallel corpus multilingually comparable corpus Methode: Korpus English original texts German translations English translations German original texts
Beispiel Korpusuntersuchung • Übersetzungen von populärwissenschaftlichen Texten E-D, D-E • Scientific American/Spektrum der Wissenschaft („Doherty-Korpus“) und populärwissenschaftliche Buchpublikationen • ein Register: verschiedene fields, tenor: Experte – Laie Vergleichbarkeit • „gute“ Übersetzungen • pro Subkorpus: 10 samplesà 1000 Wörter (ca. 10 000 Wörter); expositorisch • Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren? • Resultate & Interpretation • Techniken der Analyse
Theorie: Sprachtypologie, Registertheorie • Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1:Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2:In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. • Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: • relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) • z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)
Beispiel Passiv/Passivalternativen G-ORI E-ORI G-ORI – E-ORI Subkorpus active 389 278 79 165 passive 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI E-ORI passive 79 165 passive 146 64 alternatives 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)
Hypothesen & ihre Herleitung: Passiv/Passivalternativen • Hypothesenformulierung E-ORI—G-TL • In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) • In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)
Hypothesen & ihre Herleitung: Passiv/Passivalternativen • Hypothesenformulierung G-ORI—E-TL • In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) • In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)
Resultate & Interpretation E-ORI G-TL G-ORI active 278 357 389 schwaches shining-through (Passiv) in G-TL 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10(1 df > 2.71) E-ORI G-TL G-ORI passive alternatives 64 163 146 165 100 79 passive G-ORI – G-TL: 2 = 0.0; nicht signifikant kein normalization-Effekt (Passivalternativen) in G-TL
Resultate & Interpretation G-ORI E-TL E-ORI active 389 218 278 normalization (Passiv) in E-TL 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01(1 df > 6.64) G-ORI E-TL E-ORI passive alternatives 146 62 64 79 186 165 passive E-ORI – E-TL: 2 = 0.1; nicht signifikant kein shining-through-Effekt (Passivalternativen) in E-TL
Resultate & Interpretation • mehr Effekte in G-TL: mehr shining through in G-TL • weniger Effekte in E-TL: mehr normalization in E-TL • Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) • Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)
T e x t / S a t z l ä n g e, S a t z a n z a h l T y p e – T o k e n R a t i o Techniken: Basis German original texts English translations
Techniken: Korpusannotation I • PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) • TnT output (TSV): If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ , YC effect NN1 is VBZ desired VVN , YC strophanthin PN1 will VM be VB0 needed VVN . YF
Query Konkordanz Techniken: Korpusquerying • Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) • Query-Syntax: reguläre Ausdrücke
Techniken: Korpusannotation II • Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) • Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (O‘Donnell 95) <codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben? </segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: </segment> <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. </segment> <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst, </segment> <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen, </segment> ... </body>
Probleme • Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen • verschiedene Formate • verschiedene Datenstrukturen • Integrierte Repräsentation, z.B. XML • Aber: Problem Query
Beispiel Our-XML <?xml version="1.0" encoding="UTF-16"?> <words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word> </words> <?xml version="1.0" encoding="UTF-16"?> <clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text> </clause> (Teich et al. 2001)
special purpose general purpose Probleme • Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? • CQP (Christ 94) • TigerSearch (König & Lezius 2002) • GSearch (Corley et al., 2001) • Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? • Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL • Semistrukturierte Daten: XSLT, XQuery • Intersecting hierarchies – ok;aber: overlapping segments? • annotation graphs (Bird & Liberman 2001) • Mate, stand-off markup (Thompson & McKelvie97), Our-XML • aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery?
Zusammenfassung und Ausblick • Annotierte Korpora als linguistische Datenbanken: • Linguistik • Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... • Verschiedene Perspektiven auf ein Korpus • Abfragen auf mehreren Annotierungsschichten • Vergleich verschiedener Annotierungen desselben Korpus • Informatische Techniken • superimposed information • Querysprachen • Tool kit: • Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML • Definition von Querytypen (XQuery; XSLT) • zusätzliche layers; mehr Daten