1 / 26

Hintergrund I

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium „Exploitation of natural language corpora“ 12/7/02. Hintergrund I.

caesar
Download Presentation

Hintergrund I

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse multilingualer Korpora für übersetzungswissenschaftliche FragestellungenElke TeichFR 4.6, Angewandte Sprachwissenschaft, UdSKolloquium „Exploitation of natural language corpora“ 12/7/02

  2. Hintergrund I • Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen • Hermeneutik: law of interference, law of growing standardization (Toury 95) • Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) • Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) • Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

  3. Hintergrund II • Gegenstand: Interaktion Intonation und Grammatik • Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) • Verhältnis stress und Informationsfokus • Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) • Datenbanken gesprochener Sprache • Einzelsätze: ToBI, SFG; EMU • Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU

  4. Ziele des Vortrags • Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen • Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

  5. Korpusbasierte Übersetzungswissenschaft • Beobachtungen & Hypothesen: Übersetzungen • sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte  explicitation • haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte • haben mehr Sätze als vergleichbare ZS-Originaltexte • haben eine niedrigere type-token ratio als vergleich- bare ZS-Originaltexte • haben eine geringere lexikalische Dichte als vergleich- bare ZS-Originaltexte • sind „normaler“ als vergleichbare ZS-Originaltexte  normalization, standardization • lassen QS durchscheinen  interference, shining-through • Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte  simplification

  6. Beispiel Übersetzungen D-E, E-D    max min    • Effekte: zielsprachenspezifisch? quellsprachenabhängig?

  7. Beispiel Übersetzung E-D BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibt‘s in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski) •  Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55S) • Interpretation? Erklärung? Sprachtypologie Genre (+Register)

  8. Kritikpunkte, Schlußfolgerungen • andere ZS: Beobachtungen teilweise nicht bestätigt • Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? • Alternativer Ansatz: Basis Kontrastive Linguistik • Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text • Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) • Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus • Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query

  9. parallel corpus monolingually comparable corpus monolingually comparable corpus parallel corpus multilingually comparable corpus Methode: Korpus English original texts German translations English translations German original texts

  10. Beispiel Korpusuntersuchung • Übersetzungen von populärwissenschaftlichen Texten E-D, D-E • Scientific American/Spektrum der Wissenschaft („Doherty-Korpus“) und populärwissenschaftliche Buchpublikationen • ein Register: verschiedene fields, tenor: Experte – Laie  Vergleichbarkeit • „gute“ Übersetzungen • pro Subkorpus: 10 samplesà 1000 Wörter (ca. 10 000 Wörter); expositorisch • Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren? • Resultate & Interpretation • Techniken der Analyse

  11. Theorie: Sprachtypologie, Registertheorie • Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1:Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2:In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. • Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: • relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) • z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

  12. Beispiel Passiv/Passivalternativen G-ORI E-ORI G-ORI – E-ORI Subkorpus active 389 278 79 165 passive 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI E-ORI passive 79 165 passive 146 64 alternatives 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

  13. Hypothesen & ihre Herleitung: Passiv/Passivalternativen • Hypothesenformulierung E-ORI—G-TL • In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) • In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

  14. Hypothesen & ihre Herleitung: Passiv/Passivalternativen • Hypothesenformulierung G-ORI—E-TL • In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) • In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

  15. Resultate & Interpretation E-ORI G-TL G-ORI active 278 357 389  schwaches shining-through (Passiv) in G-TL 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10(1 df > 2.71) E-ORI G-TL G-ORI passive alternatives 64 163 146 165 100 79 passive G-ORI – G-TL: 2 = 0.0; nicht signifikant  kein normalization-Effekt (Passivalternativen) in G-TL

  16. Resultate & Interpretation G-ORI E-TL E-ORI active 389 218 278  normalization (Passiv) in E-TL 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01(1 df > 6.64) G-ORI E-TL E-ORI passive alternatives 146 62 64 79 186 165 passive E-ORI – E-TL: 2 = 0.1; nicht signifikant  kein shining-through-Effekt (Passivalternativen) in E-TL

  17. Resultate & Interpretation • mehr Effekte in G-TL: mehr shining through in G-TL • weniger Effekte in E-TL: mehr normalization in E-TL • Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) • Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

  18. T e x t / S a t z l ä n g e, S a t z a n z a h l T y p e – T o k e n R a t i o Techniken: Basis German original texts English translations

  19. Techniken: Korpusannotation I • PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) • TnT output (TSV): If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ , YC effect NN1 is VBZ desired VVN , YC strophanthin PN1 will VM be VB0 needed VVN . YF

  20. Query Konkordanz Techniken: Korpusquerying • Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) • Query-Syntax: reguläre Ausdrücke

  21. Techniken: Korpusannotation II • Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) • Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (O‘Donnell 95) <codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben? </segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: </segment> <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. </segment> <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst, </segment> <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen, </segment> ... </body>

  22. Techniken: Korpusquerying

  23. Probleme • Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen • verschiedene Formate • verschiedene Datenstrukturen • Integrierte Repräsentation, z.B. XML • Aber: Problem Query

  24. Beispiel Our-XML <?xml version="1.0" encoding="UTF-16"?> <words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word> </words> <?xml version="1.0" encoding="UTF-16"?> <clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text> </clause> (Teich et al. 2001)

  25. special purpose general purpose Probleme • Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? • CQP (Christ 94) • TigerSearch (König & Lezius 2002) • GSearch (Corley et al., 2001) • Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? • Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL • Semistrukturierte Daten: XSLT, XQuery • Intersecting hierarchies – ok;aber: overlapping segments? • annotation graphs (Bird & Liberman 2001) • Mate, stand-off markup (Thompson & McKelvie97), Our-XML • aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery?

  26. Zusammenfassung und Ausblick • Annotierte Korpora als linguistische Datenbanken: • Linguistik • Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... • Verschiedene Perspektiven auf ein Korpus • Abfragen auf mehreren Annotierungsschichten • Vergleich verschiedener Annotierungen desselben Korpus • Informatische Techniken • superimposed information • Querysprachen • Tool kit: • Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML • Definition von Querytypen (XQuery; XSLT) • zusätzliche layers; mehr Daten

More Related