280 likes | 430 Views
Parallelkorpora Паралле ́ льные корпуса ́. Florian Thelen (florian.thelen@stud.uni-graz.at). Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošovi ć 28. 3. 2006. Definition Определе ́ ние. Was sind Parallelkorpora ?
E N D
ParallelkorporaПаралле́льные корпуса́ Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović 28. 3. 2006
DefinitionОпределе́ние Was sind Parallelkorpora ? • A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996) • Texts accompanied by their translation. (Véronis 2002) • Corpora which hold the same texts in more than one language. (McEnery/Wilson 1996) SE: Slawische Korpuslinguistik, SS 2006 2
DefinitionОпределе́ние Was sind Parallelkorpora? • Textsammlung bzw. Korpus собра́ние те́кстов • Mehrsprachigkeitмногоязы́чность • Äquivalente Texteэквивале́нтные те́ксты • Verknüpfung der Texteвыра́внивание те́кстов SE: Slawische Korpuslinguistik, SS 2006 3
AbgrenzungОтделе́ние Unterschiede gegenüber anderen Korpora: • einsprachige Korporaодноязы́чные корпуса́ • vergleichbare Korporaсравни́мые корпуса́ • multilinguale Korporaмногоязы́чные корпуса́ SE: Slawische Korpuslinguistik, SS 2006 4
Arten von ParallelkorporaВи́ды паралле́льных корпусо́́в Unterteilung in: • bi- & multilingualeдву- и многоязы́чные • mono- & bidirektionale одно- и двунапра́вленные • alignierte & nicht- alignierte(не)выро́вненные • annotierte & nicht- annotierte(не)анноти́рованные SE: Slawische Korpuslinguistik, SS 2006 5
AnwendungsbereicheО́бласти примене́ния • Lexikographieлексикогра́фия • Grammatik грамма́тика • Semantikсема́нтика • Sprachpädagogikпедаго́гика языко́в SE: Slawische Korpuslinguistik, SS 2006 6
AnwendungsbereicheО́бласти примене́ния • Übersetzungswissenschaft тео́рия перево́да • Vergl. Literaturwissenschaftсрав. лит.ве́денние • Kulturwissenschaftкултьурове́денние SE: Slawische Korpuslinguistik, SS 2006 7
LexikographieЛексикогра́фия • Korrektur bestehender Wörterbücher • Erweiterung bestehender Wörterbücher • Erstellung neuer Fachwörterbücher • Kontrastive Untersuchungen SE: Slawische Korpuslinguistik, SS 2006 8
AlignementВыра́внивание • Definition: Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen • Absatz: Fragmentierungфрагмента́ция • Satz: sentencealignementвыра́внивание предложе́ний • Wort: wordalignementвыра́внивание слов SE: Slawische Korpuslinguistik, SS 2006 9
AlignementВыра́внивание 6 Fälle von Alignement: • 1 Satz (L1) = 1 Satz (L2) • 2 Sätze (L1) = 1 Satz (L2) • 1 Satz (L1) = 2 oder mehrere Sätze (L2) • 2 Sätze (L1) = 2 Sätze (L2), aber innere Grenzen fallen nicht zusammen • Satz (L1) wird nicht übersetzt • Satz (L2) hat kein Äquivalent im Original und wurde vom Übersetzer eingefügt SE: Slawische Korpuslinguistik, SS 2006 10
TexteТе́ксты Verhältnis Original (L1) zu Übersetzung (L2): • Original entspricht eine authentischen Übersetzung (z.B. Dokumente internationaler Organisationen. • Original entspricht einer menschlichen Übersetzung. • Original entspricht einer maschinellen Übersetzung. • Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts. SE: Slawische Korpuslinguistik, SS 2006 11
ProblemeПробле́мы Nach Ebeling 2000: • Übersetzer machen Fehler. • Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen. • Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert. SE: Slawische Korpuslinguistik, SS 2006 12
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • KACENKA (Masaryk Universität Brno) Sprachen: Tschechisch – Englisch Inhalt: Belletristik Umfang: 3,297,283 Wörter Verfügbarkeit: CD-ROM SE: Slawische Korpuslinguistik, SS 2006 13
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Bohemica.com (Dominik Lukeš) Sprachen: Tschechisch – Englisch Inhalt: Belletristik; Sachbücher Umfang: 99,905 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 14
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • IJS - ELAN (Institut Jožef Stefan) Sprachen: Slowenisch – Englisch Inhalt: Belletristik Umfang: ~ 1,000,000 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 15
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan) Sprachen: Slowenisch – Englisch Inhalt: EU- Rechtstexte Umfang: ~ 10,000,000 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 16
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • The TELRI Republic (TELRI Working Group WG9) Sprachen: Bulgarisch- Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch – Polnisch – Rumänisch – Slowakisch – Slowenisch Inhalt: Platos „Republik“ Umfang: nicht bekannt Verfügbarkeit: Internet (nur für TELRI Mitglieder) SE: Slawische Korpuslinguistik, SS 2006 17
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • MULTEXT-East 1984 corpus (Institut Jožef Stefan) Sprachen: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch Inhalt: George Orwells „1984“ Umfang: 100,000 Wörter (englisches Original) Verfügbarkeit: CD-ROM SE: Slawische Korpuslinguistik, SS 2006 18
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Textcorpus „Idiot“ (ÖAW, Wien) Sprachen: Russisch – Deutsch Inhalt: Dostojevskijs „Idiot“ Umfang: noch unbekannt Verfügbarkeit: online nicht verfügbar SE: Slawische Korpuslinguistik, SS 2006 19
Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Национа́льный ко́рпусру́сского языка́ Sprachen: Russisch – Englisch Inhalt: Belletristik Umfang: ~ 2,500,000 Wörter Verfügbarkeit: Internet SE: Slawische Korpuslinguistik, SS 2006 20
AnwendungПримене́ние • Frage: Übersetzungen für das englische Wort „nice“ • Ergebnis: • хоро́шийgut • краси́вий schön • прия́тный angenehm • ми́лый lieb • отли́чный hervorragend • прили́чный anständig SE: Slawische Korpuslinguistik, SS 2006 21
AnwendungПримене́ние • Ergebnis: • симпати́чный hübsch • хоро́шенький niedlich • мирово́й friedlich • здоро́вый gesund/ cool • поря́дочный anständig • шика́рный schick • удо́бный schicklich • наря́дный elegant • до́брый gut • идеа́льный ideal SE: Slawische Korpuslinguistik, SS 2006 22
AnwendungПримене́ние • Frage: Volle Equivalenz von „love“ und „любо́вь“? • Ergebnis: любо́вь – love – passion love– любо́вь – пристра́стие – жела́ние SE: Slawische Korpuslinguistik, SS 2006 23
AnwendungПримене́ние • Frage: Übertragung einer russischen Passivkonstruktion ins Englische? • Beispielswort: „сказа́ть“ • Ergebnis: 9 Verwendungen 6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv SE: Slawische Korpuslinguistik, SS 2006 24
Literatur und QuellenЛитерату́ра и исто́чники • Добровольский и др. 2005: Добровольский, Д. О.; Кретов, А. А.; Шаров, С. А. Корпус параллельных текстов: архитектура и возможности использования. – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 263-296. • Андреева/Касевич 2005:Андреева,Е. Г.; Касевич, В. Б. Грамматика и лексика (на материале англо-русского корпуса параллельных текстов). – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 297-307. • Виландеберк 2004: Виландеберк, А. А. Корпус параллельных правовых документов как составная часть АРМ юриста-переводчика. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 72-85. • Беляева 2004: Беляева, Л. Н. Лексикографический потенциал параллельного корпуса текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 55-64. SE: Slawische Korpuslinguistik, SS 2006 25
Literatur und QuellenЛитерату́ра и исто́чники • Bernadini u.a. 2003: Bernadini, S.; Stewart, D.; Tanettin, F. Corpora in Translator Education: An Introduction. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 1-14 S. • McEnery/Wilson 2006: McEnery, T.; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S. • Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross-linguistic research. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 135-144 S. • Laviosa-Braithwaite 2003: Laviosa-Braithwaite, S. Corpora and the Translator. - In: Somers, H. L. (ed.) Computers and Translation. A Translator’s Guide. - Amsterdam: John Benjamins. - 105-117 S. • Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus-based contrastive study. Acta Humaniora 68. - Oslo: Unipub forlag. – 299 S. • Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing . – In: Véronis, J. (ed.). Parallel Text Processing. – Dordrecht: Kluwer. – 1-25 S. SE: Slawische Korpuslinguistik, SS 2006 26
Literatur und QuellenЛитерату́ра и исто́чники • http://infomap.stanford.edu/papers/bilingual-terms.pdf • http://www.ruscorpora.ru • http://www.bohemica.com/index.php?m=catalog&s=257 • http://www.comp.leeds.ac.uk/ssharoff/paraquery-ru.html • http://corpus.leeds.ac.uk/ • http://rykov-cl.narod.ru/r.html • http://www.slaviska.uu.se/korpus.htm • http://nl.ijs.si/ME/ • http://nl.ijs.si/svez/index-en.html • http://nl.ijs.si/telri/Republic/ • http://nl.ijs.si/elan/ • http://www.aac.ac.at/ • http://www.phil.muni.cz/angl/kacenka/kachna.html • http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/types/parallel.html SE: Slawische Korpuslinguistik, SS 2006 27
Literatur und QuellenЛитерату́ра и исто́чники • http://www.bmanuel.org/clr2_mp.html#Multilingual_and_Parallel_Corpora • http://devoted.to/corpora • http://www.up.univ-mrs.fr/~veronis/biblios/ptp.html • http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm • http://www.dialog-21.ru/Archive/2005/Mikhailov%20M/MihailovM.pdf • http://www.phil.pu.ru/depts/12/corp04.htm#tis • http://www.ksu.ru/f10/publications/2004/articles_1_1.php?id=10&num=9000000 • http://www.uni-tuebingen.de/uni/nss/docs/Korpora.html • http://lingo.lancs.ac.uk/devotedto/corpora/corpora2.htm • http://www.ilc.cnr.it/EAGLES96/corpustyp/node20.html • http://odur.let.rug.nl/~spenader/public_docs/Parallel_Corpora.pdf SE: Slawische Korpuslinguistik, SS 2006 28