1 / 28

Parallelkorpora Паралле ́ льные корпуса ́

Parallelkorpora Паралле ́ льные корпуса ́. Florian Thelen (florian.thelen@stud.uni-graz.at). Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošovi ć 28. 3. 2006. Definition Определе ́ ние. Was sind Parallelkorpora ?

azizi
Download Presentation

Parallelkorpora Паралле ́ льные корпуса ́

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ParallelkorporaПаралле́льные корпуса́ Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović 28. 3. 2006

  2. DefinitionОпределе́ние Was sind Parallelkorpora ? • A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996) • Texts accompanied by their translation. (Véronis 2002) • Corpora which hold the same texts in more than one language. (McEnery/Wilson 1996) SE: Slawische Korpuslinguistik, SS 2006 2

  3. DefinitionОпределе́ние Was sind Parallelkorpora? • Textsammlung bzw. Korpus собра́ние те́кстов • Mehrsprachigkeitмногоязы́чность • Äquivalente Texteэквивале́нтные те́ксты • Verknüpfung der Texteвыра́внивание те́кстов SE: Slawische Korpuslinguistik, SS 2006 3

  4. AbgrenzungОтделе́ние Unterschiede gegenüber anderen Korpora: • einsprachige Korporaодноязы́чные корпуса́ • vergleichbare Korporaсравни́мые корпуса́ • multilinguale Korporaмногоязы́чные корпуса́ SE: Slawische Korpuslinguistik, SS 2006 4

  5. Arten von ParallelkorporaВи́ды паралле́льных корпусо́́в Unterteilung in: • bi- & multilingualeдву- и многоязы́чные • mono- & bidirektionale одно- и двунапра́вленные • alignierte & nicht- alignierte(не)выро́вненные • annotierte & nicht- annotierte(не)анноти́рованные SE: Slawische Korpuslinguistik, SS 2006 5

  6. AnwendungsbereicheО́бласти примене́ния • Lexikographieлексикогра́фия • Grammatik грамма́тика • Semantikсема́нтика • Sprachpädagogikпедаго́гика языко́в SE: Slawische Korpuslinguistik, SS 2006 6

  7. AnwendungsbereicheО́бласти примене́ния • Übersetzungswissenschaft тео́рия перево́да • Vergl. Literaturwissenschaftсрав. лит.ве́денние • Kulturwissenschaftкултьурове́денние SE: Slawische Korpuslinguistik, SS 2006 7

  8. LexikographieЛексикогра́фия • Korrektur bestehender Wörterbücher • Erweiterung bestehender Wörterbücher • Erstellung neuer Fachwörterbücher • Kontrastive Untersuchungen SE: Slawische Korpuslinguistik, SS 2006 8

  9. AlignementВыра́внивание • Definition: Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen • Absatz: Fragmentierungфрагмента́ция • Satz: sentencealignementвыра́внивание предложе́ний • Wort: wordalignementвыра́внивание слов SE: Slawische Korpuslinguistik, SS 2006 9

  10. AlignementВыра́внивание 6 Fälle von Alignement: • 1 Satz (L1) = 1 Satz (L2) • 2 Sätze (L1) = 1 Satz (L2) • 1 Satz (L1) = 2 oder mehrere Sätze (L2) • 2 Sätze (L1) = 2 Sätze (L2), aber innere Grenzen fallen nicht zusammen • Satz (L1) wird nicht übersetzt • Satz (L2) hat kein Äquivalent im Original und wurde vom Übersetzer eingefügt SE: Slawische Korpuslinguistik, SS 2006 10

  11. TexteТе́ксты Verhältnis Original (L1) zu Übersetzung (L2): • Original entspricht eine authentischen Übersetzung (z.B. Dokumente internationaler Organisationen. • Original entspricht einer menschlichen Übersetzung. • Original entspricht einer maschinellen Übersetzung. • Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts. SE: Slawische Korpuslinguistik, SS 2006 11

  12. ProblemeПробле́мы Nach Ebeling 2000: • Übersetzer machen Fehler. • Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen. • Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert. SE: Slawische Korpuslinguistik, SS 2006 12

  13. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • KACENKA (Masaryk Universität Brno) Sprachen: Tschechisch – Englisch Inhalt: Belletristik Umfang: 3,297,283 Wörter Verfügbarkeit: CD-ROM SE: Slawische Korpuslinguistik, SS 2006 13

  14. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Bohemica.com (Dominik Lukeš) Sprachen: Tschechisch – Englisch Inhalt: Belletristik; Sachbücher Umfang: 99,905 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 14

  15. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • IJS - ELAN (Institut Jožef Stefan) Sprachen: Slowenisch – Englisch Inhalt: Belletristik Umfang: ~ 1,000,000 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 15

  16. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan) Sprachen: Slowenisch – Englisch Inhalt: EU- Rechtstexte Umfang: ~ 10,000,000 Wörter Verfügbarkeit: Internetdownload SE: Slawische Korpuslinguistik, SS 2006 16

  17. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • The TELRI Republic (TELRI Working Group WG9) Sprachen: Bulgarisch- Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch – Polnisch – Rumänisch – Slowakisch – Slowenisch Inhalt: Platos „Republik“ Umfang: nicht bekannt Verfügbarkeit: Internet (nur für TELRI Mitglieder) SE: Slawische Korpuslinguistik, SS 2006 17

  18. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • MULTEXT-East 1984 corpus (Institut Jožef Stefan) Sprachen: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch Inhalt: George Orwells „1984“ Umfang: 100,000 Wörter (englisches Original) Verfügbarkeit: CD-ROM SE: Slawische Korpuslinguistik, SS 2006 18

  19. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Textcorpus „Idiot“ (ÖAW, Wien) Sprachen: Russisch – Deutsch Inhalt: Dostojevskijs „Idiot“ Umfang: noch unbekannt Verfügbarkeit: online nicht verfügbar SE: Slawische Korpuslinguistik, SS 2006 19

  20. Slawische ParallelkorporaСлавя́нские паралле́льные корпуса́ • Национа́льный ко́рпусру́сского языка́ Sprachen: Russisch – Englisch Inhalt: Belletristik Umfang: ~ 2,500,000 Wörter Verfügbarkeit: Internet SE: Slawische Korpuslinguistik, SS 2006 20

  21. AnwendungПримене́ние • Frage: Übersetzungen für das englische Wort „nice“ • Ergebnis: • хоро́шийgut • краси́вий schön • прия́тный angenehm • ми́лый lieb • отли́чный hervorragend • прили́чный anständig SE: Slawische Korpuslinguistik, SS 2006 21

  22. AnwendungПримене́ние • Ergebnis: • симпати́чный hübsch • хоро́шенький niedlich • мирово́й friedlich • здоро́вый gesund/ cool • поря́дочный anständig • шика́рный schick • удо́бный schicklich • наря́дный elegant • до́брый gut • идеа́льный ideal SE: Slawische Korpuslinguistik, SS 2006 22

  23. AnwendungПримене́ние • Frage: Volle Equivalenz von „love“ und „любо́вь“? • Ergebnis: любо́вь – love – passion love– любо́вь – пристра́стие – жела́ние SE: Slawische Korpuslinguistik, SS 2006 23

  24. AnwendungПримене́ние • Frage: Übertragung einer russischen Passivkonstruktion ins Englische? • Beispielswort: „сказа́ть“ • Ergebnis: 9 Verwendungen 6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv SE: Slawische Korpuslinguistik, SS 2006 24

  25. Literatur und QuellenЛитерату́ра и исто́чники • Добровольский и др. 2005: Добровольский, Д. О.; Кретов, А. А.; Шаров, С. А. Корпус параллельных текстов: архитектура и возможности использования. – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 263-296. • Андреева/Касевич 2005:Андреева,Е. Г.; Касевич, В. Б. Грамматика и лексика (на материале анг­ло-русского корпуса параллельных текстов). – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 297-307. • Виландеберк 2004: Виландеберк, А. А. Корпус параллельных правовых документов как составная часть АРМ юриста-переводчика. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 72-85. • Беляева 2004: Беляева, Л. Н. Лексикографический потенциал параллельного корпуса текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 55-64. SE: Slawische Korpuslinguistik, SS 2006 25

  26. Literatur und QuellenЛитерату́ра и исто́чники • Bernadini u.a. 2003: Bernadini, S.; Stewart, D.; Tanettin, F. Corpora in Translator Education: An Introduction. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 1-14 S. • McEnery/Wilson 2006: McEnery, T.; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S. • Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross-linguistic research. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 135-144 S. • Laviosa-Braithwaite 2003: Laviosa-Braithwaite, S. Corpora and the Translator. - In: Somers, H. L. (ed.) Computers and Translation. A Translator’s Guide. - Amsterdam: John Benjamins. - 105-117 S. • Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus-based contrastive study. Acta Humaniora 68. - Oslo: Unipub forlag. – 299 S. • Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing . – In: Véronis, J. (ed.). Parallel Text Processing. – Dordrecht: Kluwer. – 1-25 S. SE: Slawische Korpuslinguistik, SS 2006 26

  27. Literatur und QuellenЛитерату́ра и исто́чники • http://infomap.stanford.edu/papers/bilingual-terms.pdf • http://www.ruscorpora.ru • http://www.bohemica.com/index.php?m=catalog&s=257 • http://www.comp.leeds.ac.uk/ssharoff/paraquery-ru.html • http://corpus.leeds.ac.uk/ • http://rykov-cl.narod.ru/r.html • http://www.slaviska.uu.se/korpus.htm • http://nl.ijs.si/ME/ • http://nl.ijs.si/svez/index-en.html • http://nl.ijs.si/telri/Republic/ • http://nl.ijs.si/elan/ • http://www.aac.ac.at/ • http://www.phil.muni.cz/angl/kacenka/kachna.html • http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/types/parallel.html SE: Slawische Korpuslinguistik, SS 2006 27

  28. Literatur und QuellenЛитерату́ра и исто́чники • http://www.bmanuel.org/clr2_mp.html#Multilingual_and_Parallel_Corpora • http://devoted.to/corpora • http://www.up.univ-mrs.fr/~veronis/biblios/ptp.html • http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm • http://www.dialog-21.ru/Archive/2005/Mikhailov%20M/MihailovM.pdf • http://www.phil.pu.ru/depts/12/corp04.htm#tis • http://www.ksu.ru/f10/publications/2004/articles_1_1.php?id=10&num=9000000 • http://www.uni-tuebingen.de/uni/nss/docs/Korpora.html • http://lingo.lancs.ac.uk/devotedto/corpora/corpora2.htm • http://www.ilc.cnr.it/EAGLES96/corpustyp/node20.html • http://odur.let.rug.nl/~spenader/public_docs/Parallel_Corpora.pdf SE: Slawische Korpuslinguistik, SS 2006 28

More Related