210 likes | 223 Views
Explore linguistic sources, parallel corpora, and morphologically annotated texts from the Slovak and Czech National Corpora created by leading institutions. Access contemporary and historical written and spoken language data.
E N D
Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches NationalkorpusČesky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006
Slowakisches NationalkorpusSlovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften,Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/ Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2
Struktur des SNKŠtruktúra SNK • Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • Linguistische Quellen Lingvistické zdroje • Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1: • prim-2.1-public-all – enthält alle Texte: 294.087.581 token • prim-2.1-public-inf – enthält nur journalistische Texte: 178.070.839 token • prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: 34.118.166 token • prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token SE: Slawische Korpuslinguistik, SS 2006 4
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token • prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token • prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token SE: Slawische Korpuslinguistik, SS 2006 5
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus: • r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token SE: Slawische Korpuslinguistik, SS 2006 6
Linguistische QuellenLingvistické zdroje • Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci 1976 - 2000 • Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka • Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7
ParallelkorpusParalelné korpusy • Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8
Tschechisches NationalkorpusČesky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/ Sprachen: Tschechisch / Englisch Gegründet: 1994 SE: Slawische Korpuslinguistik, SS 2006 9
Struktur des ČNKStrukturaČNK • Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy • Diachroner Teil / Diachronní část : 1. Diachrones Korpus /Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10
Geschriebenes KorpusPsané korpusy • SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter • SYN2005 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SE: Slawische Korpuslinguistik, SS 2006 11
Geschriebenes KorpusPsané korpusy • PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12
Geschriebenes KorpusPsané korpusy Weiters: • FSC2000 • SYNEC • LITERA • ORWELL • DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13
Geschriebenes KorpusPsané korpusy • ČNKSYN-Archiv –enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie • ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14
Gesprochenes Korpus Mluvené korpusy • Prager gesprochenes Korpus Pražský mluvený korpus • Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15
Parallelkorpora Paralelní korpusy • InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16
Diachrones Korpus Diachronní korpus • DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter • DB – Datenbanken & Wörterbücher auf Alt-Tschechisch • ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17
Diachrones Korpus Diachronní korpus • ČNKDIA-Bank – enthält: - transkribierte Texte (2 000 000 Wörter), - transliterierte Texte (100 000 Wörter) - Dialekt-Texte (200 000 Wörter) • DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Slowakisch/ Slovenský • Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95. • Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121. • http://korpus.juls.savba.sk/ SE: Slawische Korpuslinguistik, SS 2006 19
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Tschechisch/ Český • Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285. • Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334. SE: Slawische Korpuslinguistik, SS 2006 20
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny • Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182. • http://ucnk.ff.cuni.cz/ SE: Slawische Korpuslinguistik, SS 2006 21