210 likes | 220 Views
Slowakische s Nationalkorpus Slovens k ý národný korpus Tschechische s Nationalkorpus Č esky národní korpus. erstellt von: Rita Plos. Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošovi ć Graz, am 16.05.2006. Slowakisches Nationalkorpus Slovens k ý národný korpus.
E N D
Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches NationalkorpusČesky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006
Slowakisches NationalkorpusSlovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften,Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/ Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2
Struktur des SNKŠtruktúra SNK • Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • Linguistische Quellen Lingvistické zdroje • Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1: • prim-2.1-public-all – enthält alle Texte: 294.087.581 token • prim-2.1-public-inf – enthält nur journalistische Texte: 178.070.839 token • prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: 34.118.166 token • prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token SE: Slawische Korpuslinguistik, SS 2006 4
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token • prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token • prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token SE: Slawische Korpuslinguistik, SS 2006 5
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus: • r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token SE: Slawische Korpuslinguistik, SS 2006 6
Linguistische QuellenLingvistické zdroje • Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci 1976 - 2000 • Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka • Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7
ParallelkorpusParalelné korpusy • Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8
Tschechisches NationalkorpusČesky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/ Sprachen: Tschechisch / Englisch Gegründet: 1994 SE: Slawische Korpuslinguistik, SS 2006 9
Struktur des ČNKStrukturaČNK • Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy • Diachroner Teil / Diachronní část : 1. Diachrones Korpus /Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10
Geschriebenes KorpusPsané korpusy • SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter • SYN2005 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SE: Slawische Korpuslinguistik, SS 2006 11
Geschriebenes KorpusPsané korpusy • PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12
Geschriebenes KorpusPsané korpusy Weiters: • FSC2000 • SYNEC • LITERA • ORWELL • DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13
Geschriebenes KorpusPsané korpusy • ČNKSYN-Archiv –enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie • ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14
Gesprochenes Korpus Mluvené korpusy • Prager gesprochenes Korpus Pražský mluvený korpus • Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15
Parallelkorpora Paralelní korpusy • InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16
Diachrones Korpus Diachronní korpus • DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter • DB – Datenbanken & Wörterbücher auf Alt-Tschechisch • ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17
Diachrones Korpus Diachronní korpus • ČNKDIA-Bank – enthält: - transkribierte Texte (2 000 000 Wörter), - transliterierte Texte (100 000 Wörter) - Dialekt-Texte (200 000 Wörter) • DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Slowakisch/ Slovenský • Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95. • Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121. • http://korpus.juls.savba.sk/ SE: Slawische Korpuslinguistik, SS 2006 19
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Tschechisch/ Český • Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285. • Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334. SE: Slawische Korpuslinguistik, SS 2006 20
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny • Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182. • http://ucnk.ff.cuni.cz/ SE: Slawische Korpuslinguistik, SS 2006 21