1 / 21

Slowakische s Nationalkorpus Slovens k ý národný korpus Tschechische s Nationalkorpus Č esky národní korpus

Slowakische s Nationalkorpus Slovens k ý národný korpus Tschechische s Nationalkorpus Č esky národní korpus. erstellt von: Rita Plos. Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošovi ć Graz, am 16.05.2006. Slowakisches Nationalkorpus Slovens k ý národný korpus.

maire
Download Presentation

Slowakische s Nationalkorpus Slovens k ý národný korpus Tschechische s Nationalkorpus Č esky národní korpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches NationalkorpusČesky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006

  2. Slowakisches NationalkorpusSlovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften,Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/ Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2

  3. Struktur des SNKŠtruktúra SNK • Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • Linguistische Quellen Lingvistické zdroje • Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3

  4. Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1: • prim-2.1-public-all – enthält alle Texte: 294.087.581 token • prim-2.1-public-inf – enthält nur journalistische Texte: 178.070.839 token • prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: 34.118.166 token • prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token SE: Slawische Korpuslinguistik, SS 2006 4

  5. Allgemeines (primäres) Korpus Všeobecný (primárny) korpus • prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token • prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token • prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token SE: Slawische Korpuslinguistik, SS 2006 5

  6. Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus: • r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token SE: Slawische Korpuslinguistik, SS 2006 6

  7. Linguistische QuellenLingvistické zdroje • Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci 1976 - 2000 • Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka • Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7

  8. ParallelkorpusParalelné korpusy • Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8

  9. Tschechisches NationalkorpusČesky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/ Sprachen: Tschechisch / Englisch Gegründet: 1994 SE: Slawische Korpuslinguistik, SS 2006 9

  10. Struktur des ČNKStrukturaČNK • Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy • Diachroner Teil / Diachronní část : 1. Diachrones Korpus /Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10

  11. Geschriebenes KorpusPsané korpusy • SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter • SYN2005 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SE: Slawische Korpuslinguistik, SS 2006 11

  12. Geschriebenes KorpusPsané korpusy • PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12

  13. Geschriebenes KorpusPsané korpusy Weiters: • FSC2000 • SYNEC • LITERA • ORWELL • DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13

  14. Geschriebenes KorpusPsané korpusy • ČNKSYN-Archiv –enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie • ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14

  15. Gesprochenes Korpus Mluvené korpusy • Prager gesprochenes Korpus Pražský mluvený korpus • Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15

  16. Parallelkorpora Paralelní korpusy • InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16

  17. Diachrones Korpus Diachronní korpus • DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter • DB – Datenbanken & Wörterbücher auf Alt-Tschechisch • ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17

  18. Diachrones Korpus Diachronní korpus • ČNKDIA-Bank – enthält: - transkribierte Texte (2 000 000 Wörter), - transliterierte Texte (100 000 Wörter) - Dialekt-Texte (200 000 Wörter) • DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18

  19. Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Slowakisch/ Slovenský • Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95. • Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121. • http://korpus.juls.savba.sk/ SE: Slawische Korpuslinguistik, SS 2006 19

  20. Literatur und QuellenLiteratúra a prameňe / Literatura a prameny Tschechisch/ Český • Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285. • Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334. SE: Slawische Korpuslinguistik, SS 2006 20

  21. Literatur und QuellenLiteratúra a prameňe / Literatura a prameny • Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182. • http://ucnk.ff.cuni.cz/ SE: Slawische Korpuslinguistik, SS 2006 21

More Related