300 likes | 616 Views
Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego) www.nkjp.pl. Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011. Vorgeschichte. Słownik frekwencyjny polszczyzny współczesnej – Kurcz et al. 1990 Korpus, bestehend aus 500.000 W ö rtern 100.000 Samples aus 5 Funktionalstilen
E N D
Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)www.nkjp.pl Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011
Vorgeschichte Słownik frekwencyjny polszczyzny współczesnej – Kurcz et al. 1990 • Korpus, bestehend aus 500.000 Wörtern • 100.000 Samples aus 5 Funktionalstilen • morphologisch annotiert und disambiguiert • Texte von 1963 bis 1967 (das Wörterbuch wurde 1990 veröffentlicht) • Heute zugänglich unter: www.mimuw.edu.pl/polszczyzna/pl196x
Die 100 häufigsten polnischen Lexeme Frequenzörterbuch des Polnischen (1963-67) w, i, być, się, na, nie, z, on, do, ten, to1, że, a, o, ja, który, mięć, jak, co, ale, tak, pan, od, po, móc, przez, taki, dla, tylko, za, ty, tysiąc, swój, jeden, bardzo, siebie, czy, rok, jeszcze, przy, wiedzieć, dwa, pierwszy, inny, mówić, nasz, sprawa, sam, my, wszystek, czas, chcieć, praca, zostać, powiedzieć, to2, tu, oraz, lata (rok), musieć, cały, bo, dzień, mój, więc, nowy, przed, drugi, jednak, pod, pani, nawet, jaki, też, można, no, nic, ludzie, każdy, dziewięćset, również, trzy, kraj, żeby, wszystko, miejsce, tam, człowiek, jakiś, nad, widzieć, coś, teraz, przecież, kiedy, może, wielki, życie, bez, polski PWN Korpus des Polnischen 2001 (korpus.pwn.pl) w, i, się (siebie), być, z, na, nie, on, do, ten, to, że, a, który, o, mieć, jak1, po, ja, co, od, ale, za, móc, tak, przez, już, dla, swój, tylko, taki, czy, bardzo, wszystek (wszystko), sam1, rok (r.), człowiek (ludzie), jeden, inny, ty, mówić, czas, bo, my, chcieć, jeszcze, przed, też, wiedzieć, pan, lata (rok), jednak, przy, wielki, mój, zostać, nowy, dwa, pod, raz, pierwszy, nasz, oraz, lub, musieć, dzień, nawet, cały, praca, gdy, można, powiedzieć, polski, by, życie, więc, każdy, sprawa, jaki, jako, dobry, także, bez1, kiedy, tam, tu, polska, no, drugi, miejsce, nic, osoba, wiele, teraz, u, jakiś, świat, coś
Vorgänger und Teilkorpora des NKJP • Korpus des Instituts für Informatik der AW / PAN (in Zusammenarbeit mit dem Institut der Polnischen Sprache PAN): 250 Mio. Wörter, detailliertes Suchprogramm, im Netz: www.korpus.pl • Korpus PWN: 100 Mio., (40 Mio. Wörter im Netz: korpus.pwn.pl) • Korpus PELCRA: 100 Mio. Wörter mit benutzerfreundlichem Suchprogramm, im Netz: korpus.ia.uni.lodz.pl
Grundvoraussetzungen zum NKJP • Projekt des polnischen Hochschulministeriums (MNiSW) Nr R1700303 • Geplant für 1 Milliarde Wörter • 300 Mio. Wörter im ausgewogenen Kernkorpus • morphologisch annotiert und disambiguiert • Übungskorpus aus 1 Mio. Wörtern, auch detailliert annotiert und disambiguiert nach syntaktischen Kategorien, Eigennamen und homonymen Wortbedeutungen. • gebühren- und registrationsfrei.
Repräsentativität des Kernkorpus • Repräsentativität ist nicht mit Ausgewogenheit gleichzusetzen. Das Korpus des Frequenzörterbuches war ideal ausgewogen – je 20% aus 5 Funktionalstilen, aber war nicht repräsentativ im Sinne der Sprachproduktion oder Sprachrezeption eines durchschnittlichen Polen. • Voraussetzung der Repräsentativität des NKJP ist die Struktur der Leserschaft (Fragebogen des Leserschaftsinstituts) • Vor allem Zeitungen und Periodika (50%), Belletristik (mit Schlüsseltexten aus der polnischen Literatur, wissenschaftliche und Sachbücher (29%)) • Andere Typen geschriebener Texte (11%): Gesetze, Gebrauchsanweisungen, Flugblätter, Websites und Blogs • 10% der gesprochenen Sprache - darunter auch quasi-spoken und to-be-spoken (Parlamentsprotokolle)
Struktur des Kernkorpus • Bücher 29% • Belletristik 16% • narrative Sachbücher 5,5% • wissenschaftliche und Handbücher 2% • Ratgeber, Hobby, Interviews und andere Bücher 5,5% • Presse 50% • Zeitungen 26% • Zeitschriften (auch Fach- und Hobbyzeitschriften) 24% • andere veröffentlichte Texte (Gesetze, Anweisungen, Werbung) 4% • Webtexte (Blogs, Foren und Chats, Web-Sites) 7% • gesprochene Texte 10% (Aufnahmen alltäglicher Gespräche – 1%, Reden, Interviews, Protokolle)
Nationalkorpora http://www.tekstlab.uio.no/Bosnian/Corpus.html http://www.ibl.bas.bg/BGNC_bg.htm http://www.ucnk.ff.cuni.cz http://www.hnk.ffzg.hr/default.htm http://www.nkjp.pl http://www.ruscorpora.ru http://korpus.juls.savba.sk/index.sk.html http://www.fidaplus.net(Slowenisch) Parallelkorpora und andere K. http://www.uni-regensburg.de/Fakultaeten/phil_Fak_IV/Slavistik/RPC (slavisches Paralelkorpus) http://ucnk.ff.cuni.cz/intercorp-info.php http://pelcra.ia.uni.lodz.pl http://www.korpus.pl http://korpus.pwn.pl http://monika.univ.gda.pl/~literat http://riznica.ihjj.hr http://www.ulif.org.ua/ulif/ Andere slavische Korpora und ihre Struktur
Český Národní Korpus(ausgewogene Subkorpora) • Textsorten in Syn 2000 (100 Mio. Wörter) • Presse 60%, Belletristik 25%, Sachbücher 15% • Textsorten in Syn 2005 (100 Mio. Wörter) • Presse 33%, Belletristik 40%, Sachbücher 27% • Zeitraum • Zeitungstexte nach 1990 • Buchautoren geboren nach 1880
Korpus des slovenischen FIDA Plus • Textarten • Presse – 88%, Bücher (auch Übersetzungen) 9%, Rest (Internet) – 3% • Inhalt • Belletristik – 3,5%, Rest – 96,5% • Zeiträume • 1990-1999 – 30% (1979-1990 – 0,04%) • 2000-2006 – 70%
Nacional’nyj Korpus Russkogo Jazyka (www.ruscorpora.ru) • Belletristik 40% • andere geschriebene Texte (Presse) 56% • gesprochene Texte 4% • Zeitraum: seit dem Ende des 18. Jh.
Korpus des DWDS (www.dwds.de) • Belletristik (ca. 26%) • journalistische Prosa (ca. 27%) • Fachprosa (ca. 22%) • Gebrauchstexte (ca. 20%) • transkribierte Texte gesprochener Sprache (ca. 5%) • Zeitraum: seit 1900
Textannotierung und Desambiguierung • Jeder Korpustext wird mit einem Header versetzt, der über Titel, Verfasser, Erscheinungsjahr und anderes informiert. • Annotierung der Texteinheiten: (Co) mamy (do roboty) • Lemmatische A. - Textwörter werden den Lemmata zugeschrieben, z.B. [lemma=mieć] • Morphologische A. - den Wortformen werden Wortarten grammatische Kategorien zugeschieben, z.B. [lemma=mieć, pos=verb/fin pers=pri num=pl (temp=praes mod=ind)] • Syntaktische, semantische Annotation (in Vorbereitung) • Die Annotierung verläuft völlig automatisch, aber bevor man das Programm erstellt, muss ein großes Übungskorpus (1 Mio.) vor Hand unabhängig annotiert werden. • Desambiguierungsvorgang basiert auf einigen geordneten Kontextregeln, z.B. bei der Wortform mamy: (zu mieć oder mama) reicht es zu prüfen, ob es im selben Satz ein anderes Prädikat gibt.
Textannotierung für das polnisch-russische Korpus • <RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.<RUS> • <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>
Bisherige Textsammlung im Netz • 1,5 Miliarde Wörter • Über 2.000 Bücher, darunter: Barańczak, Białoszewski, Brandys, Dąbrowska, Dygat, Głowacki, Iwaszkiewicz, Kapuściński, Lem, Miłosz, Mrożek, Myśliwski, Nałkowska, Sapkowski, Stasiuk, Szczypiorski, Tokarczuk, Rymkiewicz • Über 400 Pressetitel aus verschiedenen Regionen Polens • Zwei verschiedene Suchmaschinen • Ein detailiertes Suchprogramm Poliqarp • Ein benutzerfreundliches Suchprogramm PELCRA • Ausgewogenes Kernkorpus (300 Mio.) erscheint bald.
Suchwerkzeuge • Poliqarp – Search Tool des IPI PAN, das mithilfe regulärer Ausdrücke nach beliebigen Realisierungen morphologischer Kategorien in unbegrenzten Zusammensetzungen sucht. • PELCRA Search Tool basiert auf einer relationalen Datenbasis: es sucht nur nach Wortformen und Lexemen, zeigt Konkordanzen und Kollokationen, Stil- und Zeitdiagramme einzelner Wörter und Wortkombinationen.
Worauf ein Wörterbuch basieren kann? • Andere Wörterbücher • Offen benutzt und verbessert • Durch Plagiat oder Nachahmung • Kentnisse und Sprachgefühl der Lexikographen (Introspektion) • Kann trügerisch sein • Textquellen • Wörterbuchkartei nach einer manueller Exzerption • Korpus
Textquellen polnischer Wörterbücher • Słownik języka polskiegovon Samuel B. Linde 1807, das erste wissenschaftliche Wörterbuch der polnischen Sprache, benutzte und zitierte über 850 literarische und Sachtexte seit dem 16. Jh., er hat daraus eine Kartei erstellt • Słownik języka polskiego sog. warschauer (Karłowicz, Kryński, Niedźwiedzki 1900-1927) geben kein Textkorpus offenbar, aber das Wörterbuch selbst soll nach Autoren als Korpus dienen: „es soll objektives mit keiner Theorie ausgestattet Sprachinventar sein, Material, aus dem erst Sprachwissenschaftler Schlussfolgerungen ziehen werden”. • być bezstronnym, nieuprzedzonym żadną teoryją gramatyczną lub purystyczną, ścisłym inwentarzem języka, dokładną i obszérną skarbnicą jego zasobów, […] materyjałem, z którego dopiéro językoznawcy spostrzeżenia swe i wnioski snuć będą (Karłowicz et al.)
Das Korpus als Wörterbuchbasis • Nur ein Wörterbuchverlag hat sein eigenes Korpus gesammelt: PWN • Heutzutage dient der NKJP mindestens einem grossen Wörterbuch – dem Grossen Polnischen Wörterbuch: www.wsj.pl. • Auch andere Wörterbücher können mithilfe des NKJP bearbeitet werden.
Was dem NKJP noch fehlt • ein ausgewogenes Kernkorpus (erscheint bald) • Ein Werkzeug, das aus großen Textmengen morphologische und syntaktische Informationen extrahieren könnte – so wie etwa Word Sketch Engine (www.sketchengine.co.uk). • Teilweise ersetzt es Kollokationssucher, Zeit- und Stildiagramme in PELCRA Tool
Textquellen polnischer Wörterbücher • Słownik polszczyzny XVI wieku - 8 Mio. Kerteikarten • Słownik języka polskiego von Doroszewski – 6 Mio. Karteikarten • Słownik języka polskiego von Szymczak – 1 Mio. Karteikarten
Was kann man aus dem Korpus erfahren, was nicht im Wörterbuch steht?
Suchbeispiele • Semantische Prosodie in Kollokationen von ewidentny und oczywisty • Zeit- und Stilverlaufe am Beispiel von oczywisty und ewidentny • Lokale Orientierung der Gegenstände - Präpositionen zum Substantiv drzwi • Potenzierung substantivischer Attribute in Genitivgefügen • Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt • Die längste Konsonantenfolge
Semantische Prosodie:oczywisty- ewidentny • Oczywisty: fakt, przyczyna, stwierdzenie, am häufigsten prädikativ benutzt: to jest oczywiste). • Ewidentny: błąd ‘Fehler’‚ sprzeczność ‚Widerspruch‘, faul, naruszenie ‘Verstoß’‚ pomyłka ,Irrtum’, brak ‘Fehler’. • Im Deutschen scheint sich evident von offensichtlich oder augenfällig nicht auf diese Weise evaluativ zu unterscheiden.
Lokale Orientierung der Präpositionen: przed drzwiami und za drzwiami • NKJP: przed drzwiami 973, za drzwiami2000 • DWDS: vor der Tür1077, hinter der Tür 197 • Czy ma pan świadomość, że ci, którzy czekająza drzwiami, bardzo się boją? ‘Sind Sie sich dessen bewusst, dass die Leute vor der Tür große Angst (vor Ihnen) haben?’ • Za drzwi! ‘Da ist die Tür!’
Syntaktische Kombinierbarkeit grammatischer Kategorien • Potenzierung substantivischer Attribute im Genitiv - [pos=subst & case=gen]{9,} • Doprzeprowadzania kontroli spełnienia obowiązku zawarcia umowy ubezpieczenia OC posiadaczy pojazdów mechanicznychsą obowiązane: a) Policja, b) organy celne ... ‘FolgendeOrgane sind verpflichtet die Pflichterfüllung beim Abschluss des Versicherungsvertrags durch Besitzer mechanischer Fahrzeugen zu kontrollieren s…’(Gesetz)
Aspekt im Korpus • Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt • [pos=verb & pos!=ger & aspect=perf & orth="na.*"][]{,2}[orth=na] • Napisać coś na papierze.
Phonetik im Korpus • Die längste Konsonantenfolge (ohne Bigraphen) • [orth=".*[bcćdfghklłmnńśprstwzźż]{5,}.*" & orth!=".*ch.*|.*cz.*|.*dż.*|.*dź.*|.*rz.*|.*sz.*"] • bezwzględny
Das Korpus ist für Sie da www.nkjp.pl