280 likes | 545 Views
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1
E N D
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl
Spotkanie 4 Słownik gramatyczny języka polskiego
SGJP 4
Historia i poprzednicy • Jan Tokarski, Czasowniki polskie, Warszawa 1951. • Jan Tokarski, Fleksja polska, Warszawa 19 • Słownik Języka polskiego PAN (1958-1970) (SJPDor.) • Andrej Zaliznyak, Grammatičeskij slovar’ russkogo yazyka (Moskva 1967 i późniejsze wydania) • Włodzimierz Gruszczyński, Fleksja rzeczowników we współczesnym języku polskim. Opis i próba jego zastosowania w słowniku. Warszawa 1986. • Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych. Opracowanie i redakcja Zygmunt Saloni, Warszawa 1993. • Zygmunt Saloni, Czasownik polski, Warszawa 2003.
Jan Tokarski (Wikipedia) Jan Tokarski (ur. 24 marca1909 w Ortelu Królewskim, zm. 16 stycznia1982 w Warszawie) – językoznawca polski, profesor Uniwersytetu Warszawskiego, współpracownik Witolda Doroszewskiego, autor i współautor wielu publikacji z dziedziny fleksji, słowotwórstwa, dialektologii i metodyki nauczania gramatyki oraz słowników. Jan Tokarski jest twórcą powszechnie używanej w językoznawstwie i informatyce klasyfikacji polskiej fleksji (odmiany wyrazów).
Jan Tokarski (Wikipedia) Niektóre publikacje: • Czasowniki polskie (1951) • Gwara Serpelic. Fonetyka. Fleksja (1964) • Gramatyka w szkole. Podstawowe zagadnienia metodyki (1966) • Fleksja polska (1973) • Słownictwo (teoria wyrazu)(1971) • Traktat o ortografii polskiej (1979) • Zarys leksykologii i leksykografii polskiej - wspólnie ze Stanisławem Kanią (1984) Słowniki: • Słownik wyrazów obcych - red. (1971) • Schematyczny indeks a tergo polskich form wyrazowych - opr. i red. Zygmunt Saloni (1993)
Jan Tokarski • Pierwszy strukturalista wśród gramatyków polskich. • Metodologia: • opis jawny i wyczerpujący, • gramatyka i słownik – dwa moduły opisu, • cechy gramatyczne wchodzą do słownika, • odrzucenie segmentacji morfemowej: forma wyrazowa jako napis. • Pionier lingwistyki informatycznej: notacja Tokarskiego.
Dwa poziomy fleksji Fleksja jako fragment opisu gramatycznego • fleksja głębinowa: opis uporządkowania form wyrazowych w leksemy (= szkolny rozbiór gramatyczny); • fleksja powierzchniowa: opis struktury morfemowej form wyrazowych i klasyfikacja leksemów odmiennych ze względu na strukturę morfemową jego form (= szkolne „tematy”, „końcówki” i „wymiany głoskowe”).
Typologia leksemów: części mowy Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego Mamyleksem LX. Pytamykolejno: (1) czy jest odmienny; (2) czyodmieniasięprzezprzypadek; (3) czyodmieniasięprzezosobę; (4) czyodmieniasięprzezrodzaj; (5) czyodmieniasięprzezliczbę; (6) czy jest samodzielnyskładniowo; (7) czypełnifunkcjęłączącą; (8) czy ma rząd.
Fleksja powierzchniowa Problem — wypełnienieklatekparadygmatu. Czyli: - jak wyglądają formy wyrazowe danego leksemu; - jak utworzyć dana formę na podstawie innej formy? Typy form fleksyjnych: • formysyntetyczne • formyanalityczne (w tym: aglutynacyjne).
Fleksja powierzchniowa Rozbiór:tematfleksyjny(= część wspólna) iczęśćgramatyczna (= część różna). Częśćgramatyczna: • pojedynczymorfem — końcówka • sekwencjamorfemów (końcówek) • osobnesłowo (być może, wraz z a. lub b.).
Fleksja powierzchniowa • Formy syntetyczne: dziewczyny: dziewczyn- -y chłopiec: chłopiec- - najmłodszy: naj- -młod- -sz- -y AGL czytałaś: czyta- -ł- -a- -ś AGL czytali: czyta- -l- -i- - • [Formy analityczne: AGL (ty)ś ... czytała: -ś ... czyta- -ł- -a AGL byśmy... czytały: by- -śmy.... czyta- -ł- -y będę czytać: będ- -ę czyta- -ć AGL czytało będzie: czyta- -ł- -o będzie- -]
Fleksja powierzchniowa Problemy: a. końcówki wspólnofunkcyjne i ich dystrybucja, b. alternacje w tematach i ich dystrybucja, c. wzorce odmiany (klasyfikacja leksemów). Ad a.: (mianownik liczby mnogiej) -e (drwale, arbitraże, dworzanie, ciemnie, stolice, kasze) -y (starcy, robotnicy, brzuchy, stoły, dziewczyny, myszy) -i (króliki, hetmani, podłogi, kości) -owie (paziowie, widzowie, wrogowie, panowie) -a (akta, pola, okna)
Fleksja powierzchniowa Ad b.: (alternacje w temacie) • CZYTAĆ: czytam, czytasz,..., czytają,..., czytałem,... • WIEŹĆ:wiozę, wieziesz,..., wiozłem,..., wiózł,..., wieźli,..., wieziono,... • ROBOTNIK:robotnik,..., robotnikiem,..., robotnicy,... • SZKOŁA: szkoła,..., szkole,..., szkół,... • MAŁY:mały,..., mali,..., mniejszego,...
Fleksja powierzchniowa Uwaga: w polszczyźnie odmieniaja się tematy! Morfonologia droga: drog- + -a drodze: 1. drog- => drodz-, 2. drodz- + -e dróg: 1. drog- => dróg-, 2. dróg- + - kupował: kupowa- + -ł kupujesz: 1. kupowa- => kupuje-, 2. kupuje- + -sz kupując: 1. kupowa- => kupuj-, 2. kupuj- + -ąc ciąć: cią- + -ć tnę: 1. cią- => tn-, 2. tn- + -ę tnął: 1. cią- => tną-, 2. tną- + -ł
Fleksja powierzchniowa Ad c.: (wzorce odmiany) Klasyfikacja fleksyjna leksemów— oparta na regularnych odpowiedniościach typu a. i typu b.: • generowanie tematów od tematów, • dopasowywanie końcówek. Systematyzacja fleksji polskiej — dzieło Jana Tokarskiego.
Opis słownikowy fleksji Trzy techniki: • wzorce paradygmatyczne + odsyłacze (kody) • reguły przekształcania form: formy bazowe • paradygmat z wypełnieniami dla każdego leksemu
Grupy deklinacyjne Jana Tokarskiego Rodzaj męski m1LIŚĆ: liść, liścia, liściem, liściu, liście, liści; m2ŻOŁNIERZ: żołnierz, żołnierza, żołnierzem, żołnierzu, żołnierze, żołnierzy; m3BYK: byk, byka, bykiem, byku, byki, byków; m4KOT: kot, kota, kotem, kocie, koty, kotów; m5MIESZCZANIN: mieszczanin, mieszczanina, mieszczaninem, mieszczaninie, mieszczanie, mieszczan.
Grupy deklinacyjne Jana Tokarskiego Rodzaj żeński ż1 ZIEMIA: ziemia, ziemi, ziemią, ziemi, ziemie, ziem; ż2 TĘCZA: tęcza, tęczy, tęczą, tęczy, tęcze, tęcz; ż3 ŁĄKA: łąka, łąki, łąką, łące, łąki, łąk; ż4 KOBIETA: kobieta, kobiety, kobietą, kobiecie, kobiety, kobiet; ż5 NIĆ: nić, nici, nicią, nici, nici, nici; ż6 MYSZ: mysz, myszy, myszą, myszy, myszy.
Grupy deklinacyjne Jana Tokarskiego Rodzaj nijaki n1 ZDJĘCIE: zdjęcie, zdjęcia, zdjęciem, zdjęciu, zdjęcia, zdjęć; n2 ŁYKO: łyko, łyka, łykiem, łyku, łyka, łyk; n3 OKNO: okno, okna, oknem, oknie, okna, okien; n4 PISKLĘ: pisklę, pisklęcia, pisklęciem, pisklęciu, pisklęta, piskląt; n5 IMIĘ: imię, imienia, imieniem, imieniu, imiona, imion; n6 MUZEUM: muzeum, muzeum, muzeum, muzeum, muzea, muzeów.
Grupy koniugacyjne Jana Tokarskiego Formy podstawowe: • bezokolicznik, • pierwsza i • druga osoba liczby pojedynczej, • trzecia osoba liczby mnogiej czasu teraźniejszego lub przyszłego syntetycznego, • druga osoba liczby pojedynczej trybu rozkazującego, • trzecia osoba liczby pojedynczej rodzaju męskiego i • trzecia osoba liczby mnogiej rodzaju męskoosobowego czasu przeszłego oraz • bezosobnik.
Grupy koniugacyjne Jana Tokarskiego (por. SJP Dor.: lxiii-lxxiv, Tokarski (1973: 213-230)): 1: CZYTAĆ czytać, ~am, ~asz, ~ają, ~aj, ~ał, ~ali, ~ano 2: UMIEĆ umieć, ~em, ~esz, ~eją, ~ej, ~ał, ~eli, ~ano 3: SZALEĆ szaleć, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano 4: KUPOWAĆ kupować, ~uję, ~ujesz, ~ują, ~uj, ~ował, ~owali, ~owano 5a:CIĄGNĄĆ ciągnąć, ~nę, ~niesz, ~ną, ~nij, ~nął, ~nęli, ~nięto 5b:SUNĄĆ sunąć, ~nę, ~niesz, ~ną, ~ń, ~nął, ~nęli, ~nięto 5c:CHUDNĄĆ chudnąć, ~nę, ~niesz, ~ną, ~nij, ~ł, ~li, ~nięto 6a:MÓWIĆ mówić, ~ię, ~isz, ~ią, ~, ~ił, ~ili, ~iono 6b:WARZYĆ warzyć, ~ę, ~ysz, ~ą, ~, ~ył, ~yli, ~ono
Grupy koniugacyjne Jana Tokarskiego 7a:MYŚLEĆ myśleć, ~ę, ~isz, ~ą, ~, ~ał, ~eli, ~ano 7b:SŁYSZEĆ słyszeć, ~ę, ~ysz, ~ą, ~, ~ał, ~eli, ~ano 8a:PISYWAĆ pisywać, ~uję, ~ujesz, ~ują, ~uj, ~ywał, ~ywali, ~ywano 8b: OPUKIWAĆopukiwać, ~uję, ~ujesz, ~ują, ~uj, ~iwał, ~iwali, ~iwano 9:PISAĆ pisać, ~ę, ~esz, ~ą, ~, ~ał, ~ali, ~ano 10a:ŻYĆ żyć, ~ję, ~jesz, ~ją, ~j, ~ł, ~li, ~to 10b:GRZAĆ grzać, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano 10c:DĄĆ dąć, ~mę, ~miesz, ~mą, ~mij, ~ął, ~ęli, ~ęto 11:NIEŚĆnieść, ~ę, ~iesz, ~ą, ~, ~ł, ~li, ~iono
SGJP • Zasób: 250 tys. leksemów. • Źródło: SJP Dor., korpusy. • Hasła: leksemy, skróty, afiksy. • Informacja slownikowa: fleksyjna, podstawowa słowotwórcza, podstawowa skladniowa. • Leksemy nieodmienne (poza spójnikami, partykułami, przyimkami, przysłówkami): • dopowiedzenia (TAK, AJUŚCI, OK). • tzw. zaimki przysłowne: TAM, KIEDYŚ, NIGDY. • przysłówki lczebnikowe: SAMOWTÓR. • oretatory trybu:NIECH, BYLE, • operatory deklaratywności: NIE, ALBO, NUŻ, NO, • operatory adnumeratywne: NIESPEŁNA.