370 likes | 517 Views
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1
E N D
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl
Spotkanie 2 Homonimia.
Defekty języka naturalnego Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>
Defekty języka naturalnego Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2> …..
Defekty języka naturalnego a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA
Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.
Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosławpiórka, wydała zapół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20
Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosław piórka, wydała zapół-Turka, żeby wyciągnąć Serockzbłocka. 14 : 20
Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?
Homonimia w życiu 268. Degenerat zosadyWysoka żonieswojejnie wybił dziśoka. Jednym bowiem zopuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26
Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.
Homonimia w życiu 408. Pewien łobuz zTuluzy wkłada zwyklerajtuzy, śpiesząc dozamtuza, których jest Tuluza pełna – od tampośluzy. 11 : 18
Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.
Homonimia naukowo PU*1 sztuka utraciLaswojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501siEkoncert111wybitnej221niegdys‘ s'piewaczki121 i nie us'wietniAgo42 nawet nigdy dotAd nie wykonywane212utwory112genialnego221 kompozytora121. sLuchaczemys'lA5 o66 czym46 innym261, rozmawiajAo66 czym46 innym261 i s'piewaczka, postarzawszy501siE, gLos141straciLa. nie było dotAdtakich222 koncertOw u62 iwaszkiewicza/121. 26 : 47
Homonimia naukowo Homonimia —równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakamichłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.
Homonimia naukowo Homoforma —słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999).
Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (falsefriends) System —potencja. Strukturalista rejestruje funkcje / opozycje. Kształty —nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!
Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem —ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów —wielkie. Stąd: analiza musi być automatyczna. Homonimia —główne wyzwanie.
Analiza fleksyjna • toniemy a. TONĄĆ b. czas;1,m,ter ciem a. ĆMA b. rzecz,żeń;D,m bowiem a. BOWIEM b. spój;- • Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz
Rozwiązanie homonimii W tekście — homoformy bardzo częste. • tonie 1. TONĄĆ, czas;3,p,ter 2. TOŃ, rzecz.żeń.;M,m 3. TOŃ, rzecz.żeń.;B,m 4. TOŃ, rzecz.żeń.;W,m 5. TON, rzecz.mnż.;Ms,p 6. TON, rzecz.mnż.;W,p 7. TONA, rzecz.żeń.;C,p 8. TONA, rzecz.żeń.;Ms,p
Rozwiązanie homonimii • Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) • Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)
Rozwiązanie homonimii • Homonimia w węższym sensie: międzyparadygmatyczna. • Synkretyzm: homonimia wewnątrzparadygmatyczna. • Rozwiązanie homonimii w węższym sensie: dehomonimizacja. • Rozwiązanie synkretyzmu: desynkretyzacja.
Rozwiązanie homonimii • „Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. • „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. • Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.
Grant, AMOR, Składak • Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko • Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf
Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004
Homonimia i synkretyzm Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. • Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne • Synkretyzmy: „systemowe” seryjne przewidywalne
Homonimia i synkretyzm • Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple CZAPLA lub CZAPLI Model rzadki
Homonimia i synkretyzm c. Model -li(Vp-Vł): pili PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany
Homonimia i synkretyzm • Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)
Słownik AMOR-a W systemie i tekście
przymiotniki gr. II • 2855 • żeński gr. IV • 1234 • męski gr III • 878 • żeński gr. III • 832 • męski gr IV • 786 • czasownik gr. 5c • 738 • czasownik gr. I • 599 • czasownik gr. 6a • 515 • nijaki gr. I • 482 • czasownik gr. 3 • 465 W systemie i tekście • W słowniku AMOR-a
W systemie i tekście • W korpusie PWN
Podsumowanie • RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. • Różne cele: techniczny, leksykograficzny, składniowo-semantyczny. • Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.
Podsumowanie a. bezskładniowa: .......... brać .................. brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; .......... dziewczynie ............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: ............. dobrym tonie ............: TON, Msp (ale: Jan w kajaku dobrym tonie.) .............. w tonie ............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa
Podsumowanie Wszystkie drogi prowadzą do składni!!!