1 / 37

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

ayita
Download Presentation

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

  2. Spotkanie 2 Homonimia.

  3. Defekty języka naturalnego Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>

  4. Defekty języka naturalnego Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2> …..

  5. Defekty języka naturalnego a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA

  6. Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.

  7. Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosławpiórka, wydała zapół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20

  8. Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosław piórka, wydała zapół-Turka, żeby wyciągnąć Serockzbłocka. 14 : 20

  9. Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?

  10. Homonimia w życiu 268. Degenerat zosadyWysoka żonieswojejnie wybił dziśoka. Jednym bowiem zopuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26

  11. Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.

  12. Homonimia w życiu 408. Pewien łobuz zTuluzy wkłada zwyklerajtuzy, śpiesząc dozamtuza, których jest Tuluza pełna – od tampośluzy. 11 : 18

  13. Homonimia naukowo

  14. Homonimia naukowo

  15. Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.

  16. Homonimia naukowo PU*1 sztuka utraciLaswojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501siEkoncert111wybitnej221niegdys‘ s'piewaczki121 i nie us'wietniAgo42 nawet nigdy dotAd nie wykonywane212utwory112genialnego221 kompozytora121. sLuchaczemys'lA5 o66 czym46 innym261, rozmawiajAo66 czym46 innym261 i s'piewaczka, postarzawszy501siE, gLos141straciLa. nie było dotAdtakich222 koncertOw u62 iwaszkiewicza/121. 26 : 47

  17. Homonimia naukowo Homonimia —równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakamichłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.

  18. Homonimia naukowo Homoforma —słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999).

  19. Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (falsefriends) System —potencja. Strukturalista rejestruje funkcje / opozycje. Kształty —nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!

  20. Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem —ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów —wielkie. Stąd: analiza musi być automatyczna. Homonimia —główne wyzwanie.

  21. Analiza fleksyjna • toniemy a.  TONĄĆ b. czas;1,m,ter ciem a.  ĆMA b. rzecz,żeń;D,m bowiem a.  BOWIEM b. spój;- • Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz

  22. Rozwiązanie homonimii W tekście — homoformy bardzo częste. • tonie 1.  TONĄĆ, czas;3,p,ter 2.  TOŃ, rzecz.żeń.;M,m 3.  TOŃ, rzecz.żeń.;B,m 4.  TOŃ, rzecz.żeń.;W,m 5.  TON, rzecz.mnż.;Ms,p 6.  TON, rzecz.mnż.;W,p 7.  TONA, rzecz.żeń.;C,p 8.  TONA, rzecz.żeń.;Ms,p

  23. Rozwiązanie homonimii • Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) • Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)

  24. Rozwiązanie homonimii • Homonimia w węższym sensie: międzyparadygmatyczna. • Synkretyzm: homonimia wewnątrzparadygmatyczna. • Rozwiązanie homonimii w węższym sensie: dehomonimizacja. • Rozwiązanie synkretyzmu: desynkretyzacja.

  25. Rozwiązanie homonimii • „Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. • „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. • Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.

  26. Grant, AMOR, Składak • Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko • Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf

  27. Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004

  28. Homonimia i synkretyzm Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. • Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne • Synkretyzmy: „systemowe” seryjne przewidywalne

  29. Homonimia i synkretyzm • Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka  FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple  CZAPLA lub CZAPLI Model rzadki

  30. Homonimia i synkretyzm c. Model -li(Vp-Vł): pili  PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej  JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki  DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany

  31. Homonimia i synkretyzm • Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)

  32. Słownik AMOR-a W systemie i tekście

  33. przymiotniki gr. II • 2855 • żeński gr. IV • 1234 • męski gr III • 878 • żeński gr. III • 832 • męski gr IV • 786 • czasownik gr. 5c • 738 • czasownik gr. I • 599 • czasownik gr. 6a • 515 • nijaki gr. I • 482 • czasownik gr. 3 • 465 W systemie i tekście • W słowniku AMOR-a

  34. W systemie i tekście • W korpusie PWN

  35. Podsumowanie • RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. • Różne cele: techniczny, leksykograficzny, składniowo-semantyczny. • Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.

  36. Podsumowanie a. bezskładniowa: .......... brać .................. brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; .......... dziewczynie ............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: ............. dobrym tonie ............: TON, Msp (ale: Jan w kajaku dobrym tonie.) .............. w tonie ............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa

  37. Podsumowanie Wszystkie drogi prowadzą do składni!!!

More Related