1 / 27

Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego. Joanna Rączaszek – Leonardi Bartosz Kruszyński Wydział Psychologii UW. Teorie znaczenia wyrazów języka naturalnego. Jak ująć/reprezentować znaczenie? Gdzie go szukać?

eloise
Download Presentation

Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wielowymiarowa Przestrzeń Semantyczna (HAL)jako narzędzie analizy korpusów języka polskiego Joanna Rączaszek – Leonardi Bartosz Kruszyński Wydział Psychologii UW

  2. Teorie znaczenia wyrazów języka naturalnego • Jak ująć/reprezentować znaczenie? • Gdzie go szukać? • W zewnętrznej rzeczywistości? • W umyśle użytkownika języka? • W związkach między wyrazami? • Alan Cruse „Meaning in Language” (Oxford Textbooks in Linguistics, 2004) • „The position taken in this book is that in general meanings are not finitely describable, so this task boils down to finding the best way to approximate meanings as closely as necessary for current purposes...”

  3. Charakterystyka znaczenia: częstość współwystępowania z innymi wyrazami • Teoria najmniej ciekawa dla psychologa...? (pomija to, do czego wyraz się odnosi, pomija reprezentacje poznawcze, jakie towarzyszą użyciu lub rozumieniu wyrazu). • Jednak związki między wyrazami (konteksty jęz.) daje się obiektywnie opisać; • Łatwiej niż: odniesienia, czy reprezentacje umysłowe... • Wzorce współwystępowania wyrazów jeśli nie wyznaczają (tak jak chciał np. Quine) tego, co one znaczą, to na pewno z tego znaczenia wynikają. Jakoś więc są z innymi aspektami znaczenia powiązane, odzwierciedlają je.

  4. Metoda: • 1995 – Kurt Burgess: Konferencja CUNY: Hyperspace Analogue to Language • Korpus: np. 160 mln wyrazów; • Macierz np. 10 000 x 10 000; elementy: średnia bliskość danych dwóch wyrazów w tekście (miara współwystępowania dwóch wyrazów); • Wyraz: reprezentowany przez wektor (o długości 10 000 elementów); • Podobieństwo wektorów: podobieństwo (strukturalistycznie zdefiniowanego) znaczenia.

  5. CO UMIE HAL? • Kategoryzacja • Np. semantyczna rzeczowników (nazwy geograficzne, zwierzęta, rośliny); • Kategorie gramatyczne; • Znajduje najbliższe „semantycznie” wyrazy • Burgess: korelacja bliskości w przestrzeni HAL z siłą torowania (model pamięci semantycznej(?));

  6. Torowanie semantyczne: • Założenie: słowa semantycznie związane uaktywniają się nawzajem (sieci semantyczne: im bliższy związek, tym silniej) • Rozpoznanie słowa jest szybsze po wcześniejszej prezentacji słowa semantycznie z nim związanego

  7. SZPITAL SZPITAL KOŁO DRZEWO LEKARZ JAJKO TRATWA STONU słowo nie-słowo

  8. Wstępna ocena HAL’a • Bardzo prosty koncepcyjnie model może być użyteczny w badaniach reprezentacji znaczenia. • Czy nadaje się do tych samych celów w przypadku języka polskiego?

  9. HAL a język polski • Polski: swobodniejszy (niż angielski) szyk zdania: czy HAL będzie działał? • przykład: konstrukcja macierzy • Działa. Nawet na małym (np. 0,5 mln) korpusie: • Znajduje wyrazy bliskie znaczeniowo (intuicyjnie; np. Najbliżej wyrazu „absolwentów”: są wyrazy: „uczniów”, „ludzi”, „i”, „nauczycieli”, „szkół”); • Klasyfikuje; • Przewiduje siłę torowania: efekt torowania silniejszy dla wyrazów bliskich w przestrzeni HAL niż dla dalekich (związek między „strukturalistycznym” a „psychologicznym” opisem znaczenia).

  10. HAL działa: • Dla języków o różnej strukturze i szyku zdania • Dla małych korpusów • Dla form podstawowych jak i dla bezpośrednio występujących w tekście

  11. HAL jako narzędzie analizy tekstów • Porównywanie bliskości wyrazów w HAL’ach skonstruowanych dla różnych korpusów tekstów: • Pochodzących z różnych momentów czasowych • Np. Analiza zmiany relatywnej bliskości wektorów w czasie • Pochodzących z różnych kultur lub środowisk: • Nasz Dziennik vs Gazeta Wyborcza

  12. Pierwsze (wstępne) analizy • Porównanie otoczenia semantycznego wybranych słów • Porównanie odległości między wybranymi wyrazami wewnątrz każdego korpusu

  13. "kościoła" "kościoła" "kościoła" "kościoła" Ad. 1 "kościoła" "kościoła" "wyroki" "mit" "kościoła" "kościoła" "urząd" "miał" "kościoła" "kościoła" "krwi" "historii" "kościoła" "kościoła" "znaki" "katolickiego" "kościoła" "kościoła" "przekracza" "polityki" "kościoła" "kościoła" "patriotyzm" "założenia" "kościoła" "kościoła" "polaków" "dzieła" "kościoła" "kościoła" "wiernych" "książka" "kościoła" "kościoła" "powołany" "mówić" "kościoła" "kościoła" "duszpasterz" "europę" "kościoła" "kościoła" "tle" "krakowie" "kościoła" "kościoła" "matki" "odmówił" "kościoła" "kościoła" "w" "otwarcie" "kościoła" "kościoła" "bożej" "wiary" "kościoła" "kościoła" "św" "postawa" "kościoła" "cbś" "kościoła" "nagrodę" "kościoła" "przekonany" "kościoła" "głośno" GW: ND:

  14. "kobiet" "kobiet" "kobiet" "kobiet" "kobiet" "kobiet" "roli" "mężczyzn" "kobiet" "kobiet" "niczym" "cyklu" "kobiet" "kobiet" "ciała" "dziele" "kobiet" "kobiet" "równocześnie" "chętnie" "kobiet" "kobiet" "twarzy" "sytuacja" "kobiet" "kobiet" "białe" "pokoleń" "kobiet" "kobiet" "miejscach" "jaruga" "kobiet" "kobiet" "zatem" "pełnomocnik" "kobiet" "kobiet" "zasadach" "status" "kobiet" "kobiet" "forum" "kilkunastu" "kobiet" "kobiet" "wskaźnik" "rękę" "kobiet" "kobiet" "trzech" "nowacka" "kobiet" "kobiet" "zdjęcia" "pomysł" "kobiet" "kobiet" "izabela" "wspólnej" "kobiet" "kobiet" "statusu" "ton" "kobiet" "kobiet" "sobą" "mężczyzn" "kobiet" "kobiet" "kowalewska" "ds" "kobiet" "kobiet" "roli" "wygląda" "kobiet" "kobiet" "przyczynić" "prowadzi" ND: GW:

  15. Ad. 2. Porównanie relatywnych odległości wektorów reprezentujących wybrane pojęcia • Uporządkowano wszystkie wyrazy (o f >10) według odległości od wybranego wyrazu. • Czyli: im wyższa ranga, tym podobniejsze wektory.

  16. ND dobrego - 1307 Złego- 1858 dobrego - 3381 złego - 1085 dobrego – 3034 złego - 576 matka - 157 dobrego – 1698 złego - 3300 matka - 309 dobrego – 5784 złego - 1701 dobrego – 294 złego - 465 dobrego – 4120 złego - 3034 dobrego – 2451 złego - 3269 GW Kościoła Kobieta Aborcji Polsce „Dyferencjał semantyczny” w HAL’u:

  17. Kłopoty z HAL’em: • Odróżnienie asocjacji (klisz językowych) od „prawdziwej” bliskości semantycznej • np. „czerwony” i „kapturek” mogą mieć podobne wektory bliskości do innych wyrazów bo często występują razem – szczególnie w małych korpusach. • Odróżnianie znaczeń wyrazów wieloznacznych • Czym jest HAL? Ponadjednostkowa, abstrakcyjna „reprezentacja znaczenia”?

  18. Bibliografia Burgess, C., & Lund, K. (1997). Modeling parsing constraints with high-dimensional context space. Language and Cognitive Processes, 12, 177-210. Burgess, C., & Livesay, K. (1998). The effect of corpus size in predicting reaction time in a basic word recognition task: Moving on from Kucera and Francis. Behavior Research Methods, Instruments, & Computers, 30, 272-277. Burgess, C. (1998). From simple associations to the building blocks of language: Modeling meaning in memory with the HAL model. Behavior Research Methods, Instruments, & Computers, 30, 188-198. Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instrumentation, and Computers, 28, 203-208. Marciszewski, W. (1985) Logika formalna, Warszawa: PWN. Osgood, C. E. (1971) Exploration in semantic space: A personal diary. Journal of Social Issues, 27, 5-64.

  19. Przykład: • Obliczanie wartości elementów macierzy dla zdania: The horse raced past the barn fell. • Okno o rozmiarze 5

  20. The horse

  21. The horse raced

  22. The horse raced past

  23. The horse raced past the

  24. The horse raced past the barn

  25. The horse raced past the barn fell

More Related