200 likes | 342 Views
Wiktoria. Anna Andrzejczuk Wojciech Żółtak Instytut Podstaw Informatyki PAN Instytut Języka Polskiego PAN. Internetowy słownik onomazjologiczny. Podstawy materiałowe – dane wynikowe z innych projektów. Słownik gramatyczny języka polskiego
E N D
Wiktoria Anna Andrzejczuk Wojciech Żółtak Instytut Podstaw Informatyki PAN Instytut Języka Polskiego PAN Internetowy słownik onomazjologiczny
Podstawy materiałowe – dane wynikowe z innych projektów Słownik gramatyczny języka polskiego Z. Saloniego, W. Gruszczyńskiego, M. Wolińskiego i R. Wołosza Słownik języka polskiego (www.sjp.pl) W planach – ręcznie anotowanypodkorpus NKJP
Założenia budowy struktury hierarchicznej Budowana jest od dołu. Relacje wyznaczające strukturę to głównie relacje hiponimiczne. Struktura jest antropocentryczna.
Typy haseł Ze względu na rolę, jaką pełną w słowniku leksem grupa pojęciowa Ze względu na położenie względem innego (nadrzędnego i podrzędnego) hasła rodzic dziecko Ze względu na miejsce w hierarchii korzeń rozgałęzienie liść
Wizualizacje • Całościowy obraz wizualizacji • Miejsce konkretnego leksemu w strukturze
Leksem • Część mowy – rzeczowniki • Jednowyrazowe • 1 znaczeni e - 1 hasło, np. adidas ale mokasyn • Forma hasłowa - mianownik l. poj. lub l.mn. • Rodzaj • Paradygmat odmiany • Definicja • Problem gramatyczny sprzężony z klatkami semantycznymi • Indywidualne cechy semantyczne (w planach)
Grupa pojęciowa Zwykle wyrażenie wielowyrazowe, ale bywają też jednowyrazowe. Przypisane są jej jedynie informacje związane z położeniem w strukturze hirarchicznej. Pełni funkcję budującą, grupującą.
Siatka haseł rzeczowniki plurale tantum rzeczowniki dwuliczbowe mające w liczbie mnogiej identyczne paradygmaty jak rzeczowniki PT uzupełnienie słownictwa w poszczególnych grupach pojęciowych
Relacje (formalno-)semantyczne • Synonimy • Uzupełniki • Meronimy/Holonimy • Konwersy • Powiązane • Niepowiązane
Korelacja cech semantycznych z gramatycznymi Problem gramatyczny Grupa gramatyczna Warstwa gramatyczna
Użyte narzędzia Python 2.7 Django 1.3.x PostgreSQL Jquery Serwer produkcyjny:Apache + modWSGI
Schemat modeli (automatycznie wygenerowany) Niezbyt czytelny... ale działa na wyobraźnię
Zapytania do SGJP Obecnie: Lokalna kopia bazy SGJP w formacie SQLite. Zapytania generujące odmianę żądanych słów bezpośrednio z bazy. Docelowo: Zapytania on-line do internetowego API SGJP. Możliwość zgłaszania przez redaktorów uwag do otrzymywanych wyników.
Trudności techniczne Django mało elastyczne Narzucony schemat projektu (podział na "aplikacje") bardziej przeszkadzał niż pomagał. ORM nie wspiera polimorfizmu (użyto dodatkowego modułu, ale oczywiście są z nim problemy). Łatwo pisać mało wydajny kod. Niewygodne środowisko testowe. Wizualizacja Brak naprawdę wydajnych bibliotek do rysowania grafów w JavaScript.
Dużo pracy przed nami... Wydajna reprezentacja dużych grafów. Izolacja użytkowników podczas pracy jednoczesnej. Lepsze porównywanie węzłów. Dodanie nowych pamięci podręcznych, przeniesienie obecnej do oddzielnej warstwy. Bardziej intuicyjna wyszukiwarka (wyszukiwarki?). Integracja z innymi projektami (np. SGJP).
Zakończenie Dziękujemy za uwagę