80 likes | 229 Views
Extrakcia kolok ácií. Martin Plank. Motivácia. V texte sa vyskytujú ustálené slovné spojenia Je ich potrebné poznať pri strojovom preklade, extrakcii kľúčových slov, generovaní prirodzeného jazyka Metódy: Asociačné metriky – napr. pointwise mutual information
E N D
Extrakciakolokácií Martin Plank
Motivácia • V texte sa vyskytujú ustálené slovné spojenia • Je ich potrebné poznať pri • strojovom preklade, • extrakcii kľúčových slov, • generovaní prirodzeného jazyka • Metódy: • Asociačné metriky – napr. pointwisemutualinformation • Lingvistické metódy – vlastnosti kolokácií
Dáta • Štatistiky frekvencií n-gramov – stovky miliónov záznamov • Predspracovanie • Vyradenie n-gramov so stop-slovami, interpunkciou, nízkych frekvencií • Využitie regulárnych výrazov • Lematizácia • Po predspracovaní: • Štatistiky unigramov: 937 767 záznamov, 11,7 MB • Štatistiky bigramov: 4 791 336 záznamov, 94,4 MB • Štatistiky trigramov: 17 757 770 záznamov, 481,9 MB
Indexovanie • Štatistiky trigramov • Rozdelenie do súborov po 1000 záznamov (takmer 18 000 súborov) • Pri veľmi frekventovaných slovách sa prechádza cca polovica súborov => niekoľko násobné zrýchlenie výpočtu
Metóda • Kolokácie sú slabo modifikovateľné • Príklad: trafiť klinec po hlavičke • Slovo klinec sa často používa so slovami dlhý, hrdzavý • Výskyt n-gramu trafiť dlhý/hrdzavý klinec po hlavičke nie je pravdepodobný • Porovnanie štatistík n-gramov => výpočet modifikovateľnosti slovného spojenia • Slovné spojenia s nízkou hodnotou modifikovateľnosti sú pravdepodobne kolokácie
Softvér • Pre najčastejšie kombinácie vybraného slova určí, ktoré z nich sú kolokácie • Implementácia v Jave • Využitie nástroja Apache Lucene pri indexovaní
Vyhodnotenie • Najlepšie výsledky: 30 % najpravdepodobnejších kolokácií • Presnosť: 0,290 • Pokrytie: 0,586 • F-metrika: 0,388
Zhrnutie • Extrakcia kolokácií na základe frekvenčných štatistík n-gramov • Využitie vlastnosti slabej modifikovateľnosti kolokácií • Práca so slovenským jazykom – Slovenský národný korpus • Predspracovanie rozsiahlych dát • Indexovanie • Vyhodnotenie extrakcie – presnosť a pokrytie