Extrakcia kolok ácií

Extrakciakolokácií Martin Plank

Motivácia • V texte sa vyskytujú ustálené slovné spojenia • Je ich potrebné poznať pri • strojovom preklade, • extrakcii kľúčových slov, • generovaní prirodzeného jazyka • Metódy: • Asociačné metriky – napr. pointwisemutualinformation • Lingvistické metódy – vlastnosti kolokácií

Dáta • Štatistiky frekvencií n-gramov – stovky miliónov záznamov • Predspracovanie • Vyradenie n-gramov so stop-slovami, interpunkciou, nízkych frekvencií • Využitie regulárnych výrazov • Lematizácia • Po predspracovaní: • Štatistiky unigramov: 937 767 záznamov, 11,7 MB • Štatistiky bigramov: 4 791 336 záznamov, 94,4 MB • Štatistiky trigramov: 17 757 770 záznamov, 481,9 MB

Indexovanie • Štatistiky trigramov • Rozdelenie do súborov po 1000 záznamov (takmer 18 000 súborov) • Pri veľmi frekventovaných slovách sa prechádza cca polovica súborov => niekoľko násobné zrýchlenie výpočtu

Metóda • Kolokácie sú slabo modifikovateľné • Príklad: trafiť klinec po hlavičke • Slovo klinec sa často používa so slovami dlhý, hrdzavý • Výskyt n-gramu trafiť dlhý/hrdzavý klinec po hlavičke nie je pravdepodobný • Porovnanie štatistík n-gramov => výpočet modifikovateľnosti slovného spojenia • Slovné spojenia s nízkou hodnotou modifikovateľnosti sú pravdepodobne kolokácie

Softvér • Pre najčastejšie kombinácie vybraného slova určí, ktoré z nich sú kolokácie • Implementácia v Jave • Využitie nástroja Apache Lucene pri indexovaní

Vyhodnotenie • Najlepšie výsledky: 30 % najpravdepodobnejších kolokácií • Presnosť: 0,290 • Pokrytie: 0,586 • F-metrika: 0,388

Zhrnutie • Extrakcia kolokácií na základe frekvenčných štatistík n-gramov • Využitie vlastnosti slabej modifikovateľnosti kolokácií • Práca so slovenským jazykom – Slovenský národný korpus • Predspracovanie rozsiahlych dát • Indexovanie • Vyhodnotenie extrakcie – presnosť a pokrytie

Extrakcia kolok ácií

Extrakcia kolok ácií

Presentation Transcript

Analýza textu

Text Mining

Extrakcia udalost í

PeWe Available Tools for Text Analysis

PeWe Available Tools for Text Analysis

Záverečná prezentácia semestrálnej práce