120 likes | 261 Views
Natural Language Identification in the World Wide Web. Peter Vojtek. Supervisor: Ing. Vladimír Grlický. Motivácia a ciele. Motivácia Ak é jazyky sa nachádzajú na internete? Koľko webstránok je v určitom jazyku a kódovaní? Ako identifikovať jazyk a kódovanie textu? Ciele
E N D
Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický
Motivácia a ciele • Motivácia • Aké jazyky sa nachádzajú na internete? • Koľko webstránok je v určitom jazyku a kódovaní? • Ako identifikovať jazyk a kódovanie textu? • Ciele • Čo je to „slovenský internet“? • Akú metódu použiť na identifikáciu jazyka a kódovania webstránok?
Slovenský internet • reprezentácia slovenského internetu – indexové stránky všetkých slovenských druhostupňových domén • stiahnutie webstránok – crawler • extrahovanie čistého textu - parser www.fiit.stuba.sk: sk – doména 1. rádu stuba – doména 2. rádu fiit – doména 3. rádu databáza SK-NIC: ~70 000 domén úspešne stiahnutých ~ 45 000 webstránok
Identifikácia jazyka a kódovania • Cieľ • vytvoriť nástroj, ktorý dokáže rozhodnúť, v akom jazyku a kódovaní je dokument napísaný • Jazyky • slovenský jazyk • český jazyk • poľský jazyk • Kódovania • UTF-8 • Windows-1250 • ISO 8859-2
Metóda Shift-Codon párovania A. B. C. D. Kroky: A. Vytvorenie/získanie korpusu B. Vytvorenie množín referenčných trigramov (profil) C. Zistenie výskytu trigramov v skúmanom texte D. Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu • získanie trigramov z korpusu • zoradenie trigramov podľa početnosti výskytu • výber n najpočetnejších trigramov Trigramy pre text: „viac a menej“: viac a menej trigram = via viaca menej trigram = iac viac a menej trigram = ac_ ... ... viac a menej trigram = nej
Určenie deliacej funkcie • Určenie hranice, ktorá oddeľuje slovenské texty od ne-slovenských • Existuje vždy priestor pre vytvorenie tejto hranice? • Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?
Výsledky • Úspešnosť správnej identifikácie jazyka a kódovania zároveň • Množstvočistého textu nachádzajúceho sa na webstránkach
Iné možnosti • prechod od n-gramov ku Markovovým reťazcom • text: neskôr • trigram: nes, esk, skô, kôr • Markovov reťazec s dĺžkou prefixu 3 nes->k , esk->ô , skô->r p(nes->k), p(esk->ô), p(skô->r)
Lepšie testovacie množiny • Histogram súboru získaných webstránok v neznámom jazyku a kódovaní • Histogram Reuters korpusu – známy jazyk a kódovanie
Zhrnutie • Dosiahnuté ciele • metóda Shift-Codon párovania - univerzálna metóda na identifikáciu jazyka a kódovania • overenie funkčnosti na menšej množine príbuzných jazykov • stiahnutie veľkej množiny zvolených webstránok a ich analýza • rozsiahly korpus s podobnými charakteristikami ako získané webstránky • vylepšená metóda pracujúca s Markovovými reťazcami