Natural Language Identification in the World Wide Web

Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický

Motivácia a ciele • Motivácia • Aké jazyky sa nachádzajú na internete? • Koľko webstránok je v určitom jazyku a kódovaní? • Ako identifikovať jazyk a kódovanie textu? • Ciele • Čo je to „slovenský internet“? • Akú metódu použiť na identifikáciu jazyka a kódovania webstránok?

Slovenský internet • reprezentácia slovenského internetu – indexové stránky všetkých slovenských druhostupňových domén • stiahnutie webstránok – crawler • extrahovanie čistého textu - parser www.fiit.stuba.sk: sk – doména 1. rádu stuba – doména 2. rádu fiit – doména 3. rádu databáza SK-NIC: ~70 000 domén úspešne stiahnutých ~ 45 000 webstránok

Identifikácia jazyka a kódovania • Cieľ • vytvoriť nástroj, ktorý dokáže rozhodnúť, v akom jazyku a kódovaní je dokument napísaný • Jazyky • slovenský jazyk • český jazyk • poľský jazyk • Kódovania • UTF-8 • Windows-1250 • ISO 8859-2

Metóda Shift-Codon párovania A. B. C. D. Kroky: A. Vytvorenie/získanie korpusu B. Vytvorenie množín referenčných trigramov (profil) C. Zistenie výskytu trigramov v skúmanom texte D. Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu • získanie trigramov z korpusu • zoradenie trigramov podľa početnosti výskytu • výber n najpočetnejších trigramov Trigramy pre text: „viac a menej“: viac a menej trigram = via viaca menej trigram = iac viac a menej trigram = ac_ ... ... viac a menej trigram = nej

Určenie deliacej funkcie • Určenie hranice, ktorá oddeľuje slovenské texty od ne-slovenských • Existuje vždy priestor pre vytvorenie tejto hranice? • Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?

Výsledky • Úspešnosť správnej identifikácie jazyka a kódovania zároveň • Množstvočistého textu nachádzajúceho sa na webstránkach

Iné možnosti • prechod od n-gramov ku Markovovým reťazcom • text: neskôr • trigram: nes, esk, skô, kôr • Markovov reťazec s dĺžkou prefixu 3 nes->k , esk->ô , skô->r p(nes->k), p(esk->ô), p(skô->r)

Lepšie testovacie množiny • Histogram súboru získaných webstránok v neznámom jazyku a kódovaní • Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou Markovových reťazcov

Zhrnutie • Dosiahnuté ciele • metóda Shift-Codon párovania - univerzálna metóda na identifikáciu jazyka a kódovania • overenie funkčnosti na menšej množine príbuzných jazykov • stiahnutie veľkej množiny zvolených webstránok a ich analýza • rozsiahly korpus s podobnými charakteristikami ako získané webstránky • vylepšená metóda pracujúca s Markovovými reťazcami

Natural Language Identification in the World Wide Web

Natural Language Identification in the World Wide Web

Presentation Transcript

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The world wide web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web

The World Wide Web