1 / 12

Natural Language Identification in the World Wide Web

Natural Language Identification in the World Wide Web. Peter Vojtek. Supervisor: Ing. Vladimír Grlický. Motivácia a ciele. Motivácia Ak é jazyky sa nachádzajú na internete? Koľko webstránok je v určitom jazyku a kódovaní? Ako identifikovať jazyk a kódovanie textu? Ciele

avak
Download Presentation

Natural Language Identification in the World Wide Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický

  2. Motivácia a ciele • Motivácia • Aké jazyky sa nachádzajú na internete? • Koľko webstránok je v určitom jazyku a kódovaní? • Ako identifikovať jazyk a kódovanie textu? • Ciele • Čo je to „slovenský internet“? • Akú metódu použiť na identifikáciu jazyka a kódovania webstránok?

  3. Slovenský internet • reprezentácia slovenského internetu – indexové stránky všetkých slovenských druhostupňových domén • stiahnutie webstránok – crawler • extrahovanie čistého textu - parser www.fiit.stuba.sk: sk – doména 1. rádu stuba – doména 2. rádu fiit – doména 3. rádu databáza SK-NIC: ~70 000 domén úspešne stiahnutých ~ 45 000 webstránok

  4. Identifikácia jazyka a kódovania • Cieľ • vytvoriť nástroj, ktorý dokáže rozhodnúť, v akom jazyku a kódovaní je dokument napísaný • Jazyky • slovenský jazyk • český jazyk • poľský jazyk • Kódovania • UTF-8 • Windows-1250 • ISO 8859-2

  5. Metóda Shift-Codon párovania A. B. C. D. Kroky: A. Vytvorenie/získanie korpusu B. Vytvorenie množín referenčných trigramov (profil) C. Zistenie výskytu trigramov v skúmanom texte D. Rozhodovanie na základe deliacej funkcie

  6. Vytvorenie profilu • získanie trigramov z korpusu • zoradenie trigramov podľa početnosti výskytu • výber n najpočetnejších trigramov Trigramy pre text: „viac a menej“: viac a menej trigram = via viaca menej trigram = iac viac a menej trigram = ac_ ... ... viac a menej trigram = nej

  7. Určenie deliacej funkcie • Určenie hranice, ktorá oddeľuje slovenské texty od ne-slovenských • Existuje vždy priestor pre vytvorenie tejto hranice? • Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?

  8. Výsledky • Úspešnosť správnej identifikácie jazyka a kódovania zároveň • Množstvočistého textu nachádzajúceho sa na webstránkach

  9. Iné možnosti • prechod od n-gramov ku Markovovým reťazcom • text: neskôr • trigram: nes, esk, skô, kôr • Markovov reťazec s dĺžkou prefixu 3 nes->k , esk->ô , skô->r p(nes->k), p(esk->ô), p(skô->r)

  10. Lepšie testovacie množiny • Histogram súboru získaných webstránok v neznámom jazyku a kódovaní • Histogram Reuters korpusu – známy jazyk a kódovanie

  11. Úspešnosť identifikácie pomocou Markovových reťazcov

  12. Zhrnutie • Dosiahnuté ciele • metóda Shift-Codon párovania - univerzálna metóda na identifikáciu jazyka a kódovania • overenie funkčnosti na menšej množine príbuzných jazykov • stiahnutie veľkej množiny zvolených webstránok a ich analýza • rozsiahly korpus s podobnými charakteristikami ako získané webstránky • vylepšená metóda pracujúca s Markovovými reťazcami

More Related