1 / 7

Pavouk - telugština

David Mareček. Pavouk - telugština. Telugština. Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F ). Zdroj dat. Výchozí stránka: http://in.telugu.yahoo.com/

azure
Download Presentation

Pavouk - telugština

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. David Mareček Pavouk - telugština

  2. Telugština • Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. • cca 70 miliónů mluvčích • Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F).

  3. Zdroj dat • Výchozí stránka: http://in.telugu.yahoo.com/ • Stránky, které nemají v hlavičce meta tag s kódováním utf-8, se zahazují. • Program během stahování neopustil výchozí stránku.

  4. Parsing • Pro parsování stránky byl použit balík HTML::Parser. • Pro dekódování entit balík HTML::Entities. • Každá stránka rozdělena na odstavce. • Bereme poze ty odstavce, které jsou uvnitř bloku <body> a zároveň nejsou uvnitř bloku <script>.

  5. Zpracování textu • Pro každý odstavec se podle vzorce z přednášky určí podobnost jeho jazyka • Při dostatečné podobnosti (pro telugštinu více jak 0.6) se tento odstavec přidá do korpusu • Hašování obsahu odstavců pomcí CRC (String::CRC), tím zamezíme výskytu shodných odstavců v korpusu

  6. Zpracování linků • Během průchodu stránkou se všechny linky převádějí na absoulutní a ukládají se do pomocného seznamu. • Pokud se z této stránky vložil do korpusu alespoň jeden odstavec, seznam linků se přidá na konec fronty, v opačném případě se zahodí. • Hašování linků pomocí CRC, do fronty se přidávají pouze nenavštívená url.

  7. Korpus • počet odstavců: 11 030 • počet slov: 511 022 • počet znaků (bez mezer): 3 603 193 • velikost 10,6 MB

More Related