Parsovanie textov článkov

Parsovanie textov článkov Michal Adda

Motivácia • Získanie informácií z Wikipédie • 2 spôsoby • Vytvorenie kópie prostredia, aké používa Wikipédia • Parsovaniewikipédiadumpu

Existujúci softvér • gwtwiki • WikiTextparser • Sweble • WikiTextparser • ScrewTurnWiki • Wikiengine

Riešenie problému • Problém 1: Odstránenie Markup textu • Problém 2: Rozbalenie WikiTemplatov

Problém 1 – Odstránenie Markup textu • Markup reťazec ''italics'' bude preložený do html reťazca <i>italics</i>, ktorý bude v prehliadači zobrazený ako italics. • Možnosti riešenia • Preloženie do html (veľa existujúcich nástrojov) • Odstránenie pomocou Regex výrazov

Problém 2 – Rozbalenie templatov • Problémy: • Viaceré možnosti zápisu templatov • Komplikovaná gramatika templatov • Veľké množstvo templatov • Vnorené templaty • Riešenia: • Vlastné riešenie • Použitie Sweble

Problém 2 – Riešenie Sweble • ParserWiki textu s podporou rozbaľovania templatov • Rozbaľovanie je potrebné si naprogramovať implementovaním rozhrania ExpansionCallback a jeho použitím v triede CompiledPage

Riešenie ParsovanaWikiTextu • Prechádzame text wiki článku • Keď narazíme na použitie templatu, nahradíme ho jeho originálym textom • Pokiaľ je to prvé použitie daného templatu, stiahneme ho • Inak použijeme nakešovanú verziu template textu • Pokračujeme, pokiaľ nerozbalíme všetky templaty

Hadoop Riešenie • .NET • Map operácie dostávajú cestu k čiastkovému Wiki súboru, ten potom spracováva volaná Java aplikácia

Vyhodnotenie

Vyhodnotenie – TemplateLiterature

Vyhodnotenie – TemplateAbout

Vyhodnotenie – Nefungujúce templaty • {{#include}} • Infobox, NavBox

Parsovanie textov článkov

Parsovanie textov článkov

Presentation Transcript

L TKY OVLIVNUJ C HEMOST ZU prof. MUDr. Jirina Mart nkov , CSc. 2009

Dohovor o medzin rodnom civilnom letectve CHICAGSK DOHOVOR

ANXIOLYTIC and SEDATIVE- HYPNOTIC DRUGS Prof. Mart nkov 20

GALVANICKÉ ČLÁNKY A ICH VYUŽITIE

Slovensko bez dorastu

JOOMLA 3 ako pripraviť web za 90 minút

Tvorba presnej tabuľky v programe MS EXCEL

Ako na písanie odborných článkov

kmeň: obrúčkavce (annelida)

Kmeň: Obrúčkavce

AKO PRITIAHNUŤ DETI K FUTBALU

Obťažnosť textov

Ing. Miroslav Púpala

Ing. Miroslav Púpala

Ing. Miroslav Púpala

Evaluation of Personalized News Recommending via Similarity Search

Virtuálna knižnica Mestských knižníc Drážďany

preklad právnych textov. dáva translatológia dostatok odpovedí?

Metóda Konspektu

Ing. Miroslav Púpala

Navig ácia v DigLib