70 likes | 221 Views
Hadoop. Parsovanie n ázvov článkov , presmerovaní , kategórií a názvov kapitól. Popis problémovej oblasti. Apache Hadoop Map Reduce Názov článku <title>N ázov </title> N ázov kapitoly ==N ázov == Kategória [[Category: Kateg ória ]]. Roz šírenia. Pig Mahout Casandra HBase
E N D
Hadoop Parsovanienázvov článkov, presmerovaní, kategórií a názvov kapitól
Popis problémovej oblasti • ApacheHadoop • Map Reduce • Názov článku <title>Názov</title> • Názov kapitoly ==Názov== • Kategória [[Category: Kategória]]
Rozšírenia • Pig • Mahout • Casandra • HBase • Zookeeper
Postup práce • Vytvorenie partície pre operačný systém Linux • Inštalácia Hadoop • Vytvorenie regulárnych výrazov • Implementácia funkcií mapuj a redukuj • Implementácie triedy pre koordináciu prác • Implementácia počítadiel
Testovanie • Hadoop projekt • SaxParserprojekt • Enwikilatestarticelsxml
Výsledky • 3 súbory • Kľúč – hodnota (názov článku – zoznam kategórií)
Vyhodnotenie • Spracovávanie po riadkoch • Mahout • XMLInputFormat • Neošetruje chybu typu, výraz je cez viac riadkov • SAXParser – komplikovanejšia implementácia