Implement ácia MapReduce aplikácií v prostredí Hadoop

ImplementáciaMapReduce aplikácií v prostredí Hadoop Projekt z predmetu Vyhľadávanie informácií Marián Bystričan

Problém • Rýchle pripojenia na internet • Služby od spoločnosti Google, Yahoo, Facebook, ... • uchovávanie veľkého množstvo dát • Používateľ očakáva rýchlu odozvu • Ako rýchlo spracovať tieto dáta? • Petabajty – akýkoľvek PC pomalý • Riešenie: distribuvaný prístup

Distribuovaný systém • Existuje niekoľko málo systémov, frameworkov • Condor (UniversityOf Wisconsine) • Clustera – nástupca Condoru • Hadoop – opensource, založený na riešení od Google • HadoopCore • Distribuované vykonávanie podúloh • Hadoopdistributedfilesystem

MapReduce model • Dve hlavné operácie • MAP • Podľa veľkosti dát a počtu PC v clusteri sa vytvtorí rôzny počet MAP objektov • Vstup: chunk vstupných dát • Výstup: dvojice kľúč-hodnota • REDUCE • Vstup: výsledok MAP rozdelený do skupín podľa kľúčov • Skombinuje výsledky MAP, nakoniec sa zoradia vždy podľa kľúča

Informáce o doménach • Vstupný súbor od sk-nic • Zoznam domén s informáciami, veľké dáta • Vzorové aplikácie • Počet domén na registrátora/vlastníka • Počet domén na registrátora obsahujúcich zadané slovo • Zmena počtu domén na registrátora za časové obdobie • hadoop jar Domains.jar<jobName> <inputPath> <outputPath> <param1> … <paramN>

JobTracker

HDFS

Vyhodnotenie • Jeden počítač – pomalšie • Efektívne na spracovanie veľkých dát • Distribuovaný prístup – výsledky sú rýchlejšie (viac PC, rozdelené úlohy) • Treba vhodne nastaviť veľkosť chunkov

Implement ácia MapReduce aplikácií v prostredí Hadoop