80 likes | 177 Views
Implement ácia MapReduce aplikácií v prostredí Hadoop. Projekt z predmetu Vyhľadávanie informácií Marián Bystričan. Problém. Rýchle pripojenia na internet Služby od spoločnosti Google , Yahoo , Facebook , ... uchovávanie veľkého množstvo dát Používateľ očakáva rýchlu odozvu
E N D
ImplementáciaMapReduce aplikácií v prostredí Hadoop Projekt z predmetu Vyhľadávanie informácií Marián Bystričan
Problém • Rýchle pripojenia na internet • Služby od spoločnosti Google, Yahoo, Facebook, ... • uchovávanie veľkého množstvo dát • Používateľ očakáva rýchlu odozvu • Ako rýchlo spracovať tieto dáta? • Petabajty – akýkoľvek PC pomalý • Riešenie: distribuvaný prístup
Distribuovaný systém • Existuje niekoľko málo systémov, frameworkov • Condor (UniversityOf Wisconsine) • Clustera – nástupca Condoru • Hadoop – opensource, založený na riešení od Google • HadoopCore • Distribuované vykonávanie podúloh • Hadoopdistributedfilesystem
MapReduce model • Dve hlavné operácie • MAP • Podľa veľkosti dát a počtu PC v clusteri sa vytvtorí rôzny počet MAP objektov • Vstup: chunk vstupných dát • Výstup: dvojice kľúč-hodnota • REDUCE • Vstup: výsledok MAP rozdelený do skupín podľa kľúčov • Skombinuje výsledky MAP, nakoniec sa zoradia vždy podľa kľúča
Informáce o doménach • Vstupný súbor od sk-nic • Zoznam domén s informáciami, veľké dáta • Vzorové aplikácie • Počet domén na registrátora/vlastníka • Počet domén na registrátora obsahujúcich zadané slovo • Zmena počtu domén na registrátora za časové obdobie • hadoop jar Domains.jar<jobName> <inputPath> <outputPath> <param1> … <paramN>
Vyhodnotenie • Jeden počítač – pomalšie • Efektívne na spracovanie veľkých dát • Distribuovaný prístup – výsledky sú rýchlejšie (viac PC, rozdelené úlohy) • Treba vhodne nastaviť veľkosť chunkov