1 / 8

Implement ácia MapReduce aplikácií v prostredí Hadoop

Implement ácia MapReduce aplikácií v prostredí Hadoop. Projekt z predmetu Vyhľadávanie informácií Marián Bystričan. Problém. Rýchle pripojenia na internet Služby od spoločnosti Google , Yahoo , Facebook , ... uchovávanie veľkého množstvo dát Používateľ očakáva rýchlu odozvu

lita
Download Presentation

Implement ácia MapReduce aplikácií v prostredí Hadoop

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ImplementáciaMapReduce aplikácií v prostredí Hadoop Projekt z predmetu Vyhľadávanie informácií Marián Bystričan

  2. Problém • Rýchle pripojenia na internet • Služby od spoločnosti Google, Yahoo, Facebook, ... • uchovávanie veľkého množstvo dát • Používateľ očakáva rýchlu odozvu • Ako rýchlo spracovať tieto dáta? • Petabajty – akýkoľvek PC pomalý • Riešenie: distribuvaný prístup

  3. Distribuovaný systém • Existuje niekoľko málo systémov, frameworkov • Condor (UniversityOf Wisconsine) • Clustera – nástupca Condoru • Hadoop – opensource, založený na riešení od Google • HadoopCore • Distribuované vykonávanie podúloh • Hadoopdistributedfilesystem

  4. MapReduce model • Dve hlavné operácie • MAP • Podľa veľkosti dát a počtu PC v clusteri sa vytvtorí rôzny počet MAP objektov • Vstup: chunk vstupných dát • Výstup: dvojice kľúč-hodnota • REDUCE • Vstup: výsledok MAP rozdelený do skupín podľa kľúčov • Skombinuje výsledky MAP, nakoniec sa zoradia vždy podľa kľúča

  5. Informáce o doménach • Vstupný súbor od sk-nic • Zoznam domén s informáciami, veľké dáta • Vzorové aplikácie • Počet domén na registrátora/vlastníka • Počet domén na registrátora obsahujúcich zadané slovo • Zmena počtu domén na registrátora za časové obdobie • hadoop jar Domains.jar<jobName> <inputPath> <outputPath> <param1> … <paramN>

  6. JobTracker

  7. HDFS

  8. Vyhodnotenie • Jeden počítač – pomalšie • Efektívne na spracovanie veľkých dát • Distribuovaný prístup – výsledky sú rýchlejšie (viac PC, rozdelené úlohy) • Treba vhodne nastaviť veľkosť chunkov

More Related