80 likes | 284 Views
Hive ( Hadoop ). Pavol N ágl xnagl @ is.stuba.sk Vyhľadávanie informácií , 2009. Hive ( Hadoop ). Data Warehouse systém pre veľké množsto dát Vznikol z potreby Facebooku, ktorý dnes generuje denne desiatky TB metadát
E N D
Hive (Hadoop) Pavol Nágl xnagl@is.stuba.sk Vyhľadávanie informácií, 2009
Hive (Hadoop) • Data Warehouse systém pre veľké množsto dát • Vznikol z potreby Facebooku, ktorý dnes generuje denne desiatky TB metadát • Doteraz používaný spôsob spracovania prostredníctvom Oracle a ETL bol nedostačujúci
Podobné riešenia • Vertica analytics database • http://www.vertica.com/ • Sybase IQ • http://www.sybase.com/products/datawarehousing/sybaseiq
Prostredie Cloudera Image – predinštalované testovacie prostredie • Hadoop 0.20 (pre file system) • Hive (data warehouse nadstavba Hadoop)
Dáta Ako testovacie dáta boli použité dlhé romány v plain text formáte • „hugovictetext94lesms10.txt“ predstavuje knihu „Bedári“ od Viktora Huga. Obsahuje približne 200 000 slov • Súbor „w&p_complete.txt“ Predstavuje knihu „Vojna a mier“, ktorú napísal Leo Tolstoy. Obsahuje približne 550 000 slov
Popis testovania Hive • Nahranie údajov (romány v plain text formáte) do Hadoop file system • Analýza údajov v Hadoop (Word Count) • Vytvorenie štruktúr v Hive • Nahranie údajov do štruktúr v Hive • Analýza údajov v Hive ( analýza výskytu slov v románoch s braním ohľadu na rozsah textu a bez neho)
Výsledky (absolútne početnosti) • Tabuľka 1- - absolútny počet výskytov slov
Výsledky (relatívne početnosti) • Tabuľka 2 - relatívny počet výskytov slov