250 likes | 455 Views
MICROSOFT HRVATSKA. Big Data: I Microsoft ima slona za utrku. Luka Lovošević, Antonio Faletar Microsoft Hrvatska. Sadržaj Uvod u Big Data Pregled MS platforme Hadoop Demo. Što je Big Data?. Što je Big Data?. Podaci koji su vam bitni, ali ih tradicionalnim alatima ne možete procesirati.
E N D
MICROSOFT HRVATSKA Big Data: I Microsoft ima slona za utrku Luka Lovošević, Antonio Faletar Microsoft Hrvatska
Sadržaj Uvodu Big Data Pregled MS platforme Hadoop Demo
Što je Big Data? Podaci koji su vam bitni, ali ih tradicionalnim alatima ne možete procesirati. VOLUME (Količina) VARIETY (Struktura) VELOCITY (Brzina, real-time)
Izvori podataka Vrijeme i lokacija RFID Logovi Text Telemetrija Društvene mreže Pametne kuće Senzori
Big Data algoritmi Slični artikli (npr. web shop) Real-time analiza Analiza povezanih pojmova Česti skupovi artikala c Klastering (grupiranje) Reklamiranje na webu Sustavi preporuka Analiza na društvenim mrežama
Microsoft Big Data platforma Self-service BI alati SQL Server StreamInsight SQL Server 2012 Parallel Data Warehouse Hadoop – HDInsight (Windows ili Azure)
Što je Hadoop? Platforma za procesiranje velike količine podataka Apache, open source Google GFS i MapReduce Visoko skalabilan i distribuiran Commodity hardver Apache projekt Yahoo! EnterpriseHadoop 2013 2004 2006 2008 2010 2012
Hadoop arhitektura Task tracker Task tracker MapReduceLayer (distribuirano procesiranje) Job tracker Name node HDFS Layer (distribuirana pohrana) Data node Data node
MapReduce Node Node Podaci Node Node
MapReduce Program // Map Reduce function in JavaScript varmap = function (key, value, context) { var words = value.split(/[^a-zA-Z]/); for (var i = 0; i < words.length; i++) { if (words[i] !== "") context.write(words[i].toLowerCase(), 1);} }}; varreduce = function (key, values, context) { var sum = 0; while (values.hasNext()) { sum += parseInt(values.next()); } context.write(key, sum); }; Node Node Node Node
Pig Procesiranje i oblikovanje podataka ETL tool MapReduce
Hive Strukturiranje podataka SQL sintaksa ODBC, Excel … MapReduce
Mahout Biblioteka gotovih algoritama Strojno učenje (npr. clustering, recommendation, …) MapReduce
HDInsight Hadoop Hadoopza Windows Server Hadoopza Windows Azure Programiranje u .NET-u Security, HA & management Podrška za virtualizaciju Integracija s Microsoft BI alatima Isto iskustvo za on-premise i cloud
Demo Windows Azure HDInsight
Hadoop 2.0 HortonWorks Stinger inicijativa Tez (interactive) vs. batch Streaming (Storm project), itd.
Zaključak Big data trend Hadoop de facto standard Windows Azure HDInsight Open source