260 likes | 414 Views
Big Data analytics. Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András benczur @ sztaki.mta.hu http://datamining.sztaki.hu. Big Data: volume , velocity , variety.
E N D
Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András benczur@sztaki.mta.hu http://datamining.sztaki.hu Big Data @ SZTAKI
Big Data: volume, velocity, variety • “big data” is when the size of the dataitself becomes part of the problem • “big data” is data that becomes largeenough that it cannot be processed using conventional methods • Google sorts 1PB in 33 minutes (07-09-2011) • Amazon S3 store contains 499B objects (19-07-2011) • New Relic: 20B+ application metrics/day (18-07-2011) • Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011
Big Data: volume, velocity, variety media pricing fraud detection transportation Online reputation Proprietary hardware newscuration Revolution Focused Services Matlab SPSS speed SAS R Proprietary code SciPy Mahout real time KDB scale Netezza Big Analytics Vertica Esper velocity HBase Greenplum Fast Data MapR InfoBright Progress Hadoop MySql batch volume MBs PBs
Big Data: volume, velocity, variety Virtual Web Observatory Mobility Social Media Stratosphere streamingapps Web analytics Focused Services speed GraphLab Stratosphereanalyticsapps real time scale Storm Big Analytics SAP HANA velocity Stratosphere Fast Data BUbiNGcrawler MemoryBot batch batch volume MBs PBs
Virtuális Web Obszervatórium • TREC Web gyűjtemény (2012) • 2 Mrd angol nyelvű HTML
Virtuális Web Obszervatórium • Web Crawl, Internet MemoryFoundation, Paris/Amsterdam
Virtuális Web Obszervatórium • 1.2 Mrd Tweet
Virtuális Web Obszervatórium • Angol Wikipedia letölthető adata • 170 havi pillanatkép 2013 májusig
Virtuális Web Obszervatórium • Nagy általános ontológia • Wikipedia, DBPediaés egyéb források • Max Planck Saarbrücken
Gráfvizualizáció • YAGO entitások • kapcsolatok
Ajánló rendszerek - mátrixfaktorizáció • Felhasználói értékelés mátrix (R) pl. 1M x 10,000 • Termék (pl. film) 1-5 „csillaggal” • Kitöltöttség 1% alatt • Feladat: a hiányzó értékelések megbecsülése • Kiértékelés • Teszt adat (pl. jövőbeli értékelés) • Hibamérték • RMSE (Root Mean Squared Error) • Leggyakrabban alkalmazott • Nagy büntetés a nagy tévedésekre • MAE (Mean Absolute Error) • Mátrixfaktorizáció (regularizált)
R P 1 4 3 1,1 -0,2 1,2 -0,3 1,1 -0,4 1,2 -0,5 4 4 1,2 0,9 1,1 0,8 1,2 0,9 0,5 -0,3 0,4 -0,4 0,4 -0,2 0,5 -0,1 4 2 4 1,5 1,3 1,4 0,9 0,8 -1,2 -1,1 -1,3 0,0 -0.1 0,1 0.6 0.5 Q -0,1 -0,2 0,0 0,4 0,5 -0,3 -0,2 -0,4 1,5 1,6 1,6 0,2 0,3 Forrás: Tikk Domonkos, Gravity
R P 3.3 2.4 1 4 3 1,4 1,1 -0.5 3.5 4 4 1.5 0,9 1,9 2,5 -0,3 4.9 1.1 4 2 4 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity
Smart City – mobilitási adatok • Mobilitási adatok többcélú elemzése • Mobil szolgáltatás minősége • Személyre szabott profilépítés térben és időben • Felhasználó és helyszín modellek építése és előrejelzés • Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés • Intelligens város alkalmazások • Többtényezős optimalizáció (ár, idő – elektromos autók!) • Tömegközlekedés • Katasztrófahelyzetek, nagy rendezvények biztosítása • Metropolisz adatmennyisége • Tárolásra nincs idő (volume) • Azonnali reakció (velocity) • Mozgás, események, tartalomfogyasztás, közösség (variety)
Mobilitás adatfolyam osztott feldolgozása Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben
Big Data kutatások kapcsolódásai Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Ajánló rendszerek Tudományos publikációk Közösségi hálózatok SZTAKI kísérleti felhő Wigner, MTA, … Elosztott technológia keretrendszerek
Összefoglalás Big Data feladatok jellemzői • Adat „más célból” gyűlik • Nincs mintavételezés – statisztikai szignifikancia? • Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek • Web, közösségi média, virtuális Web obszervatórium • Ajánló rendszerek, vásárlói szokások • Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra • Stratosphere (TU Berlin, EIT ICTLabs) • GraphLab (CMU, HUJI – LAWA projekt) • SAP HANA
A Big Data nem csodafegyver! NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.
Köszönöm a figyelmet! Big Data @ SZTAKI