330 likes | 454 Views
A Big Data – és ami alatta van Sepp Norbert IBM Magyarország. 2. 3. Marketing Prioritás Mátrix. 1. Adatrobbanás. Felkészületlenek aránya. 2. Közösségi média. Eszközök és csatornák növekvő választéka. 1. 3. 70. Változó ügyféldemográfia. 4. 5. Pénzügyi korlátok.
E N D
A Big Data – és ami alatta van Sepp Norbert IBM Magyarország
2 3 Marketing Prioritás Mátrix 1 Adatrobbanás Felkészületlenek aránya 2 Közösségi média Eszközök és csatornák növekvő választéka 1 3 70 Változó ügyféldemográfia 4 5 Pénzügyi korlátok Csökkenő márkahűség 4 6 60 Növekedő piacok megcélzása 5 7 6 Megtérülési szempontok 8 10 7 9 8 11 Ügyfelekkel való együttműködés 9 50 12 Személyes adatok védelme 10 13 Globális kiszervezés 11 12 Megfelelés Befolyásoló tényezők 40 13 Átláthatóság 0 20 40 60 Átlag
Mi lenne, ha tudnánk a választ a hasonló kérdésekre? Mely termék lesz a legsikeresebb? Melyik tranzakció utal visszaélésre? Melyik ügyfél akar elpártolni? Hogy nyerek ki értelmet az adattengerből? A különbség… …hogy képesek lehetünk megalapozott döntést hozni – az eredmények előrejelzéséhez és alakításához
Analitika - Business Analytics & Optimisation (BAO) Analitika: hardver, szoftver, rendszerek, megoldások, szolgáltatások kombinációja, amely lehetővé teszi a szervezeteknek, hogy az adattangerből információt nyerjenek ki, s ebből új üzleti lehetőségeket találjanak … az analitikába fektető cégek rendre megelőzik konkurenseiket Bevétel növekedési ráta 5 év CAGR (2004-2008) Profit növekedési ütem 5 év CAGR (2004-2008) Megtérülés 5 év átlag (2004-2008) >12x 33% 32% 12.5% 11.9% 9.4% 9.0% 7.3% 0.6%
Statisztikai elemzés Minőségi és mennyiségi sorok Területi és idősorok Teljes körű és reprezentatív minta Viszonyszámok, gyakorisági sorok, koncentráció, sztochasztikus kapcsolat, asszociáció, korreláció Középértékek (számított: számtani, mértani, harmonikus, négyzetes / helyzeti: módusz, medián) Statisztikai következtetés (valószínűségi alapokon) becslés (egy mintából következtetünk meg nem mért értékre – konfidencia-intervallum, megbízhatósági szint) Hipotézisvizsgálat v. próba (első- és másodfajú hiba, szignifikanciaszint, kritikus érték
Leginkább aktuális analitikai témák • “Big Data” • Variety, Velocity, Volume, Veracity • “Nagy” és “kis” adat – sok anomália, érdekes minták. A “kis” adat hagyományos megközelítése mellett kifinomult módszerek kellenek a “nagy” adatok kezeléséhez • Közösségi média analitika • Pontos, rugalmas, gyors, reagálni kell az elérhető adatokban megfogalmazódott felhasználói igényekre • Valós idejű adatok • Az adatok kinyerése, átalakítás, mozgatása, feldolgozása már nem kötegelet, háttérben zajló folyamat, hanem azonnali tevékenység
Haladó analitika területei • Statisztikai • Miért történik? Miről maradunk le? • Érzelmek elemzése (Sentiment analysis ) • Mi a véleményük rólunk? Hogy viszonyulnak hozzánk? • Tervezés, előrejelzés • Mit fogunk tenni? Mik a trendek? Mennyi kell és mikor? • Prediktív modellezés • Mi a következő lépés? Mi lesz ennek az üzleti hatása? • Szimuláció • Mi lenne, ha...? Mik az alternatívák? • Optimalizálás • Hogyan javíthatunk ezen? Mi a legjobb döntés? • Tartalomelemzés • A meglévő információból még mit lehet kitalálni? • Identity Insight • Személyek és dolgok, közöttük lévő kapcsolatok megismerése
8 Analitika a gyakorlatban • Hogy érjük el a legjobb eredményt • a véletlent is figyelembe véve? • Sztochasztikus optimalizálás Előíró • Hogy érjük el a legjobb eredményt? • Optimalizálás • Prediktív modellezés • Mi lesz akkor, ha... ? Előrejelző • Szimuláció • Mi történhet … ? • Hova vezetnek a trendek? • Előrejelzés • Riasztás • Mit kell tenni? • Mi a probléma pontosan? • Lekérdezés/lefúrás • Mennyi, hol, milyen gyakran? • Ad hoc Jelentések Leíró • Rendszeres Jelentések • Mi történt? Komplexitás
Big Data analitikai olló Rendelkezésre álló adat... Elszalasztott lehetőség … és amennyit fel tudunk dolgozni A vállalatok az új lehetőségek erdejében vakon tapogatóznak A rendelkezésre álló adatok egyre kisebb részét tudjuk feldolgozni
Big Analytics • 10
Gather data Analyse Decide Act, Monitor, Learn Define Problem Gather data Analyse Decide Act, Monitor, Learn Define Problem Gather data Analyse Decide Act, Monitor, Learn Define Problem Gather data Analyse Decide Act, Monitor, Learn Define Problem Az analitikai folyamat Adatgyűjtés Elemzés Döntés Probléma meghatározása Cselekvés, monitorozás, tanulás Bemenet + Elemzés + Döntés + Eredmények = Új adat! ... Döntéseink új döntések bemenő adatai
Dimensional Layer Predictive Analytics Planning, Forecasting, Budgeting Operational Orchestration Components Enterprise Apps Ingestion Data Warehouse Data Mining Unstructured Data Stores Scorecards Extraction CRUD Transactional Components Simulation Structured Data Stores Operational Data Store Dashboards Base Services Data Load Components Informational Text Analytics Guided Analysis Time Persistent Repository Document Management Services Master / Reference Data Optimization Reporting Reference Data Management Master Data Store Records Management Services Visualization Querying External Content Store Monitoring Web Federation Staging Area Devices IBM BAO referencia architektúra Data Integration Content Management Data Repositories Advanced Analytics BI / Performance Monitoring Master Data Management Access Sources BATCH REALTIME Web / Services Extract / Subscribe Data Quality Portal Device Transform Composite Application Load / Publish Collaborative Application TRANSACTIONAL Productivity Application Enterprise Search Business Unit Application Business Process Management Service Management Information Governance Collaboration Security, Privacy & Compliance Transport & Delivery Infrastructure
IBM BAO Referencia Architektúra BI / Performance Monitoring Content Management Master Data Management Data Integration Data Repositories Advanced Analytics Sources Access Business Process Management Service Management Information Governance Collaboration Security, Privacy & Compliance Transport & Delivery Infrastructure CPU MEMORY DISK NETWORK
CPU MEMORY NETWORK IBM BAO Referencia Architektúra BI / Performance Monitoring Content Management Master Data Management Data Integration Data Repositories Advanced Analytics Sources Access DISK CPU DISK NETWORK DISK DISK MEMORY MEMORY Business Process Management Service Management Information Governance Collaboration Security, Privacy & Compliance Transport & Delivery NETWORK Infrastructure
Betáplálás Integrálás Analízis Értelmezés Az analitikai folyamat tipikus lépései Adat Eredmény A Big Data elemzésnél további szempontok Gyorsan kell az eredmény Sokféle adat Nagy mennyiségű adat Pontos eredmény kell Releváns válasz Megfizethető megoldás Sokak által használható megoldás
Az adat maga is kihívásokat teremt... Variety Volume Velocity Veracity Value
Betáplálás Integrálás Analízis Értelmezés Az analitika üzleti és műszaki szempontokat is felvet Variety Volume Velocity Veracity Value Műszaki fókusz Megoldás Üzleti fókusz
Betáplálás Integrálás Analízis Értelmezés A betáplálás korlátait fizikai törvények határozzák meg Feladat: az adatot a felhasználás helyére mozgatni Variety Volume Velocity Veracity Value Sebesség: - Hálózat - Tároló - Memória - CPU Párhuzamosítás ? Helyben használat ?
Példa: Nagy adatmennyiség mozgatása ... a klasszikus módszerek napokat, heteket jelentenek
Betáplálás Integrálás Analízis Értelmezés Integrálás Cél: több helyről összeszedni, kombinálni (és megtisztítani) az adatokat Variety Volume Velocity Veracity Value Mennyiség és sebesség: - Memória - Tároló Számítási teljesítmény Párhuzamosítás?
Betáplálás Integrálás Analízis Értelmezés Az elemzés a komoly munka Variety Volume Velocity Veracity Value Számítási teljesítmény Memória mennyisége és átbocsátóképessége Párhuzamosítás Speciális „gyorsítók”
Betáplálás Integrálás Analízis Értelmezés Értelmezés: használhatóvá tenni az eredményt... Variety Volume Velocity Veracity Value Vizualizáció Grafikus képességek Számítási teljesítmény
Megtartás Betáplálás Integrálás Analízis Értelmezés Megtartás Eldobás Az elemzés nem egy különálló sziget... Használjuk majd még - hozzáférési idő - gyakoriság - teljes vagy részhalmaz Újra felhasználás / Finomítás Megtartás T Talán használjuk még - Mire? - Mely részét? ... hanem a teljes adat-életciklus része
Operatív adatok BI Server Hagyományos (operatív) adatforrások Streaming Analytics 'Cubing Services' Adattárház Integrálás Virtual Sandboxes Új adatforrások In-memory sandbox Hadoop cluster Standalone sandbox Részlegek adattárai Példa Általános felhasználó Jelentés Műszerfal Riasztások Kiemelt felhasználó
SCM SCM Optimalizálás Érzékenység- elemzés Prediktív analitika, modellezés, szimuláció Cores Storage Cores Storage SCM Network Network Cores Storage Network Az egyes analitikai feladatok más-más követelményeket támasztanak Szövegelemzés, Hadoop
Hardver: Masszív párhuzamosság, tartós memória Adatközpontú modell Számításközpontú modell Manycore FPGA Párhuzamoság Tartós memória bemenet kimenet Phase Change Flash Adat szalagon és diszken Adatmozgatás a processzorhoz Sokszintű tároló-hierarchia Adat a tartós memóriában Sok processzor veszi körül Lapos tároló-hierarchia A feladat hat a hardverválasztásra, a rendszerszoftverre, az alkalmazásokra
Storage Class Memory • (Phase Change) • FLASH SCM – 2015 $0.05 / GB $50K / PB $0.10 / GB $0.01 / GB Source: Chung Lam, IBM HDD költségelőny, 1/10 SCM SCM sebességelőny, 10,000x HDD
Analitikai megoldások megvalósulási formái • Software as a Service (SaaS) - felhő • Analitikai célmegoldások (PureData platform, BigInsight) • Open Source Analitikai megoldások • Analitikai szoftvercsomagok (SPSS, Cognos...) • vs. • Hagyományos rendszerek
A trendek... • Strukturálatlan adatok mennyisége rohamosan nő • Új elemzési lehetőségek és problémák • Új vállalati igények • Egységes, jól felhaszálható, elérhető analitika: • Költséghatékonyság • Felhasználóbarát, könnyen hozzáférhető megoldások • Skálázhatóság, optimalizált környezet • Analitika a domináns IT feladat, a hardverválasztást befolyásolja • A Tera katergória és Exa (Zetta) kategória közötti folytonos átmenet • Adatközpont-tervezés, fenntarthatóság ... az infrastruktúra támogassa a változás lehetőségét
Can we design a computing system that rivals a human’s ability to answer questions posed in natural language, interpreting meaning and context and retrieving, analyzing and understanding vast amounts of information in real-time? IBM Watson “a jövő analitikája” - már ma...