1 / 90

Datové sklady a BI aplikace

Datové sklady a BI aplikace. MFF Část 1. Říjen 2004 Ing. David Pirkl. 1. Přednáška. Cíle školení. Seznámit s architekturou aplikací BI Datové sklady Data Mining CRM Podrobně popsat metodologii tvorby datových skladů Ukázat na možnosti dimensionálního modelování

jun
Download Presentation

Datové sklady a BI aplikace

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datové sklady a BI aplikace MFF Část 1 Říjen 2004 Ing. David Pirkl

  2. 1. Přednáška

  3. Cíle školení • Seznámit s architekturou aplikací BI • Datové sklady • Data Mining • CRM • Podrobně popsat metodologii tvorby datových skladů • Ukázat na možnosti dimensionálního modelování • Pokročilé analytické techniky využití data • Obchodní příležitosti a typické úlohy

  4. Co byste si měli odnést • Představu o architektuře řešení BI a významu jednotlivých komponent • Detailní znalost metodiky tvorby DW • Principy dimensionálního modelování • Znalost hlavních technik pokročilé analýzy dat a jejich možnosti využití • Praktické zkušenosti s práce s řešením od firmy Microsoft a SPSS • MS SQL Server 2000, MS Analysis Services • Clementine, …

  5. Předpoklady • Žádné speciální znalosti nejsou požadovány • Uživatelská znalost • Práce na PC • Databází (např. MS Access) • Základy statistiky a středoškolské matematiky

  6. Literatura • Kimball Raplh: The Data Warehouse Toolkit, John Wiley & Sons, 2002 • Kimball Raplh: The Data Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998 • Inmon W. H.: Building the Data Warehouse, John Wiley & Sons, 2002 • Lacko Luboslav: Databáze: datové sklady, OLAP a dolování dat s příklady v MS SQL Serveru a Oracle, Computer Press, 2003 • Humphries M., Hawkins M. W. : Data warehousing : návrh a implementace, Computer Press, 2002 • Berry M. J., Linoff G.: Data Mining Techniques for marketing, sales and customer support, John Wiley & Sons, 1997 • Rud Olivia Parr: Data mining, Computer Press, 2001 • Berka Petr: Dobývání znalostí z databází, Academia, 2003

  7. Literatura • Rozsáhle zdroje na Internetu: • www.rkimball.com • www.billinmon.com • www.dw-institute.com • www.dwinfocenter.org • www.olapreport.com • www.microsoft.com • www.oracle.com • www.kdnuggets.com • www.dmreview.com • …

  8. Vyučuje • Ing. David Pirkl

  9. Agenda dne • Základní pojmy • Metodologie BDLC

  10. Základní pojmy • Mezi hlavní pojmy, s kterými se seznámíme, patří: • BI – Business Intelligence • Datový sklad • Datové tržiště • Proces ETL • OLAP • Reporting

  11. Business intelligence (BI) • Označuje proces transformace dat (údajů) na informace a převod těchto informací na znalosti, sloužící k podpoře podnikání (rozhodování) • Identifikovat trhlinu mezi obchodními potřebami a dostupnými informacemi

  12. Business intelligence (BI) Data mining Neuronové sítě, … Vysoké OLAP Reporting Data warehouse Znalosti Zpracování dat OLTP Operační databáze Informace Nízké Data

  13. Historie BI • Navazuje na rozvoj databázových systémů: • Transakční systémy (OLTP) • 60. léta – Dávkové zpracování výkazů • Složité nalézt a analyzovat informace • Nákladné a neflexibilní, přeprogramování dle nových požadavků • 70. léta – první manažerské aplikace (Lockheed) • Terminálově orientované EIS a DSS aplikace • 80. léta – Desktopové aplikace a analytické nástroje • Dotazovací nástroje, tabulkové procesory, GUI • Jednoduché na používání, přístup pouze k operačním databázím • 90. léta – Rozvoj datových skladů, integrace OLAP databází a DM technik

  14. Co vedlo k BI • Orientace na zákazníka • Potřeba efektivních a flexibilních analýz – cena informace • Potřeba oddělit analýzu od operačních potřeb • Rozvoj technologie – relační databáze, OLAP databáze

  15. Co vedlo k BI • Nemohu nalézt informace, které potřebuji • Data jsou v různých místech po síti • Různé verze dat, liší se • Nemohu se dostat k datům, která potřebuji • Potřeba kontaktovat IT experta • Nerozumím datům, která jsem získal • Data nejsou dokumentována (metadata) • Nemohu využít data, která jsem získal • Výsledky jsou nepravděpodobné (chyby) • Potřebuji transformovat data do jiné formy

  16. Současný a zítřejší stav • Mnoho nástrojů pro podporu řešení BI • Propracovaná metodologie • Vývoj směrem k co největší uživatelské přívětivosti • Mnoho konzultačních firem nabízejících řešení BI

  17. Komponenty a aplikace BI • Mezi komponenty BI řešení lze zařadit: • Reportingová řešení • Datové sklady • Data Mining řešení • CRM • specializované aplikace (optimalizace zásob, obchodních cest, …)

  18. Kontaktní CRM Uživatelé/Analytici 11 6 Analytický data mart 12 9 5 7 10 13 ODS 2. vrstva 8 1. vrstva OLAP analýza 0. vrstva 2 3 4 Reporting ETL 1 Obchod Provoz Účetnictví Architektura BI Data mining modely Centrální datový sklad Data marty Prodej Marketing Ekonomika

  19. Datový sklad je podnikový strukturovaný depozitář předmětově orientovaných, vzájemně provázaných, časově neměnných, historických dat používaný na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data. Bill Inmon Data Warehouse • Datový sklad je centrální úložiště různorodých dat firmy • Řešení integračních efektů • Jednotné místo uložení dat • Určeno pro analytickou podporu rozhodování (drill-down, drill-up) • Zahrnuje nejen data v databází, ale i nástroje pro extrakci dat, nástroje pro reporting, analýzu dat, data mining… • Prezentace dat uživatelsky příjemným způsobem zaměřeným na střední a vyšší management

  20. Předmětná orientace Prodejní systém Zaměstnanec Výplatní systém Zákazník Nákupní systém Prodejce Provozní systémy Aplikační orientace Datový sklad Předmětná orientace

  21. Integrace Prodejní systém Výplatní systém Zákazník Nákupní systém Provozní systémy Aplikační orientace Datový sklad Předmětná orientace

  22. Časová neměnnost, historie create zobrazení Výplatní systém Zákazník update delete insert načtení Provozní systémy Aplikační orientace Datový sklad Předmětná orientace

  23. Přínosy řešení datového skladu • Integrace a čistota dat, integrační efekty • Podpora úloh analytického charakteru a jejich ekonomické a mimoekonomické efekty • Vyšší flexibilita řízení a realizace změn • Zpětná vazba • Nezávislost vedoucích pracovníků na oddělení IT • Kvalifikační efekty – v IT i v ekonomice řízení (práce s informacemi, uvažování v kontextu) • Automatizace rutinních procesů (tvorba výkazů, zpráv) • Kontrola plnění plánů a finanční analýza Více

  24. Přínosy řešení datového skladu • Podpora analýzy dat: • Trendy, sledování a analýza časových řad • Poměrové ukazatele • Identifikace odchylek • Drill-down, Drill-up, Drill-across, Slice-dice

  25. OLTP • Provozní databáze

  26. OLTP vs. DW

  27. Data Mart (Datové tržiště) • Logická podmnožina datového skladu • Část řešení datového skladu určená pro podporu specifické analýzy (účetnictví) nebo oddělení firmy (marketing, prodej)

  28. ETL • Extraction-Transformation-Loading • Kompletní proces načtení dat do datového skladu • Zahrnuje mnoho subprocesů: • Extrakce – výběr dat • Transformace – ověření, čištění, integrace dat • Loading – načtení dat do DW • Kontrola kvality • Auditovaní • Bezpečnost • Zálohování & Obnova

  29. OLAP • On-Line Analytic Processing • Obecné označení pro dotazování a zobrazení dat z datového skladu založené na dimenzionálním modelu • Prakticky zkratka označuje multidimenzionální uložení a analýzu dat (OLAP databáze)

  30. ODS • Operational Data Store • Architektura obsahující předmětově orientovaná, integrovaná, současná, rychle se měnící a detailní data pro operační potřeby • ODS typicky obsahuje dat rychle se měnící v reálném čase • Pro podporu analytických a CRM aplikací

  31. Data Mining • Data mining je netriviální proces zjišťování platných, neznámých, potencionálně užitečných a snadno pochopitelných znalostí z dat. • Automatizované zpracování rozsáhlých datových souborů metodami na pokraji statistiky, strojového učení a umělé inteligence.

  32. CRM • Customer Relationship Management • Systémy pro řízení vztahů se zákazníky

  33. Shrnutí pojmů • Shrnutí relevantních pojmů (některé budou probrány dále) • OLTP – transakční systémy • Datový sklad (DW) • Datové tržiště • ETL • ODS • OLAP • CRM • Data Mining (DM) • Dimensionální modelování • ROLAP, MOLAP, HOLAP • Dotazovací nástroje • DM techniky

  34. DW - opakování • Centrální úložiště relevantní firemních dat • Integrace firemních datových zdrojů • Historie v datech • Centrální místo pro podporu informačních potřeb uživatelů • Velké objemy dat • Navrženo pro podporu analýzy – speciální struktury uložení dat

  35. Základní způsoby budování DW • Existují dva základní přístupy k budování DW: • Metoda velkého třesku • Přírůstková metoda

  36. Data marty Provoz Marketing Centrální datový sklad „Velký třesk“ Účetnictví Prodej Obchod Ekonomika Uživatelé Uživatelé Uživatelé Uživatelé Uživatelé Uživatelé BUS Architektura Data marty Provoz Marketing Centrální datový sklad Inkrementální přírůstky Účetnictví Prodej Ekonomika Obchod Přístupy k tvorbě DS

  37. Nezávislé datové tržiště Datové tržiště OLTP ETL

  38. Nezávislé datové tržiště ETL – 3 krát !!!

  39. Nezávislé datové tržiště $ $ Duplikace práce na ETL Časově i finančně náročné Údržba nezávislých DM je náročná, těžkopádná

  40. md Detailní md md DW architektura Uživatelské nástroje DW Dept’l Dept’l Dept’l Metadata Závislé datové tržiště s odpovídajícími metadaty

  41. DW md Dept’l Detailní DW architektura • Rychlý vývoj, ale … • Budou ETL konzistentní? • Jak je řízena redundance? • Komplexní architektura • Konzistence dat • Detailní i agregovaná data • Metadata jsou konzistentní

  42. Základní způsoby budování DW • Dnes je preferovaná přírůstková metoda • Přírůstková metoda zaručuje: • Projektovou zvládnutelnost řešení • Reálné časové horizonty jednotlivých etap (2-4 měsíce) • Řešení aktuálních uživatelských (obchodních) potřeb • Zpětnou vazbu uživatelů

  43. Cíle datového skladu • Zajistit dostupnost firemních informací • Zajistit konzistenci firemních informací • Vytvořit adaptivní a pružný zdroj informací • Zabezpečit ochranu firemních informací • Vytvořit základnu pro firemní podporu rozhodování (analytické centrum)

  44. DW procesy • Hlavní proces při tvorbě datového skladu • Podprocesy: • Extrakce • Transformace • Čištění dat • Výběr dat • Integrace • Umělé klíče • Agregace • Načtení (Loading) a tvorba indexů • Data Quality Assurance

  45. DW procesy • Další procesy v DW • Publikace dat (prezentační server) • Update dat • Dotazování • Zpětná vazba (čistá dat do OLTP, data z DM do DW) • Audit dat • Bezpečnost • Zálohování a obnova

  46. Architektura Uživatelské aplikace Provozní databáze Datový sklad „Prezentační vrstva“ ETL Prezentace • Uložení dat: • - 0. vrstva DW • - Není pro přímé • dotazování • Procesy: • - Čištění dat • - Integrace • - Full vs. Inkrem. • - Výběr • - Duplicity • - Standardizace • - Conformní • dimenze • - Převod do • prezentační • vrstvy • - a další B U S Ad Hoc dotazování Datové tržiště - Dimenzionální - Předmětně orientované - BUS architekt. - OLAP Extrakce Plnění Prezentace Reportovací nástroje Prezentace Datové tržiště Intranet Plnění Extrakce DM modelování - scoring - předpovědi - segmentace - cross-selling - časové řady Analýza Datové tržiště Extrakce Plnění Oprava chyb Výsledky modelů

  47. CRM aplikace a Internetové aplikace Architektura Data mining aplikace Internetové a intranetové aplikace pro řízení vztahu se zákazníkem, podporu pracovníků distribuční sítě (např. on-line scoring) Data mining modely Scoring, cross-selling, … MS SQL Server 2000 EE Provozní databáze MS SQL Server 2000 Uživatelé ETL Relační databáze datového skladu (0. a 1. vrstva, datová tržiště a ODS) Ekon. MS DTS Obchod WWW prohlížeč (IE) MS Analysis Services Externí data OLAP dbf Excel XP Excel MS Reporting Services ProClarity Metainformační a reportingový portál

  48. Produkty pro BI • Nástroje pro BI • Microsoft (MS SQL Server, Analysis Services, Reporting Services) • Oracle • Sybase IQ • IBM DB2, DB2 OLAP Server • Microstrategy • SPSS • SAS • SAP – Business Warehouse • Klientské nástroje • ProClarity • Oracle Discoverer • MS Excel 2000 • Business Objects • Cognos: PowerPlay, Impromptu • Brio: Brio Query • Quadbase – EspressReport

  49. 2. Přednáška

  50. Výběr produktů instalace Technická architektura Definice uživatelských požadavků ETL procesy Dimensionální modelování Fyzická úroveň Údržba a růst Projektový plán Nasazení Uživatelské aplikace specifikace Uživatelské aplikace vývoj Projektový management Business Dimensional LifeCycle • Standardní metodologie vývoje datového skladu od Ralpha Kimballa

More Related