930 likes | 1.16k Views
Datové sklady a BI aplikace. MFF Část 1. Říjen 2004 Ing. David Pirkl. 1. Přednáška. Cíle školení. Seznámit s architekturou aplikací BI Datové sklady Data Mining CRM Podrobně popsat metodologii tvorby datových skladů Ukázat na možnosti dimensionálního modelování
E N D
Datové sklady a BI aplikace MFF Část 1 Říjen 2004 Ing. David Pirkl
Cíle školení • Seznámit s architekturou aplikací BI • Datové sklady • Data Mining • CRM • Podrobně popsat metodologii tvorby datových skladů • Ukázat na možnosti dimensionálního modelování • Pokročilé analytické techniky využití data • Obchodní příležitosti a typické úlohy
Co byste si měli odnést • Představu o architektuře řešení BI a významu jednotlivých komponent • Detailní znalost metodiky tvorby DW • Principy dimensionálního modelování • Znalost hlavních technik pokročilé analýzy dat a jejich možnosti využití • Praktické zkušenosti s práce s řešením od firmy Microsoft a SPSS • MS SQL Server 2000, MS Analysis Services • Clementine, …
Předpoklady • Žádné speciální znalosti nejsou požadovány • Uživatelská znalost • Práce na PC • Databází (např. MS Access) • Základy statistiky a středoškolské matematiky
Literatura • Kimball Raplh: The Data Warehouse Toolkit, John Wiley & Sons, 2002 • Kimball Raplh: The Data Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998 • Inmon W. H.: Building the Data Warehouse, John Wiley & Sons, 2002 • Lacko Luboslav: Databáze: datové sklady, OLAP a dolování dat s příklady v MS SQL Serveru a Oracle, Computer Press, 2003 • Humphries M., Hawkins M. W. : Data warehousing : návrh a implementace, Computer Press, 2002 • Berry M. J., Linoff G.: Data Mining Techniques for marketing, sales and customer support, John Wiley & Sons, 1997 • Rud Olivia Parr: Data mining, Computer Press, 2001 • Berka Petr: Dobývání znalostí z databází, Academia, 2003
Literatura • Rozsáhle zdroje na Internetu: • www.rkimball.com • www.billinmon.com • www.dw-institute.com • www.dwinfocenter.org • www.olapreport.com • www.microsoft.com • www.oracle.com • www.kdnuggets.com • www.dmreview.com • …
Vyučuje • Ing. David Pirkl
Agenda dne • Základní pojmy • Metodologie BDLC
Základní pojmy • Mezi hlavní pojmy, s kterými se seznámíme, patří: • BI – Business Intelligence • Datový sklad • Datové tržiště • Proces ETL • OLAP • Reporting
Business intelligence (BI) • Označuje proces transformace dat (údajů) na informace a převod těchto informací na znalosti, sloužící k podpoře podnikání (rozhodování) • Identifikovat trhlinu mezi obchodními potřebami a dostupnými informacemi
Business intelligence (BI) Data mining Neuronové sítě, … Vysoké OLAP Reporting Data warehouse Znalosti Zpracování dat OLTP Operační databáze Informace Nízké Data
Historie BI • Navazuje na rozvoj databázových systémů: • Transakční systémy (OLTP) • 60. léta – Dávkové zpracování výkazů • Složité nalézt a analyzovat informace • Nákladné a neflexibilní, přeprogramování dle nových požadavků • 70. léta – první manažerské aplikace (Lockheed) • Terminálově orientované EIS a DSS aplikace • 80. léta – Desktopové aplikace a analytické nástroje • Dotazovací nástroje, tabulkové procesory, GUI • Jednoduché na používání, přístup pouze k operačním databázím • 90. léta – Rozvoj datových skladů, integrace OLAP databází a DM technik
Co vedlo k BI • Orientace na zákazníka • Potřeba efektivních a flexibilních analýz – cena informace • Potřeba oddělit analýzu od operačních potřeb • Rozvoj technologie – relační databáze, OLAP databáze
Co vedlo k BI • Nemohu nalézt informace, které potřebuji • Data jsou v různých místech po síti • Různé verze dat, liší se • Nemohu se dostat k datům, která potřebuji • Potřeba kontaktovat IT experta • Nerozumím datům, která jsem získal • Data nejsou dokumentována (metadata) • Nemohu využít data, která jsem získal • Výsledky jsou nepravděpodobné (chyby) • Potřebuji transformovat data do jiné formy
Současný a zítřejší stav • Mnoho nástrojů pro podporu řešení BI • Propracovaná metodologie • Vývoj směrem k co největší uživatelské přívětivosti • Mnoho konzultačních firem nabízejících řešení BI
Komponenty a aplikace BI • Mezi komponenty BI řešení lze zařadit: • Reportingová řešení • Datové sklady • Data Mining řešení • CRM • specializované aplikace (optimalizace zásob, obchodních cest, …)
Kontaktní CRM Uživatelé/Analytici 11 6 Analytický data mart 12 9 5 7 10 13 ODS 2. vrstva 8 1. vrstva OLAP analýza 0. vrstva 2 3 4 Reporting ETL 1 Obchod Provoz Účetnictví Architektura BI Data mining modely Centrální datový sklad Data marty Prodej Marketing Ekonomika
Datový sklad je podnikový strukturovaný depozitář předmětově orientovaných, vzájemně provázaných, časově neměnných, historických dat používaný na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data. Bill Inmon Data Warehouse • Datový sklad je centrální úložiště různorodých dat firmy • Řešení integračních efektů • Jednotné místo uložení dat • Určeno pro analytickou podporu rozhodování (drill-down, drill-up) • Zahrnuje nejen data v databází, ale i nástroje pro extrakci dat, nástroje pro reporting, analýzu dat, data mining… • Prezentace dat uživatelsky příjemným způsobem zaměřeným na střední a vyšší management
Předmětná orientace Prodejní systém Zaměstnanec Výplatní systém Zákazník Nákupní systém Prodejce Provozní systémy Aplikační orientace Datový sklad Předmětná orientace
Integrace Prodejní systém Výplatní systém Zákazník Nákupní systém Provozní systémy Aplikační orientace Datový sklad Předmětná orientace
Časová neměnnost, historie create zobrazení Výplatní systém Zákazník update delete insert načtení Provozní systémy Aplikační orientace Datový sklad Předmětná orientace
Přínosy řešení datového skladu • Integrace a čistota dat, integrační efekty • Podpora úloh analytického charakteru a jejich ekonomické a mimoekonomické efekty • Vyšší flexibilita řízení a realizace změn • Zpětná vazba • Nezávislost vedoucích pracovníků na oddělení IT • Kvalifikační efekty – v IT i v ekonomice řízení (práce s informacemi, uvažování v kontextu) • Automatizace rutinních procesů (tvorba výkazů, zpráv) • Kontrola plnění plánů a finanční analýza Více
Přínosy řešení datového skladu • Podpora analýzy dat: • Trendy, sledování a analýza časových řad • Poměrové ukazatele • Identifikace odchylek • Drill-down, Drill-up, Drill-across, Slice-dice
OLTP • Provozní databáze
Data Mart (Datové tržiště) • Logická podmnožina datového skladu • Část řešení datového skladu určená pro podporu specifické analýzy (účetnictví) nebo oddělení firmy (marketing, prodej)
ETL • Extraction-Transformation-Loading • Kompletní proces načtení dat do datového skladu • Zahrnuje mnoho subprocesů: • Extrakce – výběr dat • Transformace – ověření, čištění, integrace dat • Loading – načtení dat do DW • Kontrola kvality • Auditovaní • Bezpečnost • Zálohování & Obnova
OLAP • On-Line Analytic Processing • Obecné označení pro dotazování a zobrazení dat z datového skladu založené na dimenzionálním modelu • Prakticky zkratka označuje multidimenzionální uložení a analýzu dat (OLAP databáze)
ODS • Operational Data Store • Architektura obsahující předmětově orientovaná, integrovaná, současná, rychle se měnící a detailní data pro operační potřeby • ODS typicky obsahuje dat rychle se měnící v reálném čase • Pro podporu analytických a CRM aplikací
Data Mining • Data mining je netriviální proces zjišťování platných, neznámých, potencionálně užitečných a snadno pochopitelných znalostí z dat. • Automatizované zpracování rozsáhlých datových souborů metodami na pokraji statistiky, strojového učení a umělé inteligence.
CRM • Customer Relationship Management • Systémy pro řízení vztahů se zákazníky
Shrnutí pojmů • Shrnutí relevantních pojmů (některé budou probrány dále) • OLTP – transakční systémy • Datový sklad (DW) • Datové tržiště • ETL • ODS • OLAP • CRM • Data Mining (DM) • Dimensionální modelování • ROLAP, MOLAP, HOLAP • Dotazovací nástroje • DM techniky
DW - opakování • Centrální úložiště relevantní firemních dat • Integrace firemních datových zdrojů • Historie v datech • Centrální místo pro podporu informačních potřeb uživatelů • Velké objemy dat • Navrženo pro podporu analýzy – speciální struktury uložení dat
Základní způsoby budování DW • Existují dva základní přístupy k budování DW: • Metoda velkého třesku • Přírůstková metoda
Data marty Provoz Marketing Centrální datový sklad „Velký třesk“ Účetnictví Prodej Obchod Ekonomika Uživatelé Uživatelé Uživatelé Uživatelé Uživatelé Uživatelé BUS Architektura Data marty Provoz Marketing Centrální datový sklad Inkrementální přírůstky Účetnictví Prodej Ekonomika Obchod Přístupy k tvorbě DS
Nezávislé datové tržiště Datové tržiště OLTP ETL
Nezávislé datové tržiště ETL – 3 krát !!!
Nezávislé datové tržiště $ $ Duplikace práce na ETL Časově i finančně náročné Údržba nezávislých DM je náročná, těžkopádná
md Detailní md md DW architektura Uživatelské nástroje DW Dept’l Dept’l Dept’l Metadata Závislé datové tržiště s odpovídajícími metadaty
DW md Dept’l Detailní DW architektura • Rychlý vývoj, ale … • Budou ETL konzistentní? • Jak je řízena redundance? • Komplexní architektura • Konzistence dat • Detailní i agregovaná data • Metadata jsou konzistentní
Základní způsoby budování DW • Dnes je preferovaná přírůstková metoda • Přírůstková metoda zaručuje: • Projektovou zvládnutelnost řešení • Reálné časové horizonty jednotlivých etap (2-4 měsíce) • Řešení aktuálních uživatelských (obchodních) potřeb • Zpětnou vazbu uživatelů
Cíle datového skladu • Zajistit dostupnost firemních informací • Zajistit konzistenci firemních informací • Vytvořit adaptivní a pružný zdroj informací • Zabezpečit ochranu firemních informací • Vytvořit základnu pro firemní podporu rozhodování (analytické centrum)
DW procesy • Hlavní proces při tvorbě datového skladu • Podprocesy: • Extrakce • Transformace • Čištění dat • Výběr dat • Integrace • Umělé klíče • Agregace • Načtení (Loading) a tvorba indexů • Data Quality Assurance
DW procesy • Další procesy v DW • Publikace dat (prezentační server) • Update dat • Dotazování • Zpětná vazba (čistá dat do OLTP, data z DM do DW) • Audit dat • Bezpečnost • Zálohování a obnova
Architektura Uživatelské aplikace Provozní databáze Datový sklad „Prezentační vrstva“ ETL Prezentace • Uložení dat: • - 0. vrstva DW • - Není pro přímé • dotazování • Procesy: • - Čištění dat • - Integrace • - Full vs. Inkrem. • - Výběr • - Duplicity • - Standardizace • - Conformní • dimenze • - Převod do • prezentační • vrstvy • - a další B U S Ad Hoc dotazování Datové tržiště - Dimenzionální - Předmětně orientované - BUS architekt. - OLAP Extrakce Plnění Prezentace Reportovací nástroje Prezentace Datové tržiště Intranet Plnění Extrakce DM modelování - scoring - předpovědi - segmentace - cross-selling - časové řady Analýza Datové tržiště Extrakce Plnění Oprava chyb Výsledky modelů
CRM aplikace a Internetové aplikace Architektura Data mining aplikace Internetové a intranetové aplikace pro řízení vztahu se zákazníkem, podporu pracovníků distribuční sítě (např. on-line scoring) Data mining modely Scoring, cross-selling, … MS SQL Server 2000 EE Provozní databáze MS SQL Server 2000 Uživatelé ETL Relační databáze datového skladu (0. a 1. vrstva, datová tržiště a ODS) Ekon. MS DTS Obchod WWW prohlížeč (IE) MS Analysis Services Externí data OLAP dbf Excel XP Excel MS Reporting Services ProClarity Metainformační a reportingový portál
Produkty pro BI • Nástroje pro BI • Microsoft (MS SQL Server, Analysis Services, Reporting Services) • Oracle • Sybase IQ • IBM DB2, DB2 OLAP Server • Microstrategy • SPSS • SAS • SAP – Business Warehouse • Klientské nástroje • ProClarity • Oracle Discoverer • MS Excel 2000 • Business Objects • Cognos: PowerPlay, Impromptu • Brio: Brio Query • Quadbase – EspressReport
Výběr produktů instalace Technická architektura Definice uživatelských požadavků ETL procesy Dimensionální modelování Fyzická úroveň Údržba a růst Projektový plán Nasazení Uživatelské aplikace specifikace Uživatelské aplikace vývoj Projektový management Business Dimensional LifeCycle • Standardní metodologie vývoje datového skladu od Ralpha Kimballa