180 likes | 295 Views
Business intelligence. Helena Palovská. Manažerské informace. Kteří zákazníci nakupovali produkt „A-Mutt“? Kolik bylo objednáno zboží v květnu? Na jaké výrobky jsou jednotliví zákazníci zaměřeni? Jaké výrobky se v Brazílii vůbec neprodávají? Závisí to na kategorii? Na čem to závisí?
E N D
Business intelligence Helena Palovská
Manažerské informace • Kteří zákazníci nakupovali produkt „A-Mutt“? • Kolik bylo objednáno zboží v květnu? • Na jaké výrobky jsou jednotliví zákazníci zaměřeni? • Jaké výrobky se v Brazílii vůbec neprodávají? Závisí to na kategorii? Na čem to závisí? • Kteří zákazníci jsou perspektivní? složitost business intelligence
zpracování transakcí Architektura BI IT reporty OLAP ? datový sklad ? datamining
ETL – datové pumpy • Extraction • Jsou stanovena pravidla pro extrakci • Transformation • intergrace, čištění • Loading • podle rozvrhu
Další pomocná úložiště • Data Stagging Area • když nelze produkční systémy zatěžovat nárazovým pumpováním • pouze extrakce • transformace a loading se dělá dávkově podle rozvrhu • Operational Data Store • Integrované centrální úložiště dostupné pro produkční systémy • Konsolidované dimenzionální tabulky • Aktuální data dostupná pro BI aplikace
Data Marty • Subjektově orientované • replikované části centrálního DWH nebo • primární úložiště a DWH se z nich integruje
Reporty • Vznikají na základě analýzy nebo uživatelských požadavků • Mohou vznikat problémy s disseminací • reporty jsou, ale uživatelé o nich nevědí
OLAP • Manažerská aplikace
Datamining • Clusterová analýza • automatické hledání shluků • Rozhodovací stromy • může používat vyškolený uživatel • Neuronové sítě • … Nutno zakoupit nástroj i školení.
Decision Supporting Systems • Modelovací nástroje pro podporu rozhodování • data mohu „tahat“ z datového skladu
Expertní systémy • Napodobují rozhodování experta – podávají rady • mohou se učit na datech z datového skladu
Charakteristika produkčních databází • Zpracovávají business transakce • krátké transakce • odezvy v reálném čase • Normalizovaná schémata databází • většinou v 3. NF (co je normalizovaná databáze) • Nezávislé systémy mohou být navzájem neintegrované Optimalizovány pro podporu business operací pokračuj na charakteristiku dat. skladu
Co je normalizovaná databáze • 1 změna ve světě ~ 1 změna v databázi • 1.,2.,3. … normální formy • Takto vznikne normalizovaná databáze: • pečlivá analýza → ER(A) model (co ER(A)) CASE nástroj či „mapovací algoritmus“ • relační databázové schéma • Kontrola kvality – utilita db serveru (náročné) • hledání závislostí mezi poli tabulky • na reprezentativním vzorku dat zpět
Co je E-R(A) • Jaké jsou entity (objekty), vztahy mezi nimi • Jaké mají atributy • Jaká jsou integritní omezení: • kardinality vztahů (1:N, M:N, 1:1) • členství ve vztazích (povinné, nepovinné) • co jsou klíčové atributy • nalezení event. identifikačních vztahů • Nalezení generalizace/specializace zpět
Charakteristika datového skladu - DWH • Dlouhé a složité dotazy • Konsolidovaná data • Denormalizovaný • Předpočítané výpočty, agregace • Změny pouze přírůstkové • obsahuje archívní, historická data • nové záznamy vkládány v dávkách podle rozvrhu Optimalizován pro business intelligence
Možnosti organizace DWH • Relační db – tabulka faktů a tabulky pro dimenze: • Hvězda • Každá dimenze v jediné tabulce (denormalizované) • Snowflake • Hierarchie každé dimenze rozložena do více tabulek (normalizovaná dimenze) • Multidimenzionální db – kostky • popisné atributy dimenzí mohou být v Operational Data Store