220 likes | 445 Views
Multidimenzionální modelování. Adaptované z knihy (kap.14) : Pour,J ., Gála,L , Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada , Praha, 2009. ISBN: 978-80-247-2615-1. Podstata dimenzionálního modelování.
E N D
Multidimenzionální modelování Adaptované z knihy (kap.14) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada, Praha, 2009. ISBN: 978-80-247-2615-1
Podstata dimenzionálního modelování • Podstata dimenzionálního modelování vychází z uplatňování multidimenzionalitypři řešení Bl, • to znamená jeho hlavním úkolem je : vytvořit základní logiku uložení nebo uspořádání dat tak, aby vyhovovala požadavkům na analytické a plánovací aplikace v rámci podnikového řízení. • Cílem je tak vytvořit flexibilní datový model, který bude plně podporovat rozsah analýz, jak aktuálně požadovaných, tak předpokládaných v budoucím období
Uplatnění dimenzionálního modelování je předpokladem pro naplnění účelu business intelligence aplikací: • prezentovat uživatelům potřebné informace co nejjednodušším způsobem, • poskytovat odpovědi na dotazy s minimální dobou odezvy, • zajišťovat relevantní informace přesně odpovídající definovaným podnikovým procesům.
Dimenzionální modelování vychází z poznání a zhodnocení potřeb řízení dané organizace, a na základě toho: • definuje všechny dimenze, jejich obsah, včetně vnitřní hierarchie prvků, a dílčí charakteristikyjednotlivých dimenzí, • určuje soustavu sledovaných ukazatelů a definuje jejich dílčí charakteristiky, • specifikuje vazby mezi ukazateli a odpovídajícími dimenzemi.
Přípravná fáze • První, přípravná fáze navazuje na předchozí vstupní analytické aktivity spojené s plánováním Bl projektů,se zjišťováním a dokumentací aktuálních uživatelských požadavků, s návrhem architektury Bl řešení, tj. sespecifikací jeho jednotlivých vrstev od zdrojových systémů přes transformace dat, určení datového skladua datových tržišť až po analytické aplikace a reporty. • Tyto informace jsou obvykle zakotveny v úvodní studiiBl řešení a v rámci přípravné fáze se rekapitulují a verifikují oproti aktuálnímu stavu.
Přípravná fáze • Variantpřístupuk řešení koncepce Bl je tzv. zdrojové modelování, jehož cílem je analyzovat zdrojové systémy a nalézt potencionální entity a atributy, které by mohly vyhovovat zatím neidentifikovaným uživatelským požadavkům. Tyto entity a atributy budou poté zahrnuty do modelů datového skladu tak, aby mohly vyhovět případným budoucím požadavkům. • Na druhé straně existuje přístup označovaný jako cílové modelování. Ten vede k návrhu datového skladu a datových tržišť od definovaných uživatelských požadavků (ukazatele, jejich dimenze, analytické funkce, reporty) a teprve na jejich základě se posuzuje, zda existují k těmto požadavkům potřebné datové zdroje
Hrubý dimenzionální model • Hrubý dimenzionální model vymezuje základní obsah řešení, to znamená, že zahrnuje: • návrh všech relevantních dimenzí a jejich charakteristik, • návrh ukazatelů, jejich dílčích charakteristik a granularity, • řešení vazeb mezi dimenzemi a ukazateli.
Návrh ukazatelu • Návrh vybraných ukazatelů a jejich přiřazení k dimenzím dokumentuje tab. 14.2, kde ve sloupcích dimenzí v pravé části tabulky je: • D_Cas - dimenze času, např. pro sledování hodnot ukazatelů podle jednotlivých dnů, • D_PI_skut - dimenze plánu a skutečnosti, rozlišující hodnoty ukazatelů na plánované a skutečné, • D_Zbozi - již uvedená dimenze zboží, • D_Zakaznik - struktura zákazníků, • D_Teritoria - struktura teritorií, kde se realizuje prodej, např. dle států, krajů apod. • D_ Útvar - je organizační struktura podniku, tedy podnikové útvary, • D_Typ_rek - typ reklamace, např. na kvalitu, cenu, sortiment, čas dodávky apod., • D_Zpusob - způsob prodeje, resp. prodejní kanály, např. v kamenných obchodech, přes internet, prostřednictvím obchodních zástupců apod.
Podstatným aspektem této úrovně řešení je určení náplně dimenzí a jejich prvků, to znamená např., jací konkrétní zákazníci budou naplňovat dimenzi „D_Zakaznik", jaké konkrétní zboží dimenzi „D_Zbozřapod. Je dále nezbytné prvky v dimenzi racionálně strukturalizovat, jak jsme viděli v předchozích příkladech. • Jedním z problémů je však to, že ukazatele s definovanými dimenzemi označenými v buňkách příslušné řádky „X" musí mít adekvátní obraz ve zdrojových databázích. • To znamená, že např. hodnoty ukazatele Tržby musí být identifikovány prvky všech uvedených dimenzí. Pokud tomu tak není, pak je hodnota ukazatele neúplně identifikována, což je chyba a musí být řešena v rámci čištění a transformací dat
Z uvedených charakteristik a možností dimenzionálního modelování vyplývá, že data jsou organizována tak, je ve svém výsledku a aplikacích nabízejí tyto efekty: • lze je prezentovat na libovolné úrovni agregace (s využitím funkcí drilldown, drillup; • dimenze lze v průběhu specifikace dotazu nebo požadavku na výstupní data libovolně kombinovat (na principu slice & dice, crosstabing, tedy identifikovat data pomocí dimenzí v různých tabulkách); • nad dimenzionálně uspořádanými daty lze provádět nejrůznější aritmetické i množinové operace, lze využívat agregační a statistické funkce (např. SUM, MIN, MAX, COUNT, AVG), lze efektivně vyhledávat extrémníhodnoty dle dimenzí apod.
Speciální místo v modelu má časová dimenze, tedy určení, jaká bude struktura časových intervalů (roky, kvartály, měsíce), zda se bude k aktuálnímu datu nějakým způsobem měnit (např. na dekády, dny), zda se budou některé starší časové úseky přesouvat z provozního řešení do archivu (tzv. aging) apod.
Analýza a návrh datového skladu a tržišť • analýza a návrh realizuje na třech základních úrovních: • konceptualní, kde se definují základní entity v datovém skladu a jejich vazby (na základě výše uvedených principů); • logické, kde se jednotlivé entity transformují do návrhů logických struktur databázových tabulek, tedy včetně struktur atributů těchto tabulek; • fyzické, specifikující již všechny nezbytné technologické charakteristiky databázových tabulek a jejich vazeb.
Tabulky faktů • Dimenzionalituuložení dat můžeme realizovat i v relačních databázích datových skladů a tržišť vhodným řešením databázových schémat hvězdy (STAR) a sněhové vločky (SNOWFLAKE). • V centru schématu je tabulka faktů, tedy tabulka sledovaných hodnot ekonomických a dalších ukazatelů identifikovaných klíčem složeným z cizích klíčů dimenzionálních tabulek.
Dimenzionální tabulky • Dimenzionální tabulky slouží jako úložiště textových informací o hodnotách ukazatelů uložených v tabulce faktů. • Většinou si je lze představit jako číselník. Pro reálné dimenzionální tabulky je typické velké množství atributů, pro něž se nejlépe hodí atributy textové a diskrétní. • Přesto občas bývá problematické rozhodnout, které pole bude zařazeno do fakt tabulky, a které do tabulky dimenzionální. • Naše rozhodnutí je většinou závislé na tom, jeli sledovaná veličina měřitelná a měnící se v čase - pak patří do tabulky faktů, či zda je diskrétní a vystupuje spíše jako konstanta - pak jde o položku z dimenzionální tabulky. • Příkladem je cena zboží, která se může často podstatně měnit, a pak by měla být zařazena do tabulky faktů.
Principy tabulky faktů • Sloupce tabulky faktů jsou pouze buď klíčové položky, nebo hodnoty. • Řádky v tabulce jsou přiřazovány na nejnižší úrovni detailu, tj. pouze na úrovni listů ve strukturách dimenzí. • Na odpovídající tabulky dimenzí se tabulka faktů odkazuje prostřednictvím cizích klíčů, např. Zbo_id váže tabulku faktů na dimenzionální tabulku D_Zbozi. • Všechny cizí klíče do odpovídajících tabulek dimenzí tvoří složený primární klíč tabulky faktů, např. Zbo_jd, Ter_jd, Cas_id. • Klíčové položky (listy ve struktuře dimenzí) jsou, s ohledem na nároky na paměťový prostor, vesměs celočíselné hodnoty. • Klíče reprezentující datumové položky mohou být buď celočíselného nebo datumového typu.
Granularita v tabulce faktů • Granularitaurčuje úroveň podrobnosti údajů-faktů uložených ve fakt tabulce. Granularita údajů v tabulce faktů je přímo závislá na úrovni podrobnosti dimenzí odpovídajících příslušné tabulce faktů. Například máme-li v časové dimenzi definovanou strukturu až na jeden den, a v dimenzi D_Zbozina jeden dílčí produkt, pak každý záznam v tabulce faktů („zrno") je na úrovni Jedno dílčí zboží" a Jeden den". Tím je dána granularita tabulky faktů a obdobně je tomu ve vztahu k ostatním dimenzím. • Nízká granularita, tedy nízká úroveň detailu uložených dat, znamená nemožnost pracovat s detailními daty, tj. podle dnů, jednotlivých zboží, prodejců apod. Naopak vysoká granularita, tedy vysoká úroveň detailu dat, možnosti detailních analýz nabízí, ale na druhé straně znamená i podstatně vyšší nároky na diskový prostor datového skladu.