1 / 84

Adattárház rendszerek

Adattárház rendszerek. Áttekintés Sidló Csaba scs@cs.elte.hu. Tartalom. Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodelle zés, adatmodellek MOLAP architektúrák

Download Presentation

Adattárház rendszerek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Adattárház rendszerek ÁttekintésSidló Csaba scs@cs.elte.hu

  2. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  3. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  4. Bevezetés • Vállalati környezet – a táptalaj • Vállalat vezetése: döntések sorozatagyors, jó minőségű döntések  eredményesség • Tézis: a döntések minősége nagyban függ a döntéshozók informáltságától, a rendelkezésre álló adatok, információk minőségétől • A döntések megfelelő támogatására jelenthet megoldást az adattárház technológia

  5. Vállalati adathalmazok • Adott vállalat működése során rengeteg adat halmozódhat fel • Elektronikus formában, papíron, gyakran sokféle, inkonzisztens tárolási módszernek megfelelően tárolva • Nagy, kevés gyakorlati hasznot jelentő vállalati adathalmazok fenntartása szükséges, de haszontalan költséget jelent(Data puddle – adattemető)

  6. Vállalati információszükségleti hierarchia (Moslow nyomán)

  7. Adattárház definíció Bill Inmon: "A data warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management's decisions."

  8. Adattárház definíció 2. • Subject oriented (tárgy- v. témaorientált) • hagyományosan: üzleti folyamatoknak megfelelő nézőpont • most: elemzési területeknek megfelelő nézőpont, adatok az elemzés kulcsfontosságú fogalmai köré csoportosítva (Pl. vevő-lemorzsolódás, raktárkészlet alakulása, stb.) • Integrated (integrált) • több adatforrásból, egy helyen központosuló adatgyűjtés • egységesített, szabványos formában kezelt adatok

  9. Adattárház definíció 3. • Nonvolatile (tartós) • Változatlan adatok • Alapvetően nem törlődő adatok • Time variant (időfüggő) • Forrásrendszerek: adott (érvényes) állapotot leíró fadatok • Adattárházak: történeti, historikus, időfüggő adatok  időfüggő elemzések, összehasonlítások, változási trendek elemzése

  10. Data Warehousing "Data Warehousing is the process, whereby organizations extract value from their informational assets through the use of special stores called data warehouses." Három kulcsmozzanat: • Adatkinyerés a tranzakciós (vagy más vállalat-működtetési) forrásrendszerekből • A kinyert adatok átformálása riport (beszámoló) készítés számára • A riportok, beszámolók elérhetővé tétele a döntéshozók számára.

  11. Business Intelligence (BI, üzleti intelligencia) fogalma: „Olyan módszerek, fogalmak halmaza, melyek a döntéshozás folyamatát javítják ún. tényalapú rendszerek használatával.” (Howard Dresdner, 1989) Tényalapú rendszerek: • Vezetői információs rendszerek (EIS, Executive Information System) • Döntéstámogató rendszerek (DSS, Decision Support System) • Vállalati információs rendszerek (Enterprise Information System) • On Line Analytical Processing (OLAP) • Adat- és szövegbányászat • Adatvizualizáció • Geográfiai Információs rendszerek (GIS) Ezek egy szeletét fedik le az adattárház megoldások.

  12. Business Intelligence Platform Olyan platform, amely támogatja a következő technológiákat: • Adattárház jellegű adattárolás • OLAP • Adatbányászat • Nyílt interface-ek (OLAP, adatbányász, stb.) • Ezeket támogató, megvalósító komponensek, eszközök Pl.: Oracle9i, IBM DB2, MSSQL

  13. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  14. OLTP - OLAP rendszerek OLTP: On Line Transaction Processing • Hagyományos adatbázis alkalmazások, nyilvántartások, vállalatok produktív rendszerei • ERP rendszerek: Enterprise Resource Planning • Pl.: SAP R/3, Oracle Financials, Libra, stb. OLAP: On Line Analytical Processing • Elemzési célú rendszerek elterjedt követelményrendszere

  15. OLAP követelményrendszer E.F.Codd, 1992: 12 pontos követelményrendszer, (a fontosabbak): • Multidimenzionális adatnézet • Általános dimenzió-fogalom, korlátlan dimenziószám • Transzparencia: technikai részletek ismerete nélküli könnyű elérhetőség • Kliens-szerver architektúra • Több konkurens felhasználó támogatása

  16. OLTP – OLAP tulajdonságok

  17. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek • Példák adattárház rendszerekre • Irodalom

  18. Speciális adattárház típusok Jól skálázható technológia: • Data Mart (adatpiac)lokális, szűk felhasználói kör, konkrét feladatok, kis adatfeldolgozó és analizáló egység adattárház funkciókkal • Operational Data Store (ODS)Adatok tisztítására, gyűjtésére használt egység, teljes részletezettéségű operációs adatokkal • Extraprise Data WarehouseHelyi megkötés nélkül összefutnak benne B2B és B2C adatok, elemzési céllal • Virtuális adattárházNem épül külön rendszer az adattárház adatainak számára, azt az OLTP rendszer keretein belül valósítják meg

  19. Az adat útjának fő állomásai • Forrásrendszerek • Adattárház • Elemző frontend alkalmazások

  20. Architektúra változatok (kliens-szerver modellek)

  21. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek • Példák adattárház rendszerekre • Irodalom

  22. OLAP elemzések OLAP elemzések • Multidimenzionális adatnézet • Intuitív kezelőfelület, rugalmas lekérdezések • On-line, válaszidő orientált szolgáltatás • Közép-felsővezetők • Lehetőség összetett elemzésekre, látványos, jól használható vizualizációra

  23. Adattárházak - adatbányászat • Adatbányászat: „Hasznos, látens információ kinyerése adatbázisokból.” • OLAP korlátok: adatmennyiség, lekérdező nyelv

  24. Tudáskinyerés folyamata • Alkalmazási terület felmérése, előzetes ismeretek rendszerezése • Céladatbázis kiválasztása, létrehozása • Adattisztítás, előfeldolgozás • Adatintegráció • Adattér csökkentés: cél szempontjából fontos attribútumok kiemelése • Adatbányászati algoritmusok kiválasztása (klaszterezés, mintakeresés, osztályozás) • Adatbányászati algoritmus, paraméterek előállítása • Algoritmus alkalmazása • Kinyert információ értelmezése, finomítások • A megszerzett tudás megerősítése, összevetése az elvárásokkal, dokumentálás

  25. Tudáskinyerés folyamata • Alkalmazási terület felmérése, előzetes ismeretek kinyerése • Céladatbázis kiválasztása, létrehozása • Adattisztítás, előfeldolgozás • Adatintegráció • Adattér csökkentés: cél szempontjából fontos attribútumok kiemelése • Adatbányászati algoritmusok kiválasztása (klaszterezés, mintakeresés, osztályozás) • Adatbányászati algoritmus, paraméterek előállítása • Algoritmus alkalmazása • Kinyert információ értelmezése, finomítások • A megszerzett tudás megerősítése, összevetése az elvárásokkal, dokumentálás

  26. Adattárházak - adatbányászat • Az adattárházak megfelelő alapot biztosíthatnak adatbányász módszerek alkalmazásához • Részben hasonló célok • OLAP elemzések – adatbányász elemzések: jól kiegészíthetik egymást • Probléma: OLAP jellegű és adatbányász rendszerek hatékony, rugalmas illesztése • Megoldást jelentheti: • Következtetési szabályok a DW-ben (induktív adatbázisok) • Megfelelő adatbányász interface alkalmazása (még nincs elfogadott szabvány)

  27. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  28. Komponensek

  29. Komponens csoportok ETL: Extraction Transformation and Load • Adatkinyerés az operatív rendszerekből (extraction) • Adattranszformáció (különböző adatformátumok, mértékegységek, nyelvek stb.) • Adatminőség ellenőrzése, adattisztítás (cleaning) • Adatbetöltés az adattárház struktúráiba (loading)

  30. Komponens csoportok 2. • OLAP Tools:OLAP lekérdezéseket lehetővé tévő komponensek (OLAP szerver, interface-ek) • Felügyelet, adminisztrációadattárház működtetése, felügyelete

  31. Metaadat kezelés Metaadat: „adat az adatokról” • Az adattárház szerkezetét, a bent lévő adatok jellemzőit tároló szerkezet • Fontos: adatintegrációhoz szabványos adatkezelés • A megfelelő metaadat kezelési stratégiát gyakran említik mint az adattárház projekt kulcskérdését • Példa: adatkockáink leírása, az adattöltéseink eredményei, az adatforrások mezőinek jelentése, stb.

  32. Komponens csoportok 3. • Frontend adatelemző alkalmazásokOLAP elemzők, adatbányász eszközök, vizualizáció, egyéb kliens alkalmazások • Adatbázis komponensek • ROLAP: relációs OLAP – relációs adatbáziskezelő • MOLAP: multidimenzionális OLAP, közvetelen multidimenzionális adattárolás • HOLAP: hibrid OLAP - keverék

  33. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  34. Adatmodellezés (koncepcionális, logikai, fizikai)

  35. OLTP adatmodellek • Hagyományos, kiforrott módszerek • Relációs adatmodell • Relációs algebra alapú lekérdezőnyelvek, SQL • Egyed/Kapcsolat Modell (E/R M), UML

  36. OLAP multidimenzionális adatfogalma(szemantikai) Fogalmak: • Tényadatok (mutatószámok) • Dimenziók (jellemzők) • Dimenzió-hierarchiák • N-dimenziós adatkocka

  37. Adatkocka példa: nemzetközi kereskedelmi cég értékesítési adatainak multidimenzionális nézete

  38. Analízisoperátorok Műveletek: adatkocka  adatkocka • Aggregáció (roll up)dimenzió elhagyása v. lépés hierarchiában felfelé • Lefúrás (drill down)áttérés nagyobb részletezettségre • Pivoting adatkocka elforgatása • Szelekció (selection, filtering)konkrét jellemzők kiválasztása • Szeletelés (slicing and dicing)adatkocka szeletének kiválasztása, részkocka kiválasztása

  39. Példa hagyományos OLAP elemzőfelületre – SAP BEx Analyser

  40. Oracle Discoverer frontend

  41. Szemantikai réteg formális adatmodelljei • ME/R modell: E/R modell multidimenzionális bővítése • Nested Multidimensional Model (Lehner) • Dimensional Fact Model (Golfarelli, Maio, Rizzi) • Stb.

  42. ME/R Modell - példa

  43. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek • Példák adattárház rendszerekre • Irodalom

  44. MOLAP technológia • Közvetlen támogatása a szemantikai multidimenzionális adatmodellnek • Tényadatok / dimenziók szétválasztása • Fizikai tároláskor figyelembe vesszük az adatok multidimenzionális szerkezetét • Többdimenzionális tömb tárolás: az adatkocka adatainak rendezése után azokat fix helyen tároljuk, így nem kell őket indexelni; a kocka minden mezőjének (a tartalmától függetlenül) lefoglalunk egy fix tárhelyet!

  45. Háromdimenziós kocka elemeinek egy rendezése

  46. Háromdimenziós MOLAP dimenzió-hierarchia példa

  47. MOLAP Ritka mátrix kezelés:a mátrix üres részeinek felderítése, majd a fizikai tárolás megvalósítása ezen mezők kihagyásával  helytakarékosság Korlátok: • Nagy dimenzió-elemszámok esetén • Ritka mátrix kezelés gyakran nehézkes • Nincs elfogadott szabvány • Strukturális változtatások rendkívül költségesek

  48. MOLAP termékek Asztalitól kezdve „high end” alkalmazásokig, • Cognos: PowerPlay • Business Objects: Mercury • Oracle Express • Holostic Systems: Holos Adatbázis motorok: • Arbor: Essbase • Sinper: TM/1

  49. Tartalom • Bevezetés, fogalmak, definíciók • Új követelmények: OLAP rendszerek • Adattárház architektúra • Adattárházra épülő elemző módszerek • Adattárház komponensek • Adatmodellezés, adatmodellek • MOLAP architektúrák • ROLAP architektúrák • Az adattárház projekt • Kurrens kutatási területek, trendek • Példák adattárház rendszerekre • Irodalom

  50. Relációs adatbázis sémák • Relációs adatbázis: a relációs adatmodellt támogató adatbázis – kiforrott módszerek, technológiák • Táblák (relációk) • Constraint-ek (megszorítások) • Relációs séma: az adatbázisban tárolt adatokat leíró adatbázis-terv (reláció-előfordulásoktól, vagyis a konkrét adatoktól független)

More Related