1 / 194

Adattárházak és kiaknázásuk

Adattárházak és kiaknázásuk. A probléma: Adatoktól az információig. Hasznos információ. Döntés. Modell. Tudás reprezentázió. Adatbányászat. Adatok kinyerése, transzformálása. Tisztított, feldolgozott adatok. Adattárház. Nyers adatok. Termelés, Szolgáltatás => Adatbázis. Motiváció.

paynel
Download Presentation

Adattárházak és kiaknázásuk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Adattárházak és kiaknázásuk

  2. A probléma: Adatoktól az információig Hasznos információ Döntés Modell Tudás reprezentázió Adatbányászat Adatok kinyerése, transzformálása Tisztított,feldolgozottadatok Adattárház Nyers adatok Termelés, Szolgáltatás => Adatbázis

  3. Motiváció • Az adattárházak lehetőséget biztosítanak, hogy a termelő és üzleti folyamatokban keletkező adatokból, az üzleti döntések számára releváns információk legyenek kinyerhetők. • Hogyan építsünk adattárházat? • Hogyan rendezzük adatainkat? • Hogyan nyerhetünk ki információt?

  4. Üzleti intelligencia környezet

  5. Mi is az adattárház ? • Információs környezet, szemben az adatátvitel-orientált környezettel • Olyan folyamatok, eszközök tervezése és implementálása, melyek alkalmasak döntéshozatalhoz szükséges teljes, pontos, és áttekinthető információk adatokból történő kinyerésére. • Minden olyan tevékenységet magába foglal amit egy szervezetnek el kell végeznie, hogy egy adattárházat hozzon létre és üzemeltessen

  6. Példa adattárházra

  7. Miért is? • Strukturált módon tárolt adatokhoz egyszerű hozzáférés • Különböző formátumok, platformok • Heterogén adatforrások, • adattisztítás • szűrés • átalakítás • tárolás könnyen hozzáférhető és áttekinthető formában

  8. Adattárház funkciója • OLTP: Hogyan vigyünk be és tároljunk adatokat ??? • DSS: Decision Support System, Hogyan nyerjünk ki információt ?? • EIS: Executive Information System, Hogyan használjuk az információt ?? • Összefüggés és téma orientált • Trend-adatok (időbeliség) • gyakran nem normált • több forrású

  9. Adattárház struktúrája

  10. Tipikus architektúra Intefész, GUI Értékelés Adatbányászati alg. Tudásbázis Adattárház, adatbázis szerver Adattisztítás és integrálás Szűrés Adatbázisok Adattárház

  11. Adattárház definiálása • Döntéstámogató adatbázis melyet külön üzemeltetnek a szervezet működéséhez kapcsolódó adatbázistól • Támogató információ feldolgozó egység mely egy megbízható, feldolgozott hisztorikus, elemzések céljából összegyűjtött adatokat tartalmaz. • “A data warehouse is asubject-oriented, integrated, time-variant, and nonvolatilecollection of data in support of management’s decision-making process.”—W. H. Inmon

  12. Témaorientált • Témakörök köré szervezett, pl. vásárlók, termékek, eladások. • A döntéshozók számára szükséges adatok modellezéséhez és elemzéséhez kötődik, nem a napi működéshez, illetve adatátvitelhez. • Egyszerű és tömör nézetet nyújt a fontos témakörökben, de nem tartalmazza azokat az adatokat, melyek nem fontosak a döntéshozatal szempontjából.

  13. Integrált • Több, különböző jellegű adatforrás integrálásával épül fel • Relációs adatbázisok, különálló fájlok, on-line adatátviteli források • Adattisztítási és adatintegrációs eszközöket alkalmaznak • Amikor az adat bekerül az adattárházba konvertálódik • A konzisztenciát az elnevezési konvenciók, a struktúrák, stb. biztosítja a különböző adatforrások között

  14. Idővariáns • Az időhorizont sokkal nagyobb mint egy operációs adatbázisban. • Operációs adatbázis: aktuális adatok (pl. az elmúlt nap). • Adattárház: hisztorikus adatok elemzésére (pl., az előző 5-10 év) • Minden fontosabb (kulcs) struktúra tartalmaz • Időelemet (explicit vagy implicit módon)

  15. Nem “illékony” • Fizikailag külön tárolt, a működési környezetből transzformált adatok. • Az üzemvitelből adódó adatfissítés nem fordul elő az adattárházban. • Nincs szükség on-line adatátvitelre, adatmentésre és vissza, és konzisztenciát biztosító eljárásokra • Csak két fő adatkezelési mód: • adattárház feltöltése and adatok lekérdezése.

  16. Adattárház vs. Heterogén Adatbázisok • Hagyományos heterogén adatbázis integráció: • Wrapper-ek/mediator-ok a heterogén adatbázisok felé illesztve • Lekérdezés alapú megközelítésmód • Amikor kliens oldalról lekérdezés érkezik, egy meta-könyvtár segítségével a lekérdezés a heterogén adatbázis egy eleméhez kapcsolódó lekérdezésre fordítódik, és az egyes lekérdezések eredményei egy globális válasszá integrálódnak • Adattárház: feltöltés-alapú, integritás biztosítása, nagy teljesítmény • A heterogén adatforrások információi a lekérdezés előtt kerülnek integrálásra és tárolódnak • Direkt lekérdezésekhez és elemzések

  17. Adattárház alkalmazásai • Jelentések • a szervezeten belüli információ megosztás hatékony eszköze • Automatikus (web, e-mail, intranet) • Saját jelentések (infóhoz való hozzáférés, munkamegosztás, teljes áttekintés) • Statisztika • Interpretáció • Valószínűség • Minta (szignifikáns) • Adatbányászat

  18. Végfelhasználók igényei • Tipikus felhasználók • „non-frequent user” • nem érdekli őket az adattárház, csak időről időre információra van szükségük • Előre definiált, friss jelentéseket igénylő felhasználó • Speciális érdeklődés, rendszeres időközönként • Dinamikus, ad hoc lekérdezéseket igénylő • Üzleti elemző • Profi felhasználó • Számára minden adat fontos • Specializált adatpiacok Különböző felhasználók különböző igények

  19. OLAP (On-line Analytic Processing) • OLAP ötletét E.F. Codd, a relációs adatbázisok atyja 1993 -ban egy Computerworld cikkben vetette fel. • Codd rájött, hogy az OLTP elérte alkalmazásainak határát, rendkívül nagy számítási igény szükséges amikor relációs adatbázisokból végzünk lekérdezéseket. Rájött (amit már a döntéstámogatással foglalkozó szakértők már régóta hangoztattak): pusztán az operációs adatok nem alkalmasak a menedzserek kérdéseire választ adni. • Idáig a relációs adatbázis képes válaszolni tipikus kérdésekre mint „ Mi?, Mit?” • Az adattárházak a múltbeli adatok összesítésével képesek válaszolni olyan kérdésekre mint„Mi volt a teljes forgalom a keleti régióban a második negyedévben ?” • Az OLAP célja az adatok elemzése és megértése alapján a „Miért?, Mi lenne ha?” kérdések megválaszolása

  20. OLAP II. • OLAP és az adattárház komplementer fogalmak • Az adattárház tárolja és menedzseli, • az OLAP stratégiai információvá alakítja az adatokat • Az OLAP alapötlete, hogy a menedzserek képesek legyenek az adatok több dimenziót figyelembe vevő kezelése, és annak megértése, hogy azok miként fordulnak elő, illetve hogyan változnak. • Felhasználási területei: • Piac szegmentálása, marketingkutatás, termelés tervezés, ... • A megoldás a „multi-dimensional” azaz több dimenziós adatbázis.

  21. Codd 12 szabálya • 1. Többdimenziós áttekintés • 2. Felhasználó számára áttekinthető támogatás • 3. Elérhetőség • 4. Konzisztens naplók készítése • 5. Kliens-szerver architektúra • 6. Általános dimenzió aggregálás • 7. Dinamikus ritka mátrixok • 8. Multi-user támogatás • 9. „Cross-dimensional operations” • 10. Intuitív adatkezelés • 11. Rugalmas jelentések • 12. Korláttalan dimenziók

  22. OLTP vs. OLAP

  23. Mikor használjunk OLAP-ot ? • Az adatok iránti igény nem tranzakciós hanem elemző jellegű • Az elemzett információ nem elérhető közvetlen módon • Jelentős számítási és összesítési igény • Főként numerikus adatok • Az elemek, melyek az adatpontokat definiálják nem változnak időben

  24. Miért külön adattárház? • Mindkét rendszer jó teljesítményt nyújt • Relációs adatbázis—OLTP-re hangolva: elérési módok, indexelés • Adattárház—OLAP-ra hangolva: összetett OLAP lekérdezések, többdimenziós nézet, konszolidáció. • Különböző funkciók és különböző adatok: • Hiányzó adatok: Döntéstámogató rendszer olyan hisztorikus adatokat kíván melyeket egy tipikus relációs adatbázisban nem tárolnak • Adat konszolidáció: Pl. heterogén forrásból származó adatok aggregálása, összegzése • Adat minőség: Különböző adatforrások általában inkonzisztens reprezentációt alkalmaznak, pl. időformátumok

  25. Adattárház <-> Heterogén Adatbázisok • OLTP (on-line transaction processing) • A hagyományos relációs adatbázisok alapfeladata • Napról napra történő működés: vásárlás, bank, gyártás, regisztráció, számlázás, stb. • OLAP (on-line analytical processing) • Az adattárházak alapfeladata • Adatelemzés és döntéshozatal • OLTP <-> OLAP: • Felhasználó- és rendszerorientáltság:vásárló <-> piac • Adat tartalom:aktuális, részletes vs. történeti, konszolidált • Tervezési módszer:ER (entity-relationship) + alkalmazás <-> csillag + témakör • Nézet: aktuális, lokális <-> evolúciós, integrált • Hozzáférés:frissítés <-> csak olvasható de komplex lekérdezések

  26. A piac szereplői és mérete • Legnagyobb megoldás szállítók • SAS • Oracle, IBM

  27. Cégek és termékek -Adatbányászat Cég Termék Angoss KnowledgeSeeker Business objects BuisnessMiner Datamind Datacruncher IBM Intelligent Miner Integral Solutions Clementine Magnify Pattern Mindmaker Mindmaker Pilot software DSS SAS Enterprise Miner Thinking Machines Darwin

  28. Összefoglalás I. - Varázsszavak • EIS: Executive Information System • DSS: Decision Support System • KDD: Knowledge Discovery in Databases • DW: Data Warehousing • DM: Data Mining • OLTP: On-line Transaction Processing • OLAP: On-line Analytical Processing • MDA: Multi-Dimensional Data Analysis

  29. Relációs adatmodell VI. Mester receptúra tábla kulcs Idegen kulcs Sarzs tábla Mező (jellemző) Kezelő tábla Egyed (rekord)

  30. Dimenzionális adatmodellezés Koncepciók I. • Tények • Kapcsolódó adategységek • üzleti egységet, tranzakciót, eseményt jelöl • Kulcs tábla, melyben numerikus adatok szerepelnek

  31. Dimenzionális adatmodellezés Koncepciók II. • Dimenziók • A tények hátterét definiálják (pl. idő, hely, üzletkötő …) • Gyakran nem numerikus egységek • pl. termék márka, alkalmazott • Diagramokban tengelyként ábrázolva • Paraméterek, melyekre OLAP elemzést szeretnénk végezni • pl. Idő, Hely, Vásárló ...

  32. Információ granuláltságDimenziók hierarchiája Alacsony granuláltság - sok részlet Nagy granuláltság - kevés részlet termék típus üzleti év gyár Menedzsment Üzemvezető termék nap üzem Operátor alkatrész perc berendezés

  33. Dimenziók hierarchiája all all Europe ... North_America region Germany ... Spain Canada ... Mexico country Vancouver ... city Frankfurt ... Toronto L. Chan ... M. Wind office

  34. További példa dimenziók hierarchiájára

  35. Dimenzionális adatmodellezés Koncepciók III. • Mértékek (Measures) • Egy tény numerikus értéke (pl. eladott mennyiség)

  36. Koncepcionális modellezés • Csillagdiagram: Középen ténytábla körülötte dimenzió táblák • Hópiheséma: A csillagséma finomítása ahol a dimenziók hierarchiája normált, azaz kisebb dimenzió táblákra osztott • Tény konstellációk: Több ténytábla, csillagsémák összessége, ezért galaxissémánakis hívják • Adatkocka

  37. item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location branch location_key street city province_or_street country branch_key branch_name branch_type Példa csillagsémára Eladások tény tábla time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures

  38. supplier item time item_key item_name brand type supplier_key supplier_key supplier_type time_key day day_of_the_week month quarter year city location branch city_key city province_or_street country location_key street city_key branch_key branch_name branch_type Példa hópihesémára Eladások ténytábla time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures

  39. item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location location_key street city province_or_street country shipper branch shipper_key shipper_name location_key shipper_type branch_key branch_name branch_type Példa galaxissémára Szállítások ténytábla time_key Eladások ténytábla item_key time_key shipper_key item_key from_location branch_key to_location location_key dollars_cost units_sold units_shipped dollars_sold avg_sales Measures

  40. Többdimenziós adatkocka I. • Az eladási mennyiség a termék, az idő, és a régió függvényében Dimenziók: Termék, Hely, Idő Egységek hierarchikus összegzése Régió Iparág Régió Év Kategória Ország Hónap Termék Város Hét Hivatal Nap Termék Idő

  41. Többdimenziós adatkocka II. Aggregáció a menedzser nézete idő idő termék termék berendezés

  42. Idő 2 .n.év 1.n.év sum 3 .n.év 4 .n.év TV Termék U.S.A PC Videó sum Kanada Ország Mexikó sum All, All, All Példa adatkockára Teljes éves TV eladás az U.S.A.-ban

  43. Tábláktól az adatkockáig • Az adatkocka, pl. eladások, lehetővé teszi, hogy több szempont figyelembevételével vizsgáljuk az adatokat • Dimenziótáblák, pl. árucikk(cikk_név, márkanév, típus),vagyidő(nap, hét, hónap, negyedév, év) • Tény tábla mértékeket (pl dollár_forgalom) és kapcsolatokat tartalmaz melyek a dimenzió táblákhoz kapcsolódnak • Az n-adatkockát base cuboid-nak hívják.

  44. Az adatkockához tartozó Cuboidok all 0-D(apex) cuboid Ország Termék Dátum 1-D cuboidok Termék,dátum Termék,ország Dátum, oszág 2-D cuboidok 3-D(alap,base) cuboid Termék, Dátum, Ország

  45. Hatékony adatkocka kezelés • Az adatkocka cuboidok hálójaként értelmezhető • A legalsó cuboid az alap cuboid • A legfelső cuboid (apex) csak egy cella • Hány cuboid fordul elő egy n-dimenziós L szintből felépülő adatkockában? • Adatkocka materializációja • full materialization, Minden cuboid kiszámítása és tárolása • no materialization, • partial materialization, Csak néhány cuboid materializációja, a lekérdezések gyakorisága, a méret, stb. alapján

  46. Tipikus Olap Műveletek 0. Példa

  47. Tipikus OLAP Műveletek I. • Roll up (drill-up):adatok összegzése • A hierarhikus dimenziók összesítése (nap vs. év) vagy dimenzióredució (pl. nem érdekel minket a hely) • Drill down (roll down):a roll-up ellentettje • Nagyobb szintű összesítésből részletekre bontás, illetve új dimenziók bevezetése

  48. Tipikus OLAP Műveletek II. • Slice and dice: • Projekció és szelekció • Pivot (rotate): • A kocka átszervezése, megjelenítés, 3D mint 2D síkok halmaza. • Más műveletek • drill across: Egynél több ténytábla használata • drill through: a kocka alsó szintjének és annak relációs táblájának (SQL) kapcsolata

  49. OLAP lekérdezések hatékony kezelése • Határozd meg, milyen műveleteket kell elvégezni a cuboidokon • Transzformáld a drill, roll, műveleteket megfelelő SQL és/vagy OLAP műveletekké, dice = selection + projection • Határozd meg, melyik materializált cuboid(ok) használata szükséges

  50. Többdimenziós adatbázisok • Multidimensional databases (MDD) nem teljesen új ötlet. Kb. 20 éve, az EXPRESS szoftvercsomag • Kb. a 90’-es évektől a relációs adatbázis szállítók felfrissítették a termékeiket. • Különösképp, csillag- és hópihesémát alkalmaznak. • Az MDD az adatokat n-dimenziós adatkockában tárolja. Ez valójában ritka mátrixokat eredményez. • Szimultán módon vizsgálhatóak a különböző jellegű jellemzők, pl. termékek, régiók, eladások, költségek. A lényeg, az MDD-ben az idő szintén dimenzió. • Az MDD relációs adatbázisokkal szembeni legfőbb előnye, hogy a lekérdezések egyszerűségére, illetve sebességére van optimalizálva

More Related