1.94k likes | 1.95k Views
Adattárházak és kiaknázásuk. A probléma: Adatoktól az információig. Hasznos információ. Döntés. Modell. Tudás reprezentázió. Adatbányászat. Adatok kinyerése, transzformálása. Tisztított, feldolgozott adatok. Adattárház. Nyers adatok. Termelés, Szolgáltatás => Adatbázis. Motiváció.
E N D
A probléma: Adatoktól az információig Hasznos információ Döntés Modell Tudás reprezentázió Adatbányászat Adatok kinyerése, transzformálása Tisztított,feldolgozottadatok Adattárház Nyers adatok Termelés, Szolgáltatás => Adatbázis
Motiváció • Az adattárházak lehetőséget biztosítanak, hogy a termelő és üzleti folyamatokban keletkező adatokból, az üzleti döntések számára releváns információk legyenek kinyerhetők. • Hogyan építsünk adattárházat? • Hogyan rendezzük adatainkat? • Hogyan nyerhetünk ki információt?
Mi is az adattárház ? • Információs környezet, szemben az adatátvitel-orientált környezettel • Olyan folyamatok, eszközök tervezése és implementálása, melyek alkalmasak döntéshozatalhoz szükséges teljes, pontos, és áttekinthető információk adatokból történő kinyerésére. • Minden olyan tevékenységet magába foglal amit egy szervezetnek el kell végeznie, hogy egy adattárházat hozzon létre és üzemeltessen
Miért is? • Strukturált módon tárolt adatokhoz egyszerű hozzáférés • Különböző formátumok, platformok • Heterogén adatforrások, • adattisztítás • szűrés • átalakítás • tárolás könnyen hozzáférhető és áttekinthető formában
Adattárház funkciója • OLTP: Hogyan vigyünk be és tároljunk adatokat ??? • DSS: Decision Support System, Hogyan nyerjünk ki információt ?? • EIS: Executive Information System, Hogyan használjuk az információt ?? • Összefüggés és téma orientált • Trend-adatok (időbeliség) • gyakran nem normált • több forrású
Tipikus architektúra Intefész, GUI Értékelés Adatbányászati alg. Tudásbázis Adattárház, adatbázis szerver Adattisztítás és integrálás Szűrés Adatbázisok Adattárház
Adattárház definiálása • Döntéstámogató adatbázis melyet külön üzemeltetnek a szervezet működéséhez kapcsolódó adatbázistól • Támogató információ feldolgozó egység mely egy megbízható, feldolgozott hisztorikus, elemzések céljából összegyűjtött adatokat tartalmaz. • “A data warehouse is asubject-oriented, integrated, time-variant, and nonvolatilecollection of data in support of management’s decision-making process.”—W. H. Inmon
Témaorientált • Témakörök köré szervezett, pl. vásárlók, termékek, eladások. • A döntéshozók számára szükséges adatok modellezéséhez és elemzéséhez kötődik, nem a napi működéshez, illetve adatátvitelhez. • Egyszerű és tömör nézetet nyújt a fontos témakörökben, de nem tartalmazza azokat az adatokat, melyek nem fontosak a döntéshozatal szempontjából.
Integrált • Több, különböző jellegű adatforrás integrálásával épül fel • Relációs adatbázisok, különálló fájlok, on-line adatátviteli források • Adattisztítási és adatintegrációs eszközöket alkalmaznak • Amikor az adat bekerül az adattárházba konvertálódik • A konzisztenciát az elnevezési konvenciók, a struktúrák, stb. biztosítja a különböző adatforrások között
Idővariáns • Az időhorizont sokkal nagyobb mint egy operációs adatbázisban. • Operációs adatbázis: aktuális adatok (pl. az elmúlt nap). • Adattárház: hisztorikus adatok elemzésére (pl., az előző 5-10 év) • Minden fontosabb (kulcs) struktúra tartalmaz • Időelemet (explicit vagy implicit módon)
Nem “illékony” • Fizikailag külön tárolt, a működési környezetből transzformált adatok. • Az üzemvitelből adódó adatfissítés nem fordul elő az adattárházban. • Nincs szükség on-line adatátvitelre, adatmentésre és vissza, és konzisztenciát biztosító eljárásokra • Csak két fő adatkezelési mód: • adattárház feltöltése and adatok lekérdezése.
Adattárház vs. Heterogén Adatbázisok • Hagyományos heterogén adatbázis integráció: • Wrapper-ek/mediator-ok a heterogén adatbázisok felé illesztve • Lekérdezés alapú megközelítésmód • Amikor kliens oldalról lekérdezés érkezik, egy meta-könyvtár segítségével a lekérdezés a heterogén adatbázis egy eleméhez kapcsolódó lekérdezésre fordítódik, és az egyes lekérdezések eredményei egy globális válasszá integrálódnak • Adattárház: feltöltés-alapú, integritás biztosítása, nagy teljesítmény • A heterogén adatforrások információi a lekérdezés előtt kerülnek integrálásra és tárolódnak • Direkt lekérdezésekhez és elemzések
Adattárház alkalmazásai • Jelentések • a szervezeten belüli információ megosztás hatékony eszköze • Automatikus (web, e-mail, intranet) • Saját jelentések (infóhoz való hozzáférés, munkamegosztás, teljes áttekintés) • Statisztika • Interpretáció • Valószínűség • Minta (szignifikáns) • Adatbányászat
Végfelhasználók igényei • Tipikus felhasználók • „non-frequent user” • nem érdekli őket az adattárház, csak időről időre információra van szükségük • Előre definiált, friss jelentéseket igénylő felhasználó • Speciális érdeklődés, rendszeres időközönként • Dinamikus, ad hoc lekérdezéseket igénylő • Üzleti elemző • Profi felhasználó • Számára minden adat fontos • Specializált adatpiacok Különböző felhasználók különböző igények
OLAP (On-line Analytic Processing) • OLAP ötletét E.F. Codd, a relációs adatbázisok atyja 1993 -ban egy Computerworld cikkben vetette fel. • Codd rájött, hogy az OLTP elérte alkalmazásainak határát, rendkívül nagy számítási igény szükséges amikor relációs adatbázisokból végzünk lekérdezéseket. Rájött (amit már a döntéstámogatással foglalkozó szakértők már régóta hangoztattak): pusztán az operációs adatok nem alkalmasak a menedzserek kérdéseire választ adni. • Idáig a relációs adatbázis képes válaszolni tipikus kérdésekre mint „ Mi?, Mit?” • Az adattárházak a múltbeli adatok összesítésével képesek válaszolni olyan kérdésekre mint„Mi volt a teljes forgalom a keleti régióban a második negyedévben ?” • Az OLAP célja az adatok elemzése és megértése alapján a „Miért?, Mi lenne ha?” kérdések megválaszolása
OLAP II. • OLAP és az adattárház komplementer fogalmak • Az adattárház tárolja és menedzseli, • az OLAP stratégiai információvá alakítja az adatokat • Az OLAP alapötlete, hogy a menedzserek képesek legyenek az adatok több dimenziót figyelembe vevő kezelése, és annak megértése, hogy azok miként fordulnak elő, illetve hogyan változnak. • Felhasználási területei: • Piac szegmentálása, marketingkutatás, termelés tervezés, ... • A megoldás a „multi-dimensional” azaz több dimenziós adatbázis.
Codd 12 szabálya • 1. Többdimenziós áttekintés • 2. Felhasználó számára áttekinthető támogatás • 3. Elérhetőség • 4. Konzisztens naplók készítése • 5. Kliens-szerver architektúra • 6. Általános dimenzió aggregálás • 7. Dinamikus ritka mátrixok • 8. Multi-user támogatás • 9. „Cross-dimensional operations” • 10. Intuitív adatkezelés • 11. Rugalmas jelentések • 12. Korláttalan dimenziók
Mikor használjunk OLAP-ot ? • Az adatok iránti igény nem tranzakciós hanem elemző jellegű • Az elemzett információ nem elérhető közvetlen módon • Jelentős számítási és összesítési igény • Főként numerikus adatok • Az elemek, melyek az adatpontokat definiálják nem változnak időben
Miért külön adattárház? • Mindkét rendszer jó teljesítményt nyújt • Relációs adatbázis—OLTP-re hangolva: elérési módok, indexelés • Adattárház—OLAP-ra hangolva: összetett OLAP lekérdezések, többdimenziós nézet, konszolidáció. • Különböző funkciók és különböző adatok: • Hiányzó adatok: Döntéstámogató rendszer olyan hisztorikus adatokat kíván melyeket egy tipikus relációs adatbázisban nem tárolnak • Adat konszolidáció: Pl. heterogén forrásból származó adatok aggregálása, összegzése • Adat minőség: Különböző adatforrások általában inkonzisztens reprezentációt alkalmaznak, pl. időformátumok
Adattárház <-> Heterogén Adatbázisok • OLTP (on-line transaction processing) • A hagyományos relációs adatbázisok alapfeladata • Napról napra történő működés: vásárlás, bank, gyártás, regisztráció, számlázás, stb. • OLAP (on-line analytical processing) • Az adattárházak alapfeladata • Adatelemzés és döntéshozatal • OLTP <-> OLAP: • Felhasználó- és rendszerorientáltság:vásárló <-> piac • Adat tartalom:aktuális, részletes vs. történeti, konszolidált • Tervezési módszer:ER (entity-relationship) + alkalmazás <-> csillag + témakör • Nézet: aktuális, lokális <-> evolúciós, integrált • Hozzáférés:frissítés <-> csak olvasható de komplex lekérdezések
A piac szereplői és mérete • Legnagyobb megoldás szállítók • SAS • Oracle, IBM
Cégek és termékek -Adatbányászat Cég Termék Angoss KnowledgeSeeker Business objects BuisnessMiner Datamind Datacruncher IBM Intelligent Miner Integral Solutions Clementine Magnify Pattern Mindmaker Mindmaker Pilot software DSS SAS Enterprise Miner Thinking Machines Darwin
Összefoglalás I. - Varázsszavak • EIS: Executive Information System • DSS: Decision Support System • KDD: Knowledge Discovery in Databases • DW: Data Warehousing • DM: Data Mining • OLTP: On-line Transaction Processing • OLAP: On-line Analytical Processing • MDA: Multi-Dimensional Data Analysis
Relációs adatmodell VI. Mester receptúra tábla kulcs Idegen kulcs Sarzs tábla Mező (jellemző) Kezelő tábla Egyed (rekord)
Dimenzionális adatmodellezés Koncepciók I. • Tények • Kapcsolódó adategységek • üzleti egységet, tranzakciót, eseményt jelöl • Kulcs tábla, melyben numerikus adatok szerepelnek
Dimenzionális adatmodellezés Koncepciók II. • Dimenziók • A tények hátterét definiálják (pl. idő, hely, üzletkötő …) • Gyakran nem numerikus egységek • pl. termék márka, alkalmazott • Diagramokban tengelyként ábrázolva • Paraméterek, melyekre OLAP elemzést szeretnénk végezni • pl. Idő, Hely, Vásárló ...
Információ granuláltságDimenziók hierarchiája Alacsony granuláltság - sok részlet Nagy granuláltság - kevés részlet termék típus üzleti év gyár Menedzsment Üzemvezető termék nap üzem Operátor alkatrész perc berendezés
Dimenziók hierarchiája all all Europe ... North_America region Germany ... Spain Canada ... Mexico country Vancouver ... city Frankfurt ... Toronto L. Chan ... M. Wind office
Dimenzionális adatmodellezés Koncepciók III. • Mértékek (Measures) • Egy tény numerikus értéke (pl. eladott mennyiség)
Koncepcionális modellezés • Csillagdiagram: Középen ténytábla körülötte dimenzió táblák • Hópiheséma: A csillagséma finomítása ahol a dimenziók hierarchiája normált, azaz kisebb dimenzió táblákra osztott • Tény konstellációk: Több ténytábla, csillagsémák összessége, ezért galaxissémánakis hívják • Adatkocka
item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location branch location_key street city province_or_street country branch_key branch_name branch_type Példa csillagsémára Eladások tény tábla time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures
supplier item time item_key item_name brand type supplier_key supplier_key supplier_type time_key day day_of_the_week month quarter year city location branch city_key city province_or_street country location_key street city_key branch_key branch_name branch_type Példa hópihesémára Eladások ténytábla time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures
item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location location_key street city province_or_street country shipper branch shipper_key shipper_name location_key shipper_type branch_key branch_name branch_type Példa galaxissémára Szállítások ténytábla time_key Eladások ténytábla item_key time_key shipper_key item_key from_location branch_key to_location location_key dollars_cost units_sold units_shipped dollars_sold avg_sales Measures
Többdimenziós adatkocka I. • Az eladási mennyiség a termék, az idő, és a régió függvényében Dimenziók: Termék, Hely, Idő Egységek hierarchikus összegzése Régió Iparág Régió Év Kategória Ország Hónap Termék Város Hét Hivatal Nap Termék Idő
Többdimenziós adatkocka II. Aggregáció a menedzser nézete idő idő termék termék berendezés
Idő 2 .n.év 1.n.év sum 3 .n.év 4 .n.év TV Termék U.S.A PC Videó sum Kanada Ország Mexikó sum All, All, All Példa adatkockára Teljes éves TV eladás az U.S.A.-ban
Tábláktól az adatkockáig • Az adatkocka, pl. eladások, lehetővé teszi, hogy több szempont figyelembevételével vizsgáljuk az adatokat • Dimenziótáblák, pl. árucikk(cikk_név, márkanév, típus),vagyidő(nap, hét, hónap, negyedév, év) • Tény tábla mértékeket (pl dollár_forgalom) és kapcsolatokat tartalmaz melyek a dimenzió táblákhoz kapcsolódnak • Az n-adatkockát base cuboid-nak hívják.
Az adatkockához tartozó Cuboidok all 0-D(apex) cuboid Ország Termék Dátum 1-D cuboidok Termék,dátum Termék,ország Dátum, oszág 2-D cuboidok 3-D(alap,base) cuboid Termék, Dátum, Ország
Hatékony adatkocka kezelés • Az adatkocka cuboidok hálójaként értelmezhető • A legalsó cuboid az alap cuboid • A legfelső cuboid (apex) csak egy cella • Hány cuboid fordul elő egy n-dimenziós L szintből felépülő adatkockában? • Adatkocka materializációja • full materialization, Minden cuboid kiszámítása és tárolása • no materialization, • partial materialization, Csak néhány cuboid materializációja, a lekérdezések gyakorisága, a méret, stb. alapján
Tipikus OLAP Műveletek I. • Roll up (drill-up):adatok összegzése • A hierarhikus dimenziók összesítése (nap vs. év) vagy dimenzióredució (pl. nem érdekel minket a hely) • Drill down (roll down):a roll-up ellentettje • Nagyobb szintű összesítésből részletekre bontás, illetve új dimenziók bevezetése
Tipikus OLAP Műveletek II. • Slice and dice: • Projekció és szelekció • Pivot (rotate): • A kocka átszervezése, megjelenítés, 3D mint 2D síkok halmaza. • Más műveletek • drill across: Egynél több ténytábla használata • drill through: a kocka alsó szintjének és annak relációs táblájának (SQL) kapcsolata
OLAP lekérdezések hatékony kezelése • Határozd meg, milyen műveleteket kell elvégezni a cuboidokon • Transzformáld a drill, roll, műveleteket megfelelő SQL és/vagy OLAP műveletekké, dice = selection + projection • Határozd meg, melyik materializált cuboid(ok) használata szükséges
Többdimenziós adatbázisok • Multidimensional databases (MDD) nem teljesen új ötlet. Kb. 20 éve, az EXPRESS szoftvercsomag • Kb. a 90’-es évektől a relációs adatbázis szállítók felfrissítették a termékeiket. • Különösképp, csillag- és hópihesémát alkalmaznak. • Az MDD az adatokat n-dimenziós adatkockában tárolja. Ez valójában ritka mátrixokat eredményez. • Szimultán módon vizsgálhatóak a különböző jellegű jellemzők, pl. termékek, régiók, eladások, költségek. A lényeg, az MDD-ben az idő szintén dimenzió. • Az MDD relációs adatbázisokkal szembeni legfőbb előnye, hogy a lekérdezések egyszerűségére, illetve sebességére van optimalizálva