480 likes | 902 Views
SKLADIŠTA PODATAKA. Beli Krešimir Boršćak Ivo Varaždin, 17. siječanj 2006. Osnove skladištenja podataka. Skladištenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljeća
E N D
SKLADIŠTA PODATAKA Beli Krešimir Boršćak Ivo Varaždin, 17. siječanj 2006.
Osnove skladištenja podataka • Skladištenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljeća • Skladište podataka ili Data Warehouse(DW) je proces integracije podataka u jedan repozitorij iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izveštaje • Osnovni cilj skladištenja podataka je prikupljanje i distribucija informacija kroz preduzeće - točnije ostvarenje principa "Biti uvijek na usluzi korisniku informacija"
Povijesni pregled razvoja skladištenja podataka • sustavi 70-tih godina su bili monolitni sustavi sa centraliziranim “mainframe” računalom-naslijedeni sustavi (engl. Legacy systems) • 80-tih godina dolazi do popularizacije osobnih računala • vrhunac sustava za analizu prije pojave skladištenja podataka bili su sustavi za potporu odlučivanju i izvršni informacijski sustavi • pojava koncepta Intraneta i korištenja web baziranih aplikacija-putem Intraneta podaci u skladištu podataka postaju dostupni svima unutar kompanije • tijekom 90-tih se javila potreba za nečim što se danas zove skladište podataka
Osnovni pojmovi • “Skladište podataka je baza podataka koja sadrži povijesne, nepromijenjive podatke koji su logički i fizički izvučeni iz raznih izvora. Ti podaci se u skladu s definiranim modelom učitavaju u skladište i integriraju s postojećim podacima, a sve to u svrhu potpore poslovnom odlučivanju.” • “Skladištenje podataka je proces integracije podataka o poslovanju neke organizacije u jednu bazu podataka iz koje krajnji korisnici mogu raditi izvješća, postavljati upite i analizirati podatke.”
Osnovni pojmovi • “Iskopavanje podataka (engl. data mining) je proces automatskog otkrivanja prethodno nepoznatih obrazaca i odnosa među podacima u bazi podataka.” • OLAP (engl. On-Line Analytic Processing) obuhvaća skupa alata koji krajnjem korisniku pružaju potporu poslovnom odlučivanju, a temelje se na dimenzijskom (višedimenzijskom) pristupu. • Metapodaci (podaci o podacima, engl. metadata) je izraz koji označava sekundarne, pomoćne podatke koji sadrže informacije o podacima u skladištu podataka ili sadrže informacije kako te podatke najlakše obraditi.
Značajke skladišta podataka • pristup podacima je najefikasniji ako su ti podaci odvojeni od podataka pohranjenih u operacijskim sustavima • jedan od razloga za razdvajanje je da podaci u skladište podataka mogu doći i iz više izvora • Takoder bitan razlog je da se procesi obrade transakcije i analize podataka bitno razlikuju odnosno da postoji razlika između transakcijskih (operacijskih) sustava i sustava za analizu • transakcijski sustav (često se naziva i OLTP – On-Line Transaction Processing) pridaje najveću važnost raspoloživosti i brzini obrade i ne smije se dozvoliti da analiza podataka dovede do degradacija performansi transakcijskog sustava-ključni razlog razdvajanja
Značajke skladišta podataka Razlike između OLTP i skladišta podataka
Ciljevi skladištenja podataka • Skladište podataka mora omogućiti pristup podacima bitnim za neku organizaciju ili kompaniju • Podaci u skladištu podataka moraju biti konzistentni • Podaci se u skladištu podataka mogu kombinirati na sve moguće načine (engl. dice and slice requirement) • Skladište podataka nisu samo podaci, već ono mora sadržavati i skup alata za postavljanje upita (engl. query tools), alata za analizu i predstavljanje informacije • Skladište podataka je mjesto gdje se objavljuju korišteni podaci • Kvaliteta podataka u skladištu je pokretač poslovnog restrukturiranja
Dimenzijski model • “Dimenzijski model je tehnika logičkog dizajna koja teži prikazivanju podataka na standardiziran, intuitivan način koji omogućava pristup podacima velikom brzinom.” Prikaz dimenzijskog modela podataka u obliku kocke
Struktura dimenzijskog modela se sastoji od jedne tablice sa složenim ključem koje se naziva tablicom činjenica (engl. fact table) i više tablica dimenzija (engl. dimensional tables) od kojih svaka ima jednostavan ključ koji je dio složenog ključa tablice činjenica. Takva struktura se često zove zvijezda spoj (engl. star-join schema) Prikaz tipičnog dimenzijskog modela
Tablice činjenica • tablica činjenica je mjesto gdje se spremaju brojčani poslovni pokazatelji • svaki od tih pokazatelja se nalazi negdje na presjeku svih dimenzija • ti pokazatelji se nazivaju činjenicama i otuda se tablica zove tablica činjenica • tipičan primjer za činjenicu je npr. atribut koji sadrži ukupnu vrijednost proizvoda prodanog određeni dan • najbolje i najkorisnije činjenice su: brojčane, kontinuirano vrednovane i zbrojive • tablica činjenica ima složeni ključ i on se sastoji od svih primarnih ključeva dimenzijskih tablica
Dimenzijske tablice • Dimenzijske tablice spremaju podatke vezane za svaku pojedinu dimenziju • Dimenzije daju činjenicama kontekst, one su prirodni poslovni parametri koji određuju svaku činjenicu • Dimenzije se opisuju u dimenzijskim tablicama koristeći iscrpne tekstualne opise • Dimenzijska tablica bi trebala imati što veći broj atributa jer se tako povećava broj ograničenja u upitima, a time se povećava i količina informacija koja je korisniku dostupna • Dimenzijske tablice su denormalizirane radi jednostavnosti dizajna i učinkovitijeg izvođenja upita
Jedna tipična dimenzijska tablica Dimenzija vremena
OLAP • Izrazom “On-Line Analytical Processing” (OLAP) označena je kategorija softverske tehnologije koja omogućava korisnicima (analitičarima, menadžerima) da steknu uvid u podatke kroz brz, konzistentan, interaktivan pristup različitim mogućim pogledima na informacije transformirane iz sirovih podataka da bi odrazile stvarnu dimenzionalnost poslovanja kako ga shvača korisnik Uloga OLAP-a
OLAP • OLAP je pojam koji izvorno potiče od E.F. Codda, a opisuje informacijski sustav za brz, konzistentan i interaktivan pristup i manipulaciju multidimenzionalnim podacima koji dolaze iz različitih izvora, a spremljeni su u skladištu podataka • Funkcionalnost OLAP-a ostvarena je kroz mogućnost multidimenzionalnih analiza konsolidiranih korporativnih podataka koje uključuju: modeliranje korištenjem dimenzija i hijerarhija podataka, analize trendova kroz određena vremenska razdoblja, projekciju podataka kroz what-if scenarije, podskupove podataka, bušenje (drill down) do nižih nivoa detaljnosti podataka • OLAP je obično implementiran u klijent-server okruženju
OLAP postoji u dva temeljna oblika s obzirom na formu u kojoj su podaci spremljeni: relacijski (ROLAP-Relational On Line Analitycal Processing) i multidimenzionalni (MOLAP- Multidimensional On Line Analitycal Processing), te u hibridnom obliku (HOLAP-Hybrid On Line Analitycal Processing) koji za više nivoe sumarizacije koristi multidimenzionalni oblik, ali omogućuje dril-down do nižih nivoa sumarizacije koji su smješteni u relacijskoj tablici • U posljednje vrijeme koristi se i izraz FASMI - Fast Analysis of Shared Multidimenzional Data
Aktivnosti u izradi skladišta podataka • Analiza izvora podataka • Postupak pripreme podataka • Postupak uskladištenja podataka • Analiza podataka
Rudarenje podataka • Rudarenje podataka se može opisati kao netrivijalan proces identifikacije neospornih, novih, potencijalno korisnih i razumljivih uzoraka i odnosa među podacima u skladištu podataka. • Ima više modela i algoritama koji se koriste, te se ovisno o primjeni odabire najpogodniji.
Rudarenje podataka • Najpoznatije metode rudarenja podataka su: -klasifikacija i regresija (algoritmi neuralnih mreža i stabla odlučivanja), - klasteriranje (identificiranje i grupiranje sličnih podataka), - sažimanje i vizualizacija, - modeliranje zavisnosti, asocijacije i sekvencijalna analiza,te - analiza vremenskih serija
Rudarenje podataka • Skladište podataka, ne samo da predstavlja veliki skup podataka i informacija, već mora omogućiti upotrebu analitičkih sredstava koji omogućavaju: - otkrivanje uzoraka - predviđanje ponašanja korisnika - izradu analize tržišta
Rudarenje podataka • Data mining analize se u biti baziraju na metodama raspoznavanja uzoraka i koriste se za rješavanje slijedećih zadataka: • razvrstavanje • predviđanje • procjena vrijednosti • grupiranje • opisivanje i vizualizacija podataka
Business intelligence • BI je krovni naziv za skup metoda, alata i aplikacija koje omogućavaju prikupljanje, analizu, distribuciju i djelovanje na osnovu poslovnih informacija, sa ciljem donošenja boljih poslovnih odluka • BI daje pogled na cijelu kompaniju, pri ćemu svatko može dobiti upravo onu informaciju koja mu je potrebna • BI omogućava proaktivan način vođenja kompanije • BI sustav je izvorno bio namijenjen decision makerima, odnosno ljudima koji donose poslovne odluke
Business intelligence • BI sistem ne postoji kao gotov proizvod, postoje proizvođači koji nude tehnološke platforme i znanja za implementaciju • Uvođenje BI sustava je projekt koji nema kraja • Postavlja se pitanje cijene ovakvih sustava i troškova informacija
Iskustva u izgradnji sustava skladišta podataka • Vođenje projekta - Statistike kažu da između 50 i 60% projekata izgradnje skladišta podataka ne uspijeva u ostvarenju zadanih ciljeva - Oracle PJM je metodologija koja se uz određene prilagodbe koristi za vođenje projekta - ključne institucije u ovom dijelu su: - sponzor (sponzorski odbor) i - voditelj projekta
Iskustva u izgradnji sustava skladišta podataka • Izgradnja sustava - Neke od ključnih uloga u projektnom timu za koje je potreban ovakav angažman su: stručnjak za dohvat izvorišnih podataka, administrator podataka, analitičar i naravno krajnji korisnici - Krajnji korisnici kojima su namijenjene aplikacije razlikuju se od korisničke populacije produkcijskih sustava - Spremnost korisnika na upotrebu sustava jedan je od ključnih faktora uspjeha projekta u cjelini
Iskustva u izgradnji sustava skladišta podataka • Sustav prijenosa podataka - Sustav prijenosa podataka predstavlja najteži zadatak u cijelom procesu izgradnje sustava skladišta podataka i na njega otpada približno 60% ukupnog vremena - Sam proces može se podijeliti u nekoliko faza i to: - dohvat, - transport, - prihvat, - prilagodba i - punjenje.
Iskustva u izgradnji sustava skladišta podataka • Kvaliteta podataka -Loša kvaliteta podataka, prema istraživanjima SAS Instituta, uzrok je neuspjeha u 70% projekata izgradnje skladišta podataka -Kako bi se moglo provesti testiranje kvalitete podataka potrebno je prvo utvrditi karakteristike kvalitetnih podataka: - ispravnost, - potpunost, - konzistentnost, - jedinstvenost i - pravovremenost.
Iskustva u izgradnji sustava skladišta podataka • Sigurnost podataka -Sigurnosti podataka se u pravilu ne poklanja dovoljna pažnja, a skladište podataka je vrlo osjetljivo na pitanja sigurnosti - Kada se prisjetimo da se u skladište podataka pohranjuju i podaci o konkurenciji, predviđanja, planovi, scenariji dakle ne samo povijesni podaci onda je jasno koliko je pitanje sigurnosti osjetljivo i kakva mogućnost zloupotrebe takvih podataka postoji
Iskustva u izgradnji sustava skladišta podataka • Sigurnost podataka - Slijedi nekoliko uputa koje mogu olakšati rješavanje pitanja sigurnosti: - utvrdite trenutnu politiku spram sigurnosti unutar organizacije - utvrdite da li i koji tajni podaci će biti pohranjeni u skladište podataka - definirajte tko sve može pristupiti sustavu - gdje će pravila sigurnosti biti implementirana - koliko će implementacija sigurnosti koštati - što će se poduzeti u slučaju evidentiranog kršenja pravila
Iskustva u izgradnji sustava skladišta podataka • Prezentacija podataka – korisničke aplikacije - Korisničke aplikacije u sustavu skladišta podataka mogu biti od skupine izvještaja do specijalističkih aplikacija za prognoziranje, data mining - Loše je za uspješnost projekta predati korisnicima skladište podataka i alate za izradu izvještaja i ad-hoc upita bez unaprijed pripremljenih izvještaja i očekivati da će ih većina koristiti
Skladište u HZZ-u • Situacija u HZZ-u - Dolaskom u HZZ naišlo se na postojeću CLIPPER aplikaciju, uz koju su se izvješća generirala ručno. - Uzmemo li u obzir organizaciju rada i sustava, podaci su bili redundantno pohranjeni na više mjesta ( gotovo na svakom PC računalu – klijentu ). Izvješća su bila u tekstulanom formatu, a zbog čestog verzioniranja programa i načina replikacije podataka postojala je mogućnost razlike istog izvještaja na različitim lokacijama.
Skladište u HZZ-u • Cilj i poslovna rješenja • Samim time, razvila se želja za automatizacijom samog procesa, kao i brzim odgovorima na kompliciranije upite nad bazom • Napravljeni su sljedeći moduli : 1. Sistemski modul za prijenos podataka iz postojećih aplikacija (Clipper i ostale) 2. Aplikativni modul za funkcionalnu-tehnološku nadogradnju i zamjenu postojećih aplikacija (Clipper i ostale)
Skladište u HZZ-u • Projekt HZZ-DW obuhvaća: - procese dohvata, prihvata, prilagodbe i punjenje postojećih podataka iz produkcije u skladište podataka - izrada i razvoj OLAP kocki ( mjere, dimenzije...) - izvještavanje i publiciranje na Web ( 'Čarobnjak' ) - implementiranje i održavanje
Skladište u HZZ-u • Za izradu skladišta podataka korištena je Microsoft tehnologija : -SQL Server 2000 Enterprise ( Windows 2000 Server ), - SQL Server Developer ( Windows 2000 Profesional ) - Analyses Services SQL Servera - SQL Server Service, • za prezentaciju podataka : - MDX upiti - Active X kontrola za Prekapanje - Excell Pivot tabele .
ARHITEKTURA EXCEL OWC ODC PRODUKCIJA DWH OLAP ČAROBNJAK REPORT ASP (MDX) XLS HTML SCHEDULER XLS HTML Skladište u HZZ-u
Literatura • http://www.geocities.com/elvirko/skladistenje_i_analiza_informacija.html • http://www.efzg.hr/inc.visits.aspx?id=2452 • http://www.in2.hr/data/docs/BI_DWH-iskustva.doc • http://www.in2.hr/data/docs/HZZ-DW.doc • http://www.ekonomist.co.yu/magazin/ebit/16/h$s/h$s4.htm • http://www.skladistenje.com/download/ IzgradnjaSkladistaPodataka.pdf • http://www.alfatec.hr/pojmovnik_list.asp