220 likes | 515 Views
HURTOWNIE DANYCH. Co to jest hurtownia danych?. Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych zbierającą informacje służące do zarządzania organizacją.
E N D
Co to jest hurtownia danych? Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych zbierającą informacje służące do zarządzania organizacją. Jest ona odizolowana od baz operacyjnych a jej struktura i użyte do jej budowy narzędzia powinny być zoptymalizowane pod kątem przetwarzania analitycznego.
Po co hurtownia danych? Do sprawnego zarządzania firmą potrzeba, by: • Dane zgromadzone w organizacji mogły być wykorzystywane w procesie decyzyjnym, • Istniała możliwość tworzenia analiz obejmujących całość organizacji,
Cechy hurtowni danych • Jest scentralizowaną bazą, • Jest oddzielona od baz operacyjnych, • Scala informacje z wielu źródeł, • Jest zorientowana tematycznie, • Przechowuje dane historyczne, • Utrzymuje wielką ilość informacji, • Agreguje informacje,
Rodzaje danych w hurtowniach • Elementarne, • Zmaterializowane agregaty – wyliczone wartości obliczeń (sumy, średnie itp.), • Historyczne, • Metadane,
Cykl życia danych w HD • Ładowanie i scalanie • Agregacja • Tworzenie danych historycznych • Usuwanie
Architektura Hurtowni Danych • Scentralizowana • Warstwowa • Federacyjna
Architektura scentralizowana Scentralizowana hurtownia danych jest stosunkowo prostą architekturą. Znacznie upraszcza dostęp do danych, głównym zastosowaniem takiego rodzaju architektury są organizacje o scentralizowanej strukturze. Oczywiście architektura taka nie oznacza że w jednej organizacji musi znajdować się jedna, scentralizowana hurtownia danych – wręcz przeciwnie , zaleca się tworzenie kliku scentralizowanych hurtowni.
Architektura warstwowa Następnym rodzajem jest warstwowa architektura hurtowni danych. Główną hurtownię danych uzupełniają kolejne warstwy, podsumowania danych (hurtownie tematyczne). Architektura warstwowa może być również stosowana w przypadku źródeł danych gdzie dane napływają z różnych oddziałów firmy i są podsumowywane.
Architektura federacyjna Federacyjna hurtownia danych to aktywny związek i współpraca kilku hurtowni danych które mogą znajdować się nie tylko w jednym ale w wielu systemach komputerowych. Globalna hurtownia danych jest w tym wypadku tworem wirtualnym, a hurtownie tematyczne odpowiadają zwykle odpowiednim działom w przedsiębiorstwie.
Hurtownie danychOLAP/OLTP OLTP – On-Line Transaction Processing (przetwarzanie transakcyjne) OLAP – On-Line Analytical Processing (przetwarzanie analityczne) Systemy informatyczne możemy podzielić na transakcyjne(OLTP) i analityczne (OLAP). Generalnie można przyjąć, że systemy OLTP dostarczają danych źródłowych do hurtowni danych, natomiast systemy OLAP pomagają w ich analizie.
Hurtownie danychWstęp – OLAP/OLTP • OLTP (On-line Transaction Processing) charakteryzuje się dużą ilością prostych transakcji zapisu i odczytu. Główny nacisk kładziony jest na zachowanie integralności danych w środowisku wielodostępowym oraz na efektywność mierzoną liczbą transakcji w danej jednostce czasu. • OLAP (On-line Analytical Processing) charakteryzuje się natomiast stosunkowo nielicznymi, ale za to złożonymi transakcjami odczytu. Miarą efektywności jest czas odpowiedzi. Powszechnie wykorzystuje się go w technikach związanych z Data Mining'iem.
OLAP OLTP Dane zorientowane tematycznie Dane zorientowane procesowo Duża wielkość (od kilkudziesięciu GB do kilku TB) Mała wielkość (kilkadziesiąt MB – kilka GB) Przechowywane są dane historyczne Przechowywane są dane teraźniejsze Zdenormalizowana struktura danych (kilka tabel – wiele kolumn w tabeli) Znormalizowana struktura danych (wiele tabel – kilka kolumn w tabeli) Złożone zapytania Proste zapytania Dane zagregowane Dane jednostkowe Hurtownie danychOLAP/OLTP - porównanie
Hurtownie danychOLAP/OLTP Hurtownie danych (dane) możemy potraktować jako bufor pomiędzy systemami OLAP oraz OLTP
Wielowymiarowa kostka OLAP Kostka składa się z Miar, Wymiarów i Poziomów oraz jest zoptymalizowany pod kątem szybkiego i bezpiecznego dostępu do danych wielowymiarowych. Miary to wskaźniki numeryczne (ile?), natomiast wymiary reprezentują dane opisowe (kto? co? kiedy? gdzie?). Wymiary są pogrupowane za pomocą poziomów, które odzwierciedlają hierarchię funkcjonującą w organizacji i pozwalają użytkownikom końcowym zwiększać lub zmniejszać poziom szczegółowości analizowanego wymiaru. Z reguły w hurtowni danych jest zdefiniowanych co najmniej kilkanaście wymiarów, a najczęściej spotykanym i wymiarami są: czas, klient, produkt, lokalizacja, biuro sprzedaży. Hierarchia każdego z wymiarów ustawiona jest za pomocą Poziomów.Przykładowo, hierarchia poziomów może być ułożona w następujący sposób: Czas: Rok -> Kwartał -> Miesiąc -> Tydzień -> Dzień Klient: Grupa klientów -> Nazwa klienta Produkt: Linia Produktu -> Grupa Produktu -> Produkt Lokalizacja: Obszar -> Region -> Kraj
Wielowymiarowa kostka OLAP Kategorie to elementy danych które opisują poziomy w wymiarach. Przykładowo, dla wymiaru Lokalizacji, w hurtowni danych zostały ustawione poziomy obszaru, regionu i kraju. W tym przykładzie dla Polski kategoriami będą: • Obszar - Europa • Region - Europa Środkowa • Kraj - Polska Typowe, najczęściej występujące Miary w hurtowniach danych to: • Przychód netto • Przychód brutto • Waga • Ilość • Koszt • Upust
Model wielowymiarowy produkt 150 PLN czas sklep Zawartość komórki: zagregowana miara ( np. suma sprzedaży danego produktu w danym sklepie, danego dnia).