710 likes | 999 Views
Kierunki rozwoju technologii informatycznych: Hurtownie Danych. dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji. Plan wykładu. Problemy eksploatacji SIP Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura Punkty krytyczne HD
E N D
Kierunki rozwoju technologii informatycznych: Hurtownie Danych dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Plan wykładu • Problemy eksploatacji SIP • Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura • Punkty krytyczne HD • Projektowanie Hurtowni Danych
Rodzaje SIP • Systemy transakcyjne (ST) • Systemy informowania kierownictwa (MIS) • Systemy wspomagania podejmowania decyzji (DSS) • Systemy eksperckie (EIS)
Eksploracja danych w ST • Olbrzymia ilość rekordów • Ukryte zależności między danymi • Oczekiwanie na odpowiedź • Ciągły wzrost objętości zbiorów danych • Wiele tabel i relacji między nimi • Opis rzeczywistości w wybranym obszarze funkcjonowania przedsiębiorstwa
Systemy Informowania Kierownictwa (MIS) • Zasilane zagregowanymi danymiz transakcyjnych systemów dedykowanych • Źródło danych dla MIS znajduje się wewnątrz organizacji • Postać danych i stopień agregacji adekwatne do potrzeb informacyjnychi decyzji podejmowanych przez kierownictwo średniego szczebla
Systemy Wspomagania Decyzji (DSS) • Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych • Źródło danych to systemy transakcyjne • Uwzględniają szerszy aspekt prowadzenia biznesu • Stopień agregacji danych uwzględnia różne wymiary analiz • Stosowane na szczeblu taktycznym (kierownictwo wyższego szczebla np. dyrektorzy departamentów)
Systemy eksperckie (EIS) • Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu • Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu • Wykorzystują wewnętrzne i zewnętrzne źródła danych • Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)
Systemy DSS i EIS w procesach decyzyjnych Wymagania: • Całościowe spojrzenie na organizację • Prawidłowa ocena aktualnej sytuacji organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej • Możliwość przeprowadzania analizw dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji
Pojęcie Hurtowni Danych (HD) • Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji • Zintegrowany bank danych wspomagający procesy decyzyjne • Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa Funkcjonalność
Pojęcie Hurtowni Danych (HD) • Repozytorium danych z procedurami ich ładowania do HD • Repozytorium uzupełnione minihurtowniami danych • Repozytorium, minihurtownie danych oraz aplikacje analityczne Infrastruktura
Hurtownia Danych - gdzie leży prawda? Hurtownie danych służą do podejmowania decyzji zarządczych Bill Inmon
Definicja HD System baz danych zawierający dane: • zorientowane tematycznie • zintegrowane • zorganizowane w czasie • trwałe do wspomagania podejmowania decyzji strategicznych.
Zorientowanie tematyczne HD • Zgromadzone dane opisują problemy • Lokalizacja danych uzależniona od ich treści ekonomicznych • Dane zorientowane na podejmowanie decyzji w różnych obszarach działania
Integralność danych w HD • Czystość - ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary) • Poprawność - kontrola danych pobieranychz systemów szczebla operacyjnego • Właściwa agregacja - wybór zmiennych agregujących
Element czasu w HD • Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat) • Czas jako wymiar innych danych • Dane tworzą szeregi czasowe • Dane załadowane do HD nie są w czasie aktualizowane
Trwałość danych w HD • W HD dopuszcza się operacje: • ładowania danych • dostępu do danych • W HD nie przeprowadza się operacji aktualizacji załadowanych danych • Dane analityczne przechowywane sąw postaci gotowych agregatów
Cele budowy HD • Realizacja misji przedsiębiorstwa • Zwiększenie konkurencyjności firmy • Osiąganie celów biznesowych • Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa
Zadania realizowane przy wykorzystaniu HD • Budowa modelu ekonomicznego • Weryfikacja hipotez biznesowych • Identyfikacja trendów i zależności • Określanie ryzyka • Alokacja zasobów
Przykłady celów biznesowych • Badanie rentowności produktów, oddziałów,współpracy z klientami, spółek zależnych • Analiza ryzyka działalności • Prognozowanie sprzedaży • Wyznaczenie kosztu operacji handlowych • Badanie struktury sprzedaży • Budowa systemów sprawozdawczości zarządczej Hurtownia Danych - źródło nowych zysków
Hurtownie danych a CRM • Lojalność klientów wobec organizacji • Rezygnacje klientów ze współpracyi powody takiej decyzji • Rodzaj produktu czy usługi (mix-produkt) oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej • Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych
Hurtownie danych w e-biznesie • Średnia wartość transakcji w internetowym biurze maklerskim • Wartość kredytów zaciągniętych przez Internet • Rodzaje lokat zakładanych przez Internet, ich średnia wysokość i czas lokaty • Wartość przelewu bankowego dokonanego drogą elektroniczną • Średnia wartość transakcji przy użyciu kart płatniczych
Dlaczego nie wykorzystać ST? • Brak właściwych danych • Zapytania przekrojowe znacznie obciążają bieżącą pracę ST • Bazy danych w ST nie są zoptymalizowane do analitycznego przetwarzania danych • Uzyskanie informacji globalnych wymaga złączenia wielu tabel baz danych • Duża zmienność stanu baz danych
Różnice między HD i ST (1) HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.: • Dane w HD mają charakter zagregowany, w ST - szczegółowy • HD zawiera wybrane dane, ST - wszystkie dane • ST zawierają zawsze dane aktualne, HD - archiwalne (obraz tych danych) Fizyczna separacja HD i ST
Różnice między HD i ST (2) Struktura i przetwarzanie danych: • ST przechowują dane w postaci znormalizowanej, HD - nadmiarowość danych • ST oparte są na przetwarzaniu transakcyjnym, w HD - brak transakcji • ST pozwalają na zapis, odczyt, usuwaniei modyfikację danych, w HD - tylko odczyt • ST zasilane są stałym i równomiernym strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu
4 powody separacji HD i ST • Wydajność • Dostęp do danych • Format danych • Jakość danych
Podobieństwa HD i ST • Oparte na bazach danych • Posiadają wbudowane języki przetwarzania danych • Przechowywane dane można graficznie prezentować • Możliwość wprowadzania danych
Hurtownie Danych a DSS/EIS • DSS/EIS posiadają rozbudowane narzędzia analizy danych • DSS/EIS nie są odpowiednio wyposażonew narzędzia organizacji danych • HD dostarczają dla DSS/EIS wsparciaw postaci baz danych • HD dostarczają danych niezbędnych dla DSS/EIS
Użytkownicy HD • Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze) • Analitycy biznesowi • Pracownicy merytoryczni • Informatycy
Wymagania użytkowników wobec HD • Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym) • Udzielanie szybkich odpowiedzi • Kompleksowa analiza danych • Właściwy sposób prezentowania informacji • Wiarygodność informacji zarządczej
Elementy architektury HD • Dedykowane źródłowe systemy transakcyjne organizacji • Oprogramowanie zasilania danymi bazy danych hurtowni • Wielowymiarowa baza danych oraz system zarządzania bazą danych • Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych
Struktura funkcjonalna HD Użytkownik końcowy
Zarządzanie HD • Sposoby dostępu do danych w ST: • interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ... • język SQL, 4GL • Walidacja, czyszczenie, formatowaniei agregacja danych • Zasilanie HD: • procedury analizy statystycznej • odświeżanie danych • metadane opisujące proces zasilania HD
Organizacja HD - metadane • Modele danych: • relacyjny model danych, • inne modele (np. hierarchiczny, gwiazdy, płatek śniegu) • Sposób zasilania danymi • Architektura HD: • scentralizowana • rozproszona (data marts) • Dostęp użytkowników
Metadane - co jeszcze składa się na HD? • Struktura danych hurtowni uwzględniająca wymagania SWD • Sposób transformacji danych operacyjnych (algorytmy) • Relacje między modelem danychw systemach operacyjnych a HD • Historia zasilania HD danymi operacyjnymi Kontekst
Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych Kompletność Nadrzędna kontrola Dokumentowanie działań, odpowiedzialności Organizacja metadanych
Eksploatacja HD • Zapytania i raporty: • filtrowanie danych, język 4GL i SQL • Techniki analizy danych: • MOLAP, ROLAP, HOLAP • Wizualizacja danych: • wykresy, drzewa decyzyjne, statystyka • Wspomaganie procesów decyzyjnych: • ekonometria, badania operacyjne, prognozowanie • Publikacja wyników w formacie HTML
Struktura danych w HD • Szczegółowe dane bieżące • Archiwalne dane szczegółowe • Dane częściowo zagregowane • Silnie zagregowane dane • Metadane
Zasilanie HD Wprowadzanie danych do HD, opartych na danych operacyjnych. • Wybór danych • Lokalizacja danych • Transformacja danych do zunifikowanej postaci • Integracja danych • Częstotliwość zasilania
Organizacja zasilania HD • Ludzie biznesu i informatycy • Zespoły zadaniowe: • projekt struktury hurtowni • analiza danych źródłowych • logika konwersji danych • budowa i generowanie procedur konwersji • zapewnienie jakości danych • Zrozumienie wymagań związanychz konwersją i przepływów danych
Projekt zasilania HD • Plan konwersji danych operacyjnych • Definicja specyfikacji konwersji • Ekstrakcja danych operacyjnych do postaci schematów pośrednich • Konwersja schematów pośrednich do postaci danych ładowanych • Agregacja danych • Ładowanie i indeksowanie danych • Zapewnienie jakości danych
Plan konwersji danych • Określa najlepszy sposób migracji danych do hurtowni • Uwzględnia: • dostępne zasoby danych, • liczność danych, • liczbę różnych schematów danych, • metody i platformy dostępu, • języki ekstrakcji danych, • strukturę hurtowni, • liczbę wymaganych agregacji
Specyfikacja konwersji danych • Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika) • Inne zewnętrzne źródła informacji • Opis procesów: • ekstrakcji danych do postaci schematu pośredniego, • konwersji schematu pośredniego, • agregacji danych, • migracji danych do baz danych hurtowni, • walidacji danych Dokumentacja !!!
Ekstrakcja danych w schematy pośrednie • Zwiększenie użyteczności programów do czyszczenia danych, transformacjii integracji • Zachodzi w środowisku systemów transakcyjnych • Procedury identyfikacji starychi nowych danych operacyjnych • Izolowanie niezbędnych danych
Konwersja schematów pośrednich • Identyfikacja wzorców danych i liczby pól • Określenie kontekstu i przeznaczenia danych • Korekcja danych w oparciu o listy • Eliminacja nadmiarowych rekordów • Rezultat: • dane o wymaganym poziomie granulacji • dane dla tabel wymiarów i tabel faktów • klucze wybierania danych
Agregacja danych • Miejsce wykonania - poza serwerem hurtowni • Powody: • narzędzia agregacji są szybsze niż RDBMS • pewność wykonania • szybkość i skuteczność wbudowanych procedur ładowania danych zagregowanych
Ładowanie i indeksowanie danych • Umieszczenie danych na serwerze hurtowni • Tworzenie tabel faktów i wymiarów • Indeksowanie: • natychmiastowe • z opóźnieniem • Koordynacja procesów
Nadrzędny charakter kontroli etapów zasilania Dokumentowanie działań Aktywny udział użytkowników Dobra znajomość strukturyi znaczenia danych źródłowych Zrozumienie procesów zasilania Zatwierdzanie etapów zasilania Zapewnienie jakości danych