1 / 16

ETL – wymiana danych

ETL – wymiana danych. Michał Jabłonka 2007-01-12. Plan prezentacji . Wstęp do zagadnienia wymiany danych między systemami informatycznymi ETL – wprowadzenie ETL – najczęstsze problemy Próby implementacji własnego narzędzia ETL Wyniki komercyjnych narzędzi ETL

Download Presentation

ETL – wymiana danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ETL – wymiana danych Michał Jabłonka 2007-01-12

  2. Plan prezentacji • Wstęp do zagadnienia wymiany danych między systemami informatycznymi • ETL – wprowadzenie • ETL – najczęstsze problemy • Próby implementacji własnego narzędzia ETL • Wyniki komercyjnych narzędzi ETL • EAI – jako uzupełnienie rozwiązań ETL

  3. Wymiana danych pomiędzy systemami informatycznymi • Obszary biznesu zainteresowane wymianą danych • Wszystko w jednym systemie , czy architektura rozproszona ? • Koszty głównym argumentem • Problem utrzymania i eksploatacji systemów

  4. ETL - wprowadzenie ETL = Extract, transform, and load • Extract – wyładowanie danych z systemów źródłowych • Transform – przekształcenie danych do wymaganej postaci • Load – załadowanie danych do systemu docelowego

  5. ETL - wprowadzenie

  6. ETL - wprowadzenie • Extract • Transform • selekcja atrybutów • dekodowanie wartości • wyliczanie nowych atrybutów • złączenia danych z różnych systemów • agregacja danych • transpozycja • Load

  7. Extract – problemy • Podłączenie do źródła • Szybkość wyładowania danych • Zapewnienie kompletności wyładowanych danych • Zapewnienie spójności czasowej wyładowanych danych • Mechanizmy automatycznej obsługi błędów (nie chodzi o błędy w danych)

  8. Transform – problemy • Uniwersalny model danych • Narzędzia do skomplikowanych transformacji • Czasochłonność operacji • Mechanizm wycofywania zmian • Punkty kontrolne

  9. Load - problemy • Podłączenie do odbiorcy • Czasochłonność ładowania – ograniczenia sprzętowe (n .. 1) • Problem spójności danych • Wycofywanie zmian • Mechanizmy automatycznej obsługi błędów (nie chodzi o błędy w danych)

  10. Własny ETL • Najprostszy ETL dla baz Oracle • E – spool lub przekierowanie stdout do pliku • T – skrypty SED , AWK • L – SQLLoader , insert into table (bardzo mało wydajne) • Wersja ulepszona • E – program w C++ lub Java komunikujący się z Oracle poprzez OCI, wyładowania przyrostowe • T – wczytanie do bazy Oracle (bez audytu , noarchivelog) dedykowanej dla ETL-a – funkcje agregujące, analityczne • L – SQLLoader w trybie direct load, aplikowanie przyrostów PL/SQL

  11. Narzędzia komercyjne • Bogata biblioteka connectorów • Własny scheduler • Designer • Metadane – impact analysis • Monitoring • Raporty • Olbrzymia wydajność • Olbrzymi koszt

  12. Rynek ETL

  13. Wyniki narzędzi ETL • Środowisko testowe SunSolaris 16CPU (8x2 core), 32 GB RAM, Macierz dyskowa Symetrix, OS - Solaris 9 • Zadanie testowe Plik z danymi z transakcjami finansowymi (data, kontoA, kontoB, waluta, kwota, id_transakcji) 30 milionów rekordów dziennie (10GB). Należy zbudować agregaty dla każdego z kontynentów: trunc(data), kontoB, waluta, sum(kwota) i załadować je do bazy Oracle

  14. Wyniki ETL – zadanie uproszczone • Najprostszy własny ETL • E – 4 h • T – • L – 1,5 h • Wersja ulepszona • E – 1,5 h • T – • L – 1h Możliwe ulepszenia: partycjonowanie, wątki.

  15. EAI – transfery on-line • EAI = Enterprise Application Integration • Transfery on-line • Transakcyjność • Małe wolumeny danych – pojedyncze rekordy • Zapewnienie spójności danych pomiędzy wszystkimi aplikacjami • Tryb pracy synchroniczny i asynchroniczny

  16. Dziękuje za uwagę

More Related