150 likes | 337 Views
ETL – E xtract , T ransform , L oad nástroje. Mobilné geoinformačné technológie. Dušan MAĎAR | mad080@vsb.cz. GN2GIF01. Ú vod do problematiky Proces ETL Realizácia ETL ETL nástroje Informatica + Data Integrator CloverETL + Kettle GeoETL FME + GeoKettle Zhodnotenie.
E N D
ETL – Extract, Transform, Load nástroje. Mobilné geoinformačné technológie Dušan MAĎAR | mad080@vsb.cz GN2GIF01
Úvod do problematiky • Proces ETL • Realizácia ETL • ETL nástroje • Informatica + DataIntegrator • CloverETL + Kettle • GeoETL • FME + GeoKettle • Zhodnotenie Osnova prezentácie
ETL je na scéne už 20 rokov • Extract – Clean – Transform – Load • ETL = integračne transformačná vrstva • periodické získavanie dát Úvod do problematiky
identifikácia a získanie požadovaných dát • extrakcia redundantných dát • získanie dát z rôznych strategických systémov • nesmie ovplyvniť zdrojové systémy • typy extrakcie • notifikácia zmien • extrakcia prírastkov • úplná extrakcia Extrakcia dát
najdôležitejšiafáza – zaisťuje kvalitu dát • dáta sú „znečistené“ chybami, duplicitami, ... • problematické odhalenie nepresností • základné unifikačné pravidlá • odstránenie rovnakých dát • unikátne identifikátory • štandardizácia chýbajúcich hodnôt • validácia telefónnych čísiel, emailov, • adries, ... • spätná väzba do zdrojových systémov Čistenie dát
iteračnýproces spracovania • súbor transformačných pravidiel • konverzie jednotiek, matematické operácie, denormalizácia, multidimenzionálne štruktúry, ... • výsledkom sú korektné a konsolidované dáta s • maximálnou informačnou hodnotou Transformácia dát
naplnenie spracovaných dát do cieľového systému • dátový sklad • databáza • súbory (XSL, XML, CSV, ...) • minimálne systémové nároky • dávkové alebo jednotlivé načítanie Načítanie dát
Skripty • SQL, C++, Python • minimálne počiatočné investície • zložitá údržba • Pokročilé GUI aplikácie • forma CASE nástrojov • rýchle a pohodlné • drahé Realizácia ETL
produktivita • CASE • flexibilita • modularita • výkon • využitie HW a SW • otvorenosť • podpora širokého spektra formátov • podpora metadát ETL nástroje
celopodniková platforma • ne/štruktúrované dáta • škálovateľnosť • tímová práca • E-LT architektúra • deklaratívny návrh • bestpractices • real-time prenosy Iformatica + DataIntegrator
Java, Eclipse™ • paralelné spracovanie • podpora formátov • debugger a validátor • 100% Java • Big Data • Administrácia • cena CloverETL + Kettle
tradičný ETL prístup so zameraním na geodáta • dátová a sémantická transformácia • priama transformácia vs využitie pomocného súboru • najčastejšie operácie • zmena projekcie, geometrie • geokódovanie • porovnávanie dátových zdrojov • cieľom je interoperabilitageodát GeoETL = ETL + geografické dáta
250+ konvertorov • CAD/GIS výmena • ArcGIS • transformácia modelov • 35+ databáz • OGC štandardy • možnosti filtrácie • webové služby FME + GeoKettle
overenie kvalitného ETL prináša čas • pohodlný prístup k dátam • vyhľadanie potrebných informácií • integráciaGeoETL do súčasných GIS • napr. ArcGISDataInteroperability • eliminácia podpory formátov • Nedostupnosť príkladov využitia spatial ETL • maximálne užívateľské dotazy na fórach Zhodnotenie
Ďakujem za pozornosť. Záver