140 likes | 251 Views
Řízení datové kvality. Ing. David Pejčoch Cvičení č. 1. Osnova. Cíle praktických cvičení Výstupy ze cvičení Analýza zadání praktické úlohy Proč se zabývat datovou kvalitou Architektura auditované firmy Popis situace Seznámení s dostupnými datovými zdroji pro úlohu
E N D
Řízení datové kvality Ing. David Pejčoch Cvičení č. 1
Osnova • Cíle praktických cvičení • Výstupy ze cvičení • Analýza zadání praktické úlohy • Proč se zabývat datovou kvalitou • Architektura auditované firmy • Popis situace • Seznámení s dostupnými datovými zdroji pro úlohu • Popis nástroje Talend Open Studio • Popis nástroje CADaQuES
Cíle praktických cvičení • Seznámit s funkcionalitou nástrojů pro řízení datové kvality • Na praktických úlohách vyzkoušet audit datové kvality a návrh nápravných opatření • Praktická demonstrace metod pro zvyšování datové kvality
Zadání praktické úlohy – 1. část S pomocí nástroje Talend Open Studio for Data Quality vytvořte profilaci dat (základní popisné statistiky, četnosti jednotlivých vzorů, …) Proveďte verifikaci proti dostupným číselníkům, registrům a validaci pomocí regulárních výrazů) Spočtěte úroveň kvantitativních vlastností dat (správnost, úplnost, konzistentnost, …) Na příkladu modelové firmy odhadněte roční výši nákladů na nekvalitní data Porovnejte možné přínosy nápravných opatření s vynaloženými náklady Proveďte prioritizaci scope řízení datové kvality Navrhněte externí datové zdroje pro obohacení Navrhněte strategii pro doplnění chybějících hodnot Výstup: dokument Zpráva auditora (viz šablona)
Zadání praktické úlohy – 2. část Proveďte standardizaci hodnot vybraných atributů Doplňte chybějící hodnoty podle navržené strategie Proveďte unifikaci a deduplikaci klientů Navrhněte byznys pravidla pro předcházení dalšímu vzniku chyb v datech Výstup: příloha k dokumentu Zpráva auditora, výstupní data (viz pokyny níže)
Pokyny pro formát odevzdaných dat • Datová kvalita je vždy dodatečná informace, proto imputované / opravené hodnoty, informaci o slučování klientů, určení master záznamu vkládejte vždy do nových atributů označených suffixem _CL. • Data odevzdejte formou txt extraktu (textový soubor oddělený svislítkem jako oddělovačem, kódování UTF8)
Popis situace • V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů. • Vstupní kontroly duplicit jsou realizovány pouze na úrovni dvou oddělených provozních systémů. • Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. • Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně při jejich importu do systému neživotního pojištění. • Provizní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivé získatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílní. • K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla / IČa.
Relevantní datové zdroje • UIR-ADR • Registr ekonomických subjektů (není volně dostupný) • Číselníky České pošty • Registr vozidel MVČR • Číselníky titulů, jmen a příjmení na MVČR • Credit Info – možný extrakt? • Číselníky ČSÚ • Kódy měn – ČNB • Kody zemí - ČSÚ