890 likes | 1.77k Views
Fundamentos de Calidad de Datos. Sesión 3: Gestión de Calidad de Datos Alejandro Mínguez. Calidad como “Way of life”. Estamos en la era de la calidad, y es esta la que nos dará una ventaja competitiva, en un mundo globalizado. Calidad. Tiempo. Aunque….
E N D
Fundamentos de Calidad de Datos Sesión 3: Gestión de Calidad de Datos Alejandro Mínguez
Calidad como “Way of life” • Estamos en la era de la calidad, y es esta la que nos dará una ventaja competitiva, en un mundo globalizado
Calidad Tiempo Aunque… En cualquier proceso de calidad • Cuanta más inversión de tiempo, mayor calidad, pero nunca se llega al 100%
Evolución de la calidad de los datos Calidad de datos en entornos analíticos DWH ¿Cómo aplicar la calidad de datos? Otras áreas de aplicación Conclusiones y recomendaciones Agenda
Historia de la Calidad de Datos • Desde que existen los datos informatizados, siempre ha existido la preocupación de que sean correctos. Inicialmente la Calidad de Datos se realizaba con edición manual o con programas desarrollados con lenguajes no adaptados para ese uso, o incluso la edición manual de los datos. • A principios de los 80 se desarrollaron los primeros sistemas de Calidad de Datos, por parte del gobierno de Estados Unidos, para regular los cambios de domicilio, fallecimientos, bodas, divorcios, etc en un sistema denominado NCOA (National Change of Address Registry) • La primera vez que se implemento un sistema especializado en la calidad de datos en España fue para corregir y/o informar el código postal, en la dirección de los clientes, de las principales entidades financieras del país. Este fue desarrollado a principios de los 90, basado en un sistema semiautomático, y apoyado por un departamento de codificación manual, en el que se utilizaban multitud de listados en papel. La técnica utilizada era muy primitiva (fuerza bruta), y no implementaba las metodologías, que actualmente poseen los sistemas modernos de calidad de datos.
Definiciones de “Data Quality” • “Data Quality refers to the quality of data. Data are of high quality if they are fit for their intended uses in operations, decision making and planning" • 2. The state of completeness, validity, consistency, timeliness and accuracy that makes data appropriate for a specific use. Government of British Columbia • 3. The totality of features and characteristics of data that bears on their ability to satisfy a given purpose; the sum of the degrees of excellence for factors related to data. Glossary of Quality Assurance Terms” www.wikipedia.org
¿Qué es la calidad de datos? La Calidad de Datos no sólo se refiere a la ausencia de defectos: • Los datos deben proporcionar una visión única • Debe estar correctamente relacionada e interrelacionada con todas las fuentes • Los datos deben ser consistentes, completos y adecuados para su función • Debemos asegurarnos de cumplir normativas y leyes
Mayor Riesgo Pérdida ingresos Incremento de Costes Baja confianza Impactos de Negocio • Riesgo en el cumplimiento normativas • Sistema de gestión del riesgo • Sistema de integración del riesgo • Riesgo en la inversión • Riesgo competitivo • Detección del fraude • Riesgos legales (LOPD) • Otros riesgos • Cobro ineficiente • Mala relación con el cliente • Pérdida de oportunidades • Aumento de costes • Detección y corrección • Prevención • Reingeniería de procesos • Penalizaciones • Sobrepagos • Recursos incrementados • Retrasos • Cargas de trabajo • Tiempos de proceso • Falta de credibilidad • Temor en toma decisiones • Menor predictabilidad • Forecasting incorrecto • Reporting ineficiente
Futuro inmediato de la Calidad de Datos • Los problemas de Calidad de Datos son a menudo ignorados / desconocidos / minusvalorados por la dirección • Calidad de Datos es una ventaja competitiva • Falta de una figura responsable • Se requieren cambios organizativos • Una compañía debe contar con responsables que velen por la calidad de los datos de todos los sistemas de información.
Otros conceptos: Calidad de la Información • El concepto Calidad de la Información, o IQ, está surgiendo con fuerza en los últimos años • Se trata del concepto de Calidad de Datos orientado a los Sistemas de Información, es decir, a la mejora de la información proporcionada a la compañía • Algunos expertos extienden el término a lo que también se denomina “Calidad de Metadatos”
Otros conceptos: Calidad de Metadatos • El concepto Calidad de Metadatos surge en grandes corporaciones que cuentan con miles de atributos e indicadores • Se trata de una problemática de integración y/o de herramientas de gestión de metadatos, no de Calidad de Datos en sí • Objetivos: claridad de las definiciones, lenguaje común, única versión de la verdad, accesibilidad, disponibilidad, seguridad, auditabilidad.
En que momento se producen los errores • En la entrada de datos (Data Entry) • Incorporación de datos externos • Errores de carga de los sistemas transaccionales • Migraciones de datos
Causas de la creciente mala Calidad de Datos • Más datos de más fuentes en más sistemas • ERPs, fuentes externas, web, call centres • Datos introducidos para un propósito ahora está siendo aplicados a otras aplicaciones • La Calidad de Datos puede ser relativamente bueno para los sistemas transaccionales pero no para sistemas BI o CRM • Mayores niveles de Calidad de Datos requerido para procesos automatizados • La mala calidad de datos lleva a problemas de pagos en sistemas ERP, SCM, etc. • Mayor sensibilidad del público • Los clientes esperan un mejor servicio. Los datos defectuosos llevan a una pobre gestión del cliente.
El impacto de la mala Calidad de Datos • Impide la Business Intelligence • Informes erróneos, defectos en el análisis • Costes de Gestión • Discrepancias entre aplicaciones puede requerir trabajos de reconciliación de registros • Daña nuestra relación con el cliente • Imposibilidad de ofrecer un buen servicio y un trato personalizado • Imposibilidad de detectar fraudes, sobrepagos, etc • No puede identificar duplicados, unidades familiares y corporativas (households), etc • Incumplimiento de normativas • Regulaciones • Leyes: La calidad de datos es uno de los pilares fundamentales para el cumplimiento de la LOPD
“Through 2007, more than 50 percent of data warehouse projects will have limited acceptance, or will be outright failures, as a result of a lack of attention to data quality issues”Gartner La toma de decisiones basada en datos incorrectos puede generar decisiones incorrectas. Concepto: Calidad de la Información Beneficios de la Calidad de Datos: Mejora de la toma de decisiones Aumento de la confianza de los usuarios DWH-BI
Soluciones de Calidad de Datos - Arquitectura Cuadros de Mando Calidad de Datos Cliente Conectores Aplicaciones Bases de Datos Servidor Runtime Runtime Repositorio SOA Realtime / SOA Soluciones integración Diccionarios
Integración Entrega Transformar y conciliar datos de todo tipo Entregar los datos adecuados en el momento y forma adecuados La (r)evolución, Calidad de Datos e Integración Auditoría, control y creación de informes Garantizar la coherencia de los datos, realizar análisis de impacto y supervisar constantemente la calidad de la información Perfilado Calidad Acceso Buscar y perfilar cualquier tipo de datos de cualquier fuente Validar, corregir y estandarizar, relacionar datos de todo tipo A cualquier sistema, por lotes o en tiempo real Desarrollo y gestión Desarrollar y colaborar con un repositorio común y metadatos compartidos
Aplicación X Front End Y Calidad de Datos, ¿Donde actúa? ETQL … Reporting Calidad Visión única del cliente o producto Aplicación Reporting Inteligencia … Servidor DQ Data Mart BBDD Data Warehouse Almacena- miento Calidad de Datos • Conciliación fuentes • Lógica difusa • Scorecarding • Limpieza • Enriquecimiento Operational Data Store Carga Transformación Integración de datos Extracción Exploración: Análisis & Medición Datos no estructurados Sistemas externos Fuentes de datos Finanzas CRM Etc …
Calidad de Datos General Análisis de Calidad de Datos (perfilado) Eficacia del Contacto Requerimientos de Calidad de Datos Localizar relaciones entre registros, como desduplicación, relación de dos o más tablas, detección de unidades familiares o corporativas, … Calidad de Datos para cualquier área incluyendo finanzas, control de gestión y producción Perfilado, medición y cuantificación del impacto de la calidad de datos, además de su seguimiento y monitorización Limpieza, estandarización, identificación de datos personales, como nombres, direcciones y teléfonos Identificación de relaciones Suite de Calidad de Datos Corporativa Fuente: Gartner Jun. 2007
Ciclo devida Fuentes Destinos Acceder Limpiar Auditar Entregar Auditar para conocer Data Experts / Owners definen iniciativas de corrección implementar las reglas Informes Data Experts / Owners validan informes Ciclo de vida de un proyecto de Calidad de Datos 3 6 2 4 Definir reglas de negocio para: • Conformidad • Consistencia • Normalización • Desduplicación 1 5
Procesos de Calidad de Datos Matching Perfilado de Datos Relacionar Consolidar Medir Analizar Enriquecer Corregir Estandarizar Determinar Datos Mejora de datos Limpieza de Datos
El perfilado de datos permite localizar, medir, monitorizar y reportar problemas de calidad de datos El perfilado no debe ser sólo el inicio de un proyecto de Calidad de Datos, es un proyecto en sí Existen dos tipos de perfilado: Perfilado de estructura Perfilado de contenido Perfilado de datos
El perfilado de estructura consiste en el análisis de los datos sin tener en cuenta su significado El análisis se realiza de forma semi-automática y masiva Tipos de análisis del Perfilado de Estructura: Perfilado de Columnas Perfilado de Dependencias Perfilado de Redundancias Perfilado de Estructura
El perfilado de contenido analiza con profundidad el dato y su significado Requiere una configuración para cada campo a analizar Se combina con el uso de diccionarios, componentes específicos de tratamiento de datos, separadores, etc Perfilado de Contenido
Analista Operaciones TI Etapas del Perfilado de Datos Integrar Acceder Descubrir Limpiar Entregar Tipo de proyecto Proyecto de descubrimiento Limpieza Monitorización Implantación Validación Integración Cuadro de Mandos Calidad de Datos Nivel Actividad Perfilado P. Estructura P. Contenido P. Estructura P. Estructura Tipo de Actividad Análisis de estructura Análisis de Contenido Descubrimiento Monitorización Desarrollador ETL Data Steward Roles
Perfilado de datos, indicadores de calidad ¿Qué dato falta o no es útil? Existencia Conformidad ¿Qué dato está almacenado en un formato no estándar? Consistencia ¿Qué datos aportan información conflictiva? Precisión ¿Qué datos son incorrectos o están caducados? ¿Qué datos o atributos están repetidos? Duplicados Integridad ¿Qué información no está referenciada?
Ejemplo Datos de Cliente EXISTENCIA CONFORMIDAD CONSISTENCIA DUPLICACION INTEGRIDAD PRECISION
EXISTENCIA CONFORMIDAD CONSISTENCIA PRECISION DUPLICACION INTEGRIDAD Ejemplo datos de Producto
EXISTENCIA CONFORMIDAD CONSISTENCIA PRECISION DUPLICACION INTEGRIDAD Ejemplo datos de Riesgo For illustration purposes only. Actual reports featured later in presentation
Capacidades de Reporting • Para el perfilado es fundamental una solución de reporting
La limpieza de datos permite: Determinar y separar elementos de un campo situándolo en su lugar correspondiente Estandarizar formatos Corregir errores en los datos Enriquecimiento de datos Limpieza y Enriquecimiento de datos
Determinación y separación de Datos (parsing) La determinación y separación de datos consiste en la descomposición de los distintos elementos que componen los datos Por ejemplo, el nombre siguiente: Ingeniero JOSE RODRIGUEZ SILVA Título: Ingeniero Nombre: José 1º Apellido: Rodríguez 2º Apellido: Silva
Estandarización La estandarización es la adecuación de un dato a un formato esperado. Por ejemplo, el NIF siguiente: 5428846 NIF estandarizado: 05428846H
Corrección La corrección consiste en el reemplazo de un elemento erróneo por uno correcto Por ejemplo, la dirección siguiente: Calle Tumaco 14, 28010 Madrid Código postal corregido: 28027
Enriquecimiento El enriquecimiento consiste en la adición de datos que no existían Por ejemplo, el nombre siguiente: Jose María Gomez Hurtado Sexo: Varón
El matching de datos se utiliza para: Detección de duplicados Relación entre dos fuentes de datos que no tienen campos de unión entre sí Detección de unidades familiares y corporativas (Householding) Se pueden aplicar múltiples criterios para las relaciones, que posteriormente se pueden asociar entre sí Previo al matching es conveniente hacer una pre-agrupación de la información Existen dos métodos de matching: Determinístico Probabilístico Matching
Pre-Grouping Comparaciones sin pre-grouping Sin Agrupación: A-B, A-C, A-D, A-E, A-F, A-G, B-C, B-D, B-E, B-F, B-G, C-D, C-E, C-F, C-G, D-E, D-F, D-G, E-F, E-G, F-G=21 comparaciones Comparaciones con pre-grouping Con agrupación fonética 1º apellido: A-B, A-C, B-C, D-E, D-F, D-G, E-F, E-G, FG= 9 comparaciones
Matching Determinístico EVA SANT LLUIS 90 933116311 { } SANT LLUIS 9 EVA 933116311 SI coincide(Razón) y coindice(calle) y coincide(teléfono) y noesdistinto(CIF) entonces: Match positivo
Matching Probabilístico EVA SANT LLUIS 90 933116311 100% 80% { } 92% 100% 50% 100% SANT LLUIS 9 EBA 933116311 SI media ponderada>90% entonces match positivo 92%
Cuando se ha usado el matching para la detección de duplicados, con frecuencia se desea fusionar estos registros. A esto se le denomina Consolidación. Existen dos métodos principales de consolidación: Registro Superviviente Mejor Registro Consolidación
Métodos de consolidación Registro Superviviente 7 8 Mejor Registro
Un proceso iterativo … Matching Perfilado de Datos Relacionar Consolidar Medir Analizar Enriquecer Corregir Estandarizar Determinar Datos Mejora de datos Limpieza de Datos