550 likes | 691 Views
Gest ión de Calidad de Datos. Estrategias para Mejorar. Carlos López carlos.lopez@ieee.org. Viene de : Introducción. Continúa con : Política de Calidad de Datos. Universitario Autónomo del Sur - 2005. Tópicos a considerar. Introducción Algunas definiciones Estrategias
E N D
Gestión de Calidad de Datos Estrategias para Mejorar Carlos López carlos.lopez@ieee.org Viene de: Introducción Continúa con: Política de Calidad de Datos Universitario Autónomo del Sur - 2005
Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW
Una tarea siempre titánica... • Volumen de datos tamaño empresa • Tendencia es a manejar más datos • DW • BDOO • Herramientas de última generación • Intranet/Internet • Se requieren planes...
Infraestructura administrativa Objetivos claros para el negocio Planes operacionales Administración del PCD Plan de Calidad de Datos (PCD) Infraestructura administrativa Objetivos claros para el negocio <==Solicita recursos== ¿Cómo se relacionan? ===Define cómo ===> proceder en ese caso <=Informa sobre problemas observados= =Definen qué datos serán mejorados=> Planes operacionales Administración del PCD
Algunas definiciones... • Calidad • Precisión • ¿Correctitud? • ¿Exactitud? • El idioma español tiene limitaciones en este aspecto... • Quality • Precision • Accuracy
Ud.: Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” • intrínsecamente subjetiva • asociada a las necesidades • dos clientes podrían disentir • eso si el cliente “sabe lo que quiere”... ¿Sabe lo que quiere cuando lo ve?
Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B ¡Pero el B no tiene ni un dato correcto!
Una definición operativa (2) ... • dos clientes podrían disentir Hay cosas que todos quieren o esperan: • relevancia • correctitud • poder “ver” • acceso simple • seguridad • privacidad
Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: • Modelo de Datos (ej. relevancia) • Valores mismos (ej. correctitud) • Presentación (ej. poder “ver”) • Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión
Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia
Correctitud (1) <E,A,V1> <E,A,V2> <E,A,V3> ... <E,A,V2> <E,A,V> Caso fácil Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR> E=“1745”,E.AÑO_NACIMIENTO=”1960”
Correctitud (2) • Un caso con dos problemas: • No existe “verdadero” • No existió nunca SE COMPLICA! Quizá lo mejor que pueda lograrse es... <E,A,[VMAX,VMIN]> Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR> FECHA=“18071825.120000”,FECHA.TEMP=”19.60”
Correctitud (3) Las combinaciones formalmente posibles no necesariamente son válidas Ej. EMPLEADO=“9999” EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez” EMPLEADO.AÑO_NACIMIENTO=“1925” EMPLEADO.CARGO=“Desconocido” ¡ Simplemente no es empleado!
Correctitud (4) <E,A,”Juguetería/Bazar”> <E,A,”JUGUETERIA/BAZAR”> <E,A,”Jugueteria/Bazar”> ... <E,A,”Jugueteria / Bazar”> ¡Lío en puerta! ¡Hay varios valores “correctos”!
Correctitud (5) • En resumen: • No siempre existe un “verdadero valor” • Aún existiendo, puede ser inaccesible • Métricas específicas al problema • Métricas problemáticas
Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia
LUN MAR MIE JUE Erróneo Actualizado Obsoleto Vigencia (1) ESTALLOVIENDO.NOW=TRUE Es algo que depende del tiempo...
No se aplica la idea de "Vigencia" Vigencia (2) • Datos permanentes • Fecha de nacimiento • Tipo de sangre • Lugar de nacimiento País de nacimiento! • Datos dinámicos| • Cambian ocasionalmente • Nombre y/o apellido (ej.: USA) • Dirección • Cambian regularmente • Salario|
Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia
Completitud (1) • EMPLEADO.HOMEPHONE=“Null” • Cuatro posibilidades • El empleado no tiene teléfono ==>OK • El empleado tiene teléfono, pero se ignora el número==>INC • El empleado tiene un número que no figura en la guía ==>OK • Se ignora si el empleado tiene teléfono ==>OK ¿Este registro está completo? • Veamos un poco más de detalle
Completitud (2) • El “Null” debería tener colores... • Valor desconocido de un atributo aplicable (el registro es incompleto) • Indicador de atributo no aplicable (el registro es completo) • Atributo de aplicabilidad desconocida • Valor especial de un atributo (el registro es completo) • Difícil de implementar...
Completitud (3) • Dos problemas: • Completitud de registros en la base • Completitud de la base • Ej.: Lista de Empleados Activos • Ej.: Diccionario de neologismos
Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia
Consistencia (1) • Dos o más cosas no son incompatibles • Dos o más datos pueden ser correctos a la vez • Un par de casos típicos • Redundancia • Consistencia interna
Empleado.Dirección=“Aconcagua 1234” Empleado.Dirección=“Rancagua 1234” Empleado.Dirección=“Aconcagua 2134” Consistencia (2) • Redundancia • Varias copias de lo mismo • Actualización independiente • Mantenimiento separado ¡Depende del CIO, y no de los datos!
se implica ¡NO! se implica Consistencia (3) • Consistencia interna • Existen reglas a cumplir • explícitas • implícitas Son sólo condiciones necesarias... Empleado.Dirección=“Aconcagua 1234” Empleado.CP=“11600”
Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW
Diseño de procesos Mejora de procesos Detección + corrección Tres niveles, tres generaciones
Realidad Otra Base Reglas Detección + corrección Tácticas corrientes: • Laissez fair • Comparar: • datos vs. realidad • con otra base • con reglas del negocio
Comparar datos con realidad... • Viable para pocos datos • Caro y lento • Útil para evaluar niveles de calidad mediante muestreo • Inviable para datos muy dinámicos
Comparar datos con otra base... • Trabajo de laboratorio (la realidad no entra) • Hipótesis implícitas • Existe una base, independiente, y redundante • No tiene demasiados errores • La comparación puede no ser simple • Es un método seductor...
Modelo de datos ¿Sentido común, observación? ...con reglas del negocio... (1) Se expresan como Data Edits... • Un único campo: • “el valor debe ser uno de {0,1,2...9}” • Múltiples campos: • “Ciudad y País deben coordinarse” • Relaciones probabilísticas: • “Hijos=4 y Edad=15 es improbable” • Si fallan, se revisan los casos anómalos
...con reglas del negocio... (2) A Favor: • Revelan muchas inconsistencias • No requiere una segunda base En contra: • Difíciles de hallar/explicitar • Requieren “expertos” • Pueden cambiar con el tiempo • Se aplican una vez, o son permanentes
...con reglas del negocio... (3) Ej.: Caso del Censo (López, JISS 1997) • Escaneado+interpretación automática • Sólo datos categóricos • Digitar dos veces, o sólo lo erróneo • Reglas derivadas de los datos ==>¡No hay experto! • Resultado de la simulación:
50% de los errores ¡4% de los datos! ...con reglas del negocio... (4)
Tres niveles, tres generaciones Diseño de procesos Mejora de procesos Detección + corrección
Mejora de procesos • ¿Y la prevención? • Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!
¡Preocupado por la venta! ¡Preocupado por entregarla! ¡Preocupado por ingresarla! Un ejemplo... VENTAS ¿Y la facturación? ÓRDENES FACTURACIÓN DESPACHO
Prevención... • Uso extenso de reglas del negocio • Quizá pequeños cambios • Ej.: habilitar/inhibir edición • Corrección temprana • Seguimiento • Más barato que corrección • Única alternativa si “llueven datos”
Tres niveles, tres generaciones Diseño de procesos Mejora de procesos Detección + corrección
Diseño del proceso • “a prueba de errores” • Exitosa en manufactura Ideas: • Eliminar re-digitación • Incorporar reglas • Reasignar propiedades • No hay muchos ejemplos con datos
Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW
¿Qué datos mejorar... primero? ¡Intentar lograr consensos! • Tan importante como la estrategia • Hay que lograr éxitos al principio • Buscar consensos • Considerar varios criterios: • estrategia global de la empresa • relevancia para problemas ya conocidos • distancia ser<==>deber ser • impacto económico
Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW
Datos prioritarios Caso intermedio Cambios rápidos Cambios lentos Mejora y luego Detección + corrección Mejora del proceso Detección + corrección Una única base 1) Definir estrategia Estrategia Problemas conocidos Nivel de error Impacto ($)
D+C Proceso Hay casos mezclados... BD de Clientes: • Cliente.FechaNacimiento • Cliente.Saldo • Cliente.Domicilio ¡Muchos hacen al revés! Regla: primero arreglar y luego depurar ¿Razones? • acotar el trabajo de limpieza • asegurar un retorno
Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW
B A Muchas bases... A) Bases que no se solapan
B A Muchas bases... B) Bases cliente-servidor
Muchas bases... C) Bases solapadas pero independientes A B