1 / 63

Gest ión de Calidad de Datos

Gest ión de Calidad de Datos. Monitoreo, seguimiento y mejora del proceso. Carlos López carlos.lopez@ieee.org. Viene de : Métodos de Control Estadístico. Universitario Autónomo del Sur - 2005. El Ciclo de Gestión de Procesos. Establecer un Propietario del Proceso.

lenci
Download Presentation

Gest ión de Calidad de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestión de Calidad de Datos Monitoreo, seguimiento y mejora del proceso Carlos López carlos.lopez@ieee.org Viene de: Métodos de Control Estadístico Universitario Autónomo del Sur - 2005

  2. El Ciclo de Gestión de Procesos Establecer un Propietario del Proceso Describir el Proceso Establecer Necesidades del Cliente Establecer Sistema de Medición Instalar SQC; verificar Conformidad Hacer y Sostener las Mejoras Identificar Oportunidades de Mejora Seleccionar Oportunidades

  3. Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen

  4. Introducción • Hay varias maneras de medir desempeño • Conteo de datos erróneos • Reglas de Negocio no cumplidas • Seguimiento de Datos (Data tracking) • Ingreso duplicado • Tamaño de datos erróneos • Efecto Godzilla • Efecto de datos erróneos • Número de Quejas de Clientes

  5. Reglas del Negocio • Def: Relaciones que tienen que cumplir los datos válidos • Sustanciales: Fecha Nacimiento < Fecha Casamiento • Formales: Nro. Hijos ≥0 • Surgen de: • Expertos en el tema • Análisis estadístico de datos Son esencialmente especificaciones de los datos

  6. Reglas de Expertos • Son personales • Son incompletas • Son de difícil actualización (¡Hay que matar al experto!) • ¡No requieren datos! • Suelen redundar • Hay software específico

  7. 100100101001001100100100100010001000100001001000100001000011111110010100100101001001100100100100010001000100001001000100001000011111110010 Análisis Estadístico • Hoy conocido como “Minería de Datos” • Busca relaciones predictivas empíricas • No verificadas¿erróneos? • Busca describir clases • No clasificados¿erróneos? • Registros individuales conclusiones globales

  8. Modelos predictivos • Modelos de regresión • Vol. Compra=f(ingreso, edad, nro. de hijos) • Típicamente vinculan datos cuantitativos • Se analiza y=|Compra-f(x)| • Si y<=y0 ok • Si y>y0¡sospechoso! • Para corregir se requiere acceso al “verdadero valor”

  9. Clasificación • Buscan patrones en los datos • Cerveza+pañales+pizza • Perfume+bombones-leña • Mañana de domingo+chorizos • Vinculan datos categóricos y cuantitativos • Si alguien compra Leña y Perfume … • Para corregir se requiere acceso al “verdadero valor”

  10. Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen

  11. Sistemas de Medición • Tema muy importante • Las Métricas definen el comportamiento • Peligros • Métricas inapropiadas • Administrar Métricas y no el proceso • Ejemplos

  12. El caso de la Industria siderúrgica • Produce chapas, perfiles, varillas, etc. en serie • Objetivo: producción bruta en Ton/mes • Cambios ~8 hs. • Grandes stocks • Demora en cumplir pedidos Resultado: Ton/mes cumplidas, y clientes insatisfechos

  13. Administrar la métrica • VW nombra CEO español • Año 1: récord de ganancias • Año 2: récord de ganancias • Año 3: ¡CEO despedido! • Corto plazo vs. Largo plazo

  14. Decisión Medir vs. no Medir • Lo esencial es invisible a los ojos • Medir mal es peligroso ¡No medir es peor! Intuición experiencia Datos imprescindibles

  15. Cadenas de información Cuentan con cuatro componentes: • Requerimientos de Desempeño • Definición de “qué medir” • Dispositivo de medida y protocolos • Resúmenes de Desempeño • Serán los tópicos a tratar Apuntan a “la diaria”

  16. Ideas y oportunidades Más Más tecnología En general… • Mejor poco y bueno, que mucho y malo… • +medidas+complejidad+difícil y caro • Sinergias Cadena y Medidas son dinámicas Medidas

  17. En lo que sigue… • Se discutirán las cuatro componentes • Se trabajará un ejemplo simple • 5 procesos • 2 bases de datos • Objetivos a medir/mejorar/controlar: • Correctitud datos en DB A • Consistencia entre DB A y DB B • Tiempo para llegar a DB A Regla: mida (casi) únicamente lo crítico

  18. Esquema del ejemplo Proceso 1 2 3 5 4 Correctitud Consistencia DB A DB B Tiempo

  19. Se genera dos veces Descripción del Ejemplo Proceso campo 1 2 3 4 5 DB A DB B a c     b c     c c     d c    e c   f c  g c c h c

  20. Cadenas de información • Requerimientos de Desempeño • Definición de “qué medir” • Dispositivo de medida y protocolos • Resúmenes de Desempeño

  21. Requerimientos de Desempeño Diseño del SM debe admitir cosas del tipo de “La cadena debe”. Por ejemplo: • estar y mantenerse bajo Control • producir no más de <x> defectos • ser susceptible de mejora continua • ser susceptible de cumplir requerimientos futuros El Control es clave!

  22. Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen

  23. ¿Experiencia previa? ¿Qué medir? • Cadenas suelen ser complejas • Muchos campos • Muchos cruces de cadenas • Desafíos • Qué procesos medir • Qué campos incluir • Qué números son relevantes ¡Sea conservador!

  24. “Dispositivo” de medida • Contraste con “la realidad” • Ejércitos de digitadores • Pérdida de tiempo • Imagen empresa • ¡Costo! • Muestreo • Encuesta • Digitación duplicada • “Database Bashing” • Data tracking • Más apropiado para datos • Más barato • Implementable en el sistema ¿Existe una realidad?

  25. Método tradicional Producto final Proceso A Proceso B Proceso C Medidas objetivas en etapas intermedias

  26. Para datos… • Métricas pueden ser: • Binarias: Correcto/incorrecto • Cuantitativas • Difícil declarar “Incorrecto” • Sólo si no cumple reglas • Sólo si hay errores de formato • Más difícil declarar “Correcto” • Difícil acceso al “verdadero valor” Muestreo pasa a ser imposible

  27. Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen

  28. En cola Data Tracking • Se marcan datos • Se analizan cambios • Se guarda fecha/hora Proceso A Proceso B Proceso C

  29. Los pasos claves son… • Muestrear al azar a la entrada, y marcar • Seguir los registros marcados • Al entrar a un proceso • Al salir del proceso • Identificar dónde ocurren defectos/errores • Identificar demoras • Generar resúmenes cada tanto

  30. Muestrear al azar • Aplicable a cadenas “continuas” o por lotes • Eliminan sesgos: • Pedidos consecutivos correlacionados • Preferencia del inspector por pedidos “grandes” • Procedimientos bien estudiados • Descritos en Manuales • Especificados en Estándares (MIL Std.)

  31. Muestrear al azar(2) • Generar al azar • Si aceptar el registro; si no, rechazarlo Pasos: • Especificar r • Para cada registro: 1 1 • r=1100% del total; r=0 no muestrear • Otros requerimientos: • Tamaño del lote • Frecuencia de muestreo • Tasa de ingreso al sistema

  32. Seguir los registros marcados • Usar un identificador único ya existente • No requiere cambio del modelo de datos • Agregar una etiqueta específica • Hay que modificar modelo • Invisibilidad… • Ejemplo:

  33. Ejemplo 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 g N Y N Y h bf bf Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

  34. Tres tipos de cambios • Normalización • Traducción • Espúreos • Corrección de errores • Creación de errores Error detectado!

  35. Ejemplo 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 Sólo una traducción g N Y N Y h bf bf Errores Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

  36. Tiempos de ciclos • Tres tipos de análisis • Tiempo de proceso (Ci-Si) • Puntualidad (Ci-Di) • Tiempo en cola (Si-Ci-1) Siendo: Si fecha/hora de comienzo del proceso i Ci fecha/hora de culminación del proceso i Di fecha/hora comprometida del proceso i

  37. Ejemplo Debió esperar 2 días, 16 hrs. en cola (Q4=2días,16hs.) 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- Terminó 6 hs. 45´ antes de lo requerido (T4=-6hs. 45´) Requirió 2 horas 15 minutos (L4=2hs.15´) b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 g N Y N Y h bf bf Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

  38. Resumir resultados • Para Correctitud y Consistencia • Tres niveles: • Métrica • Dónde • Control Un ejemplo de Métrica • Situación conocida • Quizá poco preocupante • Quizá legada • ¡Seguro que no aporta valor!

  39. Los casos graves… ¿Qué es un gráfico de Pareto? La mayoría de los problemas son asignables a muy pocas causas

  40. 1% 2% 17% 0.5% 1 2 3 4 DB A Otras gráficas útiles/posibles • Rastreando el campo “b” • Puede usarse más de una representación Dado el campo, localiza al proceso

  41. Para el control… • Dado el campo “b”, y el proceso “3”… Un gráfico por combinación (si es relevante…) • Hay puntos fuera de rango • Deben buscarse las causas

  42. Algunos detalles… • Las muestras pueden demorar más o menos • La secuencia de entrada difiere de la de salida • Sólo incluir muestras ya completas

  43. Detectando inconsistencias • La métrica es binaria: “consistente/inconsistente” • En principio es similar a la correctitud • Aislemos los espúreos…

  44. Analizando el ejemplo • Focalizando en los espúreos • Casos más problemáticos: campos “e” y “g”

  45. Mayoría entre 3 y 4 Rastreando el campo “e” • “e” tenía problemas de correctitud • No es por tanto problema de inconsistencia 0.5% 5 DB B 0% 11% 11.5% 11% 0% 3 4 DB A

  46. 0% 0% 0% 0% Rastreando el campo “g” • No está tan claro • Errores altos, pero bajo control 5 DB B 10% 10% 3 4 DB A

  47. Hay que mirar más de cerca 5 DB B 3 4 DB A Rastreando el campo “g” (2) Más común de lo que se puede pensar • El campo “g” se genera ¡independientemente!

  48. Un detalle… • Métodos y gráficos para Correctitud ≈ Consistencia • ¿Dónde están las diferencias? • Correctitud • Controla <realidad> vs. <DB A> • Consistencia • <DB A> vs. <DB B> • ¡<realidad> no entra!

  49. Hay que ser especialmente cuidadoso en cola en proceso 1 2 3 4 DB A P3 está retrasado en este lapso P2 terminado Comienza P3 P3 prometido P3 terminado Tiempos… • Ilustremos la nomenclatura tiempo

  50. Otras hipótesis… • Entrar en DB A implica la entrega de algo • Def. DA=Instante prometido de entrega • Def. CA=Instante efectivo de entrega • Def. TA = CA – DA (TA > 0 implica retraso) • DA depende de D1, D2, D3 y D4 • El cliente siempre puede cancelar o cambiar antes de DA

More Related