640 likes | 809 Views
Gest ión de Calidad de Datos. Monitoreo, seguimiento y mejora del proceso. Carlos López carlos.lopez@ieee.org. Viene de : Métodos de Control Estadístico. Universitario Autónomo del Sur - 2005. El Ciclo de Gestión de Procesos. Establecer un Propietario del Proceso.
E N D
Gestión de Calidad de Datos Monitoreo, seguimiento y mejora del proceso Carlos López carlos.lopez@ieee.org Viene de: Métodos de Control Estadístico Universitario Autónomo del Sur - 2005
El Ciclo de Gestión de Procesos Establecer un Propietario del Proceso Describir el Proceso Establecer Necesidades del Cliente Establecer Sistema de Medición Instalar SQC; verificar Conformidad Hacer y Sostener las Mejoras Identificar Oportunidades de Mejora Seleccionar Oportunidades
Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen
Introducción • Hay varias maneras de medir desempeño • Conteo de datos erróneos • Reglas de Negocio no cumplidas • Seguimiento de Datos (Data tracking) • Ingreso duplicado • Tamaño de datos erróneos • Efecto Godzilla • Efecto de datos erróneos • Número de Quejas de Clientes
Reglas del Negocio • Def: Relaciones que tienen que cumplir los datos válidos • Sustanciales: Fecha Nacimiento < Fecha Casamiento • Formales: Nro. Hijos ≥0 • Surgen de: • Expertos en el tema • Análisis estadístico de datos Son esencialmente especificaciones de los datos
Reglas de Expertos • Son personales • Son incompletas • Son de difícil actualización (¡Hay que matar al experto!) • ¡No requieren datos! • Suelen redundar • Hay software específico
100100101001001100100100100010001000100001001000100001000011111110010100100101001001100100100100010001000100001001000100001000011111110010 Análisis Estadístico • Hoy conocido como “Minería de Datos” • Busca relaciones predictivas empíricas • No verificadas¿erróneos? • Busca describir clases • No clasificados¿erróneos? • Registros individuales conclusiones globales
Modelos predictivos • Modelos de regresión • Vol. Compra=f(ingreso, edad, nro. de hijos) • Típicamente vinculan datos cuantitativos • Se analiza y=|Compra-f(x)| • Si y<=y0 ok • Si y>y0¡sospechoso! • Para corregir se requiere acceso al “verdadero valor”
Clasificación • Buscan patrones en los datos • Cerveza+pañales+pizza • Perfume+bombones-leña • Mañana de domingo+chorizos • Vinculan datos categóricos y cuantitativos • Si alguien compra Leña y Perfume … • Para corregir se requiere acceso al “verdadero valor”
Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen
Sistemas de Medición • Tema muy importante • Las Métricas definen el comportamiento • Peligros • Métricas inapropiadas • Administrar Métricas y no el proceso • Ejemplos
El caso de la Industria siderúrgica • Produce chapas, perfiles, varillas, etc. en serie • Objetivo: producción bruta en Ton/mes • Cambios ~8 hs. • Grandes stocks • Demora en cumplir pedidos Resultado: Ton/mes cumplidas, y clientes insatisfechos
Administrar la métrica • VW nombra CEO español • Año 1: récord de ganancias • Año 2: récord de ganancias • Año 3: ¡CEO despedido! • Corto plazo vs. Largo plazo
Decisión Medir vs. no Medir • Lo esencial es invisible a los ojos • Medir mal es peligroso ¡No medir es peor! Intuición experiencia Datos imprescindibles
Cadenas de información Cuentan con cuatro componentes: • Requerimientos de Desempeño • Definición de “qué medir” • Dispositivo de medida y protocolos • Resúmenes de Desempeño • Serán los tópicos a tratar Apuntan a “la diaria”
Ideas y oportunidades Más Más tecnología En general… • Mejor poco y bueno, que mucho y malo… • +medidas+complejidad+difícil y caro • Sinergias Cadena y Medidas son dinámicas Medidas
En lo que sigue… • Se discutirán las cuatro componentes • Se trabajará un ejemplo simple • 5 procesos • 2 bases de datos • Objetivos a medir/mejorar/controlar: • Correctitud datos en DB A • Consistencia entre DB A y DB B • Tiempo para llegar a DB A Regla: mida (casi) únicamente lo crítico
Esquema del ejemplo Proceso 1 2 3 5 4 Correctitud Consistencia DB A DB B Tiempo
Se genera dos veces Descripción del Ejemplo Proceso campo 1 2 3 4 5 DB A DB B a c b c c c d c e c f c g c c h c
Cadenas de información • Requerimientos de Desempeño • Definición de “qué medir” • Dispositivo de medida y protocolos • Resúmenes de Desempeño
Requerimientos de Desempeño Diseño del SM debe admitir cosas del tipo de “La cadena debe”. Por ejemplo: • estar y mantenerse bajo Control • producir no más de <x> defectos • ser susceptible de mejora continua • ser susceptible de cumplir requerimientos futuros El Control es clave!
Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen
¿Experiencia previa? ¿Qué medir? • Cadenas suelen ser complejas • Muchos campos • Muchos cruces de cadenas • Desafíos • Qué procesos medir • Qué campos incluir • Qué números son relevantes ¡Sea conservador!
“Dispositivo” de medida • Contraste con “la realidad” • Ejércitos de digitadores • Pérdida de tiempo • Imagen empresa • ¡Costo! • Muestreo • Encuesta • Digitación duplicada • “Database Bashing” • Data tracking • Más apropiado para datos • Más barato • Implementable en el sistema ¿Existe una realidad?
Método tradicional Producto final Proceso A Proceso B Proceso C Medidas objetivas en etapas intermedias
Para datos… • Métricas pueden ser: • Binarias: Correcto/incorrecto • Cuantitativas • Difícil declarar “Incorrecto” • Sólo si no cumple reglas • Sólo si hay errores de formato • Más difícil declarar “Correcto” • Difícil acceso al “verdadero valor” Muestreo pasa a ser imposible
Tópicos a considerar • Introducción • Sistemas de Medición • ¿Qué medir? • Data Tracking • Implementación • Resumen
En cola Data Tracking • Se marcan datos • Se analizan cambios • Se guarda fecha/hora Proceso A Proceso B Proceso C
Los pasos claves son… • Muestrear al azar a la entrada, y marcar • Seguir los registros marcados • Al entrar a un proceso • Al salir del proceso • Identificar dónde ocurren defectos/errores • Identificar demoras • Generar resúmenes cada tanto
Muestrear al azar • Aplicable a cadenas “continuas” o por lotes • Eliminan sesgos: • Pedidos consecutivos correlacionados • Preferencia del inspector por pedidos “grandes” • Procedimientos bien estudiados • Descritos en Manuales • Especificados en Estándares (MIL Std.)
Muestrear al azar(2) • Generar al azar • Si aceptar el registro; si no, rechazarlo Pasos: • Especificar r • Para cada registro: 1 1 • r=1100% del total; r=0 no muestrear • Otros requerimientos: • Tamaño del lote • Frecuencia de muestreo • Tasa de ingreso al sistema
Seguir los registros marcados • Usar un identificador único ya existente • No requiere cambio del modelo de datos • Agregar una etiqueta específica • Hay que modificar modelo • Invisibilidad… • Ejemplo:
Ejemplo 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 g N Y N Y h bf bf Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
Tres tipos de cambios • Normalización • Traducción • Espúreos • Corrección de errores • Creación de errores Error detectado!
Ejemplo 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 Sólo una traducción g N Y N Y h bf bf Errores Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
Tiempos de ciclos • Tres tipos de análisis • Tiempo de proceso (Ci-Si) • Puntualidad (Ci-Di) • Tiempo en cola (Si-Ci-1) Siendo: Si fecha/hora de comienzo del proceso i Ci fecha/hora de culminación del proceso i Di fecha/hora comprometida del proceso i
Ejemplo Debió esperar 2 días, 16 hrs. en cola (Q4=2días,16hs.) 1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC--DHBC- -DHBC- Terminó 6 hs. 45´ antes de lo requerido (T4=-6hs. 45´) Requirió 2 horas 15 minutos (L4=2hs.15´) b 408727 408727408831 408831 408831 408831 408831 c SRBEX A A A A A d DEC DEC DEC DEC DEC e H23A F17B H23A F17B H23A f $23.25 $23.25 g N Y N Y h bf bf Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30 Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00 Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
Resumir resultados • Para Correctitud y Consistencia • Tres niveles: • Métrica • Dónde • Control Un ejemplo de Métrica • Situación conocida • Quizá poco preocupante • Quizá legada • ¡Seguro que no aporta valor!
Los casos graves… ¿Qué es un gráfico de Pareto? La mayoría de los problemas son asignables a muy pocas causas
1% 2% 17% 0.5% 1 2 3 4 DB A Otras gráficas útiles/posibles • Rastreando el campo “b” • Puede usarse más de una representación Dado el campo, localiza al proceso
Para el control… • Dado el campo “b”, y el proceso “3”… Un gráfico por combinación (si es relevante…) • Hay puntos fuera de rango • Deben buscarse las causas
Algunos detalles… • Las muestras pueden demorar más o menos • La secuencia de entrada difiere de la de salida • Sólo incluir muestras ya completas
Detectando inconsistencias • La métrica es binaria: “consistente/inconsistente” • En principio es similar a la correctitud • Aislemos los espúreos…
Analizando el ejemplo • Focalizando en los espúreos • Casos más problemáticos: campos “e” y “g”
Mayoría entre 3 y 4 Rastreando el campo “e” • “e” tenía problemas de correctitud • No es por tanto problema de inconsistencia 0.5% 5 DB B 0% 11% 11.5% 11% 0% 3 4 DB A
0% 0% 0% 0% Rastreando el campo “g” • No está tan claro • Errores altos, pero bajo control 5 DB B 10% 10% 3 4 DB A
Hay que mirar más de cerca 5 DB B 3 4 DB A Rastreando el campo “g” (2) Más común de lo que se puede pensar • El campo “g” se genera ¡independientemente!
Un detalle… • Métodos y gráficos para Correctitud ≈ Consistencia • ¿Dónde están las diferencias? • Correctitud • Controla <realidad> vs. <DB A> • Consistencia • <DB A> vs. <DB B> • ¡<realidad> no entra!
Hay que ser especialmente cuidadoso en cola en proceso 1 2 3 4 DB A P3 está retrasado en este lapso P2 terminado Comienza P3 P3 prometido P3 terminado Tiempos… • Ilustremos la nomenclatura tiempo
Otras hipótesis… • Entrar en DB A implica la entrega de algo • Def. DA=Instante prometido de entrega • Def. CA=Instante efectivo de entrega • Def. TA = CA – DA (TA > 0 implica retraso) • DA depende de D1, D2, D3 y D4 • El cliente siempre puede cancelar o cambiar antes de DA