480 likes | 591 Views
NC STATE UNIVERSITY. Programa de Movilidad en Educación Superior para América del Norte Introducción a la Integración de Procesos para el Control Ambiental en la Currícula de Ingeniería MÓDULO 17: “Introducción al Análisis Multivariable”. Elaborado en: Ecole Polytechnique de Montreal &
E N D
NC STATE UNIVERSITY Programa de Movilidad en Educación Superior para América del Norte Introducción a la Integración de Procesos para el Control Ambiental en la Currícula de Ingeniería MÓDULO 17: “Introducción al Análisis Multivariable” Elaborado en: Ecole Polytechnique de Montreal & North Carolina State University, 2003.
2.4: Ejemplo (3) Escalas de Tiempo más Cortas
Escalas de Tiempo más Cortas En los dos ejemplos anteriores se usaron promedios diarios para las 130 variables del proceso. Sin embargo, pudimos haber escogido promedios semanales, mensuales u otras muchas opciones. Pudimos haber elegido también escalas de tiempo más cortas, como promedios de 8 horas o 30 minutos. Obviamente, en cierto punto el número de observaciones sería extremadamente complicado de manejar. Por ejemplo, una hoja de cálculo de 3 años con promedios por minuto tendría más de un millón de líneas. Con el simple hecho de elegir la escala de tiempo, se influencian los resultados del AMV. Ejemplo 3
Eligiendo una escala de tiempo Lo primero que debemos de entender es qué escalas de tiempo están disponibles. Para el proceso TMP que hemos estudiado, el periodo de tiempo más corto posible entre dos valores registrados es de 10 segundos (observe que no todas las etiquetas son actualizados con la misma frecuencia). Varios valores clave, como las características de la pulpa y la madera, son medidos sólo cada unas pocas horas, como se mostró con anterioridad. Estas etiquetas no tendrán uso, o lo tendrán muy poco en escalas de tiempo muy cortas. CONCEPTO IMPORTANTE: Algunas variables pueden ser estudiadas sólo en escalas de tiempo grandes, dependiendo en su frecuencia de muestreo/registro. Ejemplo 3
Escalas de Tiempo más Cortas Posibles Con propósito ilustrativo, usaremos la escala de tiempo más corta posible en este ejemplo, que es de 10 segundos. Debido a que algunas etiquetas son actualizadas con menos frecuencia, emplearemos valores interpolados para todas las variables, que pueden o no representar la realidad. 10 segundos Para mantener manejable el tamaño de la base de datos, hemos tomado estos datos en un periodo de 24 horas, que corresponde a cerca de 9,000 observaciones. Ya que tenemos más de 100 etiquetas, el conjunto de datos resultante tiene alrededor de un millón de valores. Un millón de valores por día, para una sola sección del proceso de producción de papel – si incluyéramos por varios años toda la planta industrial, tendríamos que analizar miles de millones de datos. Ejemplo 3
ACP para un periodo completo de 24 horas R2X(cum) Q2(cum) Jun 20 02(1). 10 segundos COMPLETO CON 45 min LAG.M1 (PCA-X), Sin Título 1 . 0 0 0 . 8 0 0 . 6 0 0 . 4 0 0 . 2 0 0 . 0 0 Comp[2] Comp[3] Comp[1] Comp No. Simca encontró numerosos componentes 3 retenidos El ACP para un periodo completo de 24 horas muestra un modelo fuerte, con un R2 acumulativo de más del 60%. Sin embargo esto es engañoso. Como se muestra en la gráfica de resultados, existe un importante proceso de desviación que “tuerce” totalmente los resultados del AMV. Ejemplo 3
Proceso importante de desviación COMPLETO CON segundos Proceso importante de desviación de 8h15 a 8h45 Una revisión de los datos originales indica que lo producción cayó por debajo de 10 t/d durante un periodo de 10 minutos (8:15 a 8:25). La causa fue una obstrucción importante en el refinador conocida como “evento de alimentación desprevenida”, que provoca que el motor del refinador se apague. Ejemplo 3
Exclusión del proceso de desviación El proceso de desviación salta a la vista en una gráfica de resultados. Esto significa que el proceso temporalmente fue a un “lugar” radicalmente diferente o régimen de operación, donde las relaciones entre las variables son diferentes. Tratar de hacer ACP en varios regímenes de operación diferentes simultáneamente es una pérdida de tiempo. El software tratará de establecer correlaciones entre las diferentes variables, y si estas correlaciones cambian abruptamente los resultados serán inservibles. Para evitar este problema es necesario dividir las observaciones en diferentes regímenes de operación, y estudiar cada régimen por separado. En este caso, removeremos el periodo de baja producción para prevenir que “tuerza” el resto de los resultados. Resalta como una llama solar… o un gesto de aprobación Ejemplo 3
ACP con el proceso de desviación removido Removimos el periodo completo cuando el proceso fue perturbado (8:10 a 8:45) e hicimos ACP al resto de las observaciones. Interesante, los valores de R2bajaron ligeramente. Esto debido a que varias de las variables cambiaron abruptamente en conjunto cuando el proceso fue parado, haciendo parecer a las variables como si estuvieran “correlacionadas” entre sí. Recuerde, el AMV no sabe nada acerca del proceso, sólo usa los datos del mismo. Ejemplo 3
Gráfica de resultados de operación normal Ahora que hemos removido las perturbaciones del proceso, la gráfica de resultados toma una condición totalmente diferente. Ahora es obvia la influencia del tiempo. Durante el periodo de 24 horas, el proceso “serpentea” alrededor del espacio multi dimensional. Es un blanco móvil. Casi todos los datos del proceso muestran esta característica, porque el proceso real nunca está en estado estacionario. Los sistemas de proceso de control están respondiendo constantemente a perturbaciones externas, como cambios en la calidad de la alimentación. La intervención del operador es otra fuente de perturbación. Existen muchas otras. Una meta operativa es mantener el “serpenteo” dentro de una zona deseable. Mientras que la gráfica de resultados para periodos largos promediados generalmente parecen nubes, la gráfica de resultados para escalas de tiempo cortas parece una serpiente. Ejemplo 3
Gráfica de resultados mostrando la tendencia del tiempo segundos COMPLETO CON Inicio:01:00 Fin: 00:59 Tendencia de tiempo obvia… Ejemplo 3
¿Cuál es su importancia? Este “serpenteo” del proceso con escalas de tiempo cortas es muy importante. Esto no so observó cuando se usaron promedio diarios. Al observar qué variables cambian con el tiempo, podemos entender mucho mejor la dinámica del proceso. Una forma de hacer esto es comparar las gráficas de contribución (como se vio en el Ejemplo 2) a diferentes tiempos. Las gráficas de contribución para los puntos de inicio y fin del periodo de 24 horas se muestran en la siguiente página. Obviamente es imposible leer los nombres de las variables, pero ese no es el punto. Sólo observe la gráfica de barras. Es muy diferente, indicando un cambio continuo en el régimen de operación desde el inicio hasta el fin. Ejemplo 3
Tendencia del tiempo dentro del proceso Gráficas de contribución… 01:00 00:59
Estudiando la “serpiente” Para adquirir mayor conocimiento, podemos dar color a las observaciones en la gráfica de resultados. Hicimos algo similar en el Ejemplo 1, cuando dimos colores específicos a los días para mostrar las temporadas. Esto es muy fácil de hacer con el software del AMV. En este caso, hemos modificado la gráfica de resultados para mostrar en qué rango caen las observaciones para una de las variables. En este caso hemos elegido “freeness”, un parámetro importante de calidad de la pulpa que el sistema de control trata de mantener en un valor constante. Pudimos haber escogido cualquier variable. Observe que durante el curso del periodo de 24 horas, el freeness empieza alto, luego baja, y luego vuelve a subir. Alguien con poco conocimiento del proceso podría aprender de estos resultados. Ejemplo 3
Gráfica de resultados con color para “freeness” Exactamente la misma gráfica, pero con color el “freeness” de la pulpa Ejemplo 3
Gráfica de resultados en 3-D La misma gráfica mostrando el 3er componente Componente 3 Componente 1 Componente 2 Ejemplo 3
“Previsión” del AMV Otro uso importante del AMV sobre las escalas de tiempo cortas es predecir problemas antes de que se hagan más visibles. La gráfica de residuos de la siguiente página, cuenta la historia completa. ¿Recuerda que mencionamos que el refinador se apagó a las 8:15 debido al bloqueo? Es obvio que el proceso se desvió mucho antes de la operación normal. Los operadores tienden a observar las útiles variables claves cuando monitorean el proceso, pero el AMV observa todas las variables al mismo tiempo, y por lo tanto, es mucho más sensitivo. Una analogía sería un sismómetro usado para predecir las erupciones volcánicas. Un sismómetro es extremadamente sensible a las vibraciones más ligeras. Ejemplo 3
Gráfica de residuos mostrando la “previsión” del AMV Construida hasta 8h15-¡algo está pasando en el proceso! Ejemplo 3
Usando escalas de tiempo más cortas • Por ahora sería claro que hacer AMV en escalas de tiempo más cortas es totalmente diferente a estudiar los promedios tomados por lapsos de tiempo más largos. Otra vez, concluimos que la mejor solución es tratar con varias aproximaciones diferentes. Ningún AMV por sí solo dará todas las respuestas que estamos buscando. • Parte del poder de esta técnica es la forma completamente distinta en que los resultados pueden ser obtenidos de la misma base de datos, simplemente “cortando y tomando” los datos en distintas formas: • Más largas vs. más cortas escalas de tiempo • Más vs. menos variables • ACP vs. PEL • El AMV es sólo una “caja negra”. Su uso DEBE • ser empleado para entender el proceso estudiado, • de otra forma el “number-crunching” no tendría sentido. “Number Cruncher” Ejemplo 3
Fin del Ejemplo 3: Un paso a la vez…
Fin del Tier 2 ¡Felicidades! Este es el fin del Tier 2. Obviamente los detalles de estos ejemplos son difíciles de comprender para un novato, pero por fortuna algunos de los patrones generales empiezan a emerger. Un verdadero entendimiento del AMV puede adquirirse sólo haciéndolo uno mismo, lo cual es el propósito del Tier 3. Todo lo que queda por completar es un pequeño quiz que se presenta a continuación…
Tier 2 Quiz • Pregunta 1: • ¿Cuál es la diferencia entre etiqueta y variable? • La palabras “etiqueta” y “variable” son sinónimos. • Una etiqueta es un indicador de identidad o dirección, mientras que una variable es un atributo del proceso. • Las etiquetas cambian con el tiempo, pero las variables son fijas. • Las variables miden atributos similares, mientras que las etiquetas miden atributos distintos. • Respuestas (b) y (c). Tier 2 Quiz
Tier 2 Quiz • Pregunta 2: • ¿Promediar reduce o aumenta el ruido? • Promediar aumenta el ruido significativamente. • Promediar aumenta el ruido, pero muy ligeramente. • Promediar no afecta al ruido. • Promediar reduce el ruido. • Promediar reduce el ruido, pero aumenta la probabilidad de desviaciones. Tier 2 Quiz
Tier 2 Quiz • Pregunta 3: • ¿Cuál es el peligro de interpolar entre lecturas que están muy separadas en tiempo? • La interpolación dará mucho más peso a estas lecturas del que merecen. • Los valores interpolados indicarán ligeras tendencias hacia arriba y hacia abajo donde no hay ninguna tendencia. • El efecto de las desviaciones será el aumento en el doblez. • El ingeniero tendrá el falso sentimiento de comparar variables que son similares, cuando en realidad son muy diferentes. • Todas las anteriores. Tier 2 Quiz
Tier 2 Quiz • Pregunta 4: • Si la interpolación es un problema, ¿por qué no podemos usar los valores discretos? • Esto dará demasiado peso a los periodos con un gran número de valores discretos. • Los valores discretos deben ser promediados para tener sentido. • Ninguna etiqueta es realmente discreta. • Los valores discretos no dependen del tiempo. • Respuestas (b) y (c). Tier 2 Quiz
Tier 2 Quiz • Pregunta 5: • ¿Cuál es la diferencia entre una demora de proceso y un retraso de lectura? • Una es causada por el mismo proceso, la otra por los instrumentos de medición. • Son lo mismo. • Una demora de proceso se debe al tiempo de residencia, mientras que una lectura retrasada se debe al tiempo requerido para el muestreo, medición y registro. • Una es más larga que la otra. • Respuestas (a) y (c). Tier 2 Quiz
Tier 2 Quiz • Pregunta 6: • ¿Por qué el software del AMV rechaza la variables que no cambian suficiente con el tiempo? • Sólo las variables que son parte del “experimento” están permitidas. • Las etiquetas cambian con el tiempo, pero estas variables son fijas. • Hay insuficientes datos. • Si una variable no cambia con el tiempo, entonces, no puede ser correlacionada con otras variables. • Ninguna de las anteriores. Tier 2 Quiz
Tier 2 Quiz • Pregunta 7: • ¿Qué haría usted si sus ACP iniciales dan una gráfica de resultados con dos nubes de datos distintas y separadas? • Estudiar cada nube de datos separadamente. • Tratar de determinar qué representan estas dos nubes. • Ignorar el primer componente, el cual es probablemente introducido artificialmente por las dos nubes. • Realizar un AMV a todo el conjunto de datos. • Respuestas (a), (b) y (c). Tier 2 Quiz
Tier 2 Quiz • Pregunta 8: • Su gráfica residual (“DModX”) muestra varias desviaciones moderadas. ¿Qué haría usted? • Removerlas y continuar. • Dejarlas y continuar. • Estudiar sus gráficas de contribución. • Observar los datos originales para tratar de determinar la causa. • Respuestas (c) y (d). Tier 2 Quiz
Tier 2 Quiz • Pregunta 9: • Dos variables están localizadas en las esquinas opuestas de su gráfica de entradas de ACP (componentes 1 y 2). ¿Qué concluye? • Estas variables no están correlacionadas entre sí. • Estas variables están correlacionadas negativamente entre sí. • Estas variables contribuyen al primer y segundo componente. • Estas variables no contribuyen ni al primer ni al segundo componente. • Respuestas (b) y (c). Tier 2 Quiz
Tier 2 Quiz • Preguntas 10: • Teóricamente, ¿en promedio, qué proporción de los residuos deberían estar arriba del 95% de la línea de confianza? (la línea roja en la gráfica “DModX”) • Exactamente el 0.05% • Exactamente 5%. • Más del 5%. • Menos del 5%. • Depende del conjunto de datos. Tier 2 Quiz
TIER 3: Problema Propuesto-Resuelto (Open-Ended)
Tier 3: Objetivo • Tier 3: Objetivo: • La meta del Tier 3 es permitir finalmente al estudiante realizar el AMV independientemente, en un contexto controlado. Al final del Tier 3, el estudiante deberá saber cómo realizar los siguiente: • Preparar una hoja de cálculo para usar en AMV • Transferir la hoja de cálculo al software del AMV • Organizar el conjunto de datos en el software del AMV • Crear gráfica simples de ACP • Identificar e investigar desviaciones grandes y moderadas • Crear e interpretar gráficas complejas de ACP • Con el fin de evitar que el estudiante se pierda, cada uno de estos pasos se subdivide en una serie de sub-pasos con instrucciones claras. Problema Propuesto
Tier 3: Contenido El Tier 3 se subdivide en cuatro secciones: 3.1 Enunciado del Problema y Conjunto de Datos 3.2 Preparación e Importación de la Hoja de Cálculo 3.3 Resultados Iniciales del AMV 3.4 Desviaciones y Gráficas de AMV Más Elaboradas A diferencia de las secciones anteriores, el Tier 3 no tiene quiz. El estudiante deberá presentar los resultados del trabajo en un breve reporte del proyecto (10-15 páginas). Problema Propuesto
3.1: Enunciado del Problema y Conjunto de Datos Problema Propuesto
Enunciado del Problema Usted es el ingeniero de proceso en la planta de TMP de los ejemplos del Tier 2. Su jefe, el gerente de la planta, quiere saber por qué la pulpa tiene propiedades diferentes en el verano y en el invierno. Usted decide empezar por generar resultados de ACP para dos conjuntos de datos diferentes, uno tomado durante el verano y otro durante el invierno, y después compararlos entre sí. Problema Propuesto
Conjunto de Datos Verano/Invierno • Después de hablar con los operadores, decide tomar dos semanas completas de datos para 15 etiquetas clave, usando promedio de 1 hora. • Sus datos han sido transferidos por un técnico IT en un software estándar de hojas de cálculos. Los dos archivos son: • Datosverano.xls • Datosinvierno.xls • Abre estos archivos y observa los datos. ¿Puede decir algo acerca de la pregunta verano/invierno con sólo observar los datos? • ¡Claro que no! ¡Estos son los archivos de datos que va a usar! Problema Propuesto
3.2: Preparación e Importación de la Hoja de Cálculo Problema Propuesto
Preparación de la hoja de cálculo • Como puede notar, la hoja de cálculo tiene dos nombres para cada variable: • Nombre largo descriptivo, y • la “etiqueta” corta para la fácil identificación en las gráficas del AMV. • Queremos hacer algo similar con las observaciones individuales. La denominación completa es muy larga, lo que hace que las gráficas de resultados sean imposibles de leer. Además, ya sabemos de qué mes y año se trata. Esta no es información útil. Por lo tanto, debemos insertar una columna a la derecha de la denominación del tiempo, que da el número de horas desde el inicio del periodo de dos semanas. • Haga esto para las dos hojas de cálculo. Cuando lo haya hecho, grávelas con un nuevo nombre. Problema Propuesto
Importación de la hoja de cálculo Estamos listos para “abrir” el software del AMV. Hágalo ahora. Lo primero que debemos hacer es importar los datos. Vaya a “Archivo: importar datos”, y seleccione el nuevo archivo renombrado para verano. El software le hará una serie de preguntas. Contéstelas de acuerdo a las instrucciones de la Página 2 del archivo de la hoja de cálculo. Uno de estos pasos involucra guardar el nuevo conjunto de datos como un archivo de AMV. Repita esta operación para la hoja de cálculo de invierno. Problema Propuesto
3.3: Resultados Iniciales del AMV Problema Propuesto
Resultados iniciales del AMV • Re-abra el archivo verano y cree la siguiente gráfica: • Gráfica de barras del modelo • ¿Cuántos componentes sugiere el software? Normalmente para este tipo de ejercicios iniciales, es normal usar 3 componentes. Elimine los componentes que no vaya a utilizar. • Ahora cree las siguientes gráficas básicas de ACP: • Gráficas de resultados: t(1) vs. t(2) • ¿Qué nota en los resultados? ¡Así es!, no hay desviaciones grandes. • Ahora haga lo mismo con el conjunto de datos de invierno. Copie con el click derecho e importe a un archivo de procesador de palabras. Todas estas gráficas deben aparecer en su reporte. Problema Propuesto
3.4: Desviaciones y Gráficas de AMV Más Elaboradas Problema Propuesto
Investigado las Desviaciones • Los datos de verano contienen un proceso de desviación importante que es muy visible en la gráfica de resultados. Observando los datos originales, trate de determinar la causa. • Una vez que esté satisfecho, remueva las desviaciones y guarde el nuevo modelo. • Los datos de invierno parecen bien en la gráfica de resultados, pero esa no es la historia completa. Genere la siguiente gráfica de residuos: • DModX • ¿Qué observa? ¡Así es! No hay una desviación muy grande. Genere la gráfica de contribución para investigar: • Gráfica de contribución • ¿Qué concluye? Remueva este punto y continúe. Problema Propuesto
Comparación del Verano y el Invierno • Ahora estamos listos para comparar los resultados del verano e invierno. Genere las siguientes gráficas de ACP: • Gráfica de resultados: t(1) vs. t(2); t(1) vs. t(3); 3-D gráfica • Gráfica de entradas: p(1) vs. p(2); p(1) vs. p(3); 3-D gráfica • ¿Nota alguna diferencia significativa entre el verano y el invierno? • ¡Claro que sí! ¿Cuáles? • Y, ¿qué sugiere esto acerca de la causa de las diferencias del proceso en verano y en invierno? Problema Propuesto
Haciendo sus conclusiones Ahora tenemos algo que reportar al jefe… Problema Propuesto
Más Gráficas Elaboradas de AMV • Para familiarizarse con algunas otras salidas del AMV, haga lo siguiente para los conjuntos de datos de verano e invierno: • DModX • X/Y Gráfica de contribución • Distribución de residuos • … • … • ¿Qué le indican estas gráficas? No se preocupe en encontrar la respuesta “correcta”, sólo trate de entender lo que estas gráficas tratan de decirnos. Sin embargo, debe justificar su respuesta. No adivine. ¡No adivine! Problema Propuesto
Fin del Tier 3 ¡Felicidades! Este es el fin del Módulo 17. Por favor entregue su reporte a su profesor para que lo evalúe. Estamos siempre abiertos a sugerencias para mejorar el curso. Puede contactarnos en: www.namppimodule.org