460 likes | 553 Views
Simulación Dr. Ignacio Ponzoni. Clase VI: Modelado de la Entrada de una Simulación Departamento de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur Año 2006. Modelado de la Entrada de una Simulación.
E N D
SimulaciónDr. Ignacio Ponzoni Clase VI: Modelado de la Entrada de una Simulación Departamento de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur Año 2006
Modelado de la Entrada de una Simulación • Una de las etapas fundamentales en la construcción de un modelo de simulación consiste en identificar: • los valores de los parámetros que configuran la estructura interna del sistema, y • las distribuciones probabilísticas que siguen las variables que representan los fenómenos aleatorios de los sistemas no determinísticos.
Etapas del Modelado de la Entrada 1. Recolección de datos del sistema real. 2. Identificación del tipo de distribución que siguen los datos recolectados. 3. Determinación de los parámetros de la distribución seleccionada en el paso 2. 4. Efectuar tests de bondad de ajuste para determinar si la distribución establecida en el paso 3 es realmente una buena aproximación para modelar la variable aleatoria. Si estos tests fallan, se regresa a los pasos anteriores.
Recolección de Datos • Esta etapa es la más ardua de todo el proceso de modelado de la entrada. • En general es la que requiere más tiempo y mayor nivel de conocimiento y experiencia por parte del modelador. • Para ilustrar algunos de los problemas que pueden surgir en esta etapa vamos a analizar un caso de estudio presentado por Banks.
Dificultades en la toma de datosCaso de Estudio: Lavadero • Los autores reportan la experiencia de relevar los datos para la simulación del funcionamiento de un lavadero automático de ropa. • El trabajo fue asignado a una comisión integrada por dos alumnos como parte de un proyecto de la cátedra. • Los estudiantes debían tomar datos tendientes a estimar los tiempos entre arribos y tiempos de servicios (tiempo de lavado y tiempo de secado). • Los problemas surgieron apenas empezaron y crecieron rápidamente.
Dificultades en la toma de datosCaso de Estudio: Lavadero • El primer problema fue que la distribución de tiempos entre arribos era heterogénea, es decir, variaba en función del día de la semana y la hora del día. • Dado que el lavadero estaba abierto todos los días, 16 horas por día, la cantidad de horas a cubrir era de 112 por semana. • El proyecto de simulación completo debía ser realizado en 4 semanas. • Obviamente 2 alumnos que estaban cursando 5 materias tenían fuertes restricciones de tiempo que impedían hacer un relevamiento completo de datos.
Dificultades en la toma de datosCaso de Estudio: Lavadero • Dado que sólo se efectuó recopilación de datos durante una única semana, la muestra resulto muy chica como para considerar a los datos como confiables. • Lo que se hizo fue clasificar las distintas franjas de tiempo y días en función de la tasa de arribos como: altos, medios y bajos. • La estimación de las tasas de servicio también presentaron muchas dificultades. • Por ejemplo, se observaron que existían muchas combinaciones de tipos de servicios.
Dificultades en la toma de datosCaso de Estudio: Lavadero • El caso de servicio más simple estaba dado por los clientes que primero utilizaban una lavadora y luego una secadora. • Pero existían clientes que ocupaban varias lavadoras y secadoras a la vez. • Otro problema importante era que inicialmente los estudiantes habían asumido como independientes entre sí a las tasas de lavado y secado. • Sin embargo, en la realidad, la cantidad de secadoras ocupadas en determinado momento dependía de cuantas lavadoras habían sido utilizadas un rato antes.
Dificultades en la toma de datosCaso de Estudio: Lavadero • Otro elemento que afectaba a las tasas de servicio tenía que ver con el comportamiento del cliente. • Muchos clientes permanecían en el lavadero durante todo el proceso de lavado y secado, con lo cual, apenas su ropa estaba lista, esta era inmediatamente removida de la máquina quedando el servidor desocupado. • En cambio, otros clientes dejaban las instrucciones al encargado del lavadero y retornaban más tarde a retirar la ropa cuando ya estaba lista. • En estos casos, los tiempos de servicio variaban notablemente, y más aún en los horarios de mayor afluencia de clientes.
Dificultades en la toma de datosCaso de Estudio: Lavadero • Por último, otro problema que afectaba notoriamente el desempeño del lavadero tenía que ver con las fallas que se producían en las máquinas. • Esto implicó incorporar el relevamiento de datos de dos tasas más: tiempo entre fallas y tiempo de reparación. • Este tipo de tasas es muy difícil de determinar en períodos cortos de relevamiento. • Además, la tasa de tiempo de reparación era fuertemente dependiente del día. Si una máquina se rompía un viernes, esta estaba fuera de servicio mucho más tiempo que cuando la falla se producía un lunes.
Pautas para la Recolección de Datos • Si bien es cierto que cada sistema de simulación tiene características propias, que habitualmente requieren políticas muy específicas para la recolección de datos, existen ciertas pautas generales que pueden servir de guía en esta fase. • La primera pauta consiste en efectuar una buena planificación de todo el proceso de recolección de datos. • Es muy importante antes de asignar recursos humanos y físicos a este proceso, hacer una sesión de pre-observación del funcionamiento del sistema.
Pautas para la Recolección de Datos • En este proceso de pre-observación se puede: • Analizar que tipos de datos es necesario recopilar. • Cuales de estos datos pueden obtenerse de registros históricos o a través de procedimientos automáticos. • En tal sentido es importante relevar que información estará disponible para realizar la recopilación, y en que formato está almacenada. • En el caso de decidir relevar información a través de observación directa o mediante encuestas, es necesario diseñar los formularios en donde se volcará dicha información.
Pautas para la Recolección de Datos • Analizar los datos a medida que van siendo recolectados. • Esto permitirá hacer correcciones a la planificación propuesta, evitando en algunas ocasiones la recolección de datos superfluos o redundantes. • Intentar combinar conjuntos de datos homogeneos. • Chequear la existencia de homogeneidad entre datos correspondientes a períodos contiguos de tiempo dentro de un mismo día, o para el mismo período de tiempo en días consecutivos. • Los chequeos de homogeneidad pueden comenzar con una simple comparación entra las medias observadas para los datos de los períodos comparados. • Si estas coinciden, se puede realizar un análisis estadístico más preciso a fin de determinar la equivalencia o no entre las distribuciones de datos.
Pautas para la Recolección de Datos • Se debe evitar caer en la censura de datos. • Este problema ocurre cuando el período de observación no contiene completamente la duración de la actividad cuyo tiempo desea estimarse. • Este problema ocurre a menudo en el análisis de sistemas con procesos de larga duración. • Identificar dependencias entre datos. • Esto puede realizarse mediante la construcción de diagramas de dispersión de puntos, los cuales permiten identificar correlaciones entre los datos correspondiente a distintas variables. • La identificación de correlaciones permite acortar el relevamiento de datos y mejorar la calidad del modelo.
Pautas para la Recolección de Datos • Identificar la presencia de autocorrelaciones. • Una secuencia de observaciones vinculadas a una misma variable puede presentar dependencias entre los elementos de la secuencia. Por ejemplo, la duración del tiempo de servicio del cliente i puede guardar alguna relación con la duración de la atención del cliente i+n. • No confundir datos de entrada con datos de salida. • Se debe ser cuidadoso a la hora de tomar las muestras de datos a fin de no mezclar información de entrada con valores, tales como los tiempos de demora, que constituyen medidas de desempeño del sistema.
Identificación del Tipo de Distribución • Sobre la base de los datos recopilados para una variable, es posible determinar que tipo de distribución probabilística se ajusta mejor a los datos mediante la construcción de histogramas. • Los histogramas son diagramas que permiten observar la frecuencia con que se repiten los distintos valores obtenidos en una muestra.
Construcción de Histogramas • Estos gráficos se construyen efectuando los siguientes pasos: • Dividir el rango de los datos en intervalos, cada uno de estos intervalos se denomina clase. • Se etiqueta el ejes de las x según las clases definidas. • Se determina la cantidad de datos que se encuentran dentro de cada clase. • Se etiqueta el eje de las y con las cantidades de datos que posee cada clase. • Se dibujan las barras de frecuencia para cada clase.
Ejemplo 1 Datos Recopilados para una Variable
Guías para Construir Histogramas • La forma de un histograma no sólo depende de los datos recopilados sino también del conjunto de clases en que se particiona el rango de datos. • Existen dos puntos que el modelador deben decidir al momento de definir las clases: • En cuantas clases va a particionar el rango, y • La longitud del intervalo de cada una.
Guías para Construir Histogramas • El número de clases depende de la cantidad de datos que tiene la muestra. • Si la cantidad de datos es pequeña, se emplean 5 clases, nunca menos. • Si la cantidad de datos es muy grande, pueden definirse hasta un máximo de 15 clases. • Un número pequeño de clases puede ocultar la verdadera forma de la distribución, mientras que una cantidad excesiva de intervalos puede dejar algunas clases sin observaciones. • Algunos especialistas recomiendan utilizar una cantidad de clases cercana a la raíz cuadrada del tamaño de la muestra.
Guías para Construir Histogramas • Con respecto a la longitud de cada clase, en general se recomienda empezar particionando el rango en intervalos iguales. • Una vez construido el primer histograma, en función de la forma visualizada puede decidirse cambiar la longitud de las clases e incluso fusionar algunas clases adyacentes. • Esto es frecuente cuando se sospecha la presencia de distribuciones exponenciales en donde hay una fuerte concentración de muestras en subintervalos muy pequeños del rango muestral.
Ejemplo 2Histograma con Clases de igual Longitud Datos Recopilados para una Variable
Ejemplo 2Histograma con Clases de distinta Longitud Datos Recopilados para una Variable
Estimación de Parámetros • Una vez que tenemos una hipótesis sobre el tipo de distribución que siguen los datos, es necesario establecer cuales son sus parámetros. • Para ello calcularemos la media y varianza de la muestra utilizada para construir el histograma. • La media de una muestra X1,X2,...,Xn es: • y la varianza, S2, se calcula como:
Estimación de Parámetros • Luego, si la distribución es: • Normal: • Exponencial: • Poisson: ...
Test de Bondad de Ajuste • La última etapa consiste en aplicar tests estadísticos que permitan confirmar la distribuciones observadas para las variables aleatorias. • Un procedimiento para testear la hipótesis de que una muestra aleatoria de tamaño n de una variable aleatoria X sigue una distribución específica, es aplicar el test de bondad de ajuste de la Chi-Cuadrado. • Este test formaliza la idea intuitiva de comparar el histograma de datos con la forma de la función de densidad de probabilidad o función másica correspondiente a la distribución candidata.
Test Chi-Cuadrado • El test comienza agrupando las n observaciones en k clases. La prueba estadística está dada por la siguiente fórmula: • donde: • Oi es la frecuencia observada en la muestra para la i-ésima clase. • Ei es la frecuencia esperada para la i-ésima clase. • La frecuencia esperada para cada intervalo Ei es igual a n.pi ,siendo pi la probabilidad que teóricamente le corresponde a la clase i según la distribución hipotética.
Test Chi-Cuadrado • Se puede demostrar que sigue aproximadamente la distribución chi-cuadrado con k-s-1 grados de libertad, donde s representa la cantidad de parámetros de la distribución hipotética. • Las hipótesis para el test son: • H0 : la variable aleatoria X satisface las suposiciones de distribución con los parámetros estimados. • H1 : la variable aleatoria X NO satisface las suposiciones de distribución con los parámetros estimados.
Test Chi-Cuadrado • Para efectuar aceptar o rechazar las hipótesis es necesario determinar el valor crítico de la distribución chi-cuadrado para cierto coeficiente de confianza 1-. • Este valor crítico se denota y se obtiene por tabla. • La hipótesis nula (H0) es rechazada cuando:
Test Chi-Cuadrado • Es importante tener en cuenta que las clases definidas para efectuar el test de bondad de ajuste generalmente difieren de las clases empleadas en la construcción del histograma. • Para el caso de distribuciones discretas: • El valor esperado para cada clase no debe ser inferior a 5, si hay clases con valor esperado menor a 5, estas son fusionadas con clases adyacentes. • Para el caso de distribuciones continuas: • Se recomienda particionar el rango de la muestra en clases con igual valor esperado.
Test Chi-CuadradoEjemplo con Distribución de Poisson • Supongamos que tenemos una muestra de tamaño 100 de una variable aleatoria, y nuestra hipótesis es que dicha variable sigue una distribución de Poisson con parámetro = 3.64. • Luego, nuestras hipótesis serían: • H0 : la variable aleatoria X tiene distribución de Poisson. • H1: la variable aleatoria X NO tiene distribución de Poisson.
Test Chi-CuadradoEjemplo con Distribución de Poisson • Los valores contenidos en la muestra están en un rango discreto comprendido entre 0 y 11. • Aplicando la función másica de probabilidad de Poisson: • Para = 3.64 tenemos: • p(0) = 0.026, p(1) = 0.096, p(2) = 0.174, p(3) = 0.211, • p(4) = 0.192, p(5) = 0.140, p(6) = 0.085, p(7) = 0.044, • p(8) = 0.020, p(9) = 0.008, p(10) = 0.003, p(11) = 0.001
Test Chi-CuadradoEjemplo con Distribución de Poisson xi Oi Ei (Oi - Ei)2/Ei 0 12 2.6 1 10 9.6 2 19 17.4 0.15 3 17 21.1 0.80 4 10 19.2 4.41 5 8 14.0 2.57 6 7 8.5 7 5 4.4 8 5 2.0 9 3 0.8 10 3 0.3 11 1 0.1 100 100.0 27.68 22 12.2 7.87 17 7.6 11.62
Test Chi-CuadradoEjemplo con Distribución de Poisson • Luego, el valor de es 27.68 • Si buscamos en la tabla de la chi-cuadrado el valor crítico con = 0.05, obtenemos: • Luego, como 27.68 = > rechazamos H0 con un nivel de certeza del (1- )%
Modelado de la Entrada Ejemplo: obtención de la muestra • Supongamos que contamos con la siguiente muestra para una variable aleatoria:
Modelado de la EntradaEjemplo: identificación de distribución Con los datos obtenidos, se construye un histograma en el cual se visualiza una distribución de tipo exponencial.
Modelado de la EntradaEjemplo: estimación de parámetros Una vez identificada el tipo de distribución se estiman sus parametros:
Modelado de la EntradaEjemplo: test de bondad de ajuste H0: la variable aleatoria está distribuida exponencialmente. Con el objeto de llevar adelante los tests de bondad de ajuste con intervalos de igual probabilidad, se deberán determinar los límites de cada rango. Dado que la raíz cuadrada de 50 es 7,07, se recomienda usar 7 u 8 clases. En este caso se ha optado por el uso de 8 clases, cada una con una probabilidad 0,125. Los límites de los rangos se obtienen por medio de inversa de la función acumulada de la distribución.
Modelado de la EntradaEjemplo: test de bondad de ajuste Rangos Finales 0 a 1,590 1,590 a 3,425 3,425 a 5,595 5,595 a 8,252 8,252 a 11,677 11,677 a 16,503 16,503 a 24,755 24,755 a
Modelado de la EntradaEjemplo: test de bondad de ajuste El siguiente cuadro muestra cómo se ajustan los datos observados a la distribución planteada como hipótesis.
Modelado de la EntradaEjemplo: test de bondad de ajuste El valor calculado para es 38.72 Los grados de libertad están dados por k-s-1 = 8-1-1 = 6 Luego, Entonces, como = 38.72 > Se rechaza la hipótesis nula.
Test de Bondad de AjusteProblemas • Si bien los test de bondad de ajuste proveen una buena guía en la selección de distribuciones para las variables aleatorias, no hay que esclavizarse de los resultados obtenidos por estas pruebas estadísticas. • Es importante saber que estos test están fuertemente influenciados por el tamaño de la muestra. E • En general, si la muestra es pequeña estos métodos tienden a rechazar las hipótesis nulas, mientras que si la muestra es muy grande, suelen aceptar todas las hipótesis nulas.
Estimación de Distribuciones en Procesos No Estacionarios • Existen situaciones donde los parámetros de la distribución que sigue un determinada variable aleatoria cambia para distintos períodos de tiempo. • Esta es la situación que ocurre por ejemplo en un sistema de servicio cuando la tasa de arribos cambia en función del momento del día o incluso del día de la semana que se está simulando.
Estimación de Distribuciones en Procesos No Estacionarios • En estos problemas que contienen tasas no constantes existen dos alternativas de modelado: a) Se va cambiando la tasa durante la simulación en función del período de tiempo en que se encuentre el reloj de simulación. b) Utilizar la técnica de “thinning”, por ejemplo, para una tasa de arribos que varía en el tiempo: • Se define una tasa máxima de tiempo entre arribos max • Se generan todos los arribos utilizando dicha tasa. • En cada instante de tiempo t para el cual hay planificado un arribo, se genera un valor aleatorio U distribuido uniformemente, y si U > t/max, el arribo es rechazado, en caso contrario es aceptado. Siendo tla tasa de arribos correspondiente al período en que se encuentra t.
Modelado de la Entrada sin Datos • Lamentablemente hay situaciones donde debemos modelar sistemas para los cuales no hay posibilidad de contar con muestras para sus variables aleatorias. • En estos casos el modelador debe obtener información por otros medios: • Reingeniería de datos: consultar estándares de fabricación de las distintas piezas que forman el sistema. • Opinión de expertos: consultar a personas familiarizadas con otros sistemas similares al que se está modelando. • Analizar limitaciones físicas o convencionales del sistema que ayuden a acotar la duración de tiempos de servicio. • Hacer suposiciones basadas en la naturaleza del proceso.
Recomendaciones • Lectura sugerida: • Capítulo 9 del libro Discrete-Event System Simulation de Banks, Carson, Nelson y Nicol. • Capítulo 11, Sección 8, del libro Computer Simulation in Management Science de Pidd. • Ejercitación propuesta: • Trabajo Práctico 4: Modelado de la Entrada de una Simulación.