1.88k likes | 4.79k Views
ESTADISTICA INFERENCIAL. LA ESTADISTICA. Estadística descriptiva Método científico Muestreo Información de entrada y de salida Estadística inferencial Inferencias Intervalos de confianza Pruebas de hipótesis Dígitos significativos Diseño de experimentos Errores
E N D
ESTADISTICA INFERENCIAL PROFESOR: DR. JORGE ACUÑA A.
LA ESTADISTICA • Estadística descriptiva • Método científico • Muestreo • Información de entrada y de salida • Estadística inferencial • Inferencias • Intervalos de confianza • Pruebas de hipótesis • Dígitos significativos • Diseño de experimentos • Errores • Distribuciones de probabilidad • Toma de decisiones PROFESOR: DR. JORGE ACUÑA A.
BASES DE PROBABILIDAD • Experimento – actividad con resultados inciertos y que dependen de los elementos del sistema • Diámetro de una pieza, tiempo de proceso, tiempo de espera, número de piezas que se producen por turno? • Espacio muestral – lista completa de todos los posibles resultados individuales de un experimento PROFESOR: DR. JORGE ACUÑA A.
BASES DE PROBABILIDAD • Evento – un subconjunto del espacio muestral • Se denota por E, F, E1, E2, etc. • Unión, intersección, complementos • Probabilidad de un evento es la posibilidad relativa de que este ocurra al realizar el experimento • Es un número real entre 0 y 1 (inclusive) • Se denota por P(E), P(EF), etc. • Interpretación – proporción de veces que el evento ocurre en muchas repeticiones independientes del experimento PROFESOR: DR. JORGE ACUÑA A.
BASES DE PROBABILIDAD • Algunas propiedades de la probabilidad • Si S es la totalidad de ocurrencias, entonces P(S) = 1 • Si Ø es un evento, entonces P(Ø) = 0 • Si EC es el complemento de E, entonces P(EC) = 1 – P(E) • La P(E o F)= P(EF) = P(E) + P(F) – P(EF) • Si E y F son mutuamente excluyentes (ejemplo, EF = Ø), entonces P(EF) = P(E) + P(F) • Si E es un subconjunto de F (ejemplo, la ocurrencia de E implica la ocurrencia de F), entonces P(E) P(F) • Si o1, o2, … son resultados individuales en el espacio muestral, entonces PROFESOR: DR. JORGE ACUÑA A.
VARIABLES ALEATORIAS • Es una forma de cuantificar y simplificar eventos asociados a probabilidades • Una variable aleatoria (VA) es un número cuyo valor está determinado por el resultado de un experimento • Se pueden obtener inferencias sin tener que trabajar con el espacio muestral completo. • VA es un número cuyo valor no conocemos con certeza pero que podemos conocer algo acerca de el. • Se denota con letras latinas: X, Y, W1, W2, etc. • Su conducta probabilística se describe por medio de una distribución PROFESOR: DR. JORGE ACUÑA A.
VARIABLES ALEATORIAS CONTINUAS Y DISCRETAS • Dos formas básicas de VAs usadas para representar un modelo • Discreta – puede tomar solamente ciertos valores separados • El número de valores posibles puede ser finito o infinito • Continua – puede tomar cualquier valor en un rango • El número de valores es siempre infinito • El intervalo puede ser abierto o cerrado en ambos o un lado PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES DISCRETAS • Sea X una variable aleatoria discreta que puede tomar valores x1, x2, … (lista finita o infinita) • Función densidad de probabilidad (FDP) p(xi) = P(X = xi) para i = 1, 2, ... • La expresión “X = xi” es un evento que puede o no ocurrir, sea que tiene una probabilidad de ocurrencia, que es medida por la FDP • Dado que X debe ser igual a algún valor de xi, y dado que los valores xi’s son todos distintos, PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES DISCRETAS • Distribución acumulada de probabilidad (DAP) – probabilidad de que la VA sea a un valor fijo x: • Propiedades de la DAP: 0 F(x) 1 para todo x Como x –, F(x) 0 Como x +, F(x) 1 F(x) no es decreciente en x F(x) es una función continua de la derecha que brinca de un valor discreto a otro Estas cuatro propiedades son también verdaderas para variables continuas PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES DISCRETAS • Para calcular valores sumar los valores de p(xi) para aquellos xi’s que satisfacen la condición: • Tener cuidado con desigualdades PROFESOR: DR. JORGE ACUÑA A.
VALOR ESPERADO DE LA MEDIA • El conjunto de datos tiene un “centro” – el promedio • Las variables aleatorias tienen un “centro” – valor esperado • Se le llama también la media o esperado de X • Se puede indicar con notación: m, mX • Promedio ponderado de los posibles valores de xi, donde los pesos son las respectivas probabilidades de ocurrencia • Esperado significa: Repetir “el experimento” muchas veces, observando muchos valores de X1, X2, …, Xn E(X) es valor al que se converge cuando n PROFESOR: DR. JORGE ACUÑA A.
VALOR ESPERADO DE LA VARIANZA • Medidas de “dispersión” • Varianza muestral • Desviación estándar muestral • Las VAs tiene medidas similares • Otra notación: • Promedio ponderado de las desviaciones cuadradas de los posibles valores de xi de la media • La desviación estándar de X es • La interpretación es análoga a la de E(X) PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES CONTINUAS • Sea X una variable aleatoria continua VA • Rango limitado a la izquierda o derecha o ambos • No importa lo pequeño del rango, el número de valores posibles de X es siempre incontable (infinito) • No es significativa la P(X = x) aunque x esté en el rango. Ese valor es un diferencial con valor cercano a 0 • Se describe la conducta de X en términos de intervalos PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES CONTINUAS • Función densidad de probabilidad (FDP) es una función f(x) con las siguientes tres propiedades: • f(x) 0 para todos los valores reales de x • El área total bajo la curva es f(x) es 1: • Para cualquier valor fijo de a y b con ab, la probabilidad de que X caiga entre a y b es el área bajo f(x) entre a y b: PROFESOR: DR. JORGE ACUÑA A.
DISTRIBUCIONES CONTINUAS • Distribución acumulada de probabilidad(FAP) – probabilidad de que la VA sea a un valor fijo x: • Propiedades de la FAP 0 F(x) 1 para todo x Si x –, F(x) 0 Si x +, F(x) 1 F(x) no es decreciente en x F(x) es una función continua con pendiente igual a FDP: f(x) = F'(x) Estas cuatro propiedades son también verdaderas para variables discretas PROFESOR: DR. JORGE ACUÑA A.
VALOR ESPERADO DE LA MEDIA • Esperado o media de X es • Promedio ponderado “continuo” de los posibles valores de X • Misma interpretación del caso discreto: promedio de un número infinito de observaciones de la variable X PROFESOR: DR. JORGE ACUÑA A.
VALOR ESPERADO DE LA VARIANZA • Varianza de X es • Desviación estándar de X es PROFESOR: DR. JORGE ACUÑA A.
DATOS EN SIMULACION • ENTRADA • Distribuciones de entrada • Recolectar datos • Ajustar distribuciones de probabilidad • Probar H0: los datos se ajustan a la distribución seleccionada • SALIDA • Comparar dos o mas diseños o modelos • Probar H0: todos los diseños dan el mismo rendimiento, o H0: uno de los diseños es mejor que el otro u otros. PROFESOR: DR. JORGE ACUÑA A.
MUESTREO • Análisis estadístico – estima o infiere algo acerca de una población o proceso basado en una única muestra extraída de ella. • Muestra aleatoria es un conjunto de observaciones independientes e idénticamente distribuidas X1, X2, …, Xn • En simulación, muestreo se aplica al hacer varias corridas del modelo recolectando datos • No se conocen los parámetros de la población (o distribución) y se quiere estimarlos o inferir algo acerca de ellos basado en una muestra PROFESOR: DR. JORGE ACUÑA A.
Parámetro poblacional Media m = E(X) Varianza s2 Proporción P Parámetro – se necesita trabajar con toda la población Fijo pero desconocido Estimado muestral Media x Varianza muestral s2 Proporción muestral p Estadístico muestral – puede ser calculado de una muestra Varía de una muestra a otra – es una VA, y tiene una distribución, llamada distribución muestral. MUESTREO PROFESOR: DR. JORGE ACUÑA A.
DATOS EN SIMULACION • Los datos obtenidos de una simulación pueden ser de dos tipos: datos de observación o datos dependientes del tiempo. • Datos de observación son aquellos para los cuales el tiempo de recolección no modifica su valor. Ejemplo: número de entidades procesadas en el sistema se recoleta al final de la corrida. • Datos dependientes del tiempo son aquellos cuyo valor varía de acuerdo con el tiempo. Ejemplo: número de entidades residentes en una cola pues al calcular el valor se debe considerar el tiempo que duró esperando. PROFESOR: DR. JORGE ACUÑA A.
DIGITOS SIGNIFICATIVOS • Los valores finales de una medida de efectividad se deben reportar en forma puntual, pero ¿con cuántas cifras significativas? • Si un determinado valor del tiempo de ciclo da 14.87151 minutos, ¿qué tan significativas son asl últimas tres cifras? • Si en tres corridas se obtienen los valores de 14.87151, 14.88155, 14.85141 es poco probable que nos equivoquemos si reportamos 14.8 minutos. En realidad la respuesta se da en términos de que tan grande es la desviación estándar del conjunto de tiempos de ciclo. PROFESOR: DR. JORGE ACUÑA A.
DIGITOS SIGNIFICATIVOS • Procedimiento: 1. Recolectar los n-valores de la medida de efectividad. 2. Agrupe los valores según teorema del límite central 3. Calcule el promedio de promedios. 4. Calcule el valor de la desviación estándar s. 5. Calcule el valor de 2(s/n) 6. Identifique el dígito mas significativo. Ejemplos: 0.5678 es el (5) 1.235 es el (1) 13.45 es el (1) 7. Reporte el valor de la variable basado en el promedio calculado en 3), pero con un dígito menos que el valor calculado en 5). PROFESOR: DR. JORGE ACUÑA A.
DIGITOS SIGNIFICATIVOS • Ejemplos: Promedio 2(s/n) Puntual Intervalo 14.6875 0.7585 14 10 - 20 188.8 6.8675 180 180-190 499.09 13.76 400 400-500 2529.89 3.2789 2520 2520-2530 10.1 5.277 10 10 - 20 508.67 16.243 500 500-600 1256.5 0.9876 1256 1256-1257 PROFESOR: DR. JORGE ACUÑA A.
INTERVALOS DE CONFIANZA • Un estimador puntual es un simple número, con alguna incertidumbre o variabilidad asociada a el • Intervalo de confianza cuantifica la imprecisión probable del estimador puntual • Un intervalo que contiene el parámetro poblacional desconocido con una probabilidad alta especificada 1 – a • Intervalo de confianza para media poblacional m: tn-1,1-a/2 bajo el cual el área es 1 – a/2 en t student con n – 1 grados de libertad PROFESOR: DR. JORGE ACUÑA A.
PRUEBA DE HIPOTESIS • Prueba alguna conjetura sobre la población o sus parámetros • Nunca determina algo verdadero o falso con certeza, solamente da evidencia para tomar una de las dos direcciones • Hipótesis nula (H0) – lo que va a ser probado • Hipótesis alternativa (H1 or HA) – negación de H0 H0: m = 6 vs. H1: m 6 H0: s < 10 vs. H1: s 10 H0: m1 = m2 vs. H1: m1m2 • Desarrolla una regla de decisión para decidir sobre H0 o H1 basado en los datos de la muestra PROFESOR: DR. JORGE ACUÑA A.
ERRORES EN PRUEBA DE HIPOTESIS PROFESOR: DR. JORGE ACUÑA A.
VALORES DE p • Calcular el valor de p de la prueba • p-value (valor p) = probabilidad de obtener un resultado mas en favor de H1 que lo obtenido en la muestra • Pequeño p (< 0.01) evidencia convincente en contra de H0 • Gran p (> 0.20) indica falta de evidencia contra H0 • Conección con el método tradicional • Si p < a, rechazar H0 • Si pa, no rechazar H0 PROFESOR: DR. JORGE ACUÑA A.
EJEMPLO 1 En un proceso de fabricación de piezas de precisión se quiere que el valor nominal del diámetro de una pieza sea 20,0 mm. Se conoce que la desviación estándar de esta característica es 3,0 mm. Se toma una muestra de 25 piezas obteniéndose un promedio de diámetro de 19,2 mm. ¿Se ha cumplido con lo requerido? Use =5%. PROFESOR: DR. JORGE ACUÑA A.
SOLUCION Se seguirá el procedimiento planteado. a. Planteo de la hipótesis H0: µ = 20,0 Ha: µ 20,0 b. La hipótesis es bilateral puesto que no se cumple con lo requerido si el promedio de la muestra es mayor o menor que lo especificado. c. El nivel de significación es dado, = 5%. d. El estadístico por usar es el siguiente: _ x – µ Z = –––––– / n PROFESOR: DR. JORGE ACUÑA A.
SOLUCION e.Las áreas de cumplimiento de la hipótesis . f. Cálculo del estadístico citado en d. _ x – µ 19,2 – 20,0 Z = ——— = —————— = –1,33 / n 3,0/ 25 g. El valor de Z calculado (–1,33) se encuentra en el área de cumplimiento de la hipótesis nula. h. En conclusión, se puede afirmar, con =5%, que estadísticamente se cumple con el valor nominal requerido. PROFESOR: DR. JORGE ACUÑA A.
EJEMPLO 6 Una inspección de calidad efectuada sobre dos marcas de baterías para linterna, reveló que una muestra aleatoria de 61 unidades de la marca A generó un promedio de vida útil de 36,5 horas con una desviación estándar de 1,8 horas, mientras que otra muestra aleatoria de 31 unidades de la marca B generó un promedio de 36,8 horas con una desviación estándar de 1,5 horas. Con un nivel de significación del 5% se desea saber si hay diferencia significativa entre la vida útil de ambas marcas. PROFESOR: DR. JORGE ACUÑA A.
SOLUCION Para probar si hay diferencia significativa entre los promedios se debe comprobar primero la diferencia entre las varianzas, para así seleccionar el estadístico adecuado. 1. Hipótesis de varianzas Siguiendo los pasos de una prueba de hipótesis se tiene: a. Planteo de la hipótesis H0: 2A = 2B Ha: 2A2B b. Como la hipótesis alternativa es de desigualdad, entonces es bilateral. Esto significa que puede darse una relación mayor o menor. PROFESOR: DR. JORGE ACUÑA A.
SOLUCION c. El nivel de significancia es = 5%. d. El estadístico por usar es Fc = s12/ s22 (distribución F-Fisher), pues lo que se desea es medir la relación de varianzas. e. Las áreas de la hipótesis que se va a probar. v1 = n1–1 = 61–1=60 v2=n2-1 = 31–1=30 De una Tabla F con /2= 2.5% se tiene: F 60,30,0.025 = 0,551 F 60,30,0.975 = 1,440 f. Fc= s12/ s22= 1,82/1,52 = 1,44 g. Este valor calculado de Fc cae en el área donde se cumple Ho, por lo tanto se acepta Ho. PROFESOR: DR. JORGE ACUÑA A.
SOLUCION h. Se concluye que ambas varianzas, al 5% de significancia, son iguales. Se procede entonces a hacer la hipótesis de promedios. Siguiendo los pasos de prueba de hipótesis se tiene: a. Planteo de la hipótesis Ho: µ1 = µ2 Ha : µ1 µ2 b. La hipótesis es bilateral al igual que en la hipótesis anterior. c. El nivel de significación es del 5% PROFESOR: DR. JORGE ACUÑA A.
SOLUCION d.Según la hipótesis anterior las varianzas son desconocidas pero iguales, además, los tamaños de muestra son mayores que 30. Por lo tanto el estadístico por usar es: e. Las áreas de cumplimiento y rechazo. v = n1 + n2 – 2 v = 61 + 31 – 2 v = 90 PROFESOR: DR. JORGE ACUÑA A.
SOLUCION De tablas se obtienen los valores: t90, 0,025 = –1,987 t90,0,975=1,987 f. El estadístico calculado es: En este caso (1 – 2) = 0 pues es de suponer que tratándose de un mismo producto las medias poblacionales son iguales. g. No hay evidencia estadística, con = 5%, para concluir que ambas medias sean diferentes. PROFESOR: DR. JORGE ACUÑA A.
CORRIDAS DE SIMULACION • No sacar conclusiones en simulación con base en una sola corrida. Se debe aplicar muestreo. Para ello: 1. Hacer un número inicial de corridas ni (10). 2. Calcular la desviación estándar para la medida de efectividad mas importante del modelo. 3. Estimar el valor de h = t/2,n-1*s/n 4. Calcular n = ni*(h/h’)2 h’ es el valor deseado de intervalo 5. Correr la simulación por el número de corridas faltantes sea por n - ni , cambiando la semilla de número aleatorios, de lo contrario se repite la salida. Si nin entonces no hay necesidad de mas corridas. PROFESOR: DR. JORGE ACUÑA A.
CORRIDAS DE SIMULACION • EJEMPLO: Se han obtenido 10 corridas de una simulación que han generado los siguientes tiempos de ciclo: 93, 113, 107, 103, 112, 103, 112, 100, 98 y 105. Se desea un h’ de 3. 1. Calcular la desviación estándar, s = 6.59 2. Estimar h=t/2,n-1*s/n = 2.262*6.59/9 = 4.97 t0.975,9= 2.262 (en tablas) 3. Calcular n = ni*(h/h’)2 = 10 * (4.97/3) 2 = 27.44 ~ 28 4. Obtener 18 corridas mas de la simulación. PROFESOR: DR. JORGE ACUÑA A.
CALENTAMIENTO DE LA SIMULACION • Los resultados de una simulación deben ser obtenidos en el estado estable de la corrida. • El momento desde el inicio de la simulación hasta que se obtiene el estado estable se llama período de calentamiento. • En el estado transiente el estado las entidades residentes inicia en cero lo cual puede no representar la realidad. Esto hace que el sistema aparezca funcionando mejor de lo que realmente puede ser. PROFESOR: DR. JORGE ACUÑA A.
CALENTAMIENTO DE LA SIMULACION • Formas de eliminar información obtenida durante el periodo de calentamiento: 1. Seleccionar las condiciones iniciales del sistema antes de las corridas. Se debe conocer muy bien el sistema. 2. Descartar los datos obtenidos en la fase transiente, se utilizan para ello el método de los promedios móviles para identificar el inicio del estado estable de la corrida. 3. Correr el modelo por un periodo lo suficientemente grande a fin de que los resultados obtenidos durante la fase transiente sean absorbidos por los datos de la fase estable. PROFESOR: DR. JORGE ACUÑA A.