1 / 51

UT 7 – Parte I

UT 7 – Parte I. ANOVA Análisis de la Varianza ( AN alysis O f VA riance). Índice. I.- Preámbulo II.- Análisis de la varianza con 1 factor II.1.- Un ejemplo II.2.- Idea intuitiva del ANOVA II.3.- Descomposición de la suma de cuadrados. Test F

Download Presentation

UT 7 – Parte I

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UT 7 – Parte I ANOVA Análisis de la Varianza (ANalysis Of VAriance) ESTADÍSTICA II

  2. Índice I.- Preámbulo II.- Análisis de la varianza con 1 factor II.1.- Un ejemplo II.2.- Idea intuitiva del ANOVA II.3.- Descomposición de la suma de cuadrados. Test F II.4.- Intervalos LSD de comparación de medias II.5.- Análisis de residuos II.6.- Estudio de efectos sobre varianzas II.7.- Realización práctica de los cálculos II.8.- Número desigual de observaciones para cada factor II.9.- Factores cuantitativos: descomposición de la SCFactor Resumen Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  3. I-Preámbulo • Técnica básica para el estudio de observaciones que dependen de varios factores. • Herramienta fundamental en el análisis de los modelos de Diseño de Experimentosy Regresión Lineal • En esta UT veremos el caso más sencillo: la comparación de los efectos de las Ivariantes de un único factor. (Más adelante se generalizará al estudio simultáneo de K factores) Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  4. II- Análisis de la Varianza con 1 Factor EJEMPLO Una factoría de motores tiene 2 proveedores de los cigüeñales que mecaniza. Un tercer proveedor ofrece sus cigüeñales algo más caros argumentando sus mejores propiedades dinámicas, concretamente que su equilibrado dinámico es menor. La factoría decide hacer una prueba comparando 10 cigüeñales del nuevo proveedor (código=1) con 10 de cada uno de sus 2 proveedores tradicionales (códigos 2 y 3). Los resultados obtenidos se recogen en la siguiente tabla: Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  5. EJEMPLO Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  6. EJEMPLO CUESTIÓN CLAVE ¿Hay evidencia suficiente respecto a la superioridad de los cigüeñales del nuevo proveedor para cambiar a éste pese al precio ligeramente más elevado?. • El ejemplo que consideramos es un caso particular de diseño de experimentos: se estudia el efectode un único factor (el proveedor) con 3 variantes (los 3 proveedores a comparar) sobre la media de la variable respuesta (el equilibrado dinámico, que debe ser el menor posible) (En la siguiente unidad veremos el análisis del efecto de varios factores) Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  7. Autoevaluación • Dado que conocemos una técnica estadística para comparar dos tratamientos ¿no sería posible analizar los datos anteriores comparando dos a dos las tres parejas posibles de proveedores?. • Si en vez de tratarse de 3 hubiera 5 proveedores • ¿Cuántas parejas de tratamientos habría que comparar? • Suponiendo que los 5 proveedores fueran idénticos y si en cada comparación se operase con un riesgo de 1ª especie del 5%, ¿la probabilidad de obtener una conclusión errónea (deducir que al menos dos de los proveedores son distintos) sería del 5%? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  8. Técnica estadística adecuada: Análisis de la Varianza Conclusión En general, la práctica de analizar los resultados de este tipo de experimentos comparando 2 a 2 (mediante las técnicas ya vistas) todas las parejas posibles de tratamientos no es recomendable: • es muy laboriosa • incrementa la probabilidad global de cometer un error de 1ª especie Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  9. Objetivos del EJEMPLO Se usará a lo largo de la UT • Dar una idea intuitiva del fundamento del ANOVA • Enseñar cómo se calcula una tabla de análisis de la varianza y cómo se interpreta su contenido • Dar una técnica sencilla para comparar varias medias, si el ANOVA resulta significativo • Poner de manifiesto la importancia de las técnicas gráficas de análisis de residuos • Introducir una técnica para analizar si existen diferencias de varianza entre diversos tratamientos Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  10. II.2- Idea intuitiva del ANOVA • Técnica estadística muy poderosa para el estudiodel efecto de uno o más factores sobre la media de una variable. • Idea básica:descomponer la variabilidad total observada en unos datos en las partes asociadas a cada factor estudiado más una parte residual, con la que después se compararán las dos primeras: Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  11. Ejemplo intuitivo • Efecto de la variedady la dosis de abonadosobre el rendimiento de un cultivo en 12 parcelas. • Veamos unos rendimientos hipotéticos en algunos casos extremos: Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  12. Factor 1 Valor observado: RENDIMIENTO Parcela 3 sembrada con la variedad 1 y cultivada con la dosis de abonado 2 Valor observado: RENDIMIENTO Parcela 4 sembrada con la variedad 1 y cultivada con la dosis de abonado 2 Factor 2 3 variantes: 3 dosis distintas 2 variantes Ejemplo intuitivo Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  13. Nada influye SCTotal=0 Suma de Cuadrados Total (SCT) Ejemplo intuitivo Caso A Rendimiento medio = 20 La suma de los cuadrados de las desviaciones de cada valor observado del RENDIMIENTO con respecto a su media: Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  14. SCT=300  Hay variabilidad. Al “analizar la varianza” se observa que la variabilidad se debe sólo al efecto de la variedad Ejemplo intuitivo Caso B Rendimiento medio = 25 El factorvariedadinfluye sobre la media del rendimiento SCTotal=SCvariedad Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  15. SCT=500  Hay variabilidad. Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto de la variedad como al efecto de la dosis de abonado. Ejemplo intuitivo Caso C Rendimiento medio = 30 El factorvariedad y el factordosisinfluyen sobre la media del rendimiento No hay interacción. El efecto del abonado es lineal. SCTotal=SCvariedad+SCabonado Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  16. SCT=1066’67  Hay variabilidad. Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto de la variedad como al efecto de la dosis de abonado y a su interacción. Ejemplo intuitivo Caso D Rendimiento medio = 31’67 El factorvariedad, el factorabonadoy su interaccióninfluyen sobre la media del rendimiento El efecto favorable de la dosis 3 es mayor en la variedad 2 que en la 1. SCTotal=SCvariedad+SCabonado+ SCInteracción Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  17. SCT=1001  Hay variabilidad. Se observa que la variabilidad se debe tanto al efecto de la variedad como al efecto de la dosis de abonado y a su interacción, así como al de los factores no controlados Ejemplo intuitivo Caso E Único realista Rendimiento medio = 31’6 El factorvariedad, el factorabonadoy su interacción, así como otros factores no controlados o no tenidos en cuenta influyen sobre la media del rendimiento Las parejas de parcelas con idéntica variedad y abonado no rinden exactamente igual: SCTotal=SCvariedad+SCabonado+ SCInteracción + SCResidual Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  18. Significación de un efecto • La comparación de la SC asociada a cada efectocon la SCresidual permite estudiar si dicho efecto es o no significativo. • Para llevar a cabo dicha comparación, cada suma de cuadrados se divide por sus grados de libertad, obteniéndose unos estadísticos a los que se denomina cuadrados medios: Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  19. Significación de un efecto • El CMTotal es la varianza de los datos observados. • El CMResidual es una estimación de la 2 de las poblaciones muestreadas (asumiendo misma 2 para todas las poblaciones) • El CM asociado a cada efecto: • Si el efecto no existe en la población el CM es otra estimación de la 2 independiente de la del CMResidual. • Si existe un efecto real poblacional, entonces tiende a ser mayor que 2 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  20. Si no existe un efecto real del factor a nivel poblacional el CMfactor será muy parecido alCMresidual El f-ratio será muy parecido a 1 con una distribución F de Fisher con los grados de libertad correspondientes. Significación de un efecto Denominamos f-ratio o f calculada al cociente: CMfactor/CMresidual Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  21. ¿De dónde sale esto...? Significación de un efecto • Si existe un efecto real del factor a nivel poblacional el CMfactor >>> CMresidual El f-ratio será demasiado elevado para ser una F de Fisher con los grados de libertad correspondientes. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  22. II.3 Descomposición de la Suma de Cuadrdos. Test F Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  23. ANOVA Ejemplo Proveedores cigüeñales • Experimento: • Factores: PROVEEDOR (solo 1) • Variantes: Prov. 1, 2 y 3 (3) • Variable respuesta: equilibrado dinámico (EQUIDINA) • Objetivo: ¿existen diferencias entre los equilibrados dinámicos medios en los cigüeñales de los 3 proveedores? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  24. Riesgo de 1ª especie: =0’05 Tabla: F2,27(5%) = 3’35>> 0’532 ¡NO HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES! Ejemplo Proveedores cigüeñales • Tabla resumen del ANOVA Aceptamos H0 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  25. =0’05 3.35 Aceptación Rechazo 0’53 Ejemplo Proveedores cigüeñales TEST F (Gráficamente) Aceptamos H0 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  26. Hay que estudiar entre cuáles de los tratamientos existen diferencias significativas. • Un valor significativo de la f-ratio sólo indicaría que al menos una de las tres medias difiere de las restantes, pero no precisa cuáles son las que difieren entre sí. Intervalos LSD II.4- Intervalos LSD para la comparación de medias • Si el test F resulta significativo: • ¿Es mejor el Prov. 1 que el 2 y el 3? • ¿Es mejor el 1 y el 2 que el 3, no habiendo diferencias entre los primeros? • ... Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  27. Media del tratamiento i Valor de TABLAS Estimación de la desv. Típica de l tratamiento II.4- Intervalos LSD para la comparación de medias • Intervalos LSD (Least Signficative Difference) son intervalos para la media de cada tratamiento. • Intuitivamente, se calculan como la mitad del intervalo de confianza para la diferencia de medias: • NOTA: el intervalo obtenido no es un intervalo de confianza para las medias correspondiente. Su utilización es sólo la comparación de medias Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  28. II.4- Intervalos LSD para la comparación de medias Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  29. Estimación de la varianza poblacional Media del tratamiento 1 Desv. Típica con que se estima cada media II.4- Intervalos LSD para la comparación de medias Ejemplo: Intervalo LSD Prov 1: ¿Cuáles serían los otros intervalos LSD? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  30. Nº total de observaciones Equilibrado dinámico medio, sea cual sea el proveedor Media muestral de cada proveedor Estimación de la S de la media de cada proveedor Intervalos LSD para cada proveedor Ejemplo con Statgraphics: Table of Least Squares Means for EQUIDINA with 95,0 Percent Confidence Intervals ------------------------------------------------------------------------------ Stnd. Lower Upper Level Count Mean Error Limit Limit ------------------------------------------------------------------------------ GRAND MEAN 30 40,5333 PROV 1 10 37,0 4,41303 27,9452 46,0548 2 10 41,3 4,41303 32,2452 50,3548 3 10 43,3 4,41303 34,2452 52,3548 ------------------------------------------------------------------------------ Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  31. Gráficamente con Statgraphics: Intervalo LSD Prov:La diferencia entre la media de dos tratamientos será significativa si los respectivos intervalos LSD no se solapan. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  32. II.5 Análisis de residuos • Residuos: diferencia entre cada dato y la media de su tratamiento. • Su estudio tiene una gran importancia práctica. • Ejemplo: Media del equilibrado dinámico de la muestra del prov. 1 Residuo 1 Media del equilibrado dinámico de la muestra del prov. 2 Primer valor observado del equilibrado dinámico del prov. 1 Residuo 17 Séptimo valor observado del equilibrado dinámico del prov. 2 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  33. II.5 Análisis de residuos • El Statgraphics calcula los residuos automáticamente y permite guardarlos en una variable que por defecto denomina RESIDUALS. • También efectúa una representación gráfica de los mismos. • Permite detectar datos anómalos o pautas de variabilidad sospechosas. • ¡Una observación anómala puede invalidar por completo todas las conclusiones de un análisis! Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  34. II.5 Análisis de residuos Los residuos deben estar alrededor de cero, distribuidos más o menos de manera uniforme Dato anómalo: la 5ª observación del prov. 1 debe ser 35, no95 Si se vuelve a realizar el ANOVA ... Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  35. Riesgo de 1ª especie: =0’05 Tabla: F2,27(5%) = 3’35<< 7’64 ¡SI HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES! Ejemplo Proveedores (sin dato anómalo) • Tabla resumen del ANOVA Rechazamos H0 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  36. =0’05 3.35 Aceptación Rechazo 7’6 Ejemplo Proveedores cigüeñales TEST F (Gráficamente) Rechazamos H0 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  37. Los intervalos se solapan: entre los prov 2 y 3 no hay diferencias significativas del eq. dinámico Pero entro el prov. 1 y el 2 o el 3 si hay diferencias significativas Intervalos LSD ¿Entre que tratamientos existen diferencias significativas con respecto al equilibrado dinámico? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  38. ¿Existen diferencias entre los proveedores de cigüeñales respecto a la varianza de los equilibrados? II.6 Estudio de efectos sobre varianzas • moderna Estadística Industrial gran importancia de los enfoques de diseño robusto desarrollados en Japón  • obtener condiciones operativas que sean poco sensibles a la existencia de causas de variabilidad  • estudio de posibles efectos sobre la dispersión de los factores implicados en el diseño de productos y procesos. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  39. II.6 Estudio de efectos sobre varianzas • Se asumeque las poblaciones de las que procede la EQUIDINA de cada proveedor son iguales. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  40. II.6 Estudio de efectos sobre varianzas • Pero, ¿y si los datos proceden de poblaciones con diferentes varianzas según el proveedor? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  41. Romero, R. y Zúnica, L. R. proponen un método aproximado, pero eficaz, sin los inconvenientes de los tests más formales, basado en el estudio de los residuos: II.6 Estudio de efectos sobre varianzas • Procedimientos clásicos: tests de Bartlett y Hartley • Necesidad de aprenderse un nuevo procedimiento. • No aplicables si hay más de un factor implicado. • Necesitan replicaciones en cada tratamiento. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  42. II.6 Estudio de efectos sobre varianzas ¿Qué aspecto tendría el gráfico si los equilibrados del proveedor 1 tuvieran mucha menor varianza que los otros dos? Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  43. II.6 Estudio de efectos sobre varianzas Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  44. II.6 Estudio de efectos sobre varianzas • ¿Existe alguna relación entre la media aritmética de los cuadrados de los residuos de un proveedor y la S2 para dicho proveedor? • La media de los residuos al cuadrado es ligeramente superior a l S2, y tienden a ser iguales si Ni es grande. Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  45. ANOVA II.6 Estudio de efectos sobre varianzas • Si no hay diferencias entre las varianzas de los proveedores  no debe haber diferencias entre las medias de los residuos al cuadrado para cada proveedor. • ¿Qué herramienta o técnica se puede usar para conocer si existen o no diferencias entre múltiples medias de una v.a. de distintas poblaciones? • Variable respuesta: (residuos)2 • Factor: proveedor • Variantes: 3 Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  46. II.6 Estudio de efectos sobre varianzas ANOVA Table for RESIDUALS^2 by PROV Analysis of Variance ----------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------- Between groups 8198,36 2 4099,18 1,89 0,1707 Within groups 58587,0 27 2169,89 ----------------------------------------------------------------------------- Total (Corr.) 66785,4 29 P-Value > 0’05 Aceptamos la H0 de igualdad de varianzas  el factor proveedor no tiene un efecto significativo sobre la dispersión Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  47. II.7 Realización práctica de los cálculos Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  48. II.8 Número desigual de observaciones para cada factor Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  49. II.9 Factores cuantitativos: descomposición de la SCF Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

  50. Resumen • Descomposición de la variabilidad total: • Una parte debida al efecto del factor investigado • Parte residual que recoge el efecto de todos los factores no controlados Ambas partes se comparan mediante un test F en la TABLA del ANOVA, y esto permite estudiar la significación del factor en estudio. • Si el test F resulta significativo, se construyen intervalos LSD (least signficative difference) para comparar las medias de las distintas variantes del factor Dto. Estadística e Investigación Operativa Aplicadas y Calidad – Estadística II

More Related