690 likes | 1.01k Views
Grado en Ingeniería Asignatura: Estadística. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4. Regresión. Introducción. Relaciones no deterministas. Regresion simple. Modelo . Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis.
E N D
Grado en Ingeniería Asignatura: Estadística.Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4
Regresión • Introducción. Relaciones no deterministas. • Regresion simple. • Modelo . • Estimación. • Diagnosis. • Regresion múltiple. • Gráficos de dispersión múltiples. • Estimación. • Diagnosis. • Previsiones. • Multicolinealidad. • Variables ficticias (dummy).
Objetivos • Saber analizar las relaciones entre variables a través de un modelo de regresión lineal que describa cómo influye una variable X sobre otra variable Y. • Saber obtener estimaciones puntuales de los parámetros de dicho modelo. • Saber construir intervalos de confianza y resolver contrastes sobre dichos parámetros. • Saber estimar el valor promedio de Y para un valor de X. • Saber predecir futuros valores de la variable respuesta Y.
Relaciones entre variables La regresión estudia relaciones entre variables. Qué tipo de relaciones entre variables pueden existir: -Relaciones deterministas (exactas). - Relaciones no deterministas (no exactas).
Relaciones deterministas Diremos que una relación entre dos variables es determinista cuando al conocer el valor de una de las variables podemos conocer exactamente el valor de la otra. Corresponden a una relación matemática exacta, una función. Y = f(x)
Relaciones no deterministas La relación entre las dos variables no es exacta. Conocido el valor de una de las variables, no podemos conocer el valor exacto de la otra. Sabemos que existe relación entre las variables pero no es exacta.
Regresión ¿Qué hace la regresión? Crea un modelo lineal para simular la relación entre variables. La relación no es exacta y el modelo no es exacto, pero es muy útil.
Regresión: residuos Si la relación no es exacta, siempre cometeremos un cierto error. e = residuo La distancia de cada punto (real) a la recta es la parte que el modelo no puede predecir. Estimaremos la recta de regresión para que los errores que cometemos sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el error medio sea cero.
¿Cómo denominamos a las variables? X Y Independiente Explicativa Es el valor que conocemos Dependiente Respuesta A explicar Es lo que queremos predecir
Regresión: un ejemplo Analicemos la relación entre los costes de producción en un proceso y la cantidad de piezas producidas . Y = coste de producción, X = piezas producidas. Calcularemos la recta con Statgraphics
Regresión: un ejemplo coste prod = 0,783429 + 0,669509*piezas producidas
Regresión: un ejemplo coste prod = 0,783429 + 0,669509*piezas producidas Por tanto, una empresa que produzca un millón de unidades tendrá unos costes de: coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €. ¿Todas las empresas con ese volumen de producción tienen el mismo coste?
Regresión: un ejemplo ¿Todas las empresas con ese volumen de producción tienen el mismo coste?? Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €. En concreto, para la empresa donde trabajo: coste prod = 1,66 millones. Pero el modelo dice: coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €. Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.
Hipótesis del modelo ¿Podemos aplicar el modelo de regresión a todos los tipos de datos? No, para que las conclusiones de nuestro modelos sean las correctas, los datos que manejamos deben cumplir: • Linealidad. • Homocedasticidad. • Independencia. • Normalidad.
Linealidad • Esta es una hipótesis fundamental. Los datos deben seguir una tendencia lineal, estar altamente correlacionados.
Linealidad: ¿qué pasa si los datos no son lineales? La regresión no representará correctamente la relación entre los datos. Si nuestros datos no son lineales, podemos buscar una transformación matemática (log, sqrt…) que mejore su linealidad.
Homocedasticidad • Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir la gráfica debe ser • Cuando la varianza de los datos es constante se dice que son HOMOCEDÁSTICOS. • ¿Qué sucede si los datos son no son homocedásticos?
Homocedasticidad: datos heterocedásticos • Cuando la varianza no es constante, se dice que los datos son HETEROCEDÁSTICOS. ¿Cómo afecta esto a la regresión? Los errores en la previsión serían más grandes a medida que aumenta el valor de las variables! No se debe aplicar regresión a datos heterocedásticos. Hay que transformarlos (por ejemplo, LOG).
Comprobación de la linealidad y homocedasticidad La comprobación de las hipótesis de linealidad y homocedasticidad podemos realizarla mediante un análisis grafico (gráficos de dispersión) de nuestros datos. Si los datos cumplen estas hipótesis podemos continuar nuestro análisis.
Independencia Exigimos que los datos que estamos analizando sean independientes unos de otros: - Si analizamos los costes en función del volumen de producción para distintas fábricas, asumimos que los datos de una fabrica no afectan a los de otra. - NO pueden analizarse con regresión valores de una secuencia temporal, ya que cada dato depende del anterior.
Normalidad La última de las hipótesis del modelo exige que los datos que analizamos sean normales. ¿Qué significa esto? Hemos dicho que para cada valor de X, la Y toma valores en un cierto rango. Asumimos que los valores que Y toma para cada valor de X siguen una distribución normal.
El modelo Si los datos cumplen las hipótesis que hemos formulado, ya podemos estimarlo: coste prod = 0,783429 + 0,669509*piezas producidas
El modelo coste prod = 0,783429 + 0,669509*piezas producidas b0 Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real). b1 El signo “+” nos indica que las dos variables crecen a la vez El signo “-” nos indica que, si una variable crece, la otra decrece. Además, nos dice cómo crece la Y cuando lo hace la X. DY = b1 DX. Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las piezas producidas aumentan en un millón? D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.
En regresión partimos de una muestra de datos y a partir de ella estimamos el modelo. Regresión: un problema…. coste prod = 0,783429 + 0,669509*piezas producidas
Si variamos la muestra, cambiarán los parámetros del modelo (los números que hemos calculado). ¿Es posible elegir una muestra que nos de esta gráfica? Regresión: un problema…. • Si esto sucede, la pendiente de la recta b1sera cero y se dice que LA REGRESIÓN NO ES SIGNIFICATIVA.
Queremos estar seguros de que nuestra regresión es válida independientemente de la muestra considerada. Queremos estar seguros de que la regresión vale para toda la población estudiada y no solo para una muestra concreta. QUEREMOS ASEGURARNOS DE QUE b1 NUNCA VALE CERO. Regresión: un problema….
Análisis de significación • Para analizar si b1 es cero, tenemos tres herramientas: • Intervalos de confianza. • Contrastes de Hipótesis: • Estadístico t. • p-valor.
Intervalos de confianza Calcularemos un rango donde estará la estimación del verdadero valor deb1, cualquiera que sea la muestra que tomemos. Esto lo aseguramos con una cierta probabilidad (generalmente el 95%). b1-2xSE(b1) b1b1+2xSE(b1) Si el valor 0 no pertence al intervalo, el parámetro es significativo.
Intervalos de confianza coste prod = 0,783429 + 0,669509*piezas producidas (b1-2xSE(b1) ; b1+2xSE(b1) ) ( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81) El 0 no pertenece al intervalo, el parámetro es significativo.
Contrastes de hipótesis • Una alternativa para asegurar que b1 no es cero es plantear un contraste según la forma estándar: H0: b1 =0, H1: b1 ≠0. Statgraphics nos da el p-valor de este contraste. • p<0.05 • Rechazamos Ho • La regresión es significativa.
Contrastes de hipótesis: Prueba de la t • Aun tenemos una alternativa al p valor para resolver el contraste: H0: b1 =0 H1: b1 ≠0 • p<0.05 • Rechazamos Ho • La regresion es significativa
Contrastes de hipótesis: Prueba de la t • Aún tenemos una alternativa al p-valor para resolver el contraste: H0: b1 =0, H1: b1 ≠0. • |t|>2 rechazamos Ho, • |t|<2 aceptamos Ho. • |t|>2 • Rechazamos Ho • La regresión es significativa.
¿Es bueno mi modelo? ¿Cuánto? -> R2 El coeficiente R2 indica cuánto de Y es explicado por X Ejemplo: R2=71.76% R2 = coeficiente de correlación muestral al cuadrado.
Resumen • Estudiamos los datos y vemos si cumplen las hipótesis. • Si no las cumplen, transformamos. • Ajustamos el modelo. • Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y.
Diagnosis • Las decisiones que podemos tomar gracias a la información aportada por un modelo de regresión son importantes. • Necesitamos estar seguros de que nuestras conclusiones son correctas. • Para ello: • Contrastes, intervalos de confianza…. • Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo. • En la diagnosis del modelo, comprobamos que la parte aleatoria del modelo (sus residuos) no contiene información adicional ni refleja lagunas en el cumplimiento de las hipótesis del modelo (linealidad, homocedasticidad, independencia y normalidad)
Diagnosis • La diagnosis se realiza observando los gráficos de los residuos: debemos ver gráficos como este:
Diagnosis • No podemos aceptar residuos con otros comportamientos:
Regresión • Introducción. Relaciones no deterministas. • Regresion simple. • Modelo . • Estimación. • Diagnosis. • Regresion múltiple. • Gráficos de dispersión múltiples. • Estimación. • Diagnosis. • Previsiones. • Multicolinealidad. • Variables ficticias (dummy).
Regresión múltiple • En un modelo de regresión múltiple, queremos conocer el valor de una variable respuesta a partir de más de una variable explicativa: • En esta expresión, cada uno de los coeficientes beta representa la influencia individual que cada una de las X tiene sobre Y. • Ventajas: • Las hipótesis del modelo son las mismas que en regresión simple. • Los contrastes, intervalos, diagnosis… también. • Pequeños inconvenientes: • La visualización de los gráficos es un poco más complicada. • Necesitamos redefinir el coeficiente R2.
Regresionmultiple: Graficos • Cada celda del gráfico matricial representa la relación bilateral entre dos variables:
Regresión múltiple: R2 corregido • El coeficiente R2 tiene el inconveniente de que se incrementa al aumentar el número de variables en el modelo (ya sean significativas o no). Para paliar este efecto, corregimos el coeficiente para que tenga en cuenta este efecto, por lo que en regresión múltiple se utiliza el coeficiente R2 corregido ( o ajustado). Adjusted R2 = 81.73%
Regresión • Introducción. Relaciones no deterministas. • Regresion simple. • Modelo . • Estimación. • Diagnosis. • Regresion múltiple. • Gráficos de dispersión múltiples. • Estimación. • Diagnosis. • Previsiones. • Multicolinealidad. • Variables ficticias (dummy).
Ejemplo Número de accidentes en provincias españolas en función del número de vehículos matriculados. ----------------------------------------------------------------------------- Dependent variable: nacciden ----------------------------------------------------------------------------- Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT 278,24 102,518 2,71406 0,0265 matricul 0,0993373 0,00850344 11,682 0,0000 ----------------------------------------------------------------------------- R-squared (adjusted for d.f.) = 93,7703 percent
Ejemplo Número de accidentes en provincias españolas en función del número de permisos de conducir ----------------------------------------------------------------------------- Dependent variable: nacciden ----------------------------------------------------------------------------- Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT 216,481 127,099 1,70325 0,1269 permisos 0,107617 0,0109657 9,81395 0,0000 ----------------------------------------------------------------------------- R-squared (adjusted for d.f.) = 91,3722 percent
Regresiones Accid=278.2 +0.1 Matriculas (11.68) Accid=216.4 +0.1 Permisos (9.81)
Regresión con las dos variables ----------------------------------------------------------------------------- Dependent variable: nacciden ----------------------------------------------------------------------------- Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT 250,63 113,216 2,21373 0,0625 matricul 0,0725492 0,0395634 1,83374 0,1093 permisos 0,0301069 0,043353 0,694461 0,5098 -----------------------------------------------------------------------------
Regresiones ?????? Accid=278.2 +0.1 Matriculas (11.68) Accid=216.4 +0.1 Permisos (9.81) Accid=250+0.07 Matriculas +0.03 Permisos (1.8) (0.69)
¿Qué está pasando? Correlación=.975
Regresión: un problema • A veces las variables independientes son muy parecidas: contienen la misma información. Variables Independientes Variable Dependiente