720 likes | 1.64k Views
Regresión lineal múltiple. Tema 2. Descripción breve del tema. Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores
E N D
Regresión lineal múltiple Tema 2 Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Objetivos • Formulación del modelo de regresión múltiple • Métodos de estimación para dichos modelos • Tomar decisiones acerca de los parámetros • Aprendizaje de utilización de gráficos para detectar el tipo de relación entre las variables • Cuantificación del grado de relación lineal Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Introducción • Estudio conjunto de varias variables (más de dos). • Varias variables independientes xi se utilizan para explicar otra dependiente y • Utilizamos toda la información disponible Depto. Estadística, Universidad Carlos III
El modelo de regresión múltiple • n observaciones de la forma (xi1,…, xik,yi) • Objetivo: aproximar y a partir de x1,…,xk • x1,…,xk: variables independientes o explicativas • y: variable dependiente o respuesta (a explicar) Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Linealidad • Los datos se ajustan aproximadamente a la ecuación: • Con dos variables explicativas: Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano. Depto. Estadística, Universidad Carlos III
Homogeneidad • El valor promedio de la perturbación es cero, Depto. Estadística, Universidad Carlos III
Homocedasticidad:Var[ui]=s2 Varianza de perturbaciones constante Depto. Estadística, Universidad Carlos III
Independencia • Perturbaciones ui independientes entre sí. • En particular E[uiuj]= 0 para i ¹ j Depto. Estadística, Universidad Carlos III
Normalidad • Las perturbaciones siguen distribución normal ui~N(0, s2) • En consecuencia: Depto. Estadística, Universidad Carlos III
Otras hipótesis • El número de datos n es mayor que k+1 • Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes) Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Forma matricial del modelo • Habitualmente escribimos el modelo como Y = Xb + U con: Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Método de Mínimos Cuadrados Valor observado Dato (y) Valor observado Dato (y) Recta de regresión estimada Recta de regresión estimada Depto. Estadística, Universidad Carlos III
Mínimos Cuadrados • Objetivo: Buscar los valores de b0,b1,…,bk que mejor ajustan nuestros datos. • Ecuación: • Residuo: • Minimizar: Depto. Estadística, Universidad Carlos III
Mínimos Cuadrados • Resultado en forma matricial: Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Interpretación geométrica • Hemos calculado: • Tenemos: • Definimos la matriz: H es idempotente, simétrica y del mismo rango que X, (k+1). Es una matriz de proyección. Depto. Estadística, Universidad Carlos III
Interpretación geométrica • H simétrica (obvio) • H idempotente • Residuos ortogonales a valores ajustados • Residuos ortogonales a matriz de diseño X Depto. Estadística, Universidad Carlos III
Interpretación geométrica Subespacio vectorial generado por las columnas de X Depto. Estadística, Universidad Carlos III
Varianza • Para estimar s2 utilizamos la varianza residual • Es insesgado como estimador de s2 y además Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Propiedades de los estimadores • Normalidad. Sabemos Y=Xb +U, de donde Y~N(Xb,s2I). Como también es normal. • Esperanza. • Varianza. Depto. Estadística, Universidad Carlos III
Propiedades de los estimadores Tenemos La varianza s2 suele ser desconocida y utilizamos el error estándar estimado Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Inferencia. Contrastes para b Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste Rechazamos la hipótesis nula si: Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Inferencia. Int. de confianza para b Podemos construir un intervalo de confianza para bi con nivel de confianza 1-a como Si n > 30 y a = 0.05, sabemos que tn-k-1,a/2 @ 2. Depto. Estadística, Universidad Carlos III
Descomposición de la variabilidad Igual que en la regresión simple VT=VE+VNE Depto. Estadística, Universidad Carlos III
Coeficiente de determinación • El coeficiente de determinación se define: • El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Contrastederegresión(fueraprograma) Para averiguar si existe relación lineal entre la variable respuesta y las explicativas, realizamos Rechazamos la hipótesis nula si: Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Predicción para la media • Buscamos estimador puntual e I.C. para el valor medio de la respuesta cuando x=x0 Depto. Estadística, Universidad Carlos III
Predicción para la media • El intervalo de confianza para la media que obtenemos es: Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores • ¿Cuál sería el I.C. para para la respuesta media si la longitud del cable es 8 y la altura de la estructura es 275? Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Depto. Estadística, Universidad Carlos III
Predicción para una nueva observación • Intervalo de predicción • Ejemplo: semiconductores (long. 8, altura 275) Depto. Estadística, Universidad Carlos III
Descripción breve del tema • Introducción • Hipótesis del modelo • Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis • Modelo en forma matricial • Estimación de los parámetros • Propiedades de los estimadores • Inferencia, descomp. de la variabilidad y predicción • Multicolinealidad y diagnosis • Extensiones del modelo Depto. Estadística, Universidad Carlos III
Multicolinealidad • Problema frecuente que se presenta cuando las variables explicativas son muy dependientes entre sí. • No es un problema del modelo, sino de los datos, surge cuando det(XtX) próximo a cero. • Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple. Depto. Estadística, Universidad Carlos III
Índice de condicionamiento • Los autovalores de XtX son mayores o iguales que cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero. • Si 10 £ Ind.Cond. £ 30, multiolinealidad moderada • Si Ind.Cond. > 30, multicolinealidad alta Depto. Estadística, Universidad Carlos III
Ejemplo: Sabor del queso Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Multicolinealidad moderada Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Depto. Estadística, Universidad Carlos III