1 / 24

Regresión Lineal Verificación de Supuestos

Regresión Lineal Verificación de Supuestos. Análisis de residuales. Modelos de la regresión de p variables. Y i = β 0 + β 1 x i 1 + β 2 x i 2 + … + β p x ip + e i. Supuestos del modelo de la regresión. Normalidad Linealidad Homoscedasticidad

valarie
Download Presentation

Regresión Lineal Verificación de Supuestos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regresión LinealVerificación de Supuestos Análisis de residuales

  2. Modelos de la regresión de p variables Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei

  3. Supuestos del modelo de la regresión • Normalidad • Linealidad • Homoscedasticidad • La no multicolinealidad o tolerancia entre las variables independientes

  4. Representación del modelo en forma compacta Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 ............................... Yn = b0 + b1Xn1 + en y = Xβ+ ε (forma matricial compacta)

  5. Modelo de la regresión simple(en términos de estimadores) Y = b0 + b1X1 + e Observación Parte fija Parte aleatoria (determinista) (error)

  6. Normalidad • En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

  7. En otras palabras… • Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

  8. Distribución normal de la variable edad.

  9. Linealidad • Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

  10. sigue… • En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.

  11. Definición de modelo lineal • Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. • Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.

  12. Homoscedasticidad • Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

  13. Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.

  14. Multicolinealidad • Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//..

  15. Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.

  16. Regresión múltiple Modelos de la Regresión múltiple No Lineal Lineal Lineal V. Dummy Interac. Polinó-mica. Raíz Cuadrada Log-lineal Recípro-ca Expo-nencial

  17. SUPUESTOS EN LA REGRESIÓN MÚLTIPLE NORMALIDAD El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos, dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F. La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales. ¿cómo evaluarla? 1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados LINEALIDAD Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. ¿cómo evaluarla?Examen visual de los residuos y Gráfico de regresión parcial HOMOSCEDASTICIDAD Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables independientes. ¿cómo evaluarla? 1. Examen visual de los residuos 2. Test de Levene

  18. ANALISIS GRAFICO DE LOS RESIDUALES No linealidad Heterocedasticidad Dependencia temporal Heterocedasticidad No Correlación 0 Dependencia de evento 0 Preparado por León Darío Bello P.

  19. EVALUACIÓN DE LA MULTICOLINEALIDAD Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí Multicolinealidad: correlación entre tres o más variables independientes La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta ¿Cómo detectar la existencia de multicolinealidad? 1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad) 2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad) Efecto

  20. IDENTIFICACION DE LA MULTICOLINEALIDA • Matriz de correlación • Valor de la tolerancia • Factor de Inflación de la varianza (VIF) • Indice de condición (30 o más). Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero). Miden el grado en el que cada variable Xi se explica por otras variables independientes. Preparado por León Darío Bello P.

  21. REMEDIOS PARA LA MULTICOLINEALIDAD • Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación) • Utilizar el modelo sólo para predecir. (No interpretar coeficientes). • Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y. • Métodos más sofisticados (Regresión Bayesiana, Componentes principales) VALIDACION DE RESULTADOS Preparado por León Darío Bello P.

  22. Variables Dummy I1 I2 I3 Nunca fumó 0 0 0 Ex- fumador 1 0 0 Menos de 10 cigarrillos diarios 0 1 0 10 o más cigarrillos diarios 0 0 1 Son aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente: Preparado por León Darío Bello P.

More Related