510 likes | 877 Views
Segunda sesión. Representación GRAFICA y representación ALGEBRAICA de los modelos. Para facilitar la comprensión de los modelos causales disponemos de dos formas para representarlos, la gráfica y la algebraica.
E N D
Representación GRAFICA y representación ALGEBRAICA de los modelos • Para facilitar la comprensión de los modelos causales disponemos de dos formas para representarlos, la gráfica y la algebraica. • Estas dos formas de representación son equivalentes entre sí. La representación gráfica se realiza mediante los diagramas de caminos y la forma algebraica, mediante ecuaciones (en la mayoría de los casos lineales) que relacionan las variables entre sí.
Representación gráfica y algebraica de los modelos • En este ejemplo todas las variables son observables.
♦ Las flechas entre las variables simbolizan las relaciones cuya existencia se postula. ♦ Las flechas pueden ser rectas o curvas ♦ Si la variable X1 tiene un efecto causal sobre la variable Y1, dibujamos una flecha recta con origen en X1 y final en Y1. ♦ Se asume que, si se produce un cambio en el valor de la variable situada en el origen de la flecha, también se producirá en el valor de la variable situada en la punta de la flecha. Este fenómeno no se da en el sentido inverso. ♦Cuando dos variables están correlacionadas, se unen mediante una flecha curva con dos puntas que apuntan a las dos variables
MODELO DE REGRESIÓN SIMPLE • Este modelo consta de: • - una variable x, independiente y observable (medible directamente); • - una variable y, dependiente, que también es observable; • - un camino , que va de la variable x a la y; • una variable de error . • La ecuación de este modelo de regresión lineal sería: • y = x + • Esta ecuación muestra la relación existente entre las variables x e y, e indica que una variación unitaria en la variable x produce una variación de unidades en la variable y. • es el efecto de la variable x sobre la variable y. • es el término de error de y.
Modelo de regresión múltiple y = 1 x1 + 2 x2 +
Algunos supuestos del modelo de regresión • La relación funcional entre las variables independientes (xi) y la variable dependiente (y) es lineal • No se omiten variables relevantes, ni se incluyen variables irrelevantes en el modelo • Las variables X1 , X 2, ... Xk son linealmente independientes (no se puede poner a una de ellas como combinación lineal de las otras). Esta es la hipótesis de independencia y cuando no se cumple se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R 2 = 1 con las otras v.independientes • Los residuos: Siguen una distribución Normal N(0, σ2) No están correlacionados con ninguna de las variables independientes, ni están autocorrelacionados. Hay homocedasticidad : la varianza del error es constante para los distintos valores de las variables independientes.
y1 = 11 x1 + 12 x2 + 13 x3 + 1 y2 = 21 x1 + 21 y1 + 23 x3 + 2 En este sistema y1, y2 son las variables endógenas, dependientes o efectos del modelo y x1, x2, x3 son las variables exógenas e independientes del modelo. Estas variables actúan como causa y el modelo no explica su ocurrencia. La flecha curva de doble dirección entre x1 y x2 representa una relación existente (covariación) entre estas dos variables exógenas, no explicada por el modelo. 12 es la covarianza entre las variables exógenas x1 , x2; 11 es el efecto de x1 sobre y1; 12 es el efecto de x2 sobre y1; 13 es el efecto de x3 sobre y1; 21 es el efecto de x1 sobre y2; 21 es el efecto de y1 sobre y2; 1 es el termino de error de y1; 2 es el termino de error de y2.
Modelo de Medida – Análisis Factorial Confirmatorio se usa para medir variables no observables directamente su medida se realiza mediante la utilización de indicadores • La representación algebraica de un modelo de este tipo sería • 1 = 11 x1 + 21 x2 + 31 x31 + 1
Modelos Recursivos • Cuando tanto el número de variables independientes observables como el número de variables dependientes observables son superiores a uno y no existen ciclos, al modelo se le llama modelo recursivo de ecuaciones estructurales.
En el análisis de caminos: • Los modelos recursivos: • 1. tienen efectos causales unidireccionales • 2. Pueden estimarse por regresión múltiple • 3. Siempre están identificados • Los modelos no recursivos: • 1 Tienen bucles • 2. Es mas complejo determinar su identificación (hay reglas pero no sirven para todos los modelo) • 3. Hay que estimarlos usando programas especiales (AMOS, LISREL,EQS, etc)
Prerequisito • Para avanzar en los modelos de estructura de covarianza son necesarios ciertos conocimientos previos. • Entre ellos es conveniente saber como realizar (con SPPS u otro programa similar) e interpretar los resultados de un análisis de regresión múltiple.
Ejemplo de regresión: • Variables independientes: • NIVEL SOCIOECONOMICO FAMILIAR, • Edad del/a encuestado/a, • RIQUEZA VERBAL • Variable dependiente: • PAGA SEMANAL EN EUROS.
Resumen del modelo • Modelo R R cuadrado R cuadrado corregida • 1 ,554(a) ,307 ,267 • a Variables predictoras: (Constante), NIVEL SOCIOECONOMICO FAMILIAR, Edad del/a encuestado/a, RIQUEZA VERBAL • El 30’7 % de la variación de la paga es explicado por las variables del modelo.
Salida modelo regresión con SPSS La ecuación de regresión será: Paga = - 5´318 + 0’761 edad – 0’016 Riq.verbal + 4’ 249 niv soc Zpaga = 0’188 Zedad – 0’014 Zriq.verbal +0’538 znivsoc
El resultado del diagrama realizado con los mismos datos en AMOS
Colocación de los parámetros estimados en la salida gráfica de AMOS
USO DE AMOS PARA REALIZAR TEST DE HIPÓTESIS • Si comprobamos este modelo obtenemos una Chi2 de 0 y no se puede calcular su p-value
El test chi cuadradoinforma sobre el ajuste entre las covarianzas calculadas con los datos de la muestra y las que se obtienen al ajustar el modelo.
La hipótesis nula es que los parámetros calculados para la muestra servirian también para la población.En este caso aceptar la hipótesis nula significa que NO rechazamos el modelo.Compararemos el valor de chi cuadrado que nos calcula el programa con el de la tabla chi cuadrado, teniendo en cuenta el nivel de confianza y los grados de libertad
Si la Chi2 que calcula el programa es menor que el valor que da la tabla, estamos en la región de aceptación y por ello aceptamos H0, lo que significa que no hay diferencias significativas (al nivel prefijado) entre nuestra teoría (el modelo) y los datos de la muestra
Si fijamos Cov ( Estudios padres y Nivel socioeconómico) a 0 , (en la muestra era 0’058) se obtienen una Chi2 = 0’222 con 1 grado de libertad y p=0’637 (aceptamos H0 • Si fijamos Cov ( Nivel socioeconómico y paga) a 0 (en la muestra era 4’02) se obtienen una Chi2 = 17’129 con 1 grado de libertad y p=0’00 (rechazamos H0)
También tenemos en la salida el número correspondiente al nivel de probabilidad (Probability lebel).Si este número es mayor que el nivel prefijado (0,05 ó 0,01) se aceptará la hipótesis nula y NO se rechaza el modelo.
Fases en la construcción de un modelo de Estructura de covarianza (1) • 1. Especificación: plasmar las hipótesis en ecuaciones o gráficos • 2. Identificación: no todos los modelos pueden estimarse correctamente. El que estén identificados garantiza la existencia de solución única • 3. Selección de variables observadas. Cada concepto teórico debe “medirse” con una o varias variables observadas (indicadores)
Fases en la construcción de un modelo de Estructura de covarianza (2) • 4. Estimación del modelo: mediante el programa estadístico (AMOS, LISREL; EQS, etc) se estiman los parámetros y estadísticos, a partir de los datos • 5. Valoración del ajuste del modelo: mediante el estudio de los índices de ajuste. Si se acepta el modelo se pasa a interpretar los resultados y si se rechaza habrá que desecharle o elaborar un nuevo modelo. • 6. Re-especificación: plantear un nuevo modelo basado en el anterior y contrastar si mejora o no el ajuste. Hay que hacerlo a partir de una basé teórica previa.
LOS DATOS • Los modelos de Estructura de Covarianza son técnicas que analizan la estructura de las varianzas y covarianzas de los datos, no los propios datos. • En general para estudiar un modelo basta usar la matriz de varianzas-covarianzas de los datos, no los propios datos. • Aunque nunca viene mal disponer de los propios datos.
Revisión de los datos • Esta es una fase importante y hay que considerar los siguientes aspectos: • Descripción • Valores perdidos • Multicolinealidad • Valores átipicos • Normalidad • Linealidad y homocedasticidad
Aspectos a tener en cuenta en la Especificación del modelo • 1. Las variables que se van a considerar • 2. Cuál va a ser la escala de dichas variables • 3. El tipo de relación entre las variables • 4. La dirección de la relación • 5. Complejidad del modelo o identificación • 6. Tamaño muestral
Variables que se incluyen • Las variables que se incluyen en un modelo deben serlo por criterios teóricos o empíricos (otros trabajos publicados) • Posibles problemas: • 1. Hay demasiadas variables explicativas y es mejor excluir alguna • 2. Hay pocas variables explicativas • 3. No aparecen en el modelo variables significativas • (los efectos de la omisión de variables son sesgos en la magnitud y sentido de los estimadores difíciles de determinar)
Modelos de segundo orden • Son modelos en los que una o mas variables latentes están definidas por indicadores que son a su vez variables latentes. • Se verán modelos “multi-level” mas adelante
El modelo completo se expresa algebraicamente con un sistema de ecuaciones estructurales que contienen variables y parámetros estructurales. Las variables que intervienen en el modelo completo pueden ser: latentes, observables y de error. Los parámetros estructurales son constantes con las que se expresan las relaciones existentes entre las variables..
El sistema de ecuaciones estructurales consta de dos subsistemas: el modelo de variables latentes que consta de las ecuaciones estructurales que expresan las relaciones existentes entre la variables latentes y el modelo de medida que se usa para medir variables que no son observables directamente y cuya medida se realiza mediante la utilización de una serie de indicadores
Especificación del modelo • Previo al diseño de un modelo es necesario un conocimiento sustantivo del tema objeto de estudio que representaremos en el modelo. • Etapas en la especificación del modelo - decidir las variable (observables o latentes) que intervendrán en el modelo. - clasificar las variables en exógenas (nunca les llegan flechas) y endógenas. - especificar las relaciones entre las variables
Algunos supuestos que han de cumplir los modelos de estructura de covarianza • En cuanto al tamaño de la muestra : • James Stevens en Applied Multivariate Statistics for the Social Sciences, afirman que al menos son necesarios 15 casos por cada variable del modelo. • Bentler y Chou (1987) dicen queson necesarios al menos 5 casos por parámetro a estimar, siempre y cuando el comportamiento de las variables sea “bueno” (distribución normal, sin casos perdidos o aislados, etc) • Más en general Loehlin (1992), tras revisar las publicaciones sobre el tema, afirma que para un modelo con dos (cuatro) factores son necesarios al menos 100 (200) casos. • Si se usan muestras de menor tamaño puede producir fallos en la convergencia a la solución ( estos programas usan métodos iterativos). • También pueden dar lugar a soluciones inadecuadas como estimación de varianzas negativas, o poca exactitud en el cálculo de los errores estandar
Si los datos no siguen una distribución normal o son defectuosos las muestras necesarias deben ser de mayor tamaño. • Aunque no es fácil hacer recomendaciones concretas para cuando los datos siguen una distribución asimétrica, o tienen diferente apuntamiento que la curva normal, o hay casos perdidos: • La recomendación general es obtener tantos datos como sea posible
Los programas asumen que las variables (dependientes y mediadoras) son continuas y con residuos distribuidos normalmente. • Es mas, para el conjunto de los residuos se ausume que siguen una distribución multinormal, aunque esto no se suele cumplir en la práctica • Pero se han desarrollado métodos para poder trabajar con variables que no se distribuyen normalmente pero tienen una distribución “aproximadamente” continua. (escalas Likert, etc)
Identificación del modelo • En los modelos de estructura de covarianza se da el nombre de número de observaciones (que no hay que confundir con el tamaño de la muestra) al número de varianzas y covarianzas entre las variables observadas Nº Observaciones = nº varianzas + nº covarianzas. • Nº varianzas = v (tantas como variables) • Nº covarianzas = combinaciones de v elementos tomados de 2 en 2 = v(v-1)/2 • nº varianzas + nº covarianzas = v + v(v-1)/2 = v(v+1)/2 • v(v+1)/2 es el número de observaciones • El número de parámetros a estimar no puede superar al número de observaciones
Si el número de parámetros a estimar coincide con el número de observaciones se dice que tenemos un modelo identificado, también se le llama modelo saturado y la solución es única Si el número de parámetros a estimar es mayor al número de observaciones tenemos un modelo no identificado y para hacerle identificado se suelen poner restricciones a los parámetros. Para que el programa pueda realizar los cálculos que conducen al cálculo de los parámetros es necesario que el número de parámetros a estimar sea igual o menor que el número de observaciones
Grados de libertad • Cuando el número de variables (V) (parámetros a estimar) es mayor que (>) el número de observaciones ( ecuaciones E), V > E significa que existen MULTIPLES soluciones al sistema de ecuaciones, es decir, se pueden elegir libremente la cantidad (V-E) de valores de variables y cada grupo de valores que se elija genera una solución distinta para las E variables que se decida calcular. • Dado que se eligen libremente, este número de variables define el número de GRADOS DE LIBERTAD • f=V-E
Ajuste del modelo • Para medir la consistencia entre los datos y el modelo propuesto, se estudia la semejanza entre la matriz de covarianzas de la población, que se suele representar como , obtenida mediante inferencia de la matriz de covarianzas de la muestra, que se suele representar por S y la matriz de covarianzas que el modelo predice para la población, que se suele representar por ().
La hipótesis fundamental en la que se basa el desarrollo de los modelos causales de estructuras de covarianza se puede formalizar mediante la ecuación = (). Donde sigue siendo la matriz de covarianzas de la población y es un vector que contiene los parámetros del modelo, esto es los coeficientes que aparecen en las ecuaciones estructurales
Para resolver el sistema de ecuaciones el programa usa métodos iterativos. Después de cada iteración el programa calcula la función de discrepancia, que expresa la separación existente entre los datos observados y los datos que predice el modelo. Este proceso se repite hasta que ya no es posible mejorar los resultados. En ese momento se dice que se ha alcanzado la convergencia. A veces el programa no converge en un número razonable de iteraciones, lo que se interpreta como que algo intrínseco al modelo no es correcto. Será necesario realizar alguna modificación en el modelo o abandonarlo.
Clasificación de los métodos de estimación 1 • Los programas pueden estimar los parámetros mediante diferentes métodos que se pueden clasificar en dos grupos • 1 Basados en la teoría de la distribución Normal: • A) LS. Mínimos cuadrados (ordinarios, generalizados, etc) tambien denominados regresión • B) Máxima verosimilitud. Es el mas empleado para los SEM y el que aparece por defecto en los programas
Clasificación de los métodos de estimación 2 • Basados en teorías de distribución no normales • 1. ELS: Basados en la teoría de distribución elíptica para lo cual basta con que la distribución de las variables sea simétrica. Precisa como “input” los datos y requiere mayor tamaño muestral • 2. ALS: Basados en la teoría de distribución arbitraria. Precisa como “input” los datos y requiere un tamaño muestral superior a 1000
Interpretación de los resultados • Al estimar un modelo se obtienen diversos estadísticos asociados a sus correspondientes hipótesis que habrá que interpretar. Hay de dos tipos • 1. Parámetros: coeficientes de los caminos o efectos directos y Varianzas y covarianzas • 2. Estadísticos de ajuste: de los parámetros y globales del ajuste del modelo
Para los estadísticos de ajuste de los caminos hay dos soluciones equivalentes estadísticamente, aunque con interpretaciones diferentes • 1. Solución estandarizada: obtenida a partir de las variables estandarizadas (puntuaciones Z) • 2. Solución no estandarizada obtenida a partir del valor real de las variables
Coeficientes estandarizados • Una de las ventajas de los coeficientes estandarizados es que se pueden establecer comparaciones entre ellos porque no dependen de la escala en la que se miden las variables. • Como contrapartida es mas difícil saber si el efecto es grande, medio o pequeño. • Se recomienda la siguiente regla: • Coeficiente menor que 0’1 → efecto pequeño • Coeficiente entre 0’1 y 0’5 → efecto medio • Coeficiente mayor que 0’5 → efecto grande