180 likes | 461 Views
Análisis de valores perdidos. Ana María López Departamento de Psicología Experimental. Introducción.
E N D
Análisis de valores perdidos Ana María López Departamento de Psicología Experimental
Introducción • La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características especiales limita la representatividad o validez externa de los resultados del estudio. • Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la salud (Allison, 2002).
Introducción • Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis estadísticos.
c) a) b) X1 X2 X3 ..…Yp Y1 Y2 Y3 ……Yp Y1 Y2 Y3....Yp ? ? 1 2 3 . . . . . . N ? ? ? ? ? Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario Patrones de pérdida de información • La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de información univariante, monótona y aleatoria.
Mecanismos de perdida de datos Se distinguen tres mecanismos de perdida de datos: • Datos perdidos completamente al azar (MCAR = missing completely at random) • Datos perdidos al azar (MAR= missing completely at random) • Datos perdidos no ignorables o no debidos al azar (MNI=missing non-ignorable, o MNAR=missing not at random).
Mecanismos de perdida de datos Se considera que los datos perdidos son MCAR cuando las características de los sujetos con información son las mismas que las de los sujetos sin información. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR: 1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan. 2. Las características estadísticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.
Mecanismos de perdida de datos La perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrón de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observación depende de otras variables pero no de los valores de la variable con el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón es que dado que no conocemos la información faltante no podemos comparar los valores de aquellos sujetos que tienen información con los que no la tienen. Un ejemplo de MAR • La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo.
Mecanismos de perdida de datos La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo: • Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. • En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de pérdida con dos variables.
Análisis de Valores perdidos con SPSS Archivo: opinion.sav
Análisis de valores perdidos Tablas de contingencia de variables indicador frente a categóricas
Análisis de valores perdidos Estadísticos según lista Estadísticos según pareja
Análisis de valores perdidos Estadísticos de EM estimados Estadísticos de regresión estimados
Métodos para tratar valores perdidos • Análisis de casos completos: para el conjunto de variables (Listwise, Complete case) • Análisis de casos completos: por pares de variables (Pairwise)
Métodos para tratar valores perdidos Métodos de imputación de datos • Imputación simple • Sustitución por la media de las observaciones con información. • Imputación mediante regresión múltiple. Asigna a los valores missing los valores predichos por una ecuación de regresión estimada a partir de los sujetos con información completa. • Algoritmo EM 2. Imputación múltiple
Referencias bibliográficas: Allison, P.D. (2002). Missing values. Sage Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.” Sociological Methods and Research 18: 292-326. Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data, 2nd edition. New York: Wiley. Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de pérdida de datos y métodos de imputación.Investig. Clín. Farm. 2005, Vol. 2 (1): 23-29 Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 147–77 Tutorial sobre análisis de valores perdidos con SPSS 13. http://www2.chass.ncsu.edu/garson/pa765/missing.htm