270 likes | 486 Views
Tema 4 Aplicación de los modelos matemático-estadísticos a la investigación social y la medición en las ciencias sociales. PREPARANDO LOS DATOS PARA EL ANÁLISIS. El nivel de medición utilizado condiciona los procedimientos estadísticos a utilizar, y en
E N D
Tema 4 Aplicación de los modelos matemático-estadísticos a la investigación social y la medición en las ciencias sociales. PREPARANDO LOS DATOS PARA EL ANÁLISIS
El nivel de medición utilizado condiciona los procedimientos estadísticos a utilizar, y en sentido inverso la utilización de diversos procedimientos estadísticos exige determinados niveles de medición para su uso S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Depurar datos erróneos • Etiquetar variables y valores de las variables • Recodificación • Tratamiento de la no respuesta parcial S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Depurar datos erróneos Listado de distribución de frecuencias de todas las variables para averiguar si hay algún valor fuera de rango S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Etiquetar variables y valores de las variables El gobierno español debiera aumentar el presupuesto en proyectos de I+D+I 1 nada de acuerdo 2 Poco de acuerdo 3 Ni en acuerdo ni en desacuerdo 4 Bastante de acuerdo 5 Muy de acuerdo 9 NS/NC Etiqueta de variable: “Presupuesto en proyectos I+D+I” • Etiqueta de los valores de la variable:1 nada de acuerdo, 2 Poco de acuerdo, 3 Ni en acuerdo ni en desacuerdo, 4 Bastante de acuerdo, 5 Muy de acuerdo, 9 NS/NC S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Recodificación • Creación de variables “dummy” • Creación de intervalos en variables continuas • Agrupación de intervalos y creación de una nueva variable S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Construcción de variables “Dummy” S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Creación de intervalos en variables continuas • Recodificación: Creación de intervalos en variables continuas Edad de 18 en adelante 1 18 - 29 2 30 - 39 3 40 - 59 4 60 - 79 580 y más S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Recodificación: Agrupación de intervalos (colapsar categorías) y creación de una nueva variable: ej. el “Autoposicionamiento político” Valores antiguos: de 0 a 9 Valores nuevos: 1 de 0 a 3 Izquierda 2 de 4 a 5 Centro 3 de 6 a 9 Derecha Requiere nuevo etiquetado de valores de la variable S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis: el tratamiento de la “no respuesta” parcial • Distinción: entre la no respuesta y la no respuesta parcial • Distinción: entre “NS” y “NC” • Detección de variables con valores perdidos y casos con valores perdidos (comando FLIP) S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis: el tratamiento de la “no respuesta” parcial • Tratamiento de la no respuesta en análisis multivariable con SPSS Supresión LISTWISE: Elimina aquellos casos que tienen algún valor perdido en las variables incluidas en el análisis Ventajas: Los coeficientes se calculan sobre un mismo tamaño de muestra con lo que se pueden realizar comparaciones con la misma significación estadística Inconvenientes: El tamaño muestral puede quedar muy reducido S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
N = 14 S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis: el tratamiento de la “no respuesta” parcial • Tratamiento de la no respuesta en análisis multivariable con SPSS Supresión PAIRWISE: p variables tomadas de r en r, elimina los casos que tengan un valor perdido pero sólo en una de las r variables Ventajas: El número de casos sobre los que se calculan los coeficientes es superior al obtenido mediante LISTWISE Inconvenientes: No permite comparaciones entre diferentes coeficientes ya que su significación varía al no estar calculada sobre la misma “n”, el mismo tamaño muestral S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
r v1*v2, N = 20 r v1*v3, N = 18 r v2*v3, N = 18 S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Métodos de estimación para reemplazar los valores perdidos • con SPPS: • Media de la serie: Sustituye los valores perdidos por la media de la • serie completa • Media de puntos adyacentes: Sustituye los valores perdidos por la • media de los valores circundantes. La amplitud de los puntos • adyacentes es el número de valores válidos, por encima y por • debajo del valor perdido, utilizados para calcular la media • Mediana de puntos adyacentes: Sustituye los valores perdidos por la mediana de los valores circundantes. La amplitud de los puntos • adyacentes es el número de valores válidos, por encima y por • debajo del valor perdido, utilizados para calcular la mediana S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
Preparando los datos para el análisis • Métodos de estimación para reemplazar los valores perdidos • con SPPS: • Tendencia lineal en el punto: Reemplaza los valores perdidos de la serie por la tendencia lineal en ese punto. Se hace una regresión de la serie existente sobre una variable índice escalada de 1 a n. Los valores perdidos se sustituyen por sus valores pronosticados S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • ALEATORIA • “FICHERO CALIENTE” HOT DECK • MEDIA DE SUBCLASES O MEDIA INTRAGRUPO S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • ALEATORIA • La imputación aleatoria se realiza en función • de la distribución de frecuencias original y • en relación a la distinta probabilidad de cada • categoría • Requisitolos que contestan 1, son iguales que los • que no contestan 2. Comparación de medias respecto a • otras variables en las que los que no contestan han • contestado. • Las diferencias entre el antes/después de la imputación • se deben al azar pues es aleatoria. • Si los grupos no son iguales, seleccionar otro tipo de • imputación S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • ALEATORIA N= 143, Casos perdidos 59. Var Ideología S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • “FICHERO CALIENTE” HOT DECK Variable Ideología S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • COM PARATIVA Imputación ALEATORIA/HOT DECK S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: procedimientos de imputación • MEDIA DE SUBCLASES O MEDIA INTRAGRUPOS Variable Eda/Ideología (Valoración del ejército) S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í
El tratamiento de la “no respuesta” parcial: implicaciones de la imputación “La mejor imputación es la que no se hace” 1.- Hay que evitar la “no respuesta parcial” 2.- La imputación reduce la varianza, y con ello el error típico, y puede Introducir sesgos en las estimaciones de los parámetros. Aunque si hay muchos valores perdidos y no realizamos ninguna imputación, también podemos sesgar nuestras investigaciones. 3.- Por otra parte sin no realizamos ninguna imputación el tamaño de la muestra puede reducirse sensiblemente por las “no respuestas”, lo que limita la potencia de los contrastes y aumenta el intervalo de confianza de éstos S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í