830 likes | 1.06k Views
ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA. Esther López Vizcaíno esther.lopez@ige.eu. Contenido. Introducción Ejemplo para la discusión Ejemplo de aplicación de modelos con datos agregados Ejemplo de aplicación de modelos con datos a nivel de individuo Conclusiones
E N D
ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA Esther López Vizcaíno esther.lopez@ige.eu
Contenido • Introducción • Ejemplo para la discusión • Ejemplo de aplicación de modelos con datos agregados • Ejemplo de aplicación de modelos con datos a nivel de individuo • Conclusiones • Futuro • Bibliografía
Necesidades de los usuarios No está totalmente satisfecha Demanda de datos estadísticos en áreas pequeñas • La información derivada de operaciones censales es costosa y se limita a una serie de variables cuya referencia temporal no tiene la actualización necesaria • Los registros administrativos, con un enorme potencial de información, no se explotan lo suficiente • Las encuestas por muestreo, dado su elevado coste, raramente aportan datos representativos para territorios infra-municipales ? Qué falla
Demanda creciente Administraciones locales Por sus propias competencias, requieren información desagregada para el diseño y evaluación de sus políticas en sus respectivos ámbitos geográficos Usuarios privados Políticas de marketing a poblaciones o segmentos muy concretos Las decisiones de inversión en una región se basan en el conocimiento de sus características: población activa, costes de producción, … Investigadores Necesitan datos suficientemente desagregados con el objeto de construír, contrastar y validar modelos
Productores públicos MISIÓN Proporcionar información relevante, fiable y de forma neutral Tendencia hacia una mayor demanda de datos desagregados Los productores públicos de estadísticas deben enfrentarse a este reto en cumplimiento de su misión
Problema Nº de observaciones escaso en el dominio de interés Estimaciones directas con poca precisión Aumento de muestra Aumento de costes Mayor carga de respuesta a los informantes > Errores ajenos al muestreo Empleo de técnicas indirectas de estimación De la encuesta De muestras complementarias De fuentes administrativas Información auxiliar
Antecedentes • Proyecto EURAREA • Proyecto financiado parcialmente por la Unión Europea dentro del 5º programa de I+D • Desarrollado por un Consorcio formado por las oficinas de estadística y las universidades de 7 países europeos: U.K., Finlandia, España, Noruega, Suecia, Polonia, Italia, U. Of Southampton, U. Of Jyvaskyla, U. Miguel Hernández, Poznan U. Of Economics, U. Degli Studi di Roma. • Objetivo: evaluar la eficiencia de los estimadores estándar para áreas pequeñas • Informe elaborado por un grupo de expertos al Comité Interterritorial de Estadísticas (CITE) sobre La organización de la estadística pública en España. Situación actual y propuestas de mejora “... las ventajas de las encuestas por muestreo como técnica de recogida de información disminuyen a medida que se reduce el tamaño de la población, de modo que en poblaciones pequeñas es preferible acudir a otras fuentes de información, como los registros administrativos, o profundizar en las técnicas de estimación en áreas pequeñas.”
Antecedentes • Grupo de trabajo áreas pequeñas INE-CCAA Objetivo: establecer procedimientos para elaborar estimaciones en áreas pequeñas de las variables más significativas de la Encuesta de Población Activa (EPA), teniendo en cuenta la experiencia del INE en el proyecto EURAREA de la Unión Europea • Instituto Vasco de Estadística (EUSTAT) • Estimación de áreas pequeñas en la encuesta industrial de la Comunidad Autónoma de Euskadi
Antecedentes • Programa estatístico anual 2007 Galicia Actividad estadística 704.- Investigación y desarrollo de métodos de estimación en áreas pequeñas Objetivo.- Mejorar las predicciones o estimaciones de variables o parámetros de interés en las encuestas realizadas por el IGE considerando un nivel de desagregación mayor de aquel para el que se diseñó la encuesta Convenio de colaboración IGE-USC Otros objetivos Recopilar y divulgar los métodos de ‘inferencia estadística en áreas pequenas’ ya existentes Realización de una jornada de carácter internacional que reuna a expertos en el tema
Trabajos a realizar Encuesta de condiciones de vida (IGE) Variables objetivo: nº de parados, tasa de paro Desagregación geográfica: 53 comarcas (NUTS IV), 14 agrupaciones de comarcas
Trabajos a realizar Encuesta de condiciones de vida (IGE) • Encuesta anual dirigida a hogares • Objetivo: obtener información de las características socioeconómicas de los hogares gallegos • Muestreo: bietápico con estratificación previa de las unidades de primera etapa Muestras independientes en cada área (agrupaciones de comarcas) Unidades de primera etapa: secciones censales Unidades de segunda etapa: vivienda familiar principal
Trabajos a realizar Encuesta de condiciones de vida (IGE) • En la primera etapa las secciones se seleccionan con probabilidad proporcional a su tamaño • En la segunda etapa las viviendas se seleccionan con muestreo sistemático con arranque aleatorio. Se entrevistan a todos los individuos de las viviendas seleccionadas • Estimadores: estimadores de expansión corregidos con información proporcionada por fuentes externas (calibrado) • Se obtiene información a nivel de Galicia, provincias y de agrupaciones de comarcas
Estimación del nº de parados y la tasa de paro en 14 agrupaciones comarcales: Estimador directo Estimador sintético básico Estimador compuesto Ejemplo • Cálculo de los coeficientes de variación de los estimadores empleando Jackknife
Estimadores • Estimador directo • Total • Media • Estimador postestratificado g: grupo de edad Ndg:población en el área d y grupo de edad g
Estimadores • Estimador sintético básico • Se construyeron grupos de comarcas (grup) que presentan un comportamiento homogéneo en cuanto a las variables a estudiar (Censo 2001) • Se construyeron grupos en función del sexo y si la variable es parado o ocupado
Estimador sintético básico. Grupos Parados Ocupados
Estimador sintético básico. Grupos Mujeres ocupadas Mujeres paradas
Estimadores • Estimador compuesto
Cálculo de los errores de muestreo Método Jackknife Estimador de la varianza L: nº de estratos Sh: total de secciones muestrales en el estrato h : estimador obtenido despues de suprimir de la muestra la sección s en el estrato h YJh : media de los estimadores correspondientes al estrato h
Cálculo de los errores de muestreo Método Jackknife Estimador del sesgo L: nº de estratos Sh: total de secciones muestrales en el estrato h : estimador obtenido despues de suprimir de la muestra la sección s en el estrato h YJh : media de los estimadores correspondientes al estrato h
Cálculo de los errores de muestreo Método Jackknife Estimador del coeficiente de variación: Deberían ser inferiores al 20%-25% para indicar que existe fiabilidad
Estimación directa Tasa de paro Resultados con mucha variabilidad
Estimación sintética Tasa de paro Los resultados se estabilizan
Estimador compuesto (α=2) Tasa de paro Los resultados no son tan estables como en el sintético
Situación. Año 2005 Número reducido de personas paradas en la muestra
Estimación directa Tasa de paro. Coeficientes de variación 2005
Estimación sintética Tasa de paro. Coeficientes de variación 2005
Estimación directa Parados. Coeficientes de variación 2005 Los mayor parte de los estimadores tienen muy poca precisión
Estimación sintética Parados. Coeficientes de variación 2005
Estimación directa Tasa de paro mujeres. Coeficientes de variación 2005
Estimación sintética Tasa de paro mujeres. Coeficientes de variación 2005 Los CV del estimador sintético no tienen una relación directa con el tamaño de muestra
Trabajos a realizar Encuesta de condiciones de vida (IGE) Variable OBJETIVO: ingreso medio mensual por hogar, ingreso equivalente del hogar Desagregación geográfica: 53 comarcas (NUTS IV) Información auxiliar a nivel de área: -Impuesto de la renta de las personas físicas: renta imponible, nº de declarantes, rendimiento medio, porcentaje de rendimientos procedentes del trabajo (AEAT)
INFORMACIÓN DISPONIBLE Informacion muestral: Encuesta de condiciones de vida de las familias (ECV).Informacion a nivel de individuo. Informacion auxiliar: Impuesto sobre la renta de las personas físicas (IRPF).Información a nivel de municipio.
ESTIMADORES • Estimador basado en el diseño: Horvitz-Thompson • Para un área d • Estimadores asistidos por el diseño: postestratificado sintético • Estimadores compuestos
ESTIMADORES • Estimadores basados en el modelo: Fay-Herriot Modelo de regresión lineal mixto para datos agregados • Basado en el modelo • Para un área d el estimador de Fay-Herriot es:
Cálculo de los errores de muestreo • Fórmulas analíticas • Bootstrap Naive (estimador de HT) Se extraen B muestras con reemplazamiento a partir de la muestra original, utilizando el mismo diseño muestral Sea el estimador obtenido a partir de la b-ésima muestra bootstrap. Entonces el estimador de la varianza es:
Cálculo de los errores de muestreo Bootstrap paramétrico (Fay-Herriot) Para estimar el MSE del estimador de Fay-Herriot se aplicará un método Bootstrap paramétrico (González-Manteiga et al. 2008) 1.- Se construye un modelo Bootstrap a partir de los parámetros estimados con la muestra original 2.- A partir de este modelo se generan B vectores Bootstrap de los cuales se calcula el MSE
ESTIMADORES Buscamos variables que tengan correlación con nuestra variable objetivo. De todas las variables auxiliares disponibles nos quedamos con: Rendi Medio: Rendimiento medio =Renta Imponible/Número Declarantes
ESTUDIO DE SIMULACIÓN Generación de una población de 943991 hogares a partir de los datos de la muestra. Las variables generadas son: comarca: Comarca a la que pertenece el hogar. estrato: Estrato al que pertenece el hogar. ingreso: Ingreso mensual del hogar. pers hogar: Numero de miembros del hogar. ingreso equiv: Ingreso equivalente mensual del hogar. Procedemos a la simulación tomando 10000 muestras de la poblacion generada y analizamos los posibles estimadores
ESTUDIO DE SIMULACIÓN Indicadores de evaluación Sesgo relativo en valor absoluto % Error cuadrático medio: MSE Raíz cuadrada del error cuadrático medio relativo %
ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar
ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar
ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar
ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar
ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar
ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar
ESTUDIO DE SIMULACIÓN • Para las comarcas con tamaño muestral grande (>100) los resultados son similares para todos los estimadores • Para las comarcas con tamaño muestral pequeño el estimador de Fay-Herriot es el que mejor se aproxima a la variable objetivo • Hay suficiente razón para incluir el estimador Fay-Herriot como competidor serio de los estimadores basados en el diseño.