1 / 82

ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA

ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA. Esther López Vizcaíno esther.lopez@ige.eu. Contenido. Introducción Ejemplo para la discusión Ejemplo de aplicación de modelos con datos agregados Ejemplo de aplicación de modelos con datos a nivel de individuo Conclusiones

noam
Download Presentation

ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO GALEGO DE ESTATÍSTICA Esther López Vizcaíno esther.lopez@ige.eu

  2. Contenido • Introducción • Ejemplo para la discusión • Ejemplo de aplicación de modelos con datos agregados • Ejemplo de aplicación de modelos con datos a nivel de individuo • Conclusiones • Futuro • Bibliografía

  3. Necesidades de los usuarios No está totalmente satisfecha Demanda de datos estadísticos en áreas pequeñas • La información derivada de operaciones censales es costosa y se limita a una serie de variables cuya referencia temporal no tiene la actualización necesaria • Los registros administrativos, con un enorme potencial de información, no se explotan lo suficiente • Las encuestas por muestreo, dado su elevado coste, raramente aportan datos representativos para territorios infra-municipales ? Qué falla

  4. Demanda creciente Administraciones locales Por sus propias competencias, requieren información desagregada para el diseño y evaluación de sus políticas en sus respectivos ámbitos geográficos Usuarios privados Políticas de marketing a poblaciones o segmentos muy concretos Las decisiones de inversión en una región se basan en el conocimiento de sus características: población activa, costes de producción, … Investigadores Necesitan datos suficientemente desagregados con el objeto de construír, contrastar y validar modelos

  5. Productores públicos MISIÓN Proporcionar información relevante, fiable y de forma neutral Tendencia hacia una mayor demanda de datos desagregados Los productores públicos de estadísticas deben enfrentarse a este reto en cumplimiento de su misión

  6. Problema Nº de observaciones escaso en el dominio de interés Estimaciones directas con poca precisión Aumento de muestra Aumento de costes Mayor carga de respuesta a los informantes > Errores ajenos al muestreo Empleo de técnicas indirectas de estimación De la encuesta De muestras complementarias De fuentes administrativas Información auxiliar

  7. Antecedentes • Proyecto EURAREA • Proyecto financiado parcialmente por la Unión Europea dentro del 5º programa de I+D • Desarrollado por un Consorcio formado por las oficinas de estadística y las universidades de 7 países europeos: U.K., Finlandia, España, Noruega, Suecia, Polonia, Italia, U. Of Southampton, U. Of Jyvaskyla, U. Miguel Hernández, Poznan U. Of Economics, U. Degli Studi di Roma. • Objetivo: evaluar la eficiencia de los estimadores estándar para áreas pequeñas • Informe elaborado por un grupo de expertos al Comité Interterritorial de Estadísticas (CITE) sobre La organización de la estadística pública en España. Situación actual y propuestas de mejora “... las ventajas de las encuestas por muestreo como técnica de recogida de información disminuyen a medida que se reduce el tamaño de la población, de modo que en poblaciones pequeñas es preferible acudir a otras fuentes de información, como los registros administrativos, o profundizar en las técnicas de estimación en áreas pequeñas.”

  8. Antecedentes • Grupo de trabajo áreas pequeñas INE-CCAA Objetivo: establecer procedimientos para elaborar estimaciones en áreas pequeñas de las variables más significativas de la Encuesta de Población Activa (EPA), teniendo en cuenta la experiencia del INE en el proyecto EURAREA de la Unión Europea • Instituto Vasco de Estadística (EUSTAT) • Estimación de áreas pequeñas en la encuesta industrial de la Comunidad Autónoma de Euskadi

  9. Antecedentes • Programa estatístico anual 2007 Galicia Actividad estadística 704.- Investigación y desarrollo de métodos de estimación en áreas pequeñas Objetivo.- Mejorar las predicciones o estimaciones de variables o parámetros de interés en las encuestas realizadas por el IGE considerando un nivel de desagregación mayor de aquel para el que se diseñó la encuesta Convenio de colaboración IGE-USC Otros objetivos Recopilar y divulgar los métodos de ‘inferencia estadística en áreas pequenas’ ya existentes Realización de una jornada de carácter internacional que reuna a expertos en el tema

  10. Trabajos a realizar Encuesta de condiciones de vida (IGE) Variables objetivo: nº de parados, tasa de paro Desagregación geográfica: 53 comarcas (NUTS IV), 14 agrupaciones de comarcas

  11. Trabajos a realizar Encuesta de condiciones de vida (IGE) • Encuesta anual dirigida a hogares • Objetivo: obtener información de las características socioeconómicas de los hogares gallegos • Muestreo: bietápico con estratificación previa de las unidades de primera etapa Muestras independientes en cada área (agrupaciones de comarcas) Unidades de primera etapa: secciones censales Unidades de segunda etapa: vivienda familiar principal

  12. Trabajos a realizar Encuesta de condiciones de vida (IGE) • En la primera etapa las secciones se seleccionan con probabilidad proporcional a su tamaño • En la segunda etapa las viviendas se seleccionan con muestreo sistemático con arranque aleatorio. Se entrevistan a todos los individuos de las viviendas seleccionadas • Estimadores: estimadores de expansión corregidos con información proporcionada por fuentes externas (calibrado) • Se obtiene información a nivel de Galicia, provincias y de agrupaciones de comarcas

  13. Estimación del nº de parados y la tasa de paro en 14 agrupaciones comarcales: Estimador directo Estimador sintético básico Estimador compuesto Ejemplo • Cálculo de los coeficientes de variación de los estimadores empleando Jackknife

  14. Estimadores • Estimador directo • Total • Media • Estimador postestratificado g: grupo de edad Ndg:población en el área d y grupo de edad g

  15. Estimadores • Estimador sintético básico • Se construyeron grupos de comarcas (grup) que presentan un comportamiento homogéneo en cuanto a las variables a estudiar (Censo 2001) • Se construyeron grupos en función del sexo y si la variable es parado o ocupado

  16. Estimador sintético básico. Grupos Parados Ocupados

  17. Estimador sintético básico. Grupos Mujeres ocupadas Mujeres paradas

  18. Estimadores • Estimador compuesto

  19. Cálculo de los errores de muestreo Método Jackknife Estimador de la varianza L: nº de estratos Sh: total de secciones muestrales en el estrato h : estimador obtenido despues de suprimir de la muestra la sección s en el estrato h YJh : media de los estimadores correspondientes al estrato h

  20. Cálculo de los errores de muestreo Método Jackknife Estimador del sesgo L: nº de estratos Sh: total de secciones muestrales en el estrato h : estimador obtenido despues de suprimir de la muestra la sección s en el estrato h YJh : media de los estimadores correspondientes al estrato h

  21. Cálculo de los errores de muestreo Método Jackknife Estimador del coeficiente de variación: Deberían ser inferiores al 20%-25% para indicar que existe fiabilidad

  22. Estimación directa Tasa de paro Resultados con mucha variabilidad

  23. Estimación sintética Tasa de paro Los resultados se estabilizan

  24. Estimador compuesto (α=2) Tasa de paro Los resultados no son tan estables como en el sintético

  25. Situación. Año 2005 Número reducido de personas paradas en la muestra

  26. Estimación directa Tasa de paro. Coeficientes de variación 2005

  27. Estimación sintética Tasa de paro. Coeficientes de variación 2005

  28. Estimador compuesto (α=2)

  29. Estimación directa Parados. Coeficientes de variación 2005 Los mayor parte de los estimadores tienen muy poca precisión

  30. Estimación sintética Parados. Coeficientes de variación 2005

  31. Estimador compuesto (α=2)

  32. Estimación directa Tasa de paro mujeres. Coeficientes de variación 2005

  33. Estimación sintética Tasa de paro mujeres. Coeficientes de variación 2005 Los CV del estimador sintético no tienen una relación directa con el tamaño de muestra

  34. Trabajos a realizar Encuesta de condiciones de vida (IGE) Variable OBJETIVO: ingreso medio mensual por hogar, ingreso equivalente del hogar Desagregación geográfica: 53 comarcas (NUTS IV) Información auxiliar a nivel de área: -Impuesto de la renta de las personas físicas: renta imponible, nº de declarantes, rendimiento medio, porcentaje de rendimientos procedentes del trabajo (AEAT)

  35. INFORMACIÓN DISPONIBLE Informacion muestral: Encuesta de condiciones de vida de las familias (ECV).Informacion a nivel de individuo. Informacion auxiliar: Impuesto sobre la renta de las personas físicas (IRPF).Información a nivel de municipio.

  36. ESTIMADORES • Estimador basado en el diseño: Horvitz-Thompson • Para un área d • Estimadores asistidos por el diseño: postestratificado sintético • Estimadores compuestos

  37. ESTIMADORES • Estimadores basados en el modelo: Fay-Herriot Modelo de regresión lineal mixto para datos agregados • Basado en el modelo • Para un área d el estimador de Fay-Herriot es:

  38. Cálculo de los errores de muestreo • Fórmulas analíticas • Bootstrap Naive (estimador de HT) Se extraen B muestras con reemplazamiento a partir de la muestra original, utilizando el mismo diseño muestral Sea el estimador obtenido a partir de la b-ésima muestra bootstrap. Entonces el estimador de la varianza es:

  39. Cálculo de los errores de muestreo Bootstrap paramétrico (Fay-Herriot) Para estimar el MSE del estimador de Fay-Herriot se aplicará un método Bootstrap paramétrico (González-Manteiga et al. 2008) 1.- Se construye un modelo Bootstrap a partir de los parámetros estimados con la muestra original 2.- A partir de este modelo se generan B vectores Bootstrap de los cuales se calcula el MSE

  40. ESTIMADORES Buscamos variables que tengan correlación con nuestra variable objetivo. De todas las variables auxiliares disponibles nos quedamos con: Rendi Medio: Rendimiento medio =Renta Imponible/Número Declarantes

  41. ESTUDIO DE SIMULACIÓN Generación de una población de 943991 hogares a partir de los datos de la muestra. Las variables generadas son: comarca: Comarca a la que pertenece el hogar. estrato: Estrato al que pertenece el hogar. ingreso: Ingreso mensual del hogar. pers hogar: Numero de miembros del hogar. ingreso equiv: Ingreso equivalente mensual del hogar. Procedemos a la simulación tomando 10000 muestras de la poblacion generada y analizamos los posibles estimadores

  42. ESTUDIO DE SIMULACIÓN Indicadores de evaluación Sesgo relativo en valor absoluto % Error cuadrático medio: MSE Raíz cuadrada del error cuadrático medio relativo %

  43. ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar

  44. ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar

  45. ESTUDIO DE SIMULACIÓN Ingreso medio mensual por hogar

  46. ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar

  47. ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar

  48. ESTUDIO DE SIMULACIÓN Ingreso medio equivalente por hogar

  49. ESTUDIO DE SIMULACIÓN • Para las comarcas con tamaño muestral grande (>100) los resultados son similares para todos los estimadores • Para las comarcas con tamaño muestral pequeño el estimador de Fay-Herriot es el que mejor se aproxima a la variable objetivo • Hay suficiente razón para incluir el estimador Fay-Herriot como competidor serio de los estimadores basados en el diseño.

  50. RESULTADOS

More Related