210 likes | 347 Views
Diretoria de Pesquisas COIND. Procesamiento de datos para las encuestas anuales de manufactura Brasil. Santiago, 15 a 17 de marzo 2011. Introducción.
E N D
Diretoria de PesquisasCOIND Procesamiento de datos para las encuestas anuales de manufactura Brasil Santiago, 15 a 17 de marzo 2011
Introducción • Por muchas razones la información estadística proporcionada por las empresas puede contener errores. Estos incluyen datos erróneos o faltantes, clasificaciones incorrectas y respuestas incoherentes o ilógicas. • El procesamiento de dados es la etapa de producción estadística que se ocupa de minimizar tales errores, aplicando los procesos numéricos que tienen lugar después de la recolección de los datos y antes que la información agregada sea diseminada.
Modelo Genérico • Procesamientos de datos: • Normalizar y tornar anónimo; • Integrar los datos; • Clasificar y codificar; • Editar y imputar; • Derivar nuevas variables; • Calcular pesos; • Calcular los agregados.
Modelo Genérico • Normalizar y tornar anónimo (no siempre si necesita) • Normalización incluye la conversión de las unidades administrativas o unidades recolectadas en las unidades estadísticas requeridas para posterior procesamiento. • Tornar anónimo los datos para ayudar a proteger la confidencialidad. • Integrar los datos • Integrar una o más fuentes de datos para producir un conjunto de datos armonizados. • Por lo general incluye “matching / record linkage routines”, con el objetivo de vincular datos de diferentes fuentes que se refieren a la misma unidad. • Priorizar cuando dos o más fuentes contienen datos para la misma variable, con valores que pueden ser diferentes.
Modelo Genérico • Clasificar y codificar • Incluye las rutinas necesarias para clasificar y codificar los datos recogidos. • Editar y imputar • Algunos de los objetivos de la edición: identificar errores antes de la publicación; comprender mejor los datos; anticiparse a las preguntas de los usuarios. • Se aplica a los micro-datos recolectados, y mira a cada registro para tratar de identificar (y si es necesario corregir) los datos que faltan, los errores y discrepancias. • Se pueden aplicar cambios automáticos, o alertas para la inspección manual y corrección de los datos. Cuando faltan datos, o esos no son confiables, las estimaciones se le imputan, a menudo utilizando un enfoque basado en normas.
Modelo Genérico • Derivar nuevas variables; • Incluye la creación de variables que no están expresamente previstos en la recolección y son necesarias para alcanzar los resultados requeridos. Se deriva de estas nuevas variables mediante la aplicación de fórmulas aritméticas a uno o más variables que ya están presentes en el conjunto de datos. • Calcular pesos • Incluye la creación de pesos por unidad de datos de acuerdo con una metodología. Estos pesos se puede utilizar para “gross-up" los resultados de encuestas por muestreo para que sean representativos de la población objetivo, o para ajustar la falta de respuesta en las enumeraciones totales. • Calcular los agregados • Incluye la creación de datos agregados y los totales de población a partir de los micro-datos y pesos calculados.
Modelo Genérico • Algunos manuales utilizan el término “edición” para cubrir todas las fases del procesamiento de datos. • Cubren los subprocesos “microedición” y “macroedición”. • Microedición – se refiere a los controles, validaciones y modificaciones que se aplican a los datos de una empresa en particular. Incluye el manejo de datos incompletos o faltantes y la detección y manejo de respuestas que no son consistentes con otras preguntas. • Macroedición – se refiere a los controles, validaciones y modificaciones de conjuntos completos de datos mediante el análisis de agregaciones específicas. Tiene el objetivo de verificar si ciertas estimaciones son compatibles conjuntamente y si son consistentes con otra información disponible.
Encuesta Anual • Captura de datos: • Controles de calidad durante la recolección y el ingreso de datos • Importante la selección del instrumento para la recolección • Controles automáticos para detectar errores en las respuestas • La identificación de la persona más adecuada para contestar • Para verificar la coherencia interna del formulario, se establecen y se aplican reglas que definen las relaciones entre las preguntas, los valores validos que pueden ser aceptados y las verificaciones aritméticas que pueden aplicarse durante el ingreso de datos. • Las empresas son clasificadas de forma automática de acuerdo con un esquema de clasificación predeterminado.
Encuesta Anual • Recogida de datos – formularios electrónicos • En la recoleta de información de las empresas seleccionadas en la encuesta, se adoptó tres tipos de instrumentos • un formulario más amplio (completo), con la hoja específica para captar las informaciones de las unidades locales de producción, • un formulario con menores detalles de las variables investigadas (simplificado) y, • una hora de registro de actualización (FAC – Folha de atualização cadastral) • El formulario del modelo completo se aplica a las empresas con 30 o más personas ocupadas y con ingresos netos que exceda un cierto valor. • El formulario de la encuesta anual de productos se aplica a las unidades locales de las empresas con 30 o más personas ocupadas.
Encuesta Anual El cuestionario del modelo simplificado se aplica a las empresas con personal ocupado entre 1 y 29. Tiene menor detalle en las variables investigadas, y se limita a la información para la empresa como un todo, independiente se sigue funcionando en más de una unidad local. La hoja de registro de actualización - FAC – tiene por objeto actualizar el registro de la unidad de investigación. Se aplica a las empresas seleccionadas que han datos faltantes a causa de la interrupción, terminación, el cambio de dirección desconocida, por no participar en actividades de investigación, o no por alguna otra razón. Los formularios electrónicos para encuestas anuales están disponibles en el portal IBGE desde 1999.
Encuesta Anual La Microedición: Después de las críticas iniciales en la entrada de los datos, los formularios son enviados a la unidad central, donde se inicia el procesamiento centralizado. Un conjunto reducido de variable son validadas para detectar errores de información, como la existencia de valores atípicos, por ejemplos: remuneración promedio mensual superior a 30 remuneraciones mínimas, determinados descuentos más grandes que 50% del total de las remuneraciones, etc. Los técnicos también hacen un análisis de la información disponible de años anteriores para las empresas, donde se verifica el comportamiento de las relaciones entre variables seleccionadas, tales como por ejemplo, los ingresos netos industriales sobre los ingresos netos totales, la remuneración mensual promedia, las remuneraciones acerca de los costos, el valor agregado acerca del consumo intermedio, entre otros.
Encuesta Anual • Control y procedimientos de ponderación • Manejo de las situaciones de captura de datos • Manejo de datos faltantes • La operación de recogida de la encuesta anual se lleva a cabo por el IBGE presente en todos los estados brasileños, en un período de aproximadamente cinco meses. • Los técnicos encargados son entrenados y inician la recogida en mayo, después que las empresas cierren las declaraciones y los balances correspondientes al impuesto sobre la renta. • Las empresas más grandes reciben un trato diferencial de la supervisión. • No respuesta por unidad • La hipótesis que subyace a las formas de manejar la no respuesta por unidad es que las empresas que no responden están bien representadas por aquellas que si lo hacen, dentro del mismo segmento homogéneo. La practica estadística es imputar cuando sea posible. Caso no sea posible imputar, se calcula nuevamente los factores de ponderación para compensar la no respuesta
Encuesta Anual • Control y procedimientos de ponderación • Manejo de las situaciones de captura de datos • Manejo de unidades mal clasificadas • La calidad de las estadísticas puede ser afectada cuando algunas de las empresas informantes son incluidas inicialmente en el estrato equivocado dentro del marco poblacional del cual se obtiene la muestra (registro empresarial de mala calidad). En ese caso es importante corregir las unidades mal clasificadas. • Cuando una unidad es elegible pero fue incluida en el estrato equivocado o fue omitida del marco, la solución técnica consiste en expandir la unidad en la clasificación correcta con el peso original del estrato de selección. • Em 2008, el porcentaje de unidades • Falsamente activas: menos que 5% • Con mala dirección: menos que 2% • Con mala actividad principal: menos que 2%
Encuesta Anual • Control y procedimientos de ponderación • Menejo de las empresas con más de 100 personas ocupadas que cambiaran la clasificación a los tres dígitos CNAE, en comparación con el año anterior. • Manejo de las unidades de investigación con clasificación distinta entre la encuestas anual empresa versus encuesta anual producto. • Manejo de productos no-codificado (PRODLIST, NCM, TIPI, el sitio web de la empresa ...) • Verificación de la unidad de medida de los productos • Imputación • Puede ser: • Imputación subjetiva • Imputación por método “hot deck” • Imputación con base en la información histórica de la empresa o el registro administrativo disponible.
Encuesta Anual • Procedimientos de ponderación • El procedimiento mediante el cual los datos de la muestra se convierten en estimaciones de población se llama “ponderación” o “expansion”. • La encuesta de empresas se basa en un diseño de muestra aleatoria estratificada simple, en la cual los estratos se definen por tipo de industria , tamaño y unidad de la federación.. • Se asume que el diseño de la muestra se estratifica en dos niveles: • • los estratos naturales son especificados por el cruce de la Unidad de la Federación y la clasificación de las actividades de la empresa; • • los estratos finales se definen en función del número de personas ocupadas por empresas que componen los estratos naturales. El estrato final con enumeración completa se basa en las empresas que tienen 30 o más personas e los estratos finales muestrados, por las empresas que tienen de 1 a 4, 5 a 9,10 a 19 y 20 a 29 personas ocupadas . • El tamaño de la muestra en cada estrato de la muestra final se calcula de modo que el • coeficiente de variación del estimador del total de personas ocupadas en cada estrato final sea de 10%.
Encuesta Anual • Procedimientos de ponderación • Se asume que el diseño de la muestra se basa en la selección aleatoria, sin replazo, dentro de los estratos. • La muestra final se obtiene sumando los tamaños de muestra de cada estrato final (enumeración completa y la muestra). • Todas las empresas en la muestra se le asignó una base de peso de la muestra, obtenida por la relación tamaño de la población y el tamaño de la muestra en el estrato correspondiente final. En el caso de empresas pertenecientes al estrato con 30 o más personas (enumeración completa), el peso es igual a la unidad. Estos pesos se ajustan para incorporar todas las correcciones en el tratamiento de las situaciones identificadas en la fase de control de la captura de datos.
Encuesta Anual • Procedimientos de ponderación • Para obtener estimaciones, se utiliza dos diferentes estimadores: el estimador de regresión y el estimador simple, que difieren en la obtención de la ponderación asignada a cada empresa. • El estimador de regresión utiliza variables auxiliares como el número de empresas, el personal ocupado y las remuneraciones, disponible en registro de base de selección. Este estimador permite corregir los pesos básicos (propiedad de calibración), de modo que las estimaciones de las variables auxiliares,obtenidas mediante la expansión de la muestra, utilizando los valores existentes en el registro, sean iguales a la suma de estas mismas variables en el registro de base selección. • El estimador simple se utiliza en los estratos finales en que el número de los informantes encuestados tiene menos de cinco unidades, o cuando el peso del estimador de regresión resultante para una empresa en el estrato es negativo.
Encuesta Anual Procedimientos de ponderación Todos los cálculos necesarios para la estimación de los totales de las variables siempre se lleva a cabo de forma independiente en cada estrato de la expansión definitiva. Los valores obtenidos en cada uno de estos estratos finales de expansión se agregan según el ámbito en el que desea obtener la estimación.
Encuesta Anual La Macroedición La macroedición consiste en verificar la evolución temporal de las principales variables, teniendo en cuenta las características de la estructura industrial, la importancia relativa de la Unidad de la Federación, la conformación por el tamaño de la empresa, la especialización de los Estados, etc., en el detalle deseado por CNAE
Encuesta Anual • La Macroedición • En esta etapa: • Se derivan nuevas variables • Se verifica si los resultados son consistentes con los de otras fuentes de información sobre la industria manufacturera. • Se procura comprender mejor los datos y anticiparse a las preguntas de los usuarios. • Se hace una comparación de los resultados del año con el año anterior • Los cambios pertinentes son hechos y, nuevamente, los pesos son calibrados • Se hace comparaciones, a cada Estado, de la posición relativa de las actividades a 2 y 3 dígitos de la clasificación CNAE y de los productos • Se verifican la importancia de los nuevos productos
Gracias. Flávio MagheliCoordenador de Indústria / Coind / IBGEflavio.magheli@ibge.gov.br