250 likes | 371 Views
Opinión Pública y Análisis de Encuestas. Módulo IV: Teoría y práctica de muestreo miércoles 7 de julio de 2010. David Crow, Associate Director UC Riverside, Survey Research Center david.crow@ucr.edu. Populations and Samples. Define the group of people to be studied
E N D
Opinión Pública y Análisis de Encuestas Módulo IV: Teoría y práctica de muestreo miércoles 7de julio de 2010 David Crow, Associate Director UC Riverside, Survey Research Center david.crow@ucr.edu
Populations and Samples • Define the group of people to be studied • Characteristics: geography? age? gender? • Should be population suited to study of research question • Samples: Representative Subset of Population • Who should be interviewed? Population or sample? • How many interviews are necessary? • Larger is more representative and gives a more precise estimate, but costs more • Are subgroups important? oversampling • Depends on research question: elections 900 to 1,500 drug trials often as few as 200 • Modes of contact: 1) face-to-face; 2) SAQ (pencil and paper or on Web); 3) telephone
A Closer Look at Sampling (Weisberg, Chap. 3) • Sampling: estimating a population quantity based on a subset of that population • Sampling Frame: list of population elements (or units) • Coverage: the degree of correspondence between the population to be studied and the sampling frame • Coverage error: when not all population elements are in the sampling frame, or when the sampling frame includes some units not in the population
Probability vs. Non-Probability • Probability sample: when every element in the population has a known probability of being selected into the sample • Equal probability (equiprobable, epsem) sample: every element in the population has an equal chance of being sampled • Non-equal probability: some elements might have a greater chance than others, e.g., “dual frame” samples where there is overlap between the two frames • Non-probability sample: methods in which it is difficult or impossible to know a unit’s probability of being sampled less scientific
Non-Probability Sample • “Typical”: sample of units that the researcher considers especially representative, according to census data no guarantee that these people’s attitudes are representative • Purposive: deliberately selecting sample based on possession of characteristic under study; not necessarily representative, but important people e.g., elite decision-makers • Volunteer (Convenience): people choose to participate in study possibility of “selection bias”; people who are interested or have strong opinions choose to participate • Haphazard: Based on ease of contact, e.g., “intercept-point” sampling (contacting people at places where they work, shop, etc.) useful for sampling rare populations, but no guarantee of representativeness • Quota: interviewers are assigned numerical targets based on demographic proportions
Probability Sample • Simple Random Sample (SRS): choose randomly from a listeasiest, most straightforward, but need a good list • Systematic: define interval n, choose random seed and select every nth person on list problems: 1) list might not correspond to population; 2) periodicity; 3) no sampling of adjacent units could omit important units • Stratified: divide sample into subgroups (strata), sample randomly (or systematically from subgroups) not always possible to obtain lists for subgroups or to classify list elements into strata; advantage: increases accuracy • Cluster Sample: multi-stage sampling; define primary sampling units (PSUs); first stage is sampling PSUs, then sample from within PSUs probability proportional to size (PPS): probability of PSU appearing in sample is proportional to the number of units in the first-stage units; advantage: decreases cost
Phone Surveys • Random Digit Dialing (RDD): PSU is “phone exchange” (six digit combination of area code and prefix) select exchanges known to have working numbers, plus one or two digits OF “suffix” (last four numbers), then randomly sample from remaining digits (Waksberg method, “100” RDD: last two digits, “1000” RDD: last three digits). • Call Dispositions: list of predefined outcomes (completed interview, busy, no answer, refusal, hang-up) interviewer records call disposition on answer sheet • Computer-Aided Telephone Interview (CATI): software that manages sample, releases it to callers, and provides template for interviewing respondents • Cell Phone Only Challenge: land line subscriptions are declining, people increasingly using cell phones as only method of phone contact (15% - 20%)
Problems & Challenges • Rare Populations: “needle in a haystack” problem; expensive to reach solutions: 1) two-phase sampling (broad sample to screen for population, follow-up with people identified); 2) network, snowball, or chain referral sampling, interviewees recommend other people; 3) targeted cluster sampling of census tracts with high proportions of rare population • Exit Polls: interview people leaving polling place, usually combination of quota and systematic sample “gold standard”, but there are problems; e.g., absentee ballots, self-selection bias • Wrong Population Sampled: Population sampled from does not correspond to population under study e.g., college students vs. “college-age” people, probable voters vs. adult citizens
Muestreo simple aleatorio(Simple Random Sample, SRS) • Marco muestral: enumeración de todos los elementos de la población que se quiere estudiar • Tamaño de la población: N • Tamaño de la muestra: n • SRS: Como colocar papelitos para cada uno los N elementos de la población y sacar de ellas los n elementos que saldrán en la muestra Formalmente, una muestra aleatoria simple es aquella en la que todos los posibles subconjuntos de n elementos distintos tienen una probabilidad igual de seleccionarse implica que cada elemento n tiene una probabilidad igual de resultar seleccionado • Epsem: métodos en los que todos los elementos tienen una probabilidad igual de selección se conocen como “epsem” (equalprobabilityselectionmethod)
Estimadorespara media y varianzabajo SRS • Media: promedio aritmético • Varianza (Var o V, variance): el cuadrado de la distancia promedio de un elemento típico de la media • Desviación típica (sd, standarddeviation): la distancia promedio de un elemento “típico” de la media; raíz cuadrada de varianza
Error estándar • Error estándar: la raíz cuadrada de la varianza de medias arrojadas por muestras repetidas alrededor de la media de la población: donde f = n/N (la fracción de muestreo) y (1 – f) es un factor de corrección para poblaciones finitas.
Margin de error • Margin de error (intervalo de confianza): intervalo alrededor de la media de la población dentro del cual el x% (p.e., 95% o 99%) de las medias estimadas por una muestra caerán • ¿Por qué 1.96? Este número corresponde a un nivel de confianza del 95% porque el 95% de la distribución normal (curva de campana) se ubica dentro de 1.96 desviaciones típicas alrededor de la media. Es decir, tenemos una confianza del 95% que la media de la población cae dentro del intervalo de confianza. Si el nivel de confianza deseado fuera 99%, el factor de multiplicación sería 2.58.
Ejemplo de margin de error • n = 1,200 • media = 5.2 • sd = 1.2 • Var = 1.44
Propiedades de estimadores • Estimador se le dice a la fórmula que se usa para estimar una cantidad que nos interesa y estimación, del resultado de la aplicación de esta fórmula • MuestreoRepetido: Las propiedades de estimadoresestadísticos se derivanteóricamente de muestrasrepetidos un númeroinfinito de veces • Precisión (eficiencia): un estimador se dice precisasiarroja la menorvarianzaposible • Consistencia: un estimador se dice consistente si al incrementar el tamaño de la muestra hacia infinidad la estimación converge al valor de la población: • No sesgado (unbiased): un estimador se dice no sesgado si el valor esperado de la estimación es igual al valor del parámetro de la población
Muestreosistemático • Muestra sistemática: se selecciona cada koelemento después de un arranque aleatorio • Intervalode muestreo: se divide el tamaño de la población entre el tamaño de la muestra; el resultadoes el intervalo de muestreo • Arranquealeatorio: númeroseleccionadoaleatoriamente entre 1 y el intervalo de muestreo p.e. N = 2,000, n=200 intervalo = 10 arranque aleatorio = 7 muestra = 7, 17, 27 … • Ventajas: esfácil, garantizaqueelementoscontiguos no se seleccionarán, esepsem (aunqueunavezseleccionado el primer elemento, no todos los conjuntostienen la mismaprobabilidad de selección)
Muestreoestratificado • Estratificación: La población se divide en subgruposbasados en características observables, comopueden ser sexo, categorías de edad, región, raza, etc. • Muestra estratificada: • Se determinan los estratos • Se lleva a cabo una muestra (usualmente SRS) dentro de cada estrato por separado • Ventaja: la investigadora controla no sólo el tamaño total de la muestra, pero también de subpoblaciones relevantes. Esto permite que pueda haber un número suficiente dentro de cada estrato para estimaciones precisas. Incluso, estimaciones globales son muchas veces más precisas que las arrojadas por SRS. • Selecciónde estratos: parahacerunamuestraestratificada, 1) lasproporciones en la poblacióndeben ser conocidasparacadaestratoy 2) debe ser posiblerealizarunamuestradentro de cadaestrato
Fracción de muestreo • Fracción de muestreo: la proporción de cada estrato que será seleccionada donde h indexa el estrato • Muestreo estratificado proporcional: la fracción de muestreo es igual entre todos los estratos • Muestreo estratificado desproporcional: la fracción de muestreo no es igual entre todos los estratos; p.e., un sobremuestreo de una subpoblación pequeña que deseamos estudiar más a fondo
Estimadorespara media y varianzabajomuestreoestratificado • Media: suma ponderada de medias de cada estrato donde y , o sea, el ponderador W es la proporción de la población en cada estrato h y los ponderadores suman 1. • Varianza: suma de varianza ponderada de cada estrato
Muestreo por conglomerados (multietápico)(Multi-stageClusterSampling) • Intuición: Así como en muestras estratificadas, se divide la población en grupos. A diferencia, los grupos usualmente son demarcaciones geográficas y se hace una selección de grupos además de una selección dentro de cada grupo • Conglomerado (cluster): un grupo de personas que comparten cierta característica—en muestreo, ésa es que casi siempre viven en la misma área geográfica • Unidad primaria de muestreo (UPM)(primarysamplingunit, PSU): tipo de área geográfica que se selecciona en la primera etapa del muestreo • Unidad última de muestreo (final samplingunit): elemento de muestra que se selecciona en la última etapa • Probabilidad de selección: Pr(B|A)*Pr(A), donde B es, p.e., una persona y A esunasección electoral.
Aspectos de muestreo por conglomerados • Costo: entrevistas en el hogar son muy caras de llevar a cabo; si se concentran en unas cuantas zonas geográficas • Más complicado desde el punto de vista de estimación: • Las medias de cada conglomerado se distribuyen en torno a la media global; a su vez, los valores para los elementos en cada conglomerado se distribuyen en torno a la media específica para ese conglomerado, de manera que la estimación debe dar cuenta de la variabilidad tanto entre conglomerados como dentro de cada conglomerado • Puesto que hay dos fuentes de variabilidad (entre los conglomerados y al interior de ellos) los estimadores son casi siempre menos eficientes (precisos) que los de SRS.
Coeficiente de correlación intraclase(Intra-classCorrelationCoefficient) • Mide la variabilidad entre los conglomerados como proporción de la variabilidad total (esto es, variabilidad donde σ es la desviación típica de medias de los conglomerados de la media global y τ es la desviación típica de y en torno a las medias de los conglomerados p.e., 1.2 / 1.2+0.3 = 0.8 = 80% o sea, el 80% de la variabilidadesentre conglomerados
Media y varianzabajomuestreoporconglomerados • Media: del conglomerado: donde i indexa el sujeto y j, el conglomerado y nj es el numero de sujetos en conglomerado j global: , que para conglomerados de tamaño igual se simplifica a: donde J es el número de conglomerados. • Varianza para conglomerados de tamaño igual: donde
Efecto de diseño(DesignEffect) • Muestreo por conglomerado aumenta la varianza, relativo a un diseño SRS. • Efecto de diseño:
Muestreo probabilidad proporcional al tamaño (PPT)(Probabilidad ProportionaltoSize, PPS) • Cuando los conglomerados son de tamaño desigual, un diseño común es seleccionar los conglomerados con una probabilidad proporcional a su tamaño, o sea, que conglomerados más grandes tienen una mayor probabilidad de selección • Esto se efectúa • asignando números a cada conglomerado (o sea, si el primer conglomerado tiene 100 elementos, se le asignan los números 1 a 100, si el segundo tiene 50, se le asignan 101 a 150, etc.) • Luego se divide el tamaño total de la muestra entre el número de conglomerados que se seleccionarán para determinar un intervalo de muestreo • Y se lleva a cabo un muestreo sistemático; los conglomerados seleccionados corresponden al número del sujeto que sale en la muestra sistemática