350 likes | 533 Views
STT-6005 Théorie de l’échantillonnage. Pierre Duchesne courriel: duchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 29 décembre 2010. Plan de cours. 1. Rappel: Les étapes d’un sondage. 2. Paramètres exprimés en fonction de totaux.
E N D
STT-6005Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 29 décembre 2010
Plan de cours • 1. Rappel: Les étapes d’un sondage. • 2. Paramètres exprimés en fonction de totaux. • 3. Incorporation de l’information auxiliaire. • 4. Échantillonnage en deux degrés. • 5. Estimation en présence de non-réponse. • 6. Estimation de la variance. • 7. Estimation pour domaines. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Barême • Le barême proposé est le suivant: • Examen intra : 25%. • Examen final : 30%. • Devoirs & Projet : 45%. Ouvrages de référence • Särndal, Swensson et Wretman (1992), Model Assisted Survey Sampling, NY: Springer-Verlag (Obligatoire). • Lohr (1999), Sampling : Design and Analysis, NY: Duxbury Press (Fortement recommandé). STT-6005; Théorie de l'échantillonnage; Chapitre 1
Échantillonnage (STT-6005) Chapitre 1 Les étapes d’un sondage.
Qu’est ce qu’un sondage? • Dans la société actuelle, nous avons besoin d’une grande quantité d’information qui doit être précise. • Préférences, choix. • Besoins. • Comportement des individus. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Qu’est ce qu’un sondage? • La partie la plus visible du grand public sont les sondages d’opinion. • De manière générale, on peut considérer que ceux qui ont besoin des sondages sont: • Gouvernements. • Entreprises. • Institutions sociales. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Industries des sondages • Secteur gouvernemental • Statistique Canada, Institut de la statistique du Québec, U.S. Bureau of Census • Secteur privé • Gallup, Harris Survey, Reid. Ces agences sondent l’opinion publique sur des « sujets chauds ». • Recherche • Universités, hôpitaux. • Gestion, affaires • Études de marché, marketing. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Définition d’un sondage • Méthode de collecte de l’information sur un échantillon d’individus (unités). Ces unités pourraient être des humains, des animaux, des maisons ou encore des entreprises. • Remarque:l’échantillon n’est qu’une fraction de la population, contrairement à un recensement où tous les membres de la population sont étudiés. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Exemples de sondages • Exemple 1:Un échantillon de personnes aptes à voter est questionnée à l’avance sur une élection pour déterminer comment le public perçoit un candidat et les résultats. • Exemple 2: Département de la santé publique veut déterminer la proportion des enfants allant à l’école primaire qui ont été vaccinés contre les maladies infantiles (polio, tétanos, etc). STT-6005; Théorie de l'échantillonnage; Chapitre 1
Concentrons-nous sur le second exemple • Pour des raisons administratives: un mois. • Option 1 • On réunit le personnel nécessaire et on va voir chaque enfant dans la région/province. • Frais du personnel? Temps? Frais de déplacement? Contraintes de coûts? • Option 2 • On choisit un échantillon représentatif, c’est-à-dire un sous-ensemble de toutes les mesures, la population. • Pour une fraction du coût, permet de gagner du temps. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Erreurs lorsque l’on dispose d’un échantillon (SSW, p. 14; Lohr, p. 15) • Erreurs dues à l’échantillonnage. • Échantillon n’est pas la population. • Erreurs non dues à l’échantillonnage. • Erreurs de mesures; biais de sélection. • Biais de sélection (Lohr; p. 4) • Représentation exagérée d’une partie de la population; Sous-couverture de la population; doubles dans la base de sondage; interviewer néglige certaines personnes; population cible n’est pas la population échantillonnée; choix délibéré des personnes à interviewer; non-réponse. • Avec un recensement, qu’en est-il? STT-6005; Théorie de l'échantillonnage; Chapitre 1
Échantillon versus recensement • Un échantillon est souvent plus fiable qu’un recensement! • Il ne faut pas penser strictement en termes mathématiques! • Il est vrai qu’avec un échantillon, pas d’erreurs quantitatives dues à l’échantillonnage. • Cependant, les ressources nécessaires pour effectuer un recensement peuvent être telles que: • Besoin de personnel qualifié en quantité suffisante. • Travail bâclé s’il est trop d’envergure. • Jamais à l’abri de la non-réponse pouvant fausser les résultats. • Avec un échantillon, on peut mobiliser les ressources afin de contrôler la qualité de l’information recueillie. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Comment choisir l’échantillon? • À l’aveuglette? NON! • On veut une méthode objective. • Parmi les volontaires? NON! • Sur les questions sensibles, seulement ceux qui sont concernés sont susceptibles de participer. • NON aux SLOPS! (self-selected opinion pools) • Sondages télé où les gens appellent; lignes ouvertes. • Les gens avec des préjugés, fortes opinions (souvent négatives) s’expriment souvent sur ces questions (avortement, racisme, etc). STT-6005; Théorie de l'échantillonnage; Chapitre 1
Comment choisir l’échantillon? Approche design-based • On se munit d’un plan d’échantillonnage tel que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection. • Commenter l’affirmation suivante: pour obtenir un échantillon, il faut que chaque unité possède une chance égale de faire partie de l’échantillon. (ATTENTION au piège!) STT-6005; Théorie de l'échantillonnage; Chapitre 1
Comment choisir l’échantillon? Approche model-based • Un modèle est formulé pour les unités provenant de la population. • Les estimations ne tiennent pas compte du plan d’échantillonnage. • Si le modèle reflète la réalité, les estimations et les intervalles de confiance sont souvent très précis. • Problème potentiel de biais si le modèle n’est pas juste. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Avantages d’une méthode scientifique • Avec une méthode scientifique, tout le monde se voit poser les mêmes questions dans le même ordre. • On peut projeter les résultats de l’échantillon sur toute la population. • Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Les étapes d’un sondage • 1. Sélection d’un échantillon. • 2. Collecte de données. • 3. Vérification et imputation. • 4. Estimation et analyse. • 5. Publication des résultats. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Sélection d’un échantillon • On doit procéder à l’identification de la population cible; population visée? • Construction d’une base de sondage. • Idéalement, on tente de trouver une base de sondage existante. Sinon, l’on doit en construire une. • Une base de sondage contient la numérotation de tous les éléments de la population cible; elle contient des étiquettes. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Base de sondage versus population visée • Choses à être conscient: • Est que la base de sondage corresponds à la population visée? • Si on s’intéresse à la population québécoise et que l’on utilise les listes de téléphone, est-ce que la population cible = base de sondage? • On peut contourner certaines difficultés? • Conséquences sinon? STT-6005; Théorie de l'échantillonnage; Chapitre 1
1. Sélection d’un échantillon • Une fois que l’on dispose d’une base de sondage, on cherche à choisir un échantillon s dans la population: • U={1,2,…,k,…,N}. • On aura ainsi que . • Pour obtenir l’échantillon selon une approche design-based, on procède à un échantillonnage, c’est-à-dire que l’on procède à une sélection dans U selon un plan d’échantillonnage p. STT-6005; Théorie de l'échantillonnage; Chapitre 1
2. Collecte des données • On a besoin d’instruments • Téléphone (méthode CATI). • Interview personnelle (interviewer qui se déplace à la maison) (méthode CAPI). • Courrier (mail surveys). Doit retourner un questionnaire. • Accès Internet. • Pour l’enregistrement • Papier/crayon versus ordinateur (CATI/CAPI) STT-6005; Théorie de l'échantillonnage; Chapitre 1
Méthode CATI (Computer assisted telephone interview) • L’interviewer a devant lui un ordinateur. • Les questions apparaissent à l’écran. • La personne interviewée réponds et les données sont immédiatement entrées. • Avantages: ordre dans les questions toujours le même, rapide, qualité. • Inconvénients: peut être dispendieux à mettre en œuvre pour les petites boîtes et pour les sondages non-répétés (occasionnels). STT-6005; Théorie de l'échantillonnage; Chapitre 1
Méthode CAPI (Computer assisted personal interview) • L’interviewer se présente chez les gens avec un ordinateur portable (laptop). • L’interviewer ou le répondant peut entrer directement les réponses. • Exemple: le sondage mensuel CPS (Current Population Survey) de la population américaine utilise un mélange des méthodes CAPI/CATI. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Interviewers • Traditionnellement, travail à temps partiel. • De plus en plus, être interviewer est un travail à plein temps dans les grosses boîtes. • Entraînement, • Formation, • Etc. • On ne veut pas que les résultats soient affectés en fonction de l’interviewer. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Questionnaire (Lohr, p.10) • Nécessite la présence des « experts du sujet » (sociologues, psychologues). • Les questions doivent être validées. • Exemple: Aux USA, dans un sondage NBC/Wall Street J. • 1. Êtes-vous en faveur de couper dans les programmes tels la sécurité du revenu, les soins médicaux, les subventions agricoles afin de réduire de déficit? • 2. Êtes-vous en faveur de coupures gouvernementales afin de réduire le déficit? STT-6005; Théorie de l'échantillonnage; Chapitre 1
Résultats du sondage NBC/Wall Street J. • Gens qui ont répondus à la première question: • Pour: 23% • Contre: 66% • Sans opinion: 11%. • Gens qui ont répondus à la seconde question: • Pour: 61% • Contre: 25% • Sans opinion: 14%. STT-6005; Théorie de l'échantillonnage; Chapitre 1
3. Vérification et analyse • Si pas déjà dans un fichier ordinateur, alors il faut procéder à une transcription des données. • Besoin de Codification? Parfois les logiciels traitent seulement l’information chiffrées. • Variable Sexe; 1 = H, 2 = F. • Vérification • Est-ce que l’information est cohérente? • Date de naissance: 29/03/99; Permis de conduire: Oui. • Vérification manuelle/automatique. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Imputation (SSW, Chap. 15) • L’information peut être manquante. • Questionnaire non-rendu. • Trous dans le questionnaire • Non-réponse par item (au moins une question est répondue mais pas toutes) • Non-réponse par unité (la personne ou l’unité ne donne aucune réponse). • Dans de tels cas, il peut être envisagé de procéder à de l’imputation. Imputation: méthodes pour boucher les trous. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Méthodologie dans un recensement • Il est intéressant de noter que si un recensement est entrepris, beaucoup de la méthodologie des sondages doit être mise en œuvre: • Base de sondage à créer, valider, • Personnel à former pour les interviews, • Etc. • Rappelons les sources d’erreurs reliées à un recensement… STT-6005; Théorie de l'échantillonnage; Chapitre 1
4. Estimation et analyse • On doit choisir un estimateur pour chaque paramètre à estimer de la population finie. Exemples: • Moyenne. • Total. • Variance. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Estimations ponctuelles • Une estimation ponctuelle consiste en un seul chiffre pour estimer un paramètre. • On pourrait le noter: • Un seul chiffre n’est cependant suffisant pour apprécier de la qualité de l’estimation. On utile un estimateur de la variance: STT-6005; Théorie de l'échantillonnage; Chapitre 1
Estimateurs • En fait, le chiffre qui servira à estimer le paramètre inconnu est un estimateur. • Un estimateur est une variable aléatoire. • Théorie design-based: pour chaque échantillon possible, l’estimateur prend une certaine valeur. La distribution de l’estimateur est obtenue sur l’ensemble de tous les échantillons possibles. • Théorie model-based: l’estimateur est une variable aléatoire, sauf que la distribution dépend de la structure probabiliste du modèle formulé pour la population. STT-6005; Théorie de l'échantillonnage; Chapitre 1
V versus V chapeau • Remarque: On aimerait idéalement utiliser la vraie variance de l’estimateur: • Cependant, cette dernière est inconnue en pratique. STT-6005; Théorie de l'échantillonnage; Chapitre 1
Estimation par intervalles de confiance • Un intervalle de confiance de niveau 95% pour le paramètre moyenne est donné par • Pour que cet intervalle marche, que faut-il? STT-6005; Théorie de l'échantillonnage; Chapitre 1
5. Publication des résultats • La dernière étape du sondage consiste à publier les résultats. • Cette étape ne doit pas être prise à la légère. • On devrait retrouver: • Conditions de la réalisation du sondage. • Lignes de conduite (dans la précision des résultats). • Discussions des erreurs • Erreurs non dues à l’échantillonnage. • Erreurs dues à l’échantillonnage. • Présentation de l’information • Tableaux, graphiques, couleurs, etc. STT-6005; Théorie de l'échantillonnage; Chapitre 1