460 likes | 593 Views
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 3 Séance du 24 janvier 2014. Benoît Laplante, professeur. Plan. Les mondes de la statistique L’analyse de données recueillies au moyen d’enquêtes à plan complexe
E N D
Programmes de maîtrise et de doctorat en démographieModèles de risque et de duréeCours 3Séance du 24 janvier 2014 Benoît Laplante, professeur
Plan Les mondes de la statistique L’analyse de données recueillies au moyen d’enquêtes à plan complexe La relation entre la population, l’échantillon et le modèle en analyse longitudinale
Les mondes de la statistique … que doit fréquenter tout chercheur. La statistique « tout court » La statistique mathématique • La statistique d’enquête • La statistique de modélisation
Gustave Flaubert, Bouvard et Pécuchet. Paris: Gallimard :1979 (Folio), p. 205.
Les mondes de la statistique La statistique « tout court » Elle consiste à décrire les caractéristiques de l’État. Elle est essentiellement descriptive. Elle n’est pas probabiliste. Au sens premier, la statistique sociale est descriptive, populationnelle et non probabiliste. Elle se fait au moyen de l’arithmétique élémentaire et on peut la pratiquer sans rien connaître des mathématiques.
Les mondes de la statistique La statistique mathématique Le petit Robert
Les mondes de la statistique La statistique mathématique La statistique mathématique comprend elle-même deux mondes : • la statistique d’enquête (ou d’« échantillonnage ») et • la statistique de modélisation (ou d’« analyse »).
Les mondes de la statistique La statistique mathématique La statistique d’enquête • La population est finie. • On cherche à mesurer un caractère dont la valeur précise existe nécessairement. • En principe toute l’imprécision vient de l’erreur d’échantillonnage. • On peut réduire cette imprécision en tirant des échantillons au sein de sous-populations relativement homogènes. • On se trouve ainsi à décomposer l’erreur d’échantillonnage.
Les mondes de la statistique La statistique mathématique La statistique d’enquête • Le but est de mesurer et de décrire. • Au mieux, on décrira des sous-populations définies par les modalités d’un ou plusieurs caractères. • La théorie des probabilités sert à modéliser l’imprécision de la mesure due à l’échantillonnage, jamais les processus sociaux.
Les mondes de la statistique La statistique mathématique La statistique de modélisation • On présume que les unités qui composent le monde sont créées par un modèle dont une composante est déterministe et l’autre est aléatoire. • Dans sa version la plus simple, toute la dispersion est générée par la composante aléatoire du modèle. • On cherche à estimer les paramètres de ce modèle. • On présume que l’échantillon dont on dispose est tiré de manière aléatoire simple de la population infinie que peut générer le modèle.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe La notion de superpopulation L’échantillonnage au sein des populations infinies L’échantillonnage au sein des populations finies L’estimation pondérée L’estimation robuste de la variances des estimations : • la correction de Kish, • la méthode d’Huber-White, • les méthodes de rééchantillonnage.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe La notion de superpopulation La population finie est générée par le modèle. • La population finie est un échantillon tiré au sein de la population infinie que peut générer le modèle. L’échantillon de l’enquête est tiré de cette population finie. • L’échantillon est donc lui-même tiré dans un échantillon. Les estimations ponctuelles calculées à partir de cet échantillon (qui sont des estimations des paramètres de la population finie) sont également des estimations des paramètres du modèle. Les estimations des variances de ces estimations doivent être calculées en tenant compte du plan de sondage au sein de la population finie.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe Pourquoi utilise-t-on un plan de sondage complexe? Parce qu’on ne dispose pas d’un registre de la population dont on pourrait tirer des échantillons aléatoires simples. Pour réduire le coût de la collecte. Pour réduire l’imprécision des estimations.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe Les éléments d’un plan de sondage complexe Les strates • Leur usage augmente la précision des estimations : • à taille égale, un échantillon stratifié est plus puissant qu’un échantillon aléatoire simple. • Leur usage repose sur une décomposition de la variance analogue à celle de l’analyse de variance : • on distingue la variance intra-strates et la variance inter-strates. Les grappes • Leur usage sert à réduire le coût de la collecte. • Leur usage réduit la puissance de l’échantillon (c.-à-d. qu’il réduit la précision des estimations) parce que celle-ci dépend du nombre d’unités d’échantillonnage indépendantes.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’usage d’un plan de sondage complexe On cherche à obtenir des strates dont chacune est homogène du point de vue social et économique • de manière à réduire la variance intra-strates. Le plan de l’Enquête sur la population active contient ainsi près de 300 strates.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’estimation en statistique En français, on utilise le mot « estimation » pour nommer • l’action d’estimer et • le résultat de cette action. En anglais, on utilise • le mot « estimation » pour nommer l’action d’estimer et • le mot « estimate » pour nommer le résultat de cette action. On distingue l’estimation ponctuelle et l’estimation par intervalle.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’estimation en statistique En principe, en statistique, on cherche à estimer la distribution qui a généré l’échantillon dont on dispose. En pratique, on estime le ou les paramètres de cette distribution dont on pose a priori qu’elle suit une loi de probabilité donnée et connue, • c.-à-d. dont on connaît l’expression algébrique des différentes fonctions et dont les seuls éléments qui ont à être estimés sont les paramètres.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’estimation en statistique On peut chercher à estimer la distribution du revenu. • On posera par exemple qu’il suit une loi log-normale, • c.-à-d. que son logarithme suit une loi normale, • et on cherchera à estimer la moyenne et la variance de cette distribution.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’estimation en statistique Dans le cas qui nous occupe, on cherche plutôt à estimer la distribution d’échantillonnage du coefficient d’un modèle linéaire, • p. ex. la distribution du coefficient associé à une variable indépendante dans une régression ou • la distribution du rapport de risque associé à une variable indépendante dans un modèle de risque. On sait que les coefficients des modèles linéaires suivent une loi normale. • On cherchera donc à estimer la moyenne et la variance de la distribution d’échantillonnage de ces coefficients.
L’analyse de données recueillies au moyen d’enquêtes à plan complexe L’estimation en statistique Il est donc bon de comprendre que • le coefficient d’un modèle linéaire est un paramètre du modèle qu’on cherche à estimer, • mais que ce coefficient est également un paramètre de sa propre distribution d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe L’estimation ponctuelle L’estimation doit être pondérée dans tous les cas où la fraction d’échantillonnage n’est pas la même pour toutes les unités statistiques. Le poids d’échantillonnage est (au point de départ) l’inverse de la fraction d’échantillonnage. En principe, il suffit d’utiliser les poids d’échantillonnage pour obtenir des estimations ponctuelles sans biais.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe L’estimation par intervalle La chose est plus compliquée lorsqu’on veut estimer un intervalle de confiance. Puisque le coefficient suit une loi normale, on peut construire un intervalle de confiance si on dispose d’une estimation de son erreur-type, c.-à-d. de l’écart-type de sa distribution d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe L’estimation par intervalle Si on dispose d’un échantillon aléatoire simple, • le théorème de la limite centrale s’applique et • on dispose, pour les coefficients des modèles linéaires, d’une solution algébrique analogue à ce qui existe pour la moyenne. Si on utilise des données recueillies au moyen d’une enquête à plan de sondage complexe, • les choses sont plus complexes…
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La correction de Kish La méthode dite de la linéarisation Les méthodes de rééchantillonnage
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe L’effet de plan L’effet de plan est le rapport entre • la variance d’une estimation obtenue à partir d’un échantillon à plan complexe d’une taille donnée et • la variance de la même estimation obtenue à partir d’un échantillon aléatoire simple de la même taille. Autrement dit,
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La correction de Kish On multiplie la matrice des variances et des covariances obtenue en présumant que l’échantillon a été tiré en suivant un plan aléatoire simple par une estimation de l’effet de plan moyen. Il s’agit d’une correction approximative utile • lorsqu’on met au point un modèle et qu’on veut tenir compte de l’effet de plan sans utiliser une méthode de rééchantillonnage ou encore • lorsqu’on utilise une enquête de Statistique Canada et qu’on dispose d’une estimation de l’effet de plan moyen, mais pas de poids de rééchantillonnage…
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La correction de Kish Division de la statistique sociale et autochtone. Enquête sociale générale, Cycle 25 : Famille, Fichier de microdonnées à grande diffusion, documentation et guide de l'utilisateur. Ottawa: Statistique Canada: 2013 (12M0025X), p. 25.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La correction de Kish avec Stata Après l’estimation, on exécute les instructions suivantes: matrix b = get(_b) matrix V = get(VCE) matrix V = V*1.58 ereturn post b V ereturn display qui multiplient la matrice des variances et des covariances des estimations par l’estimation de l’effet de plan moyen (ici, 1,58), affichent les résultats corrigés et permettent de faire par la suite des tests à partir de la matrice corrigée.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe Une approximation de la correction de Kish On peut obtenir un résultat approximativement égal à celui de la correction de Kish • en recalculant les poids d’échantillonnage de manière à ce que leur somme soit le quotient de la taille de l’échantillon et de l’effet de plan. • Les erreurs-types calculées en présumant un échantillon aléatoire simple seront proches des erreurs-types corrigées par la méthode de Kish.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe Une approximation de la correction de Kish où • ki est le poids « corrigé », • pi, le poids d’échantillonnage conventionnel, • P, la taille de la population et la somme des pi, • n, la taille de l’échantillon et • d, l’effet de plan.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La méthode dite de « la linéarisation » La méthode dite de « la linéarisation » est connue sous plusieurs autres noms : • la méthode de Taylor, • la méthode du sandwich, • la méthode d’Huber, • la méthode de White et • la méthode d’Huber-White.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La méthode dite de « la linéarisation » où L est le nombre de strates dans la population, nh est le nombre d’unités primaires d’échantillonnage dans chaque strate h, et fh est le rapport du nombre de grappes de cette strate et du nombre total de grappes au sein de cette strate. On la comprend en examinant l’estimateur de la variance de la moyenne :
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La méthode dite de « la linéarisation » Pour utiliser la méthode dite de la linéarisation, on doit disposer d’information détaillée sur le plan de sondage, c.-à-d. de la strate et des grappes auxquelles appartiennent les unités finales qui ont été échantillonnées.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La méthode du « bootstrap » Pourquoi utiliser une méthode de rééchantillonnage et pourquoi celle-là ? • Parce que Statistique Canada n’inclut jamais la grappe et la strate auxquelles appartiennent les unités finales afin de ne pas permettre leur identification. • Parce que, pour garantir la confidentialité, les poids contiennent une part de « bruit » aléatoire dont la méthode de Taylor ne peut pas tenir compte. • Parce que la méthode de Taylor ne peut pas être utilisée lorsqu’on ne dispose que d’une seule grappe au sein d’une strate, ce qui arrive lorsqu’on utilise un sous-échantillon. • Parce que la méthode dite du « jackknife » demande que l’on tire autant d’échantillons qu’on a d’unités finales d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe La méthode du « bootstrap » On tire plusieurs échantillons de grappes au sein de l’échantillon original. On recalcule les poids finaux dans chacun de ces échantillons de manière à ce que chacun soit un échantillon isomorphe et probabiliste de la population finie. On estime le modèle à partir de chacun de ces échantillons. On calculer la variance et la covariance des estimations obtenues de cette manière.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe Usage de la méthode du « bootstrap » avec Stata Normalement, on utilise les poids de « bootstrap » en se servant de l’instruction –svyset– pour déclarer qu’on utilise des données qui proviennent d’un échantillon à plan complexe et des poids de « bootstrap ».
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe Usage de la méthode du bootstrap avec Stata Dans certains cas, il peut être utile d’utiliser deux petits programmes écrits par le professeur à partir d’un travail original de Darren Lauzon: les programmes –bts– et –stbts–. Ces programmes sont parfois utiles parce que les instructions de « bootstrap » de Stata • ne permettent pas d’ajouter des instructions supplémentaires lorsque nécessaire. • p.ex. pour orthogonaliser des variables, • et ne permettent pas de de ne copier en mémoire vive qu’une partie des poids de « bootstrap » • ce qui peut être nécessaire lorsque Statcan offre 1 000 poids de « bootstrap », mais que le système d’exploitation utilisé dans les CDR ne permet pas d’utiliser plus de 750 Mo de mémoire vive.
L’estimation à partir de données recueillies au moyen d’enquêtes à plan complexe Le cœur de -bts- matrix b0 = e(b)' matrix V = (b0 - b0)*(b0 - b0)' foreach wname in `rw' { qui `cmd' `varlist' `if' `in' , `cmdops' matrix V = V + (e(b)' - b0)*(e(b)' - b0)' local B = `B' + 1 if mod(`B',10)==0 di in gr "On a utilisé le `B'ème jeu de poids." } matrix b0 = b0' matrix V = (`r'/`B')*V ereturn post b0 V, dof(`dof') ereturn display, level(`level') eform(`eform')
La relation entre la population, l’échantillon et le modèle en analyse longitudinale Retour sur cette relation en analyse transversale « vraie » L’analyse longitudinale et l’échantillon prospectif L’analyse longitudinale et l’échantillon rétrospectif
La relation entre la population, l’échantillon et le modèle en analyse longitudinale Le cas de l’analyse transversale « vraie » L’échantillon est transversal et l’analyse porte strictement sur les caractéristiques des individus telles qu’elles se trouvent au moment de l’échantillonnage. Simultanéité: l’échantillon est un « cliché instantané » de la population dont il est tiré. Le principal obstacle à la « représentativité » est le refus complet, qui n’est généralement pas aléatoire.
La relation entre la population, l’échantillon et le modèle en analyse longitudinale Le cas de l’enquête prospective Au fil du temps, les unités qui composent la population et l’échantillon changent • Naissance, décès, émigration, immigration • Autres formes d’entrée et de sortie de la population • Vivre dans une institution (hôpital, prison) Au refus complet s’ajoute le problème de l’attrition.
La relation entre la population, l’échantillon et le modèle en analyse longitudinale Les solutions générales au problème de l’attrition « Rafraîchir l’échantillon », • c.-à-d. ajouter de nouveaux individus de manière à le rapprocher de la population. Traiter l’attrition comme un refus complet et • soit calibrer l’échantillon par poststratification et pondération, • soit utiliser la méthode du donneur, • c.-à-d. imputer à ceux qui ne répondent pas les réponses données par un individu choisi au hasard parmi ceux qui possèdent les même caractéristiques connues (strate, âge, sexe…) et qui ont répondu.
La relation entre la population, l’échantillon et le modèle en analyse longitudinale L’enquête rétrospective L’échantillon de l’enquête rétrospective est un échantillon de « survivants »: • un individu est observé s’il est présent dans la population au moment de l’échantillonnage; • en conséquence, les individus qui faisaient partie de la population que l’on cherche à reconstituer mais qui ne sont pas dans la population au moment de l’échantillonnage sont exclus des états passés de la population, notamment à cause • des décès et • de l’émigration. Donc, pas d’attrition, mais refus complet et absence de ceux qui n’ont pas « survécu ».
La relation entre la population, l’échantillon et le modèle en analyse longitudinale L’enquête rétrospective En revanche, on peut traiter correctement l’immigration si l’on connaît le moment de l’immigration : • il suffit d’exclure les immigrants des calculs qui correspondent aux moments de l’histoire où ils n’appartenaient pas encore à la société où ils ont immigré.
La relation entre la population, l’échantillon et le modèle en analyse longitudinale L’enquête rétrospective La composition de l’échantillon de l’enquête rétrospective selon l’âge à un âge donné est une fonction de l’âge des cohortes. Il n’y a pas d’autre solution que de tenir compte de la cohorte dans les analyses.