1 / 36

Commentaires sur les biais écologiques et les échelles non emboîtées

Commentaires sur les biais écologiques et les échelles non emboîtées. L. Fortunato (1) , C. Guihenneuc-Jouyaux (1)(2) D. Hémon (1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5. Contexte : études écologiques (1).

connor
Download Presentation

Commentaires sur les biais écologiques et les échelles non emboîtées

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Commentaires sur les biais écologiques et les échelles non emboîtées L. Fortunato(1), C. Guihenneuc-Jouyaux(1)(2) D. Hémon(1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5

  2. Contexte : études écologiques (1) • Etudes écologiques : données (IS et exposition) recueillies au niveau de groupe (unité géographique) et non au niveau individuel • Avantages : • Disponibilité des données (registres des maladies, recensements) • Réduction des erreurs de mesures • Forme naturelle des données : Radon, pollution de l’air, qualité de l’eau • Développement statistique

  3. Contexte : études écologiques (2) • Biais communs aux études écologiques et individuelles • Choix du modèle • Facteurs de confusion non mesurés (FC inter-unité) • … • Biais spécifiques aux études écologiques • Biais de pure spécification • Facteurs de confusion intra-unité géographique • Problème des échelles non emboitées

  4. Objectifs • Modèle écologique de Poisson • Partie 1 • Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques • Partie 2 • Echelles géographiques non emboîtées

  5. Partie 1 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques

  6. Introduction (1) • Modèle classique : maladie rare  modèle hiérarchique Dans chaque unité géographique i Oi ~ P(RiEi) Log(Ri) = Zi’ b + εi - Z est la matrice des covariables résumés quantitatifs des FR : moyenne, médiane,… - ε est le vecteur des résidus, avec ou sans structure spatiale

  7. Introduction (2) • Si le but de l’étude est l’estimation des liens individuels entre l’indicateur de santé et les FR à partir de données agrégées • Perte d’information sur les expositions individuelles et sur leurs variabilités • Estimations biaisées des effets individuels biais de pure spécification • Problème largement discuté dans la littérature (Best, Richardson, Wakefield…)  Prise en compte de la variabilité intra-unité géographique des FR dans la régression écologique • Jamais de réelle quantification de la réduction du biais

  8. Relations entre liens individuel et écologique • Niveau individuel : modèle multiplicatif de risque g(x) = exp( + x)TI pr les individus exposés au même niveau x • Niveau écologique : risque associé à l’unité i • Ri = somme de tous les TI des individus de l’unité i • Ri = E(g(X)) =  g(x) Hi(x) dx Si Hi = N(µi , i²) distribution intra-unité du FR dans i

  9. Estimation du lien individuel • Vrai risque relatif • Si on utilise le modèle classique : • xi au lieu de µi Fluctuations d’échantillonnage •  ≠ 0 biais écologique • Pas de biais écologique si : •  "petit"  • Variances intra-unité homogènes • Variances intra-unité non corrélées aux moyennes du FR

  10. But : estimer un lien individuel entre l’ IS et le FR à partir de données écologiques Contexte : Modèle multiplicatif de risque au niveau individuel Plusieurs relevés du FR par unité Objectif général • Prendre en compte des fluctuations d’échantillonnage •  Introduction de la distribution intra-unité du FR. • Réduire le biais écologique •  Introduction de la variance intra-unité du FR. • Etudier les conséquences de la mauvaise spécification de la distribution intra-unité du FR dans le modèle d’estimation • Loi Gamma vs loi Normale

  11. Modèles d’estimation • Modèle classique • Modèle complet (variabilité intra-unité)  = modélisation Gaussienne de la variabilité extra-Poissonnienne

  12. Simulations • Domaine = lattice régulier 10×10 • Différents nombres de mesures du FR par unité géographique : moyenne = 140, min = 26, max = 352 • {µi} = moyennes du FR (min = 3.09, max = 5.57) • {i²} = variances du FR (de 1 à 2.5), corrélées avec les moyennes • Paramètre individuel :  = 1 « forte » association individuelle entre le risque et l’exposition

  13. Analyse statistique • Approche Bayésienne • Distributions a priori peu informatives • Algorithme MCMC ( WinBUGS ) • Inférences statistiques basées sur 15000 itérations (contrôle de la convergence avec plusieurs critères)

  14. Résultats : Distribution Gaussienne (100 réplications)β = 1, ρµσ = 0.8

  15. Sensibilité à l’hypothèse de Normalité de la distribution intra-unité • Sensibilité à l’hypothèse de Normalité Etudier les conséquences de l’utilisation de la loi Normale dans le modèle d’estimation alors que la distribution intra-unité sous-jacente ne l’est pas. • Etude d’une distribution intra-unité Gamma

  16. Résultats : Distribution Gamma (20 réplications)β = 1, ρµσ = 0.8

  17. Application : Incidence des leucémies de l’enfant et exposition domestique au Radon • Unité géographique : 94 départements (Corse exclue) • Cas : incidence française des leucémies chez les enfants agés <15 ans de 1990 à 2001 (5306 cas) (Registre National des Hémopathies malignes de l'Enfant, J. Clavel, U754) • Leucémies aiguës lymphoïdes (LAL) : 4327 cas • Leucémies aiguës myéloïdes (LAM) : 907 cas • Exposition: 12988 mesures du radon(IRSN) Transformation logarithmique des valeurs du radon car permet l’approximation Gaussienne

  18. Moyennes a posteriori et IC95% de 

  19. Partie 2 Echelles géographiques non emboîtées

  20. Problématique • Variables écologiques mesurées sur différentes échelles non emboîtées • Transformation des données pour les mettre toutes à la même échelle (échelle plus grossière et commune)  Perte importante d’information • Illustration : en France, 2 échelles administratives différentes • Départements (94) • Zones d’emploi (341) • 62 ZE  Dep • Echelle commune : Région (21)

  21. 5333 5354 5353 5344 Un exemple … Bretagne (Région 53) : 18 zones d’emploi et 4 départements  4 zones d’emploi non emboîtées dans les départements

  22. Notations • Zone « Cible » • Echelle géographique où l’indicateur de santé (mortalité ou incidence) est mesuré • Zone « Source » • Echelle géographique où l’exposition est mesurée

  23. p3 1 4 3 2 A B Méthodes • Méthode M : relation entre les mesures latentes de l’exposition sur les unités « cibles » et les mesures observées sur les unités « sources » X3 ≈ p3 XA + (1- p3) XB p3 = % de l’unité A dans l’unité 3 • Méthode R : relation entre les risques relatifs sur les unités « cibles » et sur les unités « sources » R3 ≈ p3 RA + (1- p3) RB avec RA = exp( + XA + 0.5²A²) Hypothèses : modèle multiplicatif de risque distribution Gaussienne de l’exposition sur A et B

  24. Exemple de la méthode classique (M) pour les données du Radon • Données (moyennes et variances empiriques) disponibles sur les départements et les zones d’emploi. • Pondération en fonction de la population (cartes similaires si pondération en fonction de la superficie) population du département j dans la ze i Poids = population dans la ze i

  25. Modèles d’estimation • Régression écologique de Poisson • 1er niveau : Oi ~ P(Ei Ri) • 2ème niveau pij = aire de l’intersection i et j / aire de i

  26. Simulations • Cas 1 • Partition « cible » : lattice de 400 unités • Partition « source » : lattice de 100 unités • Cas 2 • Partition « cible » : lattice de 100 unités • Partition « source » : lattice de 400 unités • Forte association entre l’indicateur de santé et l’exposition • Proportion de recouvrement, nb d’unités non emboitées

  27. Résultats : cas 1 (10 réplications)

  28. Résultats : cas 2 (10 réplications)

  29. Résultats • Pas de différence entre les 2 méthodes M et R (robustesse de la méthode classique) • Différence entre les modèles avec ou sans variance intra-unité (attendue) • Situation en cours d’étude

  30. (1) (2) Application : Radon et toutes LA (1) : mêmes échelles géographiques pour les observés et l’exposition (2) : échelles géographiques différentes et non emboitées pour les observés et l’exposition

  31. (1) (2) Application : Radon et LAM

  32. MERCI

  33. Méthodes dans la littérature • Méthode la plus simple et la plus utilisée : reconstruction des données d’exposition sur la partition « cible » à partir de la partition « source » , proportionnellement à la population ou l’aire • Méthode de Flowerdew et Green (1989) • Régression de Poisson itérative (algorithme EM) pour estimer les caractéristiques des zones « cible » • Méthode de Best et al (1998) • Modèles Poisson/Gamma : les zones sont relativement petites • Processus ponctuel • Méthode de Mugglin et al (2000) • 3ème partition : Intersection des 2 partitions (« cible » et « source ») • Lois sur les variables réponses latentes • Pour les expositions : table de conversion

More Related