360 likes | 471 Views
Commentaires sur les biais écologiques et les échelles non emboîtées. L. Fortunato (1) , C. Guihenneuc-Jouyaux (1)(2) D. Hémon (1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5. Contexte : études écologiques (1).
E N D
Commentaires sur les biais écologiques et les échelles non emboîtées L. Fortunato(1), C. Guihenneuc-Jouyaux(1)(2) D. Hémon(1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5
Contexte : études écologiques (1) • Etudes écologiques : données (IS et exposition) recueillies au niveau de groupe (unité géographique) et non au niveau individuel • Avantages : • Disponibilité des données (registres des maladies, recensements) • Réduction des erreurs de mesures • Forme naturelle des données : Radon, pollution de l’air, qualité de l’eau • Développement statistique
Contexte : études écologiques (2) • Biais communs aux études écologiques et individuelles • Choix du modèle • Facteurs de confusion non mesurés (FC inter-unité) • … • Biais spécifiques aux études écologiques • Biais de pure spécification • Facteurs de confusion intra-unité géographique • Problème des échelles non emboitées
Objectifs • Modèle écologique de Poisson • Partie 1 • Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques • Partie 2 • Echelles géographiques non emboîtées
Partie 1 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques
Introduction (1) • Modèle classique : maladie rare modèle hiérarchique Dans chaque unité géographique i Oi ~ P(RiEi) Log(Ri) = Zi’ b + εi - Z est la matrice des covariables résumés quantitatifs des FR : moyenne, médiane,… - ε est le vecteur des résidus, avec ou sans structure spatiale
Introduction (2) • Si le but de l’étude est l’estimation des liens individuels entre l’indicateur de santé et les FR à partir de données agrégées • Perte d’information sur les expositions individuelles et sur leurs variabilités • Estimations biaisées des effets individuels biais de pure spécification • Problème largement discuté dans la littérature (Best, Richardson, Wakefield…) Prise en compte de la variabilité intra-unité géographique des FR dans la régression écologique • Jamais de réelle quantification de la réduction du biais
Relations entre liens individuel et écologique • Niveau individuel : modèle multiplicatif de risque g(x) = exp( + x)TI pr les individus exposés au même niveau x • Niveau écologique : risque associé à l’unité i • Ri = somme de tous les TI des individus de l’unité i • Ri = E(g(X)) = g(x) Hi(x) dx Si Hi = N(µi , i²) distribution intra-unité du FR dans i
Estimation du lien individuel • Vrai risque relatif • Si on utilise le modèle classique : • xi au lieu de µi Fluctuations d’échantillonnage • ≠ 0 biais écologique • Pas de biais écologique si : • "petit" • Variances intra-unité homogènes • Variances intra-unité non corrélées aux moyennes du FR
But : estimer un lien individuel entre l’ IS et le FR à partir de données écologiques Contexte : Modèle multiplicatif de risque au niveau individuel Plusieurs relevés du FR par unité Objectif général • Prendre en compte des fluctuations d’échantillonnage • Introduction de la distribution intra-unité du FR. • Réduire le biais écologique • Introduction de la variance intra-unité du FR. • Etudier les conséquences de la mauvaise spécification de la distribution intra-unité du FR dans le modèle d’estimation • Loi Gamma vs loi Normale
Modèles d’estimation • Modèle classique • Modèle complet (variabilité intra-unité) = modélisation Gaussienne de la variabilité extra-Poissonnienne
Simulations • Domaine = lattice régulier 10×10 • Différents nombres de mesures du FR par unité géographique : moyenne = 140, min = 26, max = 352 • {µi} = moyennes du FR (min = 3.09, max = 5.57) • {i²} = variances du FR (de 1 à 2.5), corrélées avec les moyennes • Paramètre individuel : = 1 « forte » association individuelle entre le risque et l’exposition
Analyse statistique • Approche Bayésienne • Distributions a priori peu informatives • Algorithme MCMC ( WinBUGS ) • Inférences statistiques basées sur 15000 itérations (contrôle de la convergence avec plusieurs critères)
Résultats : Distribution Gaussienne (100 réplications)β = 1, ρµσ = 0.8
Sensibilité à l’hypothèse de Normalité de la distribution intra-unité • Sensibilité à l’hypothèse de Normalité Etudier les conséquences de l’utilisation de la loi Normale dans le modèle d’estimation alors que la distribution intra-unité sous-jacente ne l’est pas. • Etude d’une distribution intra-unité Gamma
Résultats : Distribution Gamma (20 réplications)β = 1, ρµσ = 0.8
Application : Incidence des leucémies de l’enfant et exposition domestique au Radon • Unité géographique : 94 départements (Corse exclue) • Cas : incidence française des leucémies chez les enfants agés <15 ans de 1990 à 2001 (5306 cas) (Registre National des Hémopathies malignes de l'Enfant, J. Clavel, U754) • Leucémies aiguës lymphoïdes (LAL) : 4327 cas • Leucémies aiguës myéloïdes (LAM) : 907 cas • Exposition: 12988 mesures du radon(IRSN) Transformation logarithmique des valeurs du radon car permet l’approximation Gaussienne
Partie 2 Echelles géographiques non emboîtées
Problématique • Variables écologiques mesurées sur différentes échelles non emboîtées • Transformation des données pour les mettre toutes à la même échelle (échelle plus grossière et commune) Perte importante d’information • Illustration : en France, 2 échelles administratives différentes • Départements (94) • Zones d’emploi (341) • 62 ZE Dep • Echelle commune : Région (21)
5333 5354 5353 5344 Un exemple … Bretagne (Région 53) : 18 zones d’emploi et 4 départements 4 zones d’emploi non emboîtées dans les départements
Notations • Zone « Cible » • Echelle géographique où l’indicateur de santé (mortalité ou incidence) est mesuré • Zone « Source » • Echelle géographique où l’exposition est mesurée
p3 1 4 3 2 A B Méthodes • Méthode M : relation entre les mesures latentes de l’exposition sur les unités « cibles » et les mesures observées sur les unités « sources » X3 ≈ p3 XA + (1- p3) XB p3 = % de l’unité A dans l’unité 3 • Méthode R : relation entre les risques relatifs sur les unités « cibles » et sur les unités « sources » R3 ≈ p3 RA + (1- p3) RB avec RA = exp( + XA + 0.5²A²) Hypothèses : modèle multiplicatif de risque distribution Gaussienne de l’exposition sur A et B
Exemple de la méthode classique (M) pour les données du Radon • Données (moyennes et variances empiriques) disponibles sur les départements et les zones d’emploi. • Pondération en fonction de la population (cartes similaires si pondération en fonction de la superficie) population du département j dans la ze i Poids = population dans la ze i
Modèles d’estimation • Régression écologique de Poisson • 1er niveau : Oi ~ P(Ei Ri) • 2ème niveau pij = aire de l’intersection i et j / aire de i
Simulations • Cas 1 • Partition « cible » : lattice de 400 unités • Partition « source » : lattice de 100 unités • Cas 2 • Partition « cible » : lattice de 100 unités • Partition « source » : lattice de 400 unités • Forte association entre l’indicateur de santé et l’exposition • Proportion de recouvrement, nb d’unités non emboitées
Résultats • Pas de différence entre les 2 méthodes M et R (robustesse de la méthode classique) • Différence entre les modèles avec ou sans variance intra-unité (attendue) • Situation en cours d’étude
(1) (2) Application : Radon et toutes LA (1) : mêmes échelles géographiques pour les observés et l’exposition (2) : échelles géographiques différentes et non emboitées pour les observés et l’exposition
(1) (2) Application : Radon et LAM
Méthodes dans la littérature • Méthode la plus simple et la plus utilisée : reconstruction des données d’exposition sur la partition « cible » à partir de la partition « source » , proportionnellement à la population ou l’aire • Méthode de Flowerdew et Green (1989) • Régression de Poisson itérative (algorithme EM) pour estimer les caractéristiques des zones « cible » • Méthode de Best et al (1998) • Modèles Poisson/Gamma : les zones sont relativement petites • Processus ponctuel • Méthode de Mugglin et al (2000) • 3ème partition : Intersection des 2 partitions (« cible » et « source ») • Lois sur les variables réponses latentes • Pour les expositions : table de conversion