200 likes | 431 Views
Prise en compte des données avec excès de zéros. Episode 2 Comment prendre en compte ?. Objectif. Données de comptage Modèle « simple » Distribution de Poisson a priori Comment prendre en compte un excès de zéros ?. Les lois de probabilités discrètes. Loi de Bernouilli Loi binomiale
E N D
Prise en comptedes données avec excès de zéros Episode 2 Comment prendre en compte ?
Objectif • Données de comptage • Modèle « simple » • Distribution de Poisson a priori Comment prendre en compteun excès de zéros ?
Les lois de probabilités discrètes • Loi de Bernouilli • Loi binomiale • Loi géométrique • … • Loi de Poisson • Loi Binomiale Négative
Loi de Poisson • Loi des évènements rares • Soit N le nombre d’évènements rares survenus dans un intervalle de temps N est une variable aléatoire dont la distribution est une loi de Poisson E(N) = λ Var(N) = λ
Loi Binomiale Négative • « Pile-ou-face » tant que Pile n'est pas apparu k fois Nombre de Pile = k Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de lancers = L • Le nombre L de lancers nécessaires pour gagner une partie est une variable aléatoire, dont la distribution est une distribution binomiale négative. somme de variables géométriques indépendantes (nb L de lancers jusqu’à 1ere apparition de Pile)
Loi Binomiale Négative (2) • « Pile-ou-face » tant que Pile n'est pas apparu k fois Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de Face précédant le k-ième succès = F Le nombre F de Face est une variable aléatoire dont la distribution est une distribution binomiale négative. • Var(F) > E(F) d’un coefficient (1/p) • Généralisation de la loi de Poisson ?
Poisson -> Bin. Nég. • Loi de Poisson P(λ) Excès de zéros = surdispertion Var(λ) > E(λ) • Remplacer par une Loi Bin. Nég. BN(k,p)
Adaptations des modèles • Adaptations basés sur l’exemple d’une distribution de Poisson • Applicable à d’autres distributions (BN) • 2 principes : • Probabilité de zéros plus élevées pour tous • Sous groupe de zéros, distinct des autres
Modèle mixte • ~ P(λV) • V est une variable aléatoire ~ N(1,α) E(Y) = λ Var(Y) = λ + α2
Modèles ZIP (zero-inflated poisson) • Pr(Y=y) = ω + (1-ω).e-µ y = 0 (1-ω).e-µ.µy / y! y > 0 0 ≤ ω < 1 • E(Y) = (1-ω).µ = λ • Var(Y) = λ + (ω/(1-ω)).µ2 • Similitude avec le premier modèle ? « The second of these equations has the same form »
Modèles « hurdle » • Analyse séparée • Proportion de zéros • Probabilité de valeurs > 0 Pr(Y=y) = π0y = 0 (1- π0).e-µ.µy / ((1-e-µ)y!) y > 0 • Hypothèse sous jacente : π0 et µ sont-ils indépendants ? • l’un dépend de variables explicatives indépendantes de l’autre • hypothèse forte
Modèle « birth process » • Analyse séparée • Période de « naissance » (zéros) • Période de « croissance » (> 0) • Différence d’évolution entre les 2 périodes
En résumé • Loi binomiale négative • Modèles, basés sur loi P ou autres (BN) : • Modèles mixtes • Modèles ZIP • Modèles « hurdle » • Modèles « birth process » • En pratique,essentiellement BN, modèles ZIP ou ZINB
Référence Models for count data with many zeros M. Ridout International biometric conference, Cap Town . 1998
Présentation d’une étude Evaluating risk factors associated with severe hypoglycaemia in epidemiology studies – What method should we use ? M.K. Bulsara. Diabetic Medicine. 2004
Etude FR d’hypoglycémie sévère • Prospective • 1243 enfants, de 1996 à 2000 • 73% sans épisode sévère d’hypoglycémie • Surdispersion m = 0,68 var = 2,95 • Modèle poissonien inadapté
Etude FR d’hypoglycémie sévère • Test statistique de surdispersion • Test statistique pour le choix du modèle ZIP/P et ZINB/NB (statistique de Vuong) • Test MV pour comparer ZIP/ZINB > Modèle ZINB le plus approprié
Etude FR d’hypoglycémie sévère • Comparaison des estimations • Age • P,NB : RR diminue avec l’âge • ZIP : OR augmente avec l’âge / groupe « zéros » • Sexe • RR augmenté chez le garçon. NS pour modèles ZI • ! OR / groupes « zéros » dans modèles ZI ? • Durée du diabète • RR augmenté • HbA1C • RR diminué pour tous les modèles
Etude FR d’hypoglycémie sévère • Conclusions • Modèle Poisson inadapté • Différences non négligeables dans les estimations des paramètres • Difficultés d’interprétations des résultats
Aux prochains épisodes … • Episode 1 – Quand prendre en compte ? Tests pour choisir le modèle • Episode 3 – Avec quoi prendre en compte ? Outils et applications pratiques