1 / 39

Boostrap, Jacknife et C ie

Boostrap, Jacknife et C ie. M. Dramaix-Wilmet Département de Biostatistique Novembre 2004. Introduction. Réf. : Bradley Efron (1979). Introduction. Bootstrap : méthode basée sur le ré-échantillonnage (RESAMPLING) Principales applications : Calcul d’intervalles de confiance

keena
Download Presentation

Boostrap, Jacknife et C ie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Boostrap, Jacknife et Cie M. Dramaix-Wilmet Département de Biostatistique Novembre 2004

  2. Introduction Réf. : Bradley Efron (1979)

  3. Introduction • Bootstrap : méthode basée sur le ré-échantillonnage (RESAMPLING) • Principales applications : • Calcul d’intervalles de confiance • Tests d ’hypothèse • Réduction de biais • Validation

  4. Introduction • Intérêt dans le cadre des calculs d’intervalles de confiance et des tests d’hypothèse • les méthodes usuelles ont le plus souvent des conditions d’application assez « sévères » • le bootstrap n’exige « rien »!

  5. Introduction • On peut reconstituer la distribution d ’une variable en faisant un certain nombre de « simulations » • Simulations = échantillons aléatoires des données sélectionnés avec remplacement • Plus le nombre de simulations est élevé, plus la reconstitution est meilleure

  6. Bootstrap - Principe • Echantillon « bootstrap » : échantillon aléatoire simple avec remplacement de n éléments parmi l’échantillon de taille n • Calcul de la statistique « bootstrap » : valeur de la statistique étudiée dans l’échantillon bootstrap • Répétition des deux premières étapes un très grand nombre « B » de fois

  7. Bootstrap-Principe • Distribution des statistiques calculées à partir des B échantillons « bootstrap » : simulation de la distribution échantillonnée de la statistique calcul moyenne distribution échantillonnée calcul DS distribution échantillonnée = erreur standard Intervalle de Confiance

  8. Bootsrap – Exemple (I) • Estimation erreur standard (ES) • Calcul avec EXCEL

  9. Bootstrap – Exemple (II) • Corrélation entre résultat fin secondaire et résultat à un test national (Efron, 1983)

  10. Bootstrap – Exemple (II) • 1000 échantillons bootstrap

  11. Bootstrap – Exemple (II) • Erreur Standard de r • Bootstrap : 0.127 • Théorie normale : 0.115

  12. Bootstrap • Calcul d’intervalle de confiance • Formule usuelle (approximation normale) • Limites de confiance basées sur les percentiles

  13. Bootstrap – Exemples (III) • Calculs avec EXCEL • Coefficient de corrélation • IC asymétrique approximation normale non OK • Méthodes « percentiles » IC : 0.65 à 0.91 (cf. IC approximatif basé sur normale)

  14. Bootstrap – Exemples (III) • Problème : r = .776 et Me distribution «Bootstrap» = 0.433 biais • Méthode des percentiles corrigée pour le Biais IC : 0.61 à 0.88 (en accord avec théorie standard pour coefficient corrélation)  Il peut subsister des problèmes même avec ette méthode

  15. Bootstrap • Estimation de biais • Moyenne des échantillons « Bootstrap » - estimation du paramètre • Ex. : coefficient de corrélation : estimation du biais : -0.014 (id. biais réel)

  16. Bootstrap versus approche paramétrique • Bootstrap peut être appliqué à n’importe quelle statistique : simple ou complexe • Avec un nombre raisonnable B d’échantillons (200-500 dans certaines simulations) : estimations presque sans biais des ES • Boostrap peut être appliqué qd un test paramétrique ne peut l’être

  17. PERMUTATION-RANDOMISATION • Tests de randomisation – permutation • Fisher 1935-1936 • Exemple : comparaison de deux moyennes – échantillons indépendants

  18. R. Fisher

  19. PERMUTATION-RANDOMISATION • Principe du test : comparaison de deux moyennes • Deux échantillons de taille m et n • Différence absolue observée entre les 2 moyennes = d1 • Si H0 vraie : n’importe laquelle des valeurs de l’échantillon total aurait aussi bien pu s’observer dans l’un ou l’autre des échantillons • On construit un nouvel échantillon 1

  20. PERMUTATION-RANDOMISATION • Principe du test : comparaison de deux moyennes • On construit un nouvel échantillon 1 en sélectionnant aléatoirement m valeurs parmi toutes les valeurs • Les valeurs restantes constituent le nouvel échantillon 2

  21. PERMUTATION-RANDOMISATION • Principe du test : comparaison de deux moyennes • On répète les deux étapes précédentes un grand nombre de fois (R-1) • On obtient R différences on les ordonne • On rejette H0 si la valeur de la statistique calculée dans l’échantillon initial est une valeur « extrême » de la distribution « permutation » de la statistique

  22. PERMUTATION-RANDOMISATION • Exemples • 2 groupes : 2 x 3 scores 20 «réarrangements» • PAS • Groupe 1 : 5 valeurs • Groupe 2 : 5 Valeurs 252 « réarrangements possibles »

  23. Bootstrap versus Test de permutation • Bootstrap ne donne pas des P-valeurs exactes – moins puissant • Test de Permutation basé sur l’équivalence de certaines distributions • Par ex. test égalité moyennes : il faut que les variances soient égales • Bootstrap n’a pas de telles restrictions peut s’appliquer qd un test permutation ne peut l’être

  24. JACKNIFE • Introduit par M. Quenouille en 1949 (pour estimation biais) et développé par TUKEY

  25. JACKNIFE • JACKNIFE : technique non paramétrique pour «approximer» la distribution échantillonnée d’une statistique • Soit un échantillon et une statistique étudiée (ex. moyenne, médiane…), le JACKNIFE consiste à: • Calculer la statistique en ôtant un sujet de l’échantillon • Répéter cette opération pour chaque sujet de l’échantillon • La distribution de l’ensemble des statistiques ainsi collectées est une approximation de la distribution échantillonnée de la statistique.

  26. JACKNIFE • Estimation du Biais • Ex. coefficient de corrélation : estimation du biais = -0.017 (bootstrap et biais réel : -0.014)

  27. JACKNIFE • Jacknife : technique de validation • Analyse discriminante : identification des variables permettant de discriminer 2 groupes ou + classification prédite par le modèle des sujets dans les différents groupes • Modèle validé par le Jacknife

  28. JACKNIFE • Le Jacknife comme technique de validation • Principe : • Chaque sujet ôté tour à tour de l’échantillon. • Fonction discriminante recalculée sans le sujet ôté. • Sujet ôté classé sur base de la fonction recalculée. • Classification globale = regroupement des classifications individuelles de chaque sujet ôté tour à tour • Ex. Enfants hospitalisés à Lwiro. • Outcome = état à la sortie • Variables sélectionnées dans le modèle : PBR, Oedèmes, Albumine sérique

  29. JACKNIFE

  30. JACKNIFE

  31. JACKNIFE

  32. JACKNIFE

  33. Bootstrap versus Jacknife • Jacknife pratiquement un bootstrap lui-même • Deux méthodes très proches • Jacknife demande moins de calculs • Performances du « Bootstrap » meilleures (erreurs standards)

  34. MONTE-CARLO • Monte Carlo : solutions approximatives pour une variété de problèmes mathématiques en réalisant des échantillonnages par ordinateur • La méthode est ainsi dénnomée d’après la ville de Monte-Carlo à Monaco parce que la roulette est un simple générateur de nombre aléatoire • La nom et le développement des méthodes « Monte Carlo » datent d’environ 1944.

  35. MONTE-CARLO • Test de permutation on considère toutes les façons possibles de « renommer » les valeurs • Test de permutation 2 échantillons de 3 valeurs: 20 « réarrangements »; 2 échantillons de 6 valeurs: 924; 2 échantillons de 10 valeurs : 184 756!

  36. MONTE-CARLO • MONTE-CARLO : on se limite à un échantillon aléatoire de « réarrangements » on peut ainsi estimer la p-valeur • Ex. :400 réarrangements aléatoires, p-valeur de 5%: dans 95% des cas, la p-valeur estimée se trouve dans l’intervalle 4.5% à 5.5%. Si 1600 réarrangements aléatoires, cet intervalle va de 4.75% à 5.25%

  37. RESAMPLING : quelques logiciels • Resampling Stats : www.resample.com • SAS (macros) : www.sas.com • Simstat : www.simstat.com • S-PLUS (routines) : www:http://statsci.com • ……

More Related