1 / 26

Chapitre 3 - Comparer plusieurs groupes

Chapitre 3 - Comparer plusieurs groupes. 2 groupes. >2 groupes. A. B. A. B. C. Est-ce que la moyenne des 2 groupes diffère ?. Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?. Comparer 2 groupes : le test t de Student. Approche similaire au test Z.

savea
Download Presentation

Chapitre 3 - Comparer plusieurs groupes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapitre 3 - Comparer plusieurs groupes

  2. 2 groupes >2 groupes A B A B C Est-ce que la moyenne des 2 groupes diffère ? Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?

  3. Comparer 2 groupes : le test t de Student • Approche similaire au test Z. • S’applique particulièrement pour de petits échantillons (n<30) • Suppose la normalité des distributions et l’égalité des variances • On pose H0: m1 - m2 = 0 pas de différence entre les moyennes H1: m1 - m2  0 différence entre les moyennes • On calcule la statistique tc. La formule varie selon les caractéristiques des échantillons.

  4. Dégré de liberté (DDL) important car la forme de la distribution change A spécifier lors du calcul de probabilité

  5. Pour rappel, test Z pour grands échantillons La loi de Student converge vers la loi normale pour n grand • On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons • n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2 (1)

  6. n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1) • n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2 (3) (2)

  7. Test bilatéral a/2 ta/2 0 ta/2varie avec le ddl Si ItobsI < Ita/2IH0 acceptée Si ItobsI > Ita/2I H0 rejetée • On compare tobs à la valeur critique de t pour un risqueaet pour un degré de liberté (ddl) déterminé Test unilatéral (à droite) a ta 0 tavarie avec le ddl Si tobs < ta H0 acceptée Si tobs > taH0 rejetée

  8. Exemple d’application n < 28, n inégaux formule (2) 0.020 0.0757 0.0897 tobs=0.2427 On teste la différence de taille moyenne des filles de 2 amphis Amphi 1 158 163 151 … 175 168 165 28 1.64 0.28 Amphi 2 159 149 153 … 178 159 167 25 1.66 0.32 n Moyenne Ecart-type Test bilatéral

  9. Valeurs données dans le tableau pour a/2 ! tobs=0.2427 < ta/2= H0 acceptée Pas de différence significative entre les tailles moyennes des 2 amphis

  10. group 1 2 3 k rivière étang fossé X11 X12 . X1k 15 16 6 X21 . . . . . . . 20 18 7 . . . 15 12 9 . . Xnkk Xn11 13 17 14 18 13 15 16 22 12 22 14 11 8 18 12 10 21 8 11 25 5 Test ANOVA (ANalysis Of VAriance) Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux Comparer plus de 2 groupes • Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ? • Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ? On s’intéresse aux différentes sources de dispersion des données.

  11. Somme des carrés • DDL • N=nombre total d’individus • k= nombre de groupes • Variance • Rapport des variances F SCT SCI SCE

  12. Fobs suit une loi de Fisher-Snedecor à n-k et k-1degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus • On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres • On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)

  13. Si Fobs < F(n-k, k-1)H0 acceptée Si Fobs > F(n-k, k-1) H0 rejetée a Fa H0 H0 • On calcule F(n-k, k-1)pour le risque a et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl)

  14. Critères d’application - normalité des populations d’origine (testable) - égalité des variances des différents groupes (testable) Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk Test de Levene Mais test ANOVA robuste aux - défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0. - Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.

  15. Pourquoi ne pas faire plusieurs tests t ? • Si a=0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0. • Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage) • On corrige donc le seuil a lors de comparaisons multiples • Correction de Bonferroni • a’=a/n n=nombre de comparaisons

  16. Procédure à suivre • On peut tester les différences entre groupes pris deux à deuxsi et seulement si on observe une différence significative globale entre les groupes. • adoit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données. • On utilise des tests post hocou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)

  17. Exemple d’application 20 15 10 Taille à 3 semaines 5 0 Régime 1 Régime 2 Régime 3 Groupe expérimental On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines. H0= les 3 régimes n’influencent pas la taille des daphnies ou H0= les tailles moyennes dans les 3 groupes sont égales H1= au moins un des groupes diffère des autres

  18. Dispersion intra-groupe SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06 SC2 = … = 22.00 SC3 = … = 4.74 SCintra=SC1+SC2+SC3 = 44.80 ddl intra = n-k = 15-3 = 12

  19. Dispersion inter-groupe SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38 ddlinter = k-1 = 3-1 = 2

  20. Valeur seuil = F0.05 (1,2) avec 1= ddl inter-groupe 2= ddl intra-groupe Exemples : F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0 Inter-groupe Intra-groupe

  21. Rapport des variances F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra) = (144.38/2) / (44.80/12) = 19.33 F0.05, 2,12= Fseuil= 3.88 Fobs Fseuil Fobs > Fseuil H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres

  22. Tableau d’ANOVA issu d’un logiciel p < a H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres

  23. Deux types de risques • Rejet d’une hypothèse nulle H0 correcte On décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas. zobs est fonction de x1-x2 Les 2 échantillons sont issus d’une même population mais zobs > za Pop échantillon 1 échantillon 2 za zobs

  24. Acceptation d’une hypothèse nulle incorrecte On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont. zobs est fonction de x1-x2 Les 2 échantillons ne sont pas issus d’une même population mais zobs < za population 2 population 1 échantillon 1 échantillon 2 za zobs

  25. Erreurs de type 1 et de type 2 Rejet H0 Acceptation H0 Erreur type II Risque b effet non détecté Décision correcte effet détecté Effet Erreur type I Risque a effet détecté effet n’existe pas Décision correcte effet non détecté effet n’existe pas Pas d’effet Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée

  26. On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1). • Mais erreur type 2 peut avoir conséquences • Programme de suivi d’une espèce en danger • Si conclusion erronée d’une diminution des populations (type 1) • Actions de conservation non nécessaires • Si conclusion erronée d’une stabilité des populations (type 2) • Risque d’extinction

More Related