270 likes | 582 Views
Chapitre 3 - Comparer plusieurs groupes. 2 groupes. >2 groupes. A. B. A. B. C. Est-ce que la moyenne des 2 groupes diffère ?. Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?. Comparer 2 groupes : le test t de Student. Approche similaire au test Z.
E N D
2 groupes >2 groupes A B A B C Est-ce que la moyenne des 2 groupes diffère ? Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?
Comparer 2 groupes : le test t de Student • Approche similaire au test Z. • S’applique particulièrement pour de petits échantillons (n<30) • Suppose la normalité des distributions et l’égalité des variances • On pose H0: m1 - m2 = 0 pas de différence entre les moyennes H1: m1 - m2 0 différence entre les moyennes • On calcule la statistique tc. La formule varie selon les caractéristiques des échantillons.
Dégré de liberté (DDL) important car la forme de la distribution change A spécifier lors du calcul de probabilité
Pour rappel, test Z pour grands échantillons La loi de Student converge vers la loi normale pour n grand • On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons • n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2 (1)
n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1) • n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2 (3) (2)
Test bilatéral a/2 ta/2 0 ta/2varie avec le ddl Si ItobsI < Ita/2IH0 acceptée Si ItobsI > Ita/2I H0 rejetée • On compare tobs à la valeur critique de t pour un risqueaet pour un degré de liberté (ddl) déterminé Test unilatéral (à droite) a ta 0 tavarie avec le ddl Si tobs < ta H0 acceptée Si tobs > taH0 rejetée
Exemple d’application n < 28, n inégaux formule (2) 0.020 0.0757 0.0897 tobs=0.2427 On teste la différence de taille moyenne des filles de 2 amphis Amphi 1 158 163 151 … 175 168 165 28 1.64 0.28 Amphi 2 159 149 153 … 178 159 167 25 1.66 0.32 n Moyenne Ecart-type Test bilatéral
Valeurs données dans le tableau pour a/2 ! tobs=0.2427 < ta/2= H0 acceptée Pas de différence significative entre les tailles moyennes des 2 amphis
group 1 2 3 k rivière étang fossé X11 X12 . X1k 15 16 6 X21 . . . . . . . 20 18 7 . . . 15 12 9 . . Xnkk Xn11 13 17 14 18 13 15 16 22 12 22 14 11 8 18 12 10 21 8 11 25 5 Test ANOVA (ANalysis Of VAriance) Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux Comparer plus de 2 groupes • Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ? • Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ? On s’intéresse aux différentes sources de dispersion des données.
Somme des carrés • DDL • N=nombre total d’individus • k= nombre de groupes • Variance • Rapport des variances F SCT SCI SCE
Fobs suit une loi de Fisher-Snedecor à n-k et k-1degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus • On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres • On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)
Si Fobs < F(n-k, k-1)H0 acceptée Si Fobs > F(n-k, k-1) H0 rejetée a Fa H0 H0 • On calcule F(n-k, k-1)pour le risque a et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl)
Critères d’application - normalité des populations d’origine (testable) - égalité des variances des différents groupes (testable) Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk Test de Levene Mais test ANOVA robuste aux - défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0. - Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.
Pourquoi ne pas faire plusieurs tests t ? • Si a=0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0. • Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage) • On corrige donc le seuil a lors de comparaisons multiples • Correction de Bonferroni • a’=a/n n=nombre de comparaisons
Procédure à suivre • On peut tester les différences entre groupes pris deux à deuxsi et seulement si on observe une différence significative globale entre les groupes. • adoit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données. • On utilise des tests post hocou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)
Exemple d’application 20 15 10 Taille à 3 semaines 5 0 Régime 1 Régime 2 Régime 3 Groupe expérimental On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines. H0= les 3 régimes n’influencent pas la taille des daphnies ou H0= les tailles moyennes dans les 3 groupes sont égales H1= au moins un des groupes diffère des autres
Dispersion intra-groupe SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06 SC2 = … = 22.00 SC3 = … = 4.74 SCintra=SC1+SC2+SC3 = 44.80 ddl intra = n-k = 15-3 = 12
Dispersion inter-groupe SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38 ddlinter = k-1 = 3-1 = 2
Valeur seuil = F0.05 (1,2) avec 1= ddl inter-groupe 2= ddl intra-groupe Exemples : F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0 Inter-groupe Intra-groupe
Rapport des variances F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra) = (144.38/2) / (44.80/12) = 19.33 F0.05, 2,12= Fseuil= 3.88 Fobs Fseuil Fobs > Fseuil H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres
Tableau d’ANOVA issu d’un logiciel p < a H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres
Deux types de risques • Rejet d’une hypothèse nulle H0 correcte On décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas. zobs est fonction de x1-x2 Les 2 échantillons sont issus d’une même population mais zobs > za Pop échantillon 1 échantillon 2 za zobs
Acceptation d’une hypothèse nulle incorrecte On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont. zobs est fonction de x1-x2 Les 2 échantillons ne sont pas issus d’une même population mais zobs < za population 2 population 1 échantillon 1 échantillon 2 za zobs
Erreurs de type 1 et de type 2 Rejet H0 Acceptation H0 Erreur type II Risque b effet non détecté Décision correcte effet détecté Effet Erreur type I Risque a effet détecté effet n’existe pas Décision correcte effet non détecté effet n’existe pas Pas d’effet Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée
On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1). • Mais erreur type 2 peut avoir conséquences • Programme de suivi d’une espèce en danger • Si conclusion erronée d’une diminution des populations (type 1) • Actions de conservation non nécessaires • Si conclusion erronée d’une stabilité des populations (type 2) • Risque d’extinction