Comparaison de deux moyennes observées

Comparaison de deux moyennes observées • Situation du problème : • On dispose d’une variable qualitative binaire qui permet de définir deux groupes. • On mesure une variable quantitative qui permet de calculer dans chaque groupe les différents paramètres de la distribution : moyenne, estimateur de l’écart type... • On désire savoir si les moyennes observées dans chacun des groupes peuvent être considérées comme des estimateurs de la même moyenne aux fluctuations du hasard près. • Par exemple, on a administré à deux groupes de patients tirés au sort deux somnifères. Dans le premier groupe, la durée moyenne du sommeil a été de 5,6 heures et dans le second de 4,9 heures. Les deux somnifères peuvent-ils être considérés comme entraînant la même durée moyenne de sommeil ? • Attention : • les techniques développées ci après ne concernent que le cas particulier de 2 groupes. Si il y a plus de deux groupes on utilise une autre approche. • pour établir le test, on a besoin de l’hypothèse (que l’on peut tester) que les variances des populations dont sont issus les deux groupes sont identiques.

Hypothèses • Hypothèses : • Hypothèse nulle : • les deux moyennes observées xa et xb sont des estimateurs de deux moyennes µa et µb tels que µa = µb • les deux échantillons sont issus d’une même population (même moyenne et même variance) • Hypothèses alternatives • Test bilatéral µa # µb • Test unilatéral µa > µb o u (exclusif) µa < µb • En pratiques deux cas de figure : • Les effectifs des deux échantillons sont grands (supérieurs à 30) : Les calculs sont simplifiés, on peut utiliser une approche par la loi normale. • Un des effectifs ou les deux sont petits. En plus de l’égalité des variances, la loi de distribution du paramètre doit suivre une loi normale. Il est nécessaire de calculer la variance commune. • Eléments nécessaires aux calculs • les deux moyennes, les effectifs des deux échantillons, les deux estimateurs des écart types (ou autres paramètres reliés : SCE, ESM, CV...)

Grands échantillons 2 2 Na Nb • Cas des grands échantillons • Approximation par la loi normale : • Lorsque les deux échantillons sont grands, • xa suit une distribution normale de moyenne µa et de variance sa/Na • Il en est de même pour xb • Si les deux échantillons sont indépendants, la différence xa - xb suit une loi normale dont la moyenne est µa - µb et la variance sa/Na+sb/Nb • Si H0 est vraie µa - µb = 0 et 2 2 2 • xa - xb u = suit approximativement une loi normale centrée réduite • sa +sb 2 2 Si Na et Nb sont grands, sa +sb sont de bonnes approximations des “vraies” variances et on peut les utiliser dans le calcul. Il y a deux approximations de nature différente : Celle de la distribution de la moyenne par une loi normale. Celle de la variance par son estimateur. • Si u est supérieur à ualpha on rejette l’hypothèse nulle. Lire dans la table le degré de signification p

Cas général (petits échantillons) 2 2 sa sb * (Nb -1) SCEa + SCE b * (Na -1) + scommun = = Na + Nb- 2 Na + Nb- 2 |xa - xb | t = 2 2 scommun scommun + Na Nb • Cas général • Il doit être utilisé lorsqu’au moins un des échantillon a un effectif faible. Il est utilisable pour de grands échantillons mais nécessite plus de calculs. • Calcul de la variance commune : • On démontre que : suit une loi de student à Na + Nb- 2 DDL t alpha lu dans la table de Student pour le DDL correspondant • Si t > t alpha on rejette H0 : les deux moyennes diffèrent au risque alpha. On cherche le degré de signification p dans la table de t • Si t < t alpha on ne peut pas rejeter H0. Il n'y a pas de différence significative au seuil de risque alpha mais ATTENTION au risque bêta.

Reemarques • Remarques sur les conditions d’applications : cas des petits effectifs : • Egalité des variances : homocédasticité • Cette condition est d’autant plus importante à respecter que les effectifs dans les deux échantillons sont très différents. • Si cette condition n’est pas remplie certains proposent de prendre une sécurité en diminuant le degré de liberté du t. • Normalité : • Le test t est robuste à un écart de normalité en particulier si les effectifs des deux échantillons sont identiques et que les variances sont voisines.

Comparaison de deux variances sa2 sb2 • Comparaison de 2 variances • Pour vérifier l’homocédasticité : F = On met arbitrairement la plus grande variance au numérateur donc F > 1. DDL (Na-1), (Nb-1) • On utilise la table du F pour déterminer la valeur critique. • ATTENTION : le choix arbitraire nous met en condition unilatérale. Il faut donc utiliser la table F à 2,5% pour avoir un risque bilatéral de 5%. • Si F > Falpha on rejette l’hypothèse d’égalité des variances. • La comparaison des deux moyennes suppose l’égalité des variances. Ainsi, dans le cas de nos deux somnifères cela suppose qu’ils n’entraînent pas de différence de dispersion du temps de sommeil mais uniquement une translation de la moyenne. xa xb

Exemple • Exemple : • On compare la consommation de caféine chez 112 cancéreux : moyenne 147,2 mg/jour - écart type estimé 101,8 mg/jour à celle de 185 non cancéreux : moyenne 132,9 mg/jour - écart type 115,7 mg/jour. On prend un risque à 5%. • Test bilatéral, grands échantillons 147,2 - 132,9 = 1,11 u = 115,72 185 101,82 112 + 1,11 est inférieur à 1,96 => Différence non significative On aurait pu utiliser un t mais ce serait plus long car il faut alors calculer la variance commune.

Comparaison de deux moyennes observées