140 likes | 379 Views
Comparaison de deux pourcentages observés. Situation du problème : 2 Variables qualitatives dichotomiques La première permet de caractériser chaque groupe La seconde est le critère de jugement Comparaison de pourcentage dans deux groupes indépendants En fait,
E N D
Comparaison de deux pourcentages observés • Situation du problème : • 2 Variables qualitatives dichotomiques • La première permet de caractériser chaque groupe • La seconde est le critère de jugement • Comparaison de pourcentage dans deux groupes indépendants • En fait, • On dispose de deux échantillons (A et B) sur lesquels on a mesuré une variable qualitative binaire • Ces deux échantillons peuvent-ils être considérés comme étant issus de la même population ? (Les deux pourcentages (Pa, Pb sont ils deux estimateurs du même pourcentage P ?) • Problème très fréquent • Exemple : On traite deux groupes de souris par deux goudrons par tirage au sort et on observe le pourcentage de survenue de cancers à 6 mois dans chaque groupe.
Comparaison de deux pourcentages observés • Hypothèses • Hypothèse nulle H0 : • Les 2 échantillons peuvent être considérés comme issus d ’une population ayant comme pourcentage P • Pa et Pb sont deux estimateurs de Ptha et Pthb avec Ptha = Pthb = P • Hypothèses alternatives : • Test bilatéral • Ptha # Pthb • Test unilatéral • Ptha > Pthb ou (exclusif) Ptha< Pthb • Eléments nécessaires au calcul : • Na , Nb = Effectifs de chaque groupe • Pa et Pb = Pourcentage observé dans chaque groupe • Autres éléments : • Na+ , Nb+ = Effectifs présentant le caractère dans chaque groupe Na++ Nb+ • = Pourcentage commun qui serait observé sous l’hypothèse nulle par réunion des deux groupes • P = • Na + Nb
Comparaison de deux pourcentages observés • Statistiques utilisables • Khi 2 • Epsilon ou u (Loi normale) • Remarque : ces deux tests sont équivalents et ont les mêmes conditions d ’application : • Na * P > 5; Nb * P > 5 • Na *(1-P) >5; Nb *(1-P) • On approche une loi binomiale par une loi normale • Si les conditions ne sont pas remplies on prend une autre méthode
Comparaison de deux pourcentages observés A + C (A + C) * (A + B) Ath= * (A + B) = A + B + C + D N • Utilisation du KHI2. Test Bilatéral (unilatéral possible mais moins habituel) • Tableau des valeurs observées : • Sous l’hypothèse nulle: • on aurait dû observer pour le groupe 1 : • Effectif attendu de cancer : P * Na • Remarque : • Quand on a calculé un effectif théorique, on obtient les autres par différence avec les effectifs marginaux. • Pour chaque case, la différence entre l’effectif théorique et l’effectif observé est la même.
Comparaison de deux pourcentages observés A Ath B Bth C Cth D Dth 2 2 2 2 (A- Ath) (B- Bth) (C- Cth) (D- Dth) + + + + Khi 2 = Ath Bth Cth Dth DDL = 1 2 [(A*D)-(B*C)] * N • Utilisation du KHI2. • Tableau des valeurs observées et théoriques : • Statistique : Khi 2 = (A+C) * (B+D) *(A+C) *(C+D) Remarque : La première formulation permet de vérifier les conditions d’application : Ath ,Bth ,Cth ,Dth doivent être supérieurs à 5
Comparaison de deux pourcentages observés Khi 2 > Khi2 alpha Khi 2< Khi2 alpha • Utilisation du KHI2. • Décision : • Valeur critique : table du Khi 2 • Pour alpha = 0,05 Khi2 à 1 DLL = 3,84 Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p On accepte H0. Attention au risque Bêta Remarque : les conditions d’applications sont discutées par les différents auteurs. On sera d’autant plus prudent qu’au moins un effectif théorique est proche de 5 et que le résultat est proche de la signification.
Comparaison de deux pourcentages observés • Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ? • Hypothèses • HO : • La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P • H1 : test bilatéral • Path # Pbth • Récapitulatifs des données • Pa = 0,20 , Pb = 0,12 • Na = 50; Na+ = 50 * 0,2 = 10 • Nb = 50; Nb+ = 50* 0,12= 6 • P = 0,16 = (10+6)/(50+50)
Comparaison de deux pourcentages observés Nombre de Nombre de souris avec souris sans cancer cancer 10 40 Cigarettes 50 8 42 6 44 Cigares 50 8 42 16 84 100 2 2 2 2 (10- 8) (6- 8) (40- 42) (44- 42) + + + + Khi 2 = 8 8 42 42 DDL = 1 • Utilisation du KHI2. • Tableau des valeurs observées et théoriques : Tous les effectifs théoriques sont supérieurs à 5 => Les conditions d’application sont remplies • Khi 2 = 1,19 Khi 2 alpha 5% DDL 1 = 3,84 => La différence n’est pas significative au seuil de risque 5%
Comparaison de deux pourcentages observés • Utilisation d’une variable normale centrée réduite : u ou epsilon. Test bilatéral ou unilatéral. • Sous H0 on aurait dû observer un pourcentage théorique dont le meilleur estimateur est obtenu en regroupant les observations • Soit les données : • Na = Effectif du groupe 1 • Na+ = Effectif présentant le caractère dans le groupe 1 • Nb = Effectif du groupe 2 • Nb+ = Effectif présentant le caractère dans le groupe 1 • Pa = Pa = P = • Na+ • Nb+ • (Na+) + (Nb+) • Na • Nb • Na + Nb
Comparaison de deux pourcentages observés • |Pa - Pb | u = P * (1-P) P * (1-P) + • Na • Nb • u ou epsilon : • u alpha est lu dans la table de l’epsilon. • u 5% = 1,96 • Décision • Si u > ualpha on rejette H0. Il existe une différence statistiquement significative. On cherche le degré de signification p • Si u < ualpha on ne peut pas rejeter H0. Attention au risque Beta. • Remarque : le u est la racine carrée du khi 2 que l’on aurait pu calculer.
Comparaison de deux pourcentages observés • Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ? • Hypothèses • HO : • La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P • H1 : test bilatéral • Path # Pbth • Récapitulatifs des données • Pa = 0,20 , Pb = 0,12 • Na = 50; Na+ = 50 * 0,2 = 10 • Nb = 50; Nb+ = 50* 0,12= 6 • P = 0,16 = (10+6)/(50+50)
Comparaison de deux pourcentages observés • |0,20 -0,12| u = 0,16 * 0,84 0,16 * 0,84 + • 50 • 50 • u ou epsilon : u = 1,091 • u 5% = 1,96 • => La différence n’est pas significative au seuil de risque 5% • Remarque : 1,091 est la racine carrée de 1,19 valeur du khi 2 précédent.