430 likes | 581 Views
POL1803: Analyse des techniques quantitatives. Cours 6 Comparaison de moyennes et de pourcentages. L ’ analyse bivariée. Le test de différence de moyennes (test t ). Outils pour certaines questions.
E N D
POL1803: Analyse destechniques quantitatives Cours 6 Comparaison de moyennes et de pourcentages
L’analyse bivariée Le test de différence de moyennes (test t)
Outils pour certaines questions • Est-ce que les Québécois aiment autant Stephen Harper et les Conservateurs que les autres Canadiens? • Est-ce que les hommes et les femmes sont autant informés au sujet de la politique? • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec?
Statistiques inférentielles • Signification statistique: probabilité de trouver une relation dans un échantillon alors qu’il n’y a pas de relation dans la population. • Hypothèse nulle: affirmation qu’il n’y a pas d’association statistique dans la population. • Seuil: généralement c’est 0,05 (5% des chances, 1 chance sur 20,)
Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05: on rejette l’hypothèse nulle, on considère que la relation dans l’échantillon est statistiquement significative et on conclut qu’une relation existe probablement dans la population.
Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05: on ne rejette pas l’hypothèse nulle, on considère que la relation dans l’échantillon n’est pas statistiquement significative et on ne peut pas conclure qu’une relation existe probablement dans la population.
Application: le chi-carré • Si le chi-carré dépasse 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05; • on rejette l’hypothèse nulle; • on considère que la relation dans l’échantillon est statistiquement significative; • et on conclut qu’une relation existe probablement dans la population (95%).
Application: le chi-carré • Si le chi-carré ne dépasse pas 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05; • on ne rejette pas l’hypothèse nulle; • on considère que la relation dans l’échantillon n’est pas statistiquement significative; • et on ne peut pas conclure qu’une relation existe probablement dans la population.
Autre contexte • Femmes: 2,2 bonnes réponses en moyenne • Hommes: 2,6 bonnes réponses en moyenne • ≠ Sexe Information • = Femme Information • = Homme Information
Autre contexte • Femmes: 2,2 • Hommes: 2,6 • Différence: -0,4
Fondement • Tous les échantillons possibles • Distribution d’échantillonnage des différences de moyennes • Approximativement normale si n > 50 • Presque normale si n > 120 • La moyenne de la distribution d’échantillonnage sera identique à la différence de la population
Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement probable (plus de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on ne rejette pas l’hypothèse nulle, donc on ne peut conclure qu’il y a une différence dans la population.
Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement improbable (moins de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on rejette l’hypothèse nulle, donc on conclue qu’il y a probablement une différence dans la population,
Test de différence de moyennes • Technique pour évaluer la signification statistique d’une différence entre les moyennes de deux sous-groupes. • S’applique aux situations où il y a une variable indépendante dichotomique et une variable dépendante d’intervalles/ratio.
Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2)
Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … s12 + s22 n1 n2
Un exemple • Femmes 1 : 2,2 s1 : 1,2 n1 : 110 • Hommes 2 : 2,6 s2 : 1,1 n2 : 100
Un exemple • s 1 - 2 = racine carrée de … s12 + s22 = n1 n2 1,22 + 1,12 = 110 100 1,44 + 1,21 = 110 100 0,013 + 0,012 = Racine carrée de 0,025 = 0,16
Un exemple • s 1 - 2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2) (110*1,22 + 100*1,12) * (110 + 100) = (110 + 100 - 2) (110*100) (158,4 + 121) * (210) (208) (11000) = 1,34 * 0,02 = Racine carrée de 0,027 = 0,16
Un exemple • (1 -2 ) = s 1 - 2 ( 2,2 - 2,6 ) = 0,16 -0,4 = 0,16 t = -2,5
Un 2è exemple • Vieux 1 : 2,7 s1 : 1,1 n1 : 140 • Jeunes 2 : 2,0 s2 : 1,0 n2 : 100
Un 2è exemple • s1 -2 = racine carrée de … s12 + s22 = n1 n2 1,12 + 1,02 = 140 100 1,21 + 1,0 = 140 100 0,009 + 0,01 = Racine carrée de 0,019 = 0,14
Un 2è exemple • (1 -2 ) = s1 -2 ( 2,7 - 2,0 ) = 0,14 0,7 = 0,14 t = 5
L’interprétation du t • Normalement (voir Fox et Imbeau), il faut ensuite prendre le t, calculer le nombre de degrés de liberté et aller consulter une table pour savoir si le t est plus grand qu’une valeur donnée qui varie selon le degré de liberté et le seuil souhaité. • On peut se simplifier la vie, puisque notre seuil sera toujours 0,05 (1 sur 20, 5%) et que nos échantillons seront toujours près du degré de liberté infini (n > 120).
L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si oui, la différence de l’échantillon est statistiquement significative, on rejette l’hypothèse nulle, et on conclut qu’une différence existe probablement dans la population.
L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si non, la différence de l’échantillon n’est pas statistiquement significative, on ne rejette pas l’hypothèse nulle, et on ne pas peut conclure qu’une différence existe probablement dans la population.
La statistique t varie selon … • La différence entre les moyennes • Un exemple: • (-1): t = -6,25 signif. • (-0,16): t = -1 non signif.
La statistique t varie selon … • La taille de l’échantillon • Un exemple: • (105): t = -2,01 signif. • (420): t = -3,68 signif.
La statistique t varie selon … • Les écarts-types des échant. • Un exemple: • (0,6; 0,6): t = -4,90 signif. • (2,4; 2,4): t = -1,54 non signif.
Avertissement • Si la différence dans un échantillon est statistiquement significative, cela ne veut pas dire qu’exactement la même différence existe probablement dans la population. • On peut seulement conclure que la différence dans la population n’est probablement pas nulle, qu’elle est probablement dans la même direction que celle de l’échantillon.
Remarques importantes • Lorsque l’on parle de différence de moyennes, on parle tout de même de relation ou d’association entre variables. • Mais on ne peut pas quantifier la force de cette association. On ne peut qu’identifier sa direction (en référence à une des catégorie de la variable indépendante lorsque celle-ci est nominale). • Par ailleurs, il ne faut jamais confondre association statistique et relation causale.
Extension De la moyenne au pourcentage
Estimation par intervalle • À 95% : m = 1,96 s où s = s ¯ n • À 95% : = p 1,96 sp où sp = s ¯ n
Test de différence (t) • (1 - 2 ) où s1 -2= racine carrée de s1 -2 s12 + s22 n1 n2 • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2
Test de différence (t) • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec? • Sondage: • 1001 personnes • 500 hommes, 44% favorable à la souveraineté (écart-type: 49,7) • 501 femmes, 42% favorable à la souveraineté (écart-type: 48,8)
Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 n1 = 500 s1 = 49,7 p2 = 42 n1 = 501 s2 = 48,8 49,7*49,7 + 48,8*48,8 = 2470 + 2381 = 500 501 500 501 4,94 + 4,75 = 9,69 = 3,11
Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 p2 = 42 sp1 -p2= 3,11 44 - 42 = 2 = 0,64 3,11 3,11
Test de différence (t) Exemples
Mauvais exemple Pourcentage de bonnes réponses à chaque item du quiz d’info. pol.
Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2006
Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2011
Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2006
Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2011