1 / 43

POL1803: Analyse des techniques quantitatives

POL1803: Analyse des techniques quantitatives. Cours 6 Comparaison de moyennes et de pourcentages. L ’ analyse bivariée. Le test de différence de moyennes (test t ). Outils pour certaines questions.

zinna
Download Presentation

POL1803: Analyse des techniques quantitatives

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. POL1803: Analyse destechniques quantitatives Cours 6 Comparaison de moyennes et de pourcentages

  2. L’analyse bivariée Le test de différence de moyennes (test t)

  3. Outils pour certaines questions • Est-ce que les Québécois aiment autant Stephen Harper et les Conservateurs que les autres Canadiens? • Est-ce que les hommes et les femmes sont autant informés au sujet de la politique? • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec?

  4. Statistiques inférentielles • Signification statistique: probabilité de trouver une relation dans un échantillon alors qu’il n’y a pas de relation dans la population. • Hypothèse nulle: affirmation qu’il n’y a pas d’association statistique dans la population. • Seuil: généralement c’est 0,05 (5% des chances, 1 chance sur 20,)

  5. Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05: on rejette l’hypothèse nulle, on considère que la relation dans l’échantillon est statistiquement significative et on conclut qu’une relation existe probablement dans la population.

  6. Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05: on ne rejette pas l’hypothèse nulle, on considère que la relation dans l’échantillon n’est pas statistiquement significative et on ne peut pas conclure qu’une relation existe probablement dans la population.

  7. Application: le chi-carré • Si le chi-carré dépasse 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05; • on rejette l’hypothèse nulle; • on considère que la relation dans l’échantillon est statistiquement significative; • et on conclut qu’une relation existe probablement dans la population (95%).

  8. Application: le chi-carré • Si le chi-carré ne dépasse pas 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05; • on ne rejette pas l’hypothèse nulle; • on considère que la relation dans l’échantillon n’est pas statistiquement significative; • et on ne peut pas conclure qu’une relation existe probablement dans la population.

  9. Autre contexte • Femmes: 2,2 bonnes réponses en moyenne • Hommes: 2,6 bonnes réponses en moyenne • ≠ Sexe  Information • = Femme Information • = Homme Information

  10. Autre contexte • Femmes: 2,2 • Hommes: 2,6 • Différence: -0,4

  11. Fondement • Tous les échantillons possibles • Distribution d’échantillonnage des différences de moyennes • Approximativement normale si n > 50 • Presque normale si n > 120 • La moyenne de la distribution d’échantillonnage sera identique à la différence de la population

  12. Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement probable (plus de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on ne rejette pas l’hypothèse nulle, donc on ne peut conclure qu’il y a une différence dans la population.

  13. Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement improbable (moins de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on rejette l’hypothèse nulle, donc on conclue qu’il y a probablement une différence dans la population,

  14. Test de différence de moyennes • Technique pour évaluer la signification statistique d’une différence entre les moyennes de deux sous-groupes. • S’applique aux situations où il y a une variable indépendante dichotomique et une variable dépendante d’intervalles/ratio.

  15. Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2)

  16. Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … s12 + s22 n1 n2

  17. Un exemple • Femmes 1 : 2,2 s1 : 1,2 n1 : 110   • Hommes 2 : 2,6 s2 : 1,1 n2 : 100

  18. Un exemple • s 1 - 2 = racine carrée de … s12 + s22 = n1 n2 1,22 + 1,12 = 110 100 1,44 + 1,21 = 110 100 0,013 + 0,012 = Racine carrée de 0,025 = 0,16

  19. Un exemple • s 1 - 2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2) (110*1,22 + 100*1,12) * (110 + 100) = (110 + 100 - 2) (110*100) (158,4 + 121) * (210) (208) (11000) = 1,34 * 0,02 = Racine carrée de 0,027 = 0,16

  20. Un exemple • (1 -2 ) = s 1 - 2 ( 2,2 - 2,6 ) = 0,16 -0,4 = 0,16 t = -2,5

  21. Un 2è exemple • Vieux 1 : 2,7 s1 : 1,1 n1 : 140   • Jeunes 2 : 2,0 s2 : 1,0 n2 : 100

  22. Un 2è exemple • s1 -2 = racine carrée de … s12 + s22 = n1 n2 1,12 + 1,02 = 140 100 1,21 + 1,0 = 140 100 0,009 + 0,01 = Racine carrée de 0,019 = 0,14

  23. Un 2è exemple • (1 -2 ) = s1 -2 ( 2,7 - 2,0 ) = 0,14 0,7 = 0,14 t = 5

  24. L’interprétation du t • Normalement (voir Fox et Imbeau), il faut ensuite prendre le t, calculer le nombre de degrés de liberté et aller consulter une table pour savoir si le t est plus grand qu’une valeur donnée qui varie selon le degré de liberté et le seuil souhaité. • On peut se simplifier la vie, puisque notre seuil sera toujours 0,05 (1 sur 20, 5%) et que nos échantillons seront toujours près du degré de liberté infini (n > 120).

  25. L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si oui, la différence de l’échantillon est statistiquement significative, on rejette l’hypothèse nulle, et on conclut qu’une différence existe probablement dans la population.

  26. L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si non, la différence de l’échantillon n’est pas statistiquement significative, on ne rejette pas l’hypothèse nulle, et on ne pas peut conclure qu’une différence existe probablement dans la population.

  27. La statistique t varie selon … • La différence entre les moyennes • Un exemple: • (-1): t = -6,25 signif. • (-0,16): t = -1 non signif.

  28. La statistique t varie selon … • La taille de l’échantillon • Un exemple: • (105): t = -2,01 signif. • (420): t = -3,68 signif.

  29. La statistique t varie selon … • Les écarts-types des échant. • Un exemple: • (0,6; 0,6): t = -4,90 signif. • (2,4; 2,4): t = -1,54 non signif.

  30. Avertissement • Si la différence dans un échantillon est statistiquement significative, cela ne veut pas dire qu’exactement la même différence existe probablement dans la population. • On peut seulement conclure que la différence dans la population n’est probablement pas nulle, qu’elle est probablement dans la même direction que celle de l’échantillon.

  31. Remarques importantes • Lorsque l’on parle de différence de moyennes, on parle tout de même de relation ou d’association entre variables. • Mais on ne peut pas quantifier la force de cette association. On ne peut qu’identifier sa direction (en référence à une des catégorie de la variable indépendante lorsque celle-ci est nominale). • Par ailleurs, il ne faut jamais confondre association statistique et relation causale.

  32. Extension De la moyenne au pourcentage

  33. Estimation par intervalle • À 95% : m =  1,96 s où s = s ¯ n • À 95% :  = p 1,96 sp où sp = s ¯ n

  34. Test de différence (t) • (1 - 2 ) où s1 -2= racine carrée de s1 -2 s12 + s22 n1 n2 • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2

  35. Test de différence (t) • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec? • Sondage: • 1001 personnes • 500 hommes, 44% favorable à la souveraineté (écart-type: 49,7) • 501 femmes, 42% favorable à la souveraineté (écart-type: 48,8)

  36. Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 n1 = 500 s1 = 49,7 p2 = 42 n1 = 501 s2 = 48,8 49,7*49,7 + 48,8*48,8 = 2470 + 2381 = 500 501 500 501 4,94 + 4,75 =  9,69 = 3,11

  37. Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 p2 = 42 sp1 -p2= 3,11 44 - 42 = 2 = 0,64 3,11 3,11

  38. Test de différence (t) Exemples

  39. Mauvais exemple Pourcentage de bonnes réponses à chaque item du quiz d’info. pol.

  40. Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2006

  41. Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2011

  42. Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2006

  43. Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2011

More Related