POL1803: Analyse des techniques quantitatives

POL1803: Analyse destechniques quantitatives Cours 6 Comparaison de moyennes et de pourcentages

L’analyse bivariée Le test de différence de moyennes (test t)

Outils pour certaines questions • Est-ce que les Québécois aiment autant Stephen Harper et les Conservateurs que les autres Canadiens? • Est-ce que les hommes et les femmes sont autant informés au sujet de la politique? • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec?

Statistiques inférentielles • Signification statistique: probabilité de trouver une relation dans un échantillon alors qu’il n’y a pas de relation dans la population. • Hypothèse nulle: affirmation qu’il n’y a pas d’association statistique dans la population. • Seuil: généralement c’est 0,05 (5% des chances, 1 chance sur 20,)

Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05: on rejette l’hypothèse nulle, on considère que la relation dans l’échantillon est statistiquement significative et on conclut qu’une relation existe probablement dans la population.

Logique du seuil • Si la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05: on ne rejette pas l’hypothèse nulle, on considère que la relation dans l’échantillon n’est pas statistiquement significative et on ne peut pas conclure qu’une relation existe probablement dans la population.

Application: le chi-carré • Si le chi-carré dépasse 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est inférieure à 0,05; • on rejette l’hypothèse nulle; • on considère que la relation dans l’échantillon est statistiquement significative; • et on conclut qu’une relation existe probablement dans la population (95%).

Application: le chi-carré • Si le chi-carré ne dépasse pas 3,84: • la probabilité de trouver une relation auprès d’un échantillon alors qu’il n’y a pas de relation dans la population est supérieure à 0,05; • on ne rejette pas l’hypothèse nulle; • on considère que la relation dans l’échantillon n’est pas statistiquement significative; • et on ne peut pas conclure qu’une relation existe probablement dans la population.

Autre contexte • Femmes: 2,2 bonnes réponses en moyenne • Hommes: 2,6 bonnes réponses en moyenne • ≠ Sexe  Information • = Femme Information • = Homme Information

Autre contexte • Femmes: 2,2 • Hommes: 2,6 • Différence: -0,4

Fondement • Tous les échantillons possibles • Distribution d’échantillonnage des différences de moyennes • Approximativement normale si n > 50 • Presque normale si n > 120 • La moyenne de la distribution d’échantillonnage sera identique à la différence de la population

Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement probable (plus de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on ne rejette pas l’hypothèse nulle, donc on ne peut conclure qu’il y a une différence dans la population.

Signification statistique • Hypothèse nulle : μ1 = μ2 ou μ1 - μ2 = 0 • S’il est relativement improbable (moins de 1 sur 20) de tomber sur une telle différence dans un échantillon alors qu’elle n’existe pas dans la population, on rejette l’hypothèse nulle, donc on conclue qu’il y a probablement une différence dans la population,

Test de différence de moyennes • Technique pour évaluer la signification statistique d’une différence entre les moyennes de deux sous-groupes. • S’applique aux situations où il y a une variable indépendante dichotomique et une variable dépendante d’intervalles/ratio.

Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2)

Test de différence de moyennes • Formule (t): (1 -2 ) s 1 -2 où s1 -2 = racine carrée de … s12 + s22 n1 n2

Un exemple • Femmes 1 : 2,2 s1 : 1,2 n1 : 110 • Hommes 2 : 2,6 s2 : 1,1 n2 : 100

Un exemple • s 1 - 2 = racine carrée de … s12 + s22 = n1 n2 1,22 + 1,12 = 110 100 1,44 + 1,21 = 110 100 0,013 + 0,012 = Racine carrée de 0,025 = 0,16

Un exemple • s 1 - 2 = racine carrée de … (n1 s12 + n2 s22) * (n1 + n2) (n1 + n2 - 2) (n1 n2) (110*1,22 + 100*1,12) * (110 + 100) = (110 + 100 - 2) (110*100) (158,4 + 121) * (210) (208) (11000) = 1,34 * 0,02 = Racine carrée de 0,027 = 0,16

Un exemple • (1 -2 ) = s 1 - 2 ( 2,2 - 2,6 ) = 0,16 -0,4 = 0,16 t = -2,5

Un 2è exemple • Vieux 1 : 2,7 s1 : 1,1 n1 : 140 • Jeunes 2 : 2,0 s2 : 1,0 n2 : 100

Un 2è exemple • s1 -2 = racine carrée de … s12 + s22 = n1 n2 1,12 + 1,02 = 140 100 1,21 + 1,0 = 140 100 0,009 + 0,01 = Racine carrée de 0,019 = 0,14

Un 2è exemple • (1 -2 ) = s1 -2 ( 2,7 - 2,0 ) = 0,14 0,7 = 0,14 t = 5

L’interprétation du t • Normalement (voir Fox et Imbeau), il faut ensuite prendre le t, calculer le nombre de degrés de liberté et aller consulter une table pour savoir si le t est plus grand qu’une valeur donnée qui varie selon le degré de liberté et le seuil souhaité. • On peut se simplifier la vie, puisque notre seuil sera toujours 0,05 (1 sur 20, 5%) et que nos échantillons seront toujours près du degré de liberté infini (n > 120).

L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si oui, la différence de l’échantillon est statistiquement significative, on rejette l’hypothèse nulle, et on conclut qu’une différence existe probablement dans la population.

L’interprétation du t • On n’a qu’à se poser la question: • Est-ce que la valeur absolue du t est supérieure à 1,96? • Si non, la différence de l’échantillon n’est pas statistiquement significative, on ne rejette pas l’hypothèse nulle, et on ne pas peut conclure qu’une différence existe probablement dans la population.

La statistique t varie selon … • La différence entre les moyennes • Un exemple: • (-1): t = -6,25 signif. • (-0,16): t = -1 non signif.

La statistique t varie selon … • La taille de l’échantillon • Un exemple: • (105): t = -2,01 signif. • (420): t = -3,68 signif.

La statistique t varie selon … • Les écarts-types des échant. • Un exemple: • (0,6; 0,6): t = -4,90 signif. • (2,4; 2,4): t = -1,54 non signif.

Avertissement • Si la différence dans un échantillon est statistiquement significative, cela ne veut pas dire qu’exactement la même différence existe probablement dans la population. • On peut seulement conclure que la différence dans la population n’est probablement pas nulle, qu’elle est probablement dans la même direction que celle de l’échantillon.

Remarques importantes • Lorsque l’on parle de différence de moyennes, on parle tout de même de relation ou d’association entre variables. • Mais on ne peut pas quantifier la force de cette association. On ne peut qu’identifier sa direction (en référence à une des catégorie de la variable indépendante lorsque celle-ci est nominale). • Par ailleurs, il ne faut jamais confondre association statistique et relation causale.

Extension De la moyenne au pourcentage

Estimation par intervalle • À 95% : m =  1,96 s où s = s ¯ n • À 95% :  = p 1,96 sp où sp = s ¯ n

Test de différence (t) • (1 - 2 ) où s1 -2= racine carrée de s1 -2 s12 + s22 n1 n2 • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2

Test de différence (t) • Est-ce que les hommes et les femmes ont un même niveau d’appui à la souveraineté du Québec? • Sondage: • 1001 personnes • 500 hommes, 44% favorable à la souveraineté (écart-type: 49,7) • 501 femmes, 42% favorable à la souveraineté (écart-type: 48,8)

Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 n1 = 500 s1 = 49,7 p2 = 42 n1 = 501 s2 = 48,8 49,7*49,7 + 48,8*48,8 = 2470 + 2381 = 500 501 500 501 4,94 + 4,75 =  9,69 = 3,11

Test de différence (t) • ( p1 – p2 ) où sp1 -p2= racine carrée de sp1 -p2 s12 + s22 n1 n2 p1 = 44 p2 = 42 sp1 -p2= 3,11 44 - 42 = 2 = 0,64 3,11 3,11

Test de différence (t) Exemples

Mauvais exemple Pourcentage de bonnes réponses à chaque item du quiz d’info. pol.

Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2006

Meilleur exemple Score thermomètre (0-100) moyen de Stephen Harper selon la province en 2011

Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2006

Meilleur exemple Score thermomètre (0-100) moyen des Conservateurs selon la province en 2011

POL1803: Analyse des techniques quantitatives

POL1803: Analyse des techniques quantitatives

Presentation Transcript

Descriptive Research Techniques

Advertising Techniques

ANALYSE DU TRAVAIL Système H/M

Analyse de risque appliquée au contrôle antidopage des chevaux de course

Organization

Persuasive Techniques Used in Writing

3. Objektorientierte Spezifikation

L’échantillonnage

Analyse financière

Requirements Elicitation Techniques

Analyse de corpus

Advertising Techniques

TECHNIQUES OF INTEGRATION

Dissertation Techniques

Analyse des algorithmes

Analyse des algorithmes: une introduction

RADIOGRAPHIC TECHNIQUES

Analyse financière

Radio-séméiologie uro-génitale Techniques Radio-anatomie Bases d’analyse

HACCP

08:30 – 12:00 Analyse av handlingsrommet

Airway Clearance Techniques