640 likes | 878 Views
Statistiques. Licence — quatrième séance. Analyse de variance simple. Un facteur de classification. Plan. Une étude de Eysenck La question Les données Situation statistique Description Le principe de raisonnement Conditions d’application Calculs Interprétation des résultats
E N D
Statistiques Licence — quatrième séance
Analyse de variance simple Un facteur de classification
Plan • Une étude de Eysenck • La question • Les données • Situation statistique • Description • Le principe de raisonnement • Conditions d’application • Calculs • Interprétation des résultats • Exemple supplémentaire (11.22 p 390)
1. Une étude de Eysenck Mémoire et profondeur de traitement
1.1 Présentation [Howell, pp 340-]
Historique En 1974, Eysenck a mené une étude dans le but de démontrer que la profondeur de traitement a un effet sur la mémorisation involontaire. Des groupes de volontaires sont formés, qui ont a traiter une liste de mots. Le traitement varie selon les groupes, mais la liste est la même. On demande ensuite aux sujets de rappeler le maximum d’items possibles de la liste. Le nombre X de mots correctement rappelés est une mesure de la qualité de la rétention.
Historique L’étude comporte 5 groupes : • Le groupe « addition » doit compter le nombre de lettres de chaque mot de la liste • Le groupe « rime » doit chercher un mot rimant avec chaque mot de la liste • On demande au groupe « adjectif » d’accoler un adjectif possible à chaque mot de la liste (il s’agit de substantifs) • Au groupe « image » de se représenter mentalement l’objet désigné • Au groupe « intentionnel » d’apprendre la liste.
Historique Dans l’esprit d’Eysenck, les groupes correspondent à des traitements de plus en plus profonds (signes / sons / sens / image).
Question La question qu’on se pose peut s’exprimer la façon suivante : Le traitement a-t-il une influence sur la mémorisation ? Ce qui revient à : Les moyennes de X dans les différents groupes sont-elles différentes ou au contraire toutes égales ?
1.2 Les données Formalisation et données brutes
Formalisation La situation est la suivante : • Nous disposons d’un échantillon de volontaires participants (individus) • D’un facteur T « traitement » catégoriel (qualitatif ou nominal) • D’une variable dépendante X quantitative • Et nous cherchons un lien éventuel entre T et X.
2. La situation statistique Retour et généralisation
2.1 Description Quand faire une ANOVA ?
Les cas appelant l’anova Dans les situations semblables à celles que nous venons de décrire, on est amené à utiliser une méthode statistique particulière : l’analyse de varianceou ANOVA(ANalysis Of VAriance).
Situation propice à l’anova • Nous avons deux variables : • Une variable indépendante ou facteur catégoriel (échelle finie). • Une variable dépendante quantitative. • Il est indispensable d’avoir suffisamment de valeur de la VD pour chaque modalité de la VI. • Mais les « groupes » ne sont pas nécessairement de la même taille.
Remarques • Le tableau que nous avons présenté plus haut n’est ni descriptif ni statistique. • L’anova est un test fondé sur un modèle, comme la régression linéaire (corrélation fondée sur le modèle linéaire). • La conclusion donnée par le test est seulement que les moyennes vraies sont différentes (ie non toutes égales), et ne permet pas de conclure à un quelconque « sens » de variation, même si cela fait sens, comme ici. Il s’agira d’interprétation.
2.2 Principes fondamentaux Variations
Variations • Le principe de base est une étude des variations. • On dit « variation » parce qu’il s’agit d’une version légèrement modifiée de la variance… mais l’idée est la même.
Variations • La variable X n’est pas constante : elle présente des variations. • L’anova est fondée sur l’idée qu’une partie de ces variations est attribuable au facteur. • Le reste étant dû à d’autres facteurs. • Si la variation due au facteur semble élevée, on pourra conclure à un « effet » du facteur sur la VD • Dans le cas contraire, on ne pourra pas conclure (et non pas conclure qu’il n’y a pas d’effet !).
3. Conditions d’application De l’ANOVA
À vérifier systématiquement Pour pouvoir appliquer l’analyse de variance, il est indispensable de vérifier : • L’indépendance des observations (dans l’expérience d’Eysenck, les sujets ne passent qu’une des expériences possibles) • La normalité de la VD dans les groupes (elle se vérifie par ordinateur, nous la supposerons toujours) • L’homogénéité des variances. Vérifiez qu’aucune variance n’est 4 fois supérieure à une autre. (Eysenck a fait l’étude malgré la violation de cette condition).
Violation des conditions • Cependant, l’anova est relativement robuste, et fonctionne encore si les conditions d’application sont « presque » vérifiées. • Des variances très différentes impliqueront une plus grande prudence dans la lecture des résultats • Des distributions non normales ne sont pas gênantes si elles sont d’asymétrie de même signe et unimodales.
4. Les calculs Sans commentaire
La mesure de variation • Tous les calculs se fondent sur un principe identique. • Quand il nous faut mesurer la variation de X entre des groupes G1, G2… de taille n1, n2… nous procédons toujours de la manière suivante (encore valable en anova factorielle ou pour mesures répétées).
Dans l’expérience d’Eysenck, on peut calculer le carré de la somme des 50 valeurs (9+8+…+11)²=503² Que l’on divise ensuite par 50 (il y a 50 valeurs), ce qui donne le facteur de correction FC=5060.18 On calcule (attention à l’erreur dans Howell, p 350) On en déduit le facteur de correction Facteur de correction
On calcule la somme des carrés des totaux (par groupes) divisés par les effectifs. Par exemple, pour comparer les groupes d’Eysenck : On calcule alors simplement les « sommes des carrés » (en réalité somme des carrés des écarts à la moyenne) par : Somme des carrés
On a ainsi une mesure de la variation entre les groupes (traitement), donc « due au traitement » La variation due au traitement est 351.52 SC est une mesure de la variation entre les groupes considérés. Somme des carrés
Les différents SC • Les SC se calculent pour les groupes de traitement, mais pas seulement. On peut aussi calculer les SC correspondant à d’autres « regroupements ». • Les différents SC ainsi obtenus permettent de terminer l’anova.
Les différents SC • Par exemple, on peut « regrouper » les valeurs une par une. • Le raisonnement précédent s’applique, avec des groupes de taille 1 et des totaux égaux en fait à l’unique valeur considérée. • On obtient alors la variation entre toutes les valeurs : la variation totale
Répartition des variations • La variation totale (entre toutes les valeurs) est due d’une part à l’effet du facteur (variation entre les groupes) et d’autre part à ce qu’on appelle « l ’erreur » car dans le modèle simplifié où seul le facteur intervient, c’est une erreur. • Cette variation supplémentaire est la variation « à l’intérieur des groupes », et elle est due à tous les facteurs autre que celui qui nous préoccupe.
Répartition des variations • Une propriété formidable des SC est qu’elle sont « additives ». Ainsi, quand on additionne • la variation due au facteur T • et celle due aux autres facteurs, • on obtient la variation totale.
Répartition des variations Variation totale Variation entre groupes Erreur (variation sujet)
Répartition des variations • Dans la pratique, on calcule la variation due au facteur, puis la variation totale • On en déduit la variation « erreur » par soustraction :
Degrés de liberté • À chaque SC est associé un degré de liberté. • Le degré de liberté est le nombre de groupes moins 1. • Les degrés de liberté s’additionnent comme les SC. • Dans le cas de l’expérience,
Degrés de liberté • Dans le cas général, si n est le nombre total d’individus dans l’échantillon et k le nombre de groupes, on a
Carrés moyens • Enfin, on définit les carrés moyens (qui sont une sorte de variance corrigée) CM. • Ils mesurent la variation d’une manière standard et plus adéquate que les SC, mais ne sont pas additifs.
Présentation des résultats • On a l’habitude de présenter les résultats dans un tableau standard de la forme :
Présentation des résultats • Dans l’expérience de Eysenck, cela donne le tableau suivant (en rouge: obtenu par soustraction. En vert, par division).
F • La seule valeur mystérieuse est F. Elle sert à tester l’hypothèse de différence entre les moyennes, et elle vaut
F • Si le facteur n’intervient pas, on devrait avoir autant de variation entre les groupes qu’à l’intérieur des groupes, et donc on devrait avoir F=1 • Si au contraire il intervient, on s’attend à avoir un F supérieur à 1 • En particulier, un F inférieur à 1 n’est pas significatif.
F • F suit une loi de Fisher-Snedecor. • Les tables statistiques donnent les valeurs à partir desquelles la conclusion d’effet est possible • Si l’on a observé un F de valeur supérieure, alors on peut affirmer (avec un certain risque, en général 1%) que les traitements différents donnent des moyennes différentes de la VD • On dira alors que le facteur a un effet sur la VD
F • Dans l’expérience d’Eysenck, la table donne Degré de liberté du dénominateur Risque de 1% Degré de liberté du numérateur
F • On avait trouvé F=9.08 • C’est supérieur à 3.78 • On peut donc affirmer au risque de 1% que la profondeur de traitement a un effet sur la mémorisation. • Cela ne dit pas que l’effet est positif, mais la forme du lien nous renseigne efficacement. • Il faut pour cela représenter les données : on représente la distribution de l’espérance conditionnelle de X connaissant T.