1 / 101

Université Paul Verlaine - Metz Ecole Doctorale PIEMES

Université Paul Verlaine - Metz Ecole Doctorale PIEMES Analyse de variance, de covariance, univariée, multivariée et analyse discriminante Jean-Luc Kop Université Nancy 2 jean-luc.kop@univ-nancy2.fr. PLAN Présentation générale Objectifs Panorama Exemples Technique

kira
Download Presentation

Université Paul Verlaine - Metz Ecole Doctorale PIEMES

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Université Paul Verlaine - Metz Ecole Doctorale PIEMES Analyse de variance, de covariance, univariée, multivariée et analyse discriminante Jean-Luc Kop Université Nancy 2 jean-luc.kop@univ-nancy2.fr

  2. PLAN • Présentation générale • Objectifs • Panorama • Exemples • Technique • Conditions d’applications • ANOVA univariée, deux VI inter (plan balancé) • ANOVA univariée, deux VI inter (plan non balancé) • ANCOVA : 2 VI et 2 CV • ANOVA multivariée (MANOVA) • Analyse discriminante • Mesures répétées : analyse univariée ou multivariée ?

  3. Présentation générale • A. Objectifs Comparer les moyennes à une ou plusieurs variables dépendantes obtenues dans des conditions différentes (expérimentales ou pas) sur les mêmes individus ou non (variables indépendantes intra ou inter-individuelle) en contrôlant ou pas certaines variables externes (covariables) Analyse discriminante : prédire l’appartenance à un groupe en fonction de plusieurs prédicteurs

  4. Présentation générale • B. Panorama

  5. Présentation générale • C. Exemples • Anova univariée, une VI inter • Démarche expérimentale : effet d’un médicament sur le taux de cholestérol (VI : contrôle, placebo, molécule) • Démarche non expérimentale : l’anxiété lors du dépistage du cancer du sein est-elle liée à l’expérience d’un cancer préalable ?

  6. Présentation générale • C. Exemples • 2) Anova univariée, deux VI inter • Démarche expérimentale : effet d’un médicament sur le taux de cholestérol et de son mode d’administration (oral, sous-cutané) • Démarche non expérimentale : l’anxiété lors du dépistage du cancer du sein est-elle liée à l’expérience d’un cancer préalable et au niveau d’étude ?

  7. Présentation générale • C. Exemples • 3) Analyse de profils (mesures répétées) • l’anxiété(-état) lors du dépistage du cancer du sein est-elle plus importante avant ou après l’examen ? • les différences d’anxiété post-examen et pré-examen sont-elles du même ordre chez les patientes bénéficiant d’un dépistage classique (mammographie) ou d’un dépistage par IRM ?

  8. Présentation générale • C. Exemples • 4) ANCOVA • les différences d’anxiété liées au niveau d’étude subsistent-elles lorsqu’on contrôle l’âge des patientes ? • après l’examen, y a-t-il des différences d’anxiété entre le groupe « mammo » et le groupe « IRM » lorsqu’on tient constant le niveau d’anxiété pré-examen ?

  9. Présentation générale • C. Exemples • 5) MANOVA • y a-t-il des différences de qualité de vie (SF-36, 8 scores) entre les patientes du groupe « mammo » et du groupe « IRM » ? • y a-t-il des différences de qualité de vie selon le groupe et l’expérience antérieur d’un cancer ?

  10. Présentation générale • C. Exemples • 5bis) ANALYSE DISCRIMINANTE • après le dépistage, les patientes sont réparties en trois groupes (surveillance annuelle, bilan complémentaire, surveillance rapprochée). Peut-on différencier ces trois groupes sur la base de leurs scores aux différentes échelles de qualité de vie ?

  11. Présentation générale • C. Exemples • 6) Doubly multivariate design • plusieurs VD différentes, mesurées plusieurs fois en fonction d’une ou de plusieurs VI •  Anxiété et perception du risque mesurées avant le dépistage et après les résultats en fonction du groupe et des résultats de l’examen

  12. Présentation générale • C. Exemples • 7) MANCOVA • les scores de qualité de vie comme variables dépendantes, le groupe (mammo vs. IRM) comme variable indépendante et l’anxiété et l’âge comme covariables ( les différences de qualité de vie entre les deux groupes persistent-elles lorsqu’on ajuste les moyennes pour l’âge et l’anxiété ?)

  13. Présentation générale • D. Technique • Décomposer la variation totale en : • variation inter-conditions (l’effet de la ou des VI) • variation intra-condition (l’« erreur ») • (éventuellement) variation expliquée par une ou plusieurs variables externes • SCtotale = SCinter + SCintra

  14. Présentation générale • E. Conditions d’application • 1) Absence d’outliers • Outliers univariés • Regarder les scores z • p < .001 • pour z > 3.29

  15. Présentation générale • E. Conditions d’application • 1) Absence d’outliers • Outliers multivariés (i.e. valeurs inhabituelles sur une combinaison de variables [ex : très jeune et très haut revenu]) • calcul de la distance de Mahalanobis (distance entre un individu et le centroïde des autres individus) • vérifier les individus pour lesquels le chi² associé a une probabilité inférieure à .001 • (le calcul de la distance de Mahalanobis est disponible dans la procédure « regression » de SPSS)

  16. Présentation générale • E. Conditions d’application • 2) Pas de multicolinéarité entre les CV • Les covariables ne doivent pas être trop fortement corrélées entre elles • Calculer la « tolérance » : 1 – R² • Attention si tolérance < .30 • (le calcul de la tolérance est disponible dans la procédure « regression » de SPSS)

  17. Présentation générale • E. Conditions d’application • 3) Linéarité des relations

  18. Présentation générale • E. Conditions d’application • 4) Homogénéité des variances et des covariances • Homogénéité des variances • Test d’égalité des variances (test de Levene dans SPSS) • condition d’homogénéité concerne non seulement les VD mais aussi les CV • mais l’analyse de variance est généralement robuste à la violation de cette condition (dans un rapport de 4:1 voire 10:1 si les effectifs sont à peu près égaux dans les différentes conditions)

  19. Présentation générale • E. Conditions d’application • 4) Homogénéité des variances et des covariances • Homogénéité des matrices de variance-covariance • si plusieurs VD, les matrices de var/cov doivent être les mêmes dans les différentes conditions • analyse est robuste dès lors que les effectifs sont équivalents dans les différentes conditions • test M de Box (dans SPSS) teste l’égalité des matrices de var/cov (mais test très [trop] sensible….)

  20. Présentation générale • E. Conditions d’application • 5) Normalité des distributions* • Normalité univariée • analyse de variance est robuste dès lors que les autres conditions sont remplies (outliers, effectifs égaux, …) et que les effectifs sont supérieurs à 20 par condition • c’est surtout l’asymétrie (skewness) qui pose problème (plus que l’applatissement [kurtosis]) * Pour être précis, la condition porte normalement sur la distribution d’échantillonnage des moyennes et pas des scores bruts (comme presque tout le monde le pense)

  21. Présentation générale • E. Conditions d’application • 5) Normalité des distributions • Normalité multivariée (si plusieurs VD) • problème épineux… généralement résolu en se contentant d’inspecter le normalité univariée

  22. Présentation générale • E. Conditions d’application • 6) La transformation des distributions : un remède souvent efficace • Si les conditions précédentes ne sont pas remplies, essayer de transformer mathématiquement les distributions APRES AVANT APRES AVANT

  23. Présentation générale • E. Conditions d’application • 6) La transformation des distributions : un remède souvent efficace • Si les conditions précédentes ne sont pas remplies, essayer de transformer mathématiquement les distributions • asymétrie positive : racine carrée, logarithme, inverse • asymétrie négative : racine carrée (K – X), logarithme (K – X), inverse (K – X)

  24. Présentation générale • E. Conditions d’application • 7) Homogénéité des régressions • La pente de la régression entre chaque VD et chaque CV doit être la même dans chaque condition • Tester cette condition d’application revient à tester s’il existe une interaction significative entre la VI et la covariable

  25. Présentation générale • E. Conditions d’application • 8) Sphéricité • concerne les situations à mesures répétées (plus de deux mesures) (i.e. anova univariée avec VI intra) • les corrélations entre les différentes mesures de la VD doivent être égales (i.e. rt1-t2 = rt1-t3 = rt2-t3) • Comme les corrélations sont souvent plus importantes lorsqu’elles concernent des moments proches, c’est une condition difficile à remplir • test de sphéricité de Mauchly (et de Bartlett) dans SPSS

  26. Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Lorsqu’il y a plusieurs VI et que les effectifs ne sont pas égaux par condition : • les moyennes marginales peuvent être calculées de différentes manières • Les effets des différentes variables ne sont plus indépendants  il n’y a plus égalité entre SCtotale et SCinter + Scintra il y a différentes manières de calculer les différentes sommes de carrés

  27. Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés Moyennes pondérées (par l’effectif) Moyennes non pondérées

  28. Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Ex : anova avec deux VI : A et B • Somme des carrés de type III : chaque effet est testé en ajustant les autres effets  approche classique de la régression (e.g. effet de A est testé en ajustant les effets de B et de l’interaction A*B) • Somme des carrés de type II : priorité aux effets de niveau supérieur (effet de A est testé en ajustant pour l’effet de B ; effet de B est testé en ajustant pour l’effet de A ; effet de l’interaction est testé en ajustant les effets de A et de B) • Somme des carrés de type I : ajustement séquentiel ; c’est le chercheur qui détermine les ajustements successifs (ex : effet de A testé sans ajustement ; effet de B testé en ajustant pour l’effet de A ; effet de l’interaction testé en ajustant pour les effets de A et de B)

  29. Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Quelle somme des carrés choisir ? • type I : avec des solides arguments théoriques • type II : parfois recommandée avec des données non expérimentales (les différences d’effectif sont partiellement prises en compte) • type III : la méthode la plus conservatrice (et la méthode par défaut de nombreux logiciels) (les différences d’effectif sont neutralisées)

  30. Présentation générale • E. Conditions d’application • 10) Comparaisons multiples • Le problème • L’analyse de variance teste l’hypothèse nulle : • H0 : M1 = M2 = M3 …. • Le chercheur veut savoir quelles moyennes diffèrent (le plus souvent deux à deux) • La multiplication des comparaisons augmente sérieusement l’erreur de type I • Quel terme d’erreur (variance intra-groupe) utiliser ? • Celui de l’analyse globale • Seulement ceux des groupes comparés

  31. Présentation générale • E. Conditions d’application • 10) Comparaisons multiples • Les solutions …. ????? !!!! • comparaisons planifiées a priori ou pas • comparaisons indépendantes ou pas • ajuster le seuil de significativité pour tenir compte de la multiplicité des comparaisons • utiliser un test spécifique (Scheffe, Duncan, Dunnett, RGW, ….) • utiliser la logique des effets simples pour tester une interaction (i.e. tester les effets de B pour chaque modalité de A OU les effets de A pour chaque modalité de B) • et surtout …. s’armer de beaucoup de courage et de patience pour comprendre comment les logiciels gèrent cette question

  32. Présentation générale • E. Conditions d’application • 11) Les données manquantes • Listwise • Pairwise • Remplacement • Moyenne, mode inter-ind. • Moyenne, mode intra-ind. • Prédiction • ……

  33. II. ANOVA univariée, deux VI inter (plan balancé) VI n° 1 : Age 1) sujets âgés 2) sujets jeunes VI n° 2 : Mode d’encodage 1) compter le nombre de lettres de chaque mot 2) trouver une rime à chaque mot 3) donner un adjectif pouvant être accolé à chaque mot 4) former une image mentale du mot 5) mémoriser explicitement la liste de mots. VD : nombre de mots restitués lors d’une phase de rappel

  34. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PRINT= HOMOGENEITY DESCRIPTIVE.

  35. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PRINT=ETASQ.

  36. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond / EMMEANS = TABLES(cond) COMPARE ADJ(BONFERRONI)

  37. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /POSTHOC=cond(TUKEY SCHEFFE BONFERRONI)

  38. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /EMMEANS=TABLES(age*cond) compare (age) !!!! Non disponible dans le menu de SPSS !!!! Effets simples pour décrire l’interaction

  39. II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PLOT=PROFILE(cond*age)

  40. III. ANOVA univariée, deux VI inter (plan non balancé) Sujets : femmes en dépistage pour le cancer du sein VI n° 1 : antécédent de cancer du sein (non / oui) VI n° 2 : niveau d’étude (primaire / secondaire / supérieur) VD : anxiété-état (STAI) avant de passer l’examen

  41. III. ANOVA univariée, deux VI inter (plan non balancé) Niveau d’étude seul GLM staie1 BY niv_etud /PRINT = DESCRIPTIVE ETASQ HOMOGENEITY.

  42. III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /PRINT = DESCRIPTIVE /EMMEANS = TABLES(atcdks) /EMMEANS = TABLES(niv_etud) Moyennes pondérées Moyennes non pondérées

  43. III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /METHOD = SSTYPE(3). SC type III GLM staie1 BY atcdks niv_etud /METHOD = SSTYPE(2). SC type II

  44. III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /plot = profile (niv_etud by atcdks).

  45. IV. ANCOVA : 2 VI et 2 CV Sujets : femmes en dépistage pour le cancer du sein VD : score de qualité de vie VI n° 1 : antécédent de cancer du sein (non / oui) VI n° 2 : niveau d’étude (primaire / secondaire / supérieur) CV : anxiété-état (STAI) et âge

  46. IV. ANCOVA : 2 VI et 2 CV Analyse SANS covariable GLM qol1 BY niv_etud atcdks.

  47. IV. ANCOVA : 2 VI et 2 CV Analyse AVEC covariables GLM qol1 BY atcdks niv_etud WITH staie1 aage.

  48. IV. ANCOVA : 2 VI et 2 CV Homogénéité des variances /PRINT = DESCRIPTIVE HOMOGENEITY

  49. IV. ANCOVA : 2 VI et 2 CV Homogénéité des régressions /DESIGN = staie1 aage atcdks niv_etud atcdks*niv_etud atcdks * staie1 atcdks * aage niv_etud * staie1 niv_etud * aage atcdks * niv_etud * staie1 atcdks * niv_etud * aage.

  50. IV. ANCOVA : 2 VI et 2 CV Homogénéité des régressions (ex. de régressions homogènes) sort cases by atcdks. split file by atcdks. regression variables = qol1 staie1 /dependent = qol1 /method = enter. split file off.

More Related