1.02k likes | 1.24k Views
Université Paul Verlaine - Metz Ecole Doctorale PIEMES Analyse de variance, de covariance, univariée, multivariée et analyse discriminante Jean-Luc Kop Université Nancy 2 jean-luc.kop@univ-nancy2.fr. PLAN Présentation générale Objectifs Panorama Exemples Technique
E N D
Université Paul Verlaine - Metz Ecole Doctorale PIEMES Analyse de variance, de covariance, univariée, multivariée et analyse discriminante Jean-Luc Kop Université Nancy 2 jean-luc.kop@univ-nancy2.fr
PLAN • Présentation générale • Objectifs • Panorama • Exemples • Technique • Conditions d’applications • ANOVA univariée, deux VI inter (plan balancé) • ANOVA univariée, deux VI inter (plan non balancé) • ANCOVA : 2 VI et 2 CV • ANOVA multivariée (MANOVA) • Analyse discriminante • Mesures répétées : analyse univariée ou multivariée ?
Présentation générale • A. Objectifs Comparer les moyennes à une ou plusieurs variables dépendantes obtenues dans des conditions différentes (expérimentales ou pas) sur les mêmes individus ou non (variables indépendantes intra ou inter-individuelle) en contrôlant ou pas certaines variables externes (covariables) Analyse discriminante : prédire l’appartenance à un groupe en fonction de plusieurs prédicteurs
Présentation générale • B. Panorama
Présentation générale • C. Exemples • Anova univariée, une VI inter • Démarche expérimentale : effet d’un médicament sur le taux de cholestérol (VI : contrôle, placebo, molécule) • Démarche non expérimentale : l’anxiété lors du dépistage du cancer du sein est-elle liée à l’expérience d’un cancer préalable ?
Présentation générale • C. Exemples • 2) Anova univariée, deux VI inter • Démarche expérimentale : effet d’un médicament sur le taux de cholestérol et de son mode d’administration (oral, sous-cutané) • Démarche non expérimentale : l’anxiété lors du dépistage du cancer du sein est-elle liée à l’expérience d’un cancer préalable et au niveau d’étude ?
Présentation générale • C. Exemples • 3) Analyse de profils (mesures répétées) • l’anxiété(-état) lors du dépistage du cancer du sein est-elle plus importante avant ou après l’examen ? • les différences d’anxiété post-examen et pré-examen sont-elles du même ordre chez les patientes bénéficiant d’un dépistage classique (mammographie) ou d’un dépistage par IRM ?
Présentation générale • C. Exemples • 4) ANCOVA • les différences d’anxiété liées au niveau d’étude subsistent-elles lorsqu’on contrôle l’âge des patientes ? • après l’examen, y a-t-il des différences d’anxiété entre le groupe « mammo » et le groupe « IRM » lorsqu’on tient constant le niveau d’anxiété pré-examen ?
Présentation générale • C. Exemples • 5) MANOVA • y a-t-il des différences de qualité de vie (SF-36, 8 scores) entre les patientes du groupe « mammo » et du groupe « IRM » ? • y a-t-il des différences de qualité de vie selon le groupe et l’expérience antérieur d’un cancer ?
Présentation générale • C. Exemples • 5bis) ANALYSE DISCRIMINANTE • après le dépistage, les patientes sont réparties en trois groupes (surveillance annuelle, bilan complémentaire, surveillance rapprochée). Peut-on différencier ces trois groupes sur la base de leurs scores aux différentes échelles de qualité de vie ?
Présentation générale • C. Exemples • 6) Doubly multivariate design • plusieurs VD différentes, mesurées plusieurs fois en fonction d’une ou de plusieurs VI • Anxiété et perception du risque mesurées avant le dépistage et après les résultats en fonction du groupe et des résultats de l’examen
Présentation générale • C. Exemples • 7) MANCOVA • les scores de qualité de vie comme variables dépendantes, le groupe (mammo vs. IRM) comme variable indépendante et l’anxiété et l’âge comme covariables ( les différences de qualité de vie entre les deux groupes persistent-elles lorsqu’on ajuste les moyennes pour l’âge et l’anxiété ?)
Présentation générale • D. Technique • Décomposer la variation totale en : • variation inter-conditions (l’effet de la ou des VI) • variation intra-condition (l’« erreur ») • (éventuellement) variation expliquée par une ou plusieurs variables externes • SCtotale = SCinter + SCintra
Présentation générale • E. Conditions d’application • 1) Absence d’outliers • Outliers univariés • Regarder les scores z • p < .001 • pour z > 3.29
Présentation générale • E. Conditions d’application • 1) Absence d’outliers • Outliers multivariés (i.e. valeurs inhabituelles sur une combinaison de variables [ex : très jeune et très haut revenu]) • calcul de la distance de Mahalanobis (distance entre un individu et le centroïde des autres individus) • vérifier les individus pour lesquels le chi² associé a une probabilité inférieure à .001 • (le calcul de la distance de Mahalanobis est disponible dans la procédure « regression » de SPSS)
Présentation générale • E. Conditions d’application • 2) Pas de multicolinéarité entre les CV • Les covariables ne doivent pas être trop fortement corrélées entre elles • Calculer la « tolérance » : 1 – R² • Attention si tolérance < .30 • (le calcul de la tolérance est disponible dans la procédure « regression » de SPSS)
Présentation générale • E. Conditions d’application • 3) Linéarité des relations
Présentation générale • E. Conditions d’application • 4) Homogénéité des variances et des covariances • Homogénéité des variances • Test d’égalité des variances (test de Levene dans SPSS) • condition d’homogénéité concerne non seulement les VD mais aussi les CV • mais l’analyse de variance est généralement robuste à la violation de cette condition (dans un rapport de 4:1 voire 10:1 si les effectifs sont à peu près égaux dans les différentes conditions)
Présentation générale • E. Conditions d’application • 4) Homogénéité des variances et des covariances • Homogénéité des matrices de variance-covariance • si plusieurs VD, les matrices de var/cov doivent être les mêmes dans les différentes conditions • analyse est robuste dès lors que les effectifs sont équivalents dans les différentes conditions • test M de Box (dans SPSS) teste l’égalité des matrices de var/cov (mais test très [trop] sensible….)
Présentation générale • E. Conditions d’application • 5) Normalité des distributions* • Normalité univariée • analyse de variance est robuste dès lors que les autres conditions sont remplies (outliers, effectifs égaux, …) et que les effectifs sont supérieurs à 20 par condition • c’est surtout l’asymétrie (skewness) qui pose problème (plus que l’applatissement [kurtosis]) * Pour être précis, la condition porte normalement sur la distribution d’échantillonnage des moyennes et pas des scores bruts (comme presque tout le monde le pense)
Présentation générale • E. Conditions d’application • 5) Normalité des distributions • Normalité multivariée (si plusieurs VD) • problème épineux… généralement résolu en se contentant d’inspecter le normalité univariée
Présentation générale • E. Conditions d’application • 6) La transformation des distributions : un remède souvent efficace • Si les conditions précédentes ne sont pas remplies, essayer de transformer mathématiquement les distributions APRES AVANT APRES AVANT
Présentation générale • E. Conditions d’application • 6) La transformation des distributions : un remède souvent efficace • Si les conditions précédentes ne sont pas remplies, essayer de transformer mathématiquement les distributions • asymétrie positive : racine carrée, logarithme, inverse • asymétrie négative : racine carrée (K – X), logarithme (K – X), inverse (K – X)
Présentation générale • E. Conditions d’application • 7) Homogénéité des régressions • La pente de la régression entre chaque VD et chaque CV doit être la même dans chaque condition • Tester cette condition d’application revient à tester s’il existe une interaction significative entre la VI et la covariable
Présentation générale • E. Conditions d’application • 8) Sphéricité • concerne les situations à mesures répétées (plus de deux mesures) (i.e. anova univariée avec VI intra) • les corrélations entre les différentes mesures de la VD doivent être égales (i.e. rt1-t2 = rt1-t3 = rt2-t3) • Comme les corrélations sont souvent plus importantes lorsqu’elles concernent des moments proches, c’est une condition difficile à remplir • test de sphéricité de Mauchly (et de Bartlett) dans SPSS
Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Lorsqu’il y a plusieurs VI et que les effectifs ne sont pas égaux par condition : • les moyennes marginales peuvent être calculées de différentes manières • Les effets des différentes variables ne sont plus indépendants il n’y a plus égalité entre SCtotale et SCinter + Scintra il y a différentes manières de calculer les différentes sommes de carrés
Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés Moyennes pondérées (par l’effectif) Moyennes non pondérées
Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Ex : anova avec deux VI : A et B • Somme des carrés de type III : chaque effet est testé en ajustant les autres effets approche classique de la régression (e.g. effet de A est testé en ajustant les effets de B et de l’interaction A*B) • Somme des carrés de type II : priorité aux effets de niveau supérieur (effet de A est testé en ajustant pour l’effet de B ; effet de B est testé en ajustant pour l’effet de A ; effet de l’interaction est testé en ajustant les effets de A et de B) • Somme des carrés de type I : ajustement séquentiel ; c’est le chercheur qui détermine les ajustements successifs (ex : effet de A testé sans ajustement ; effet de B testé en ajustant pour l’effet de A ; effet de l’interaction testé en ajustant pour les effets de A et de B)
Présentation générale • E. Conditions d’application • 9) Effectifs inégaux et sommes des carrés • Quelle somme des carrés choisir ? • type I : avec des solides arguments théoriques • type II : parfois recommandée avec des données non expérimentales (les différences d’effectif sont partiellement prises en compte) • type III : la méthode la plus conservatrice (et la méthode par défaut de nombreux logiciels) (les différences d’effectif sont neutralisées)
Présentation générale • E. Conditions d’application • 10) Comparaisons multiples • Le problème • L’analyse de variance teste l’hypothèse nulle : • H0 : M1 = M2 = M3 …. • Le chercheur veut savoir quelles moyennes diffèrent (le plus souvent deux à deux) • La multiplication des comparaisons augmente sérieusement l’erreur de type I • Quel terme d’erreur (variance intra-groupe) utiliser ? • Celui de l’analyse globale • Seulement ceux des groupes comparés
Présentation générale • E. Conditions d’application • 10) Comparaisons multiples • Les solutions …. ????? !!!! • comparaisons planifiées a priori ou pas • comparaisons indépendantes ou pas • ajuster le seuil de significativité pour tenir compte de la multiplicité des comparaisons • utiliser un test spécifique (Scheffe, Duncan, Dunnett, RGW, ….) • utiliser la logique des effets simples pour tester une interaction (i.e. tester les effets de B pour chaque modalité de A OU les effets de A pour chaque modalité de B) • et surtout …. s’armer de beaucoup de courage et de patience pour comprendre comment les logiciels gèrent cette question
Présentation générale • E. Conditions d’application • 11) Les données manquantes • Listwise • Pairwise • Remplacement • Moyenne, mode inter-ind. • Moyenne, mode intra-ind. • Prédiction • ……
II. ANOVA univariée, deux VI inter (plan balancé) VI n° 1 : Age 1) sujets âgés 2) sujets jeunes VI n° 2 : Mode d’encodage 1) compter le nombre de lettres de chaque mot 2) trouver une rime à chaque mot 3) donner un adjectif pouvant être accolé à chaque mot 4) former une image mentale du mot 5) mémoriser explicitement la liste de mots. VD : nombre de mots restitués lors d’une phase de rappel
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PRINT= HOMOGENEITY DESCRIPTIVE.
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PRINT=ETASQ.
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond / EMMEANS = TABLES(cond) COMPARE ADJ(BONFERRONI)
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /POSTHOC=cond(TUKEY SCHEFFE BONFERRONI)
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /EMMEANS=TABLES(age*cond) compare (age) !!!! Non disponible dans le menu de SPSS !!!! Effets simples pour décrire l’interaction
II. ANOVA univariée, deux VI inter (plan balancé) GLM rappel BY age cond /PLOT=PROFILE(cond*age)
III. ANOVA univariée, deux VI inter (plan non balancé) Sujets : femmes en dépistage pour le cancer du sein VI n° 1 : antécédent de cancer du sein (non / oui) VI n° 2 : niveau d’étude (primaire / secondaire / supérieur) VD : anxiété-état (STAI) avant de passer l’examen
III. ANOVA univariée, deux VI inter (plan non balancé) Niveau d’étude seul GLM staie1 BY niv_etud /PRINT = DESCRIPTIVE ETASQ HOMOGENEITY.
III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /PRINT = DESCRIPTIVE /EMMEANS = TABLES(atcdks) /EMMEANS = TABLES(niv_etud) Moyennes pondérées Moyennes non pondérées
III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /METHOD = SSTYPE(3). SC type III GLM staie1 BY atcdks niv_etud /METHOD = SSTYPE(2). SC type II
III. ANOVA univariée, deux VI inter (plan non balancé) GLM staie1 BY atcdks niv_etud /plot = profile (niv_etud by atcdks).
IV. ANCOVA : 2 VI et 2 CV Sujets : femmes en dépistage pour le cancer du sein VD : score de qualité de vie VI n° 1 : antécédent de cancer du sein (non / oui) VI n° 2 : niveau d’étude (primaire / secondaire / supérieur) CV : anxiété-état (STAI) et âge
IV. ANCOVA : 2 VI et 2 CV Analyse SANS covariable GLM qol1 BY niv_etud atcdks.
IV. ANCOVA : 2 VI et 2 CV Analyse AVEC covariables GLM qol1 BY atcdks niv_etud WITH staie1 aage.
IV. ANCOVA : 2 VI et 2 CV Homogénéité des variances /PRINT = DESCRIPTIVE HOMOGENEITY
IV. ANCOVA : 2 VI et 2 CV Homogénéité des régressions /DESIGN = staie1 aage atcdks niv_etud atcdks*niv_etud atcdks * staie1 atcdks * aage niv_etud * staie1 niv_etud * aage atcdks * niv_etud * staie1 atcdks * niv_etud * aage.
IV. ANCOVA : 2 VI et 2 CV Homogénéité des régressions (ex. de régressions homogènes) sort cases by atcdks. split file by atcdks. regression variables = qol1 staie1 /dependent = qol1 /method = enter. split file off.