410 likes | 622 Views
Chapitre 5 - Mesurer la relation entre 2 variables (suite). Espèce. antérieur. postérieur. 1. 6. 5. 2. 12. 10. 3. 14. 17. 4. 18. 16. 5. 21. 24. 6. 24. 25. 30. 25. 20. patte postérieure. 15. Exemple d’application de la corrélation de Pearson. 10. 5. 0. 0. 10. 20.
E N D
Espèce antérieur postérieur 1 6 5 2 12 10 3 14 17 4 18 16 5 21 24 6 24 25 30 25 20 patte postérieure 15 Exemple d’application de la corrélation de Pearson 10 5 0 0 10 20 30 patte antérieure Existe-t-il une relation la longueur des pattes antérieures et postérieures chez les sciuridés ? - On observe une relation de type linéaire - H0: Il n’y a pas de relation linéaire entre les 2 variables
1/ calcul des écarts aux moyennes 2/ calcul de r (-9.8)(-11.2)+(-3.8)(-6.2)+…= 244.16 [(-9.8)²+(-3.8)² +…] [(-11.2)² +(-6.2)²+…]= 139. 50 r=0.912
3/ On détermine la statistique pour robservé • robs = 0.912 • 4/ On prend la décision statistique • tcritique = t0.05,4= 2.777 • tobs > tcritique H0 rejetée • Il y existe une relation linéaire positive et significative entre les 2 variables • Les deux variables sont significativement corrélées
La régression linéaire • Une régressionteste la nature de la relation entre une variable dépendante et une variable indépendante à l’aide d’un modèle spécifié • Ex: Existe-il un effet de la température sur la croissance d’une espèce végétale ? Variable dépendante croissance Variable indépendante température On teste ici un modèle du type : croissance = f(température)
1/ Décrit la relation linéaire entre une variable dépendante Y et une variable indépendante X 2 / Détermine la proportion de la variation de Y est expliquée par la variation de X 3/ Prédit de nouvelles valeurs de Y à partir de nouvelles valeurs de X Le modèle est celui d’une équation de droite (modèle linéaire). ordonnée à l’origine erreur ŷi = a + b.xi + ei pente Valeur prédite par le modèle pour une valeur xi donnée
Test en 2 étapes 1- Tester les coefficients de l’équation de droite a et b Est-ce que la pente de la relation est différente de 0 ? 2- Tester l’ajustement du modèle aux données Est-ce que le modèle décrit bien le nuage de points ?
erreurei val. prédite ŷi penteb y ordonnée à l’origine a x • Pour chaque valeur xi une population de valeur yi est possible. • cette population de yi est normalement distribuée • sa variance est égale pour chaque yi µ2 µ1 e2 e1 x2 x1 val. observée yi xi val. observée
Estimation des paramètres de la régression • La droite de régression minimise la somme des carrés des erreurs (méthode des moindres carrés). On estime a et b les 2 paramètres de la droite. La pente b Forte relation entre x et y Pas de relation entre x et y b tend vers 0
La pente d’une régression b (i) n’est pas un coefficient de corrélation r (ii) (i) (ii)
a0 a=0 L’ordonnée à l’origine a - Biologiquement, a=0 peut avoir une signification Ex: la relation entre la quantité de molécules synthetisées et le nombre de molécules d’enzymes présentes - Mathématiquement, on peut forcer la régression pour que a=0
Test des paramètres de la droite de régression Test H0 : b=0 Test H0 : a=0 avec avec valeur prédite de y Si ItobsI < ta/2, n-2 alors H0 acceptée Si ItobsI > ta/2, n-2 alors H0 rejetée tb et tasuivent une loi de Student à ddl = n-2
Test du modèle de régression disp. erreurs (résidus) + disp. régression disp. Totale = ŷi yi y xi x
Principe du test - On compare la variation expliquée par le modèle à la variation inexpliquée (erreurs). - Si variation non expliquée < variation expliquée, alors le modèle est ‘valide‘. Source de variation Expliquée Non expliquée Totale ddl 1 n-2 n-1 Somme des Carrés Carré moyen Fobs (a)/(b) (a) (b)
Fobs suit une loi de Fisher-Snedecor à 1 et n-2ddl • L’hypothèse alternative est ici variation expliquée > variation inexpliquée. • C’est un test unilatéral inexpliquée > expliquée inexpliquée < expliquée a F0.05(1, n-2) Fobs<F0.05(1, n-2) HO acceptée Fpbs>F0.05(1, n-2) HO rejetée
Coefficient de détermination r² • r²indique la proportion de la variation expliquée par la régression par rapport à la dispersion totale. • r² est un paramètre important car il donne le degré d’ajustement du modèle de régression aux données observées. • C’est une indication de la validité du modèle.
Exemple d’application Existe-t-il une relation la longueur des pattes postérieures et la vitesse de course chez les insectes ? Espèce patte vitesse 1 6 19 2 12 26 3 14 33 4 18 35 5 21 44 6 24 43 Longueur patte postérieures = variable indépendante Vitesse de course = variable dépendante Hypothèses - H0 (pente) : la pente de la droite n’est pas significativement différente de 0 - H0 (modèle) : Il n’y a pas de relation linéaire significative entre les 2 variables
1/ calcul des paramètres de la pente Equation de droite Vitesse =1.444longueur patte +10.470 2/ Test des paramètres de la pente coefficient erreur type t p ordonnée a 10.470 2.930 pente b 1.444 0.173 8.337 0,001 On rejette H0 : la pente de la régression diffère significativement de 0
19 19.13 -14.20 -0.13 26 27.80 -5.54 -1.80 33 30.69 -2.65 2.31 35 36.46 3.13 -1.46 44 40.79 7.46 3.21 43 45.13 11.79 -2.13 33.33 3/ calcul de F x 6 12 14 18 21 24 • Variation expliquée (-14.2)²+(-5.54)²+…= 443.78 • Variation inexpliquée (-0.13)²+(-1.80)²+…= 25.54 = 6.39 4 4 • Rapport F1,4 441.4 117.3 F1,4= = 69.50
Tableau récapitulatif source ddl carré moyen F p régression 1 443.78 69.50 0,001 résidu 4 6.50 4/ Décision statistique • - On cherche Fcritiquedans la table (n trop petit ici) ou la probabilité du test • On rejette H0 (modèle) et on accepte H1 • Il existe une relation linéaire significative entre les 2 variables. • Le modèle permet d’expliquer la variation de la vitesse
Régression de y en x et régression de x en y x=c+dy y=a+bx y x Contrairement au coefficient de corrélation, on ne peut interchanger les 2 variables Les deux pentes b et d sont égales uniquement si la corrélation entre les deux variables est parfaite
Chapitre 6 – Tester la normalité Tester l’homogénéité de variance
Défaut de symétrie Asymétrique à droite Asymétrique à gauche • Défaut de variance Leptokurtique Platykurtique
Test de Kolmogorov-Smirnov • Compare une distribution observée (discrète) à une distribution théorique continue Distribution observée 1 5 0 0 Fonction de répartition Distribution discrète Distribution théorique 1 0 0 Fonction de répartition Fonction de densité de probabilité Distribution discrète
D 1 / Calculer les courbes de fréquencerelativescumulées pour les valeurs théoriques et observées 2/ Calculer la différence entre la valeur observée et la valeur théorique pour chaque classe de valeur 1 0
Dobs • 3/ La différence la + grande est la statistique Dobs • 4/ On compare Dobs à Dcritique dans une table spécifique • Si Dobs>Dcritique, H0 est rejetée la distribution n’est pas normale • Test de Lilliefors • Même principe que le test de K-S, mais les paramètres de la distribution théorique sont estimés d’après ceux de la distribution observée. • Tests de Kolmogorov-Smirnov et de Liliefors sont sensibles à tous types de déviation (moyenne, asymétrie, aplatissement)
Test de Shapiro-Wilks' W • Test courant des logiciels statistiques • Plus conservatif que Kolmogorov-Smirnov. Sensible notamment aux asymétries • Rapport W de 2 estimations liées à la variance de la population dont provient l’échantillon de n valeurs • Procédure 1/ On classe les n valeurs par ordre croissant x1 x2 … xn-1 xn 2/ On calcule la somme des carrés des écarts
3/ On calcule les différences • Si n pair= n/2 différences • Si n impair = (n-1)/2 différences 4/ On calcule b Les coefficients ai sont donnés dans une table pour n donné • 5/ On calcule W • 6/ On Compare W à W1-α,n • W1-α,n dans table de Shapiro-Wilk est fonction de α et n • 7/ Si W< W1-α,n H0 est rejetée d1=xn-x1 d2=xn-1-x2 d3=xn-2-x3 la distribution n’est pas normale http://www.cjonquiere.qc.ca/begin/ZEAA2005/TestShapiroWilk.htm
Test d’égalité des variances • Certains tests supposent que les échantillons comparés ont des variance égales (ANOVA) oui oui non
Procédure • S21 variance de l’échantillon 1, S2n variance de l’échantillon n • - H0 : s21 = s22=…=S2n • - On calcule Fobservée= S2max/ S2min • - Le ddl est de ni-1 pour chaque échantillon i • - On calcule Fcritique= Fddl Smax, ddl Smin • Suppose les ddl des différents groupes égaux. Si faux, correction • Si Fobs > Fcritique pour a donné H0 est rejetée • Test sensible aux déviation de normalité des variables
Autres tests Test de Bartlett:très sensible aux déviations de normalité Test log-anova : plus robuste aux déviations de normalité Test de Levene : idem mais grands échantillons nécessaires Dans tous les cas, le rejet de H0 indique l’hétérogénéité des variances Un test comme l’ANOVA ne devrait alors pas être utilisé
Collecte des données Préparation d’un tableau statistique (observations en ligne, variables en colonne) Exploration – Distribution de fréquence, statistiques descriptives Test de normalité Test d’égalité des variances Test paramétrique H0 acceptée ou H0 rejetée
Que faire quand les données ne sont pas normales ? • On réalise une transformation de la variable à l’aide d’une fonction mathématique y f(y) Variable transformée Variable originale
Une transformation doit être monotone f(y) y oui oui non • Les transformations les plus courantes sont y log(y) exp(y) yx racines ou puissances
Variables quantitatives Objectif - Comparer 2 groupes - Comparer + 2 groupes - Relation linéaire entre 2 variables (pente non calculée) - Relation linéaire entre 2 variables et prédictions valeurs (pente calculée) Tests Test t ANOVA Corrélation linéairede Pearson Régression linéaire
Variables catégorielles • Objectif • - Conformité à des effectifs théoriques • - Association entre variables Tests Test du Khi-deux de conformité Test du Khi-deux, test de Fisher
Variables quantitatives Test t moyenne ± écart-type G1 G2 moyenne ± écart-type ANOVA G1 G2 G3
y Corrélation linéairede Pearson x y Régression linéaire x
Variables catégorielles effectifs Test du Khi-deux de conformité x 0 1 2 3 4 5 condition 1 condition 2 Test du Khi-deux Test de Fisher effectifs G1 G2