180 likes | 267 Views
L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College.
E N D
La corrélation et l’analyse de régression Chris LawrenceMiddle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License, the full details of which may be found online here: http://creativecommons.org/licenses/by-nc-sa/3.0/. You may re-use, edit, or redistribute the content provided that the original source is cited, it is for non-commercial purposes, and provided it is distributed under a similar license.
La régression simple et la corrélation Aujourd'hui, nous allons discuter une technique statistique efficace pour examiner s'il y a une relation entre deux variables. Spécifiquement, nous allons parler des idées de la régression simple et de la corrélation. Une raison pour laquelle la régression est efficace, c'est que nous pouvons l'utiliser pour démontrer la causalité; autrement dit, nous pouvons utiliser la régression pour montrer qu’une variable indépendante provoque un changement dans une variable dépendante.
Des nuages de points La chose la plus simple que nouspouvons faireavec deux variables que nous croyons liées, c'est tracer un nuage de points. Un nuage de points est un simple graphique quitrace les valeurs denotre variable dépendanteY et notre variable indépendanteX. Normalement, nous représentons graphiquement notre variable dépendante sur l'axe vertical et la variable indépendante sur l'axe horizontal.
En prenant le parti de l'industrie d'incontinence Par exemple, faisonsun nuage de pointsdes données suivantes:
Le nuage de points de ces données 6 ● 5 ● ● Trips.to.Bathroom 4 ● 3 ● 2 ● 1 ● 1 2 3 4 Sodas.Consumed 5 6
Une évaluation à l'œil de la droite de régression Parfois, notre nuage de points peut donner une assez bonne idée de la relation entre nos variables. Dans notre nuage de points, il semble qu’une ligne qui monte ver la droite soit bien ajusté aux données. Essentiellement, il nous reste à déterminer la droite de meilleur ajustement, c’est-à-dire,la ligne qui représenteune ‘moyenne’ de nos points de données. Notez que parfois nos donnéesne seront pas liées de façon linéaire.Parfois, il pourrait y avoir une relation ‘curvilinéaire’ou une autre relation non linéaire. S’il semble que les données soient liées mais la régression ne soit pas ajustée, il est très possible que tel soit le cas.
Le nuage de points avec une droite de meilleur ajustement 6 ● 5 ● ● Trips.to.Bathroom 4 ● 3 ● 2 ● 1 ● 1 2 3 4 Sodas.Consumed 5 6
La régression linéaire simple Tandis que notre nuage de points nous donne une bonne idée de la relation entre les variablesetmême une idée de la façon dont la droite de régression devrait ressembler, nous devons faire le calcul pour déterminer exactement sa direction. Pour déterminer cela, tout d'abord, on doit avoir une idée de l'équation générale d’une ligne. De l'algèbre, une ligne droite peut être décrite comme: Y = a + bX, où aestl’intersectionetb estla pente
En comprenant a et b En bref, le problème de la régression est de savoirquelles valeurs de a etb à utiliser. Pour faire cela, nous utilisons les deux formules suivantes: (∑X)(∑Y) n ∑ XY – eta = Y¯ − bX¯ b= ∑X – 2 (∑X) n 2 Encore une fois, cela semble laid maisc'est la même mathématique simple que vous déjà connaissez et aimez: il suffit d’utiliser PEMA et vous allez obtenir la bonne réponse.
La solution de notre exemple Alors, revenons aux données de notre exemple et trouvons la pente et l‘intersectionpour la droite de régression.
La solution de notre exemple D'abord, nous devons calculerb: (∑X)(∑Y) n 104 – (24)(26) 7 ∑ XY – b= = = 0.8387 ∑X – 2 (∑X) n 2 100 – (24) 7 2 Et maintenant, c'est simple à calculera: a = Y¯ − bX¯ = (26/7) − 0.8387(24/7) = 3.7142 − (0.8387)(3.4285) = 3.7142 − 2.8754 = 0.8388.
Le coefficient de corrélation de Pearson (r) Maintenant, après avoir calculéa etb, nous connaissons l'intersection et la pente de la droite de régression etil semble que les variables X et Y soient liées d'une certaine manière. Mais cette relation, est-elle solide? C'est le moment quand le r de Pearson entre en jeu. Le r de Pearson est une mesure de la corrélation; parfois, nous l'appelonssimplement le coefficient de corrélation. Le r nous démontre la force de la relation entre X et Y.
Le calcul du coefficient de corrélation de Pearson La formule du coefficient de corrélation de Pearson (r)est quelque peu similaire à la formule de la pente (b): Nous avons déjà calculé la pente et ainsi nous savons le numérateur.Le seul élément qui est un peu compliqué, c'est le dénominateur, où nous devons calculerchaque racine carrée séparément et puisles multiplier ensemble. Pour notre exemple, r = 0.8008.
Les corrélations et les déterminations Un coefficient de corrélation d'environ 0.8 indique que les deux variables sont fortement associées. Si l'onélève lerau carré, l'on obtient le coefficient of détermination r2, qui nous indique la proportion de la variation dansY expliquée parX. Dans ce cas, r2 = .6412 qui signifie que nous estimons que 64% de la variation est expliquée parX,tandis que le reste est dû à une erreur. La seule autre chose qu'on veut, c'est de déterminersi la corrélation est statistiquement significative. Ou, en termes d'une hypothèse nulle, nous voulons déterminer si H0 : r = 0 est vraie.
Le test de signification pour t Pour déterminer si r est significativement différent de zéro, nous utilisons le testt pour le r de Pearson: √ n−2 tob =r r2 1− Puisque c'est comme les autres tests d'hypothèse, nous voulons comparertob à tcrit. Pour ce test, nous utilisonsnotre niveau alpha (conventionnellement, .05 or.01) et df = n − 2. Dans ce cas, nous soustrayons 2 de la taille de l'échantillon parce que nous avons deux variables. Donc, avecα = .05, la corrélation, est-elle significative?
Une exemple du test de signification √ √ n − 2 √ 7 − 2 5 = .8008 tob =r r2 = .8008 1 − 1 − .6412 .3588 =.8008 13.9353 = (.8008)(3.733) = 2.9893 √ Maintenant, comme dans les autres tests de signification, noustrouvons notre valeur critique dut dans le tableau (α = .05, df = 5: 2.571) etla comparons à la valeur obtenue. Puisque 2.571 ≤ 2.9893, nous rejetons l'hypothèse nulle et concluons que la corrélation est statistiquement significative.
La régression multiple La plupart du temps, les régressions sont plus complexes que cet exemple. Plutôt que tester la signification du r, quand nous avons plusieurs variables explicatives nous testons la signification du coefficient (b) associé à chaque variable indépendante. Cependant, le principe est exactement le même. La plupart des logiciels informatiques (y compris le logiciel R) considère régression bivariée (simple) comme un cas particulier de la régression multiple, donc les tests de signification qu'ils produisent seront basés sur b plutôt que r.
La corrélation et la régression dans R Vous pouvez faire des nuages de pointsdans R avecla commande de menu Graphs → Scatterplot ...(Graphiques → Nuage de points). Cette boîte de dialogue vous permet également desuperposer la droite de régression sur le graphique. (Si vous avez plus de deux variables, la commande de menuScatterplot matrix ...(Matrice de corrélation ...) peut être utile.) Les corrélations sont disponiblesavec la commande de menuStatistics → Summaries →Correlation matrix ...(Statistiques → Résumés → Matrice de corrélation). L’analyse de régression peut être effectuée parla commande de menuStatistics → Fit models → Linear regression ...(Statistiques → Modèles d'ajustement → Régressionlinéaire).