330 likes | 673 Views
Corrélation et causalité. La dépendance (corrélation). Lorsqu’une distribution présente 2 caractères, il est parfois légitime de se demander s’il existe un lien entre eux. On s’interroge alors sur la possible dépendance, dans un sens ou dans l’autre de ces deux variables. L’ajustement linéaire.
E N D
La dépendance (corrélation) • Lorsqu’une distribution présente 2 caractères, il est parfois légitime de se demander s’il existe un lien entre eux. • On s’interroge alors sur la possible dépendance, dans un sens ou dans l’autre de ces deux variables.
L’ajustement linéaire • L’ajustement à une courbe se fait généralement en minimisant les carrés des distances des points du nuage à la courbe. • L’ajustement à une droite (ajustement linéaire) est le plus fréquemment utilisé. Cependant, il faut garder à l’esprit qu’il n’est pas toujours adapté.
Nuage de points et ajustements • Lorsque le nuage de points présente une forme allongée, l’ajustement linéaire (une droite permet de résumer au mieux l’allure générale du phénomène) est acceptable :
Nuage de points et ajustements • Mais la forme du nuage peut suggérer d’autres types de courbes.
Droites de régression (méthode des moindres carrés) • Il s’agit de déterminer 2 droites D et D’ telles que, pour chacune d’elles, les distances prises entre chaque point du nuage et la droite soient les plus petites possibles. • Les distances di et dj entre la droite et chaque point du nuage sont prises parallèlement aux axes.
La détermination de l’équation des droites D et D’ • Si l’on note y=ax+b l’équation de D alors pour déterminer les valeurs de a et b, il faut minimiser l’expression : • On obtient ainsi la valeur de a (pente de la droite D) :
La détermination de l’équation des droites D et D’ • Or, on sait que les droites D et D’ passent par le point moyen de coordonnées ( ), ce qui permet de déterminer les valeurs de b et b’ une fois connues les valeurs de a et a’.
Le coefficient de corrélation linéaire • La plus ou moins grande dépendance entre les deux variables x et y peut être appréhendée par la valeur de l’angle que forment les droites de régression D et D’. • Plus cet angle est ouvert, moins la liaison est forte.
Le coefficient de corrélation linéaire • Pour traduire l’intensité de la liaison par un nombre, on utilise le coefficient de corrélation linéaire dont le carré est égal au produit des pentes des droites de régression : r² = aa’ D’où Avec -1 ≤ r ≤ 1
Le coefficient de corrélation linéaire • Il y a une forte corrélation linéaire entre x et y quand r est voisin de + 1 ou – 1. • Quand r est nul, cela suggère une indépendance. • Un lien de dépendance entre deux séries est jugé significatif à partir du moment où en valeur absolue r est supérieur à 0,87 (r²≥0,76).
La représentation graphique : le nuage de points • Le graphique en nuage de points permet de mettre en évidence la relation entre 2 variables. En abscisses, on porte la variable explicative X et en ordonnée, la variable expliquée Y.
De la dépendance à la causalité • La détermination d’une droite des moindres carrés ne signifie pas qu’un lien de causalité existe entre les 2 variables.
Exemple : Fautes d’orthographe et pointure Diagramme de dispersion du nombre de fautes d'orthographe en fonction de la pointure • Les élèves ayant les plus grands pieds font moins de fautes. • Ces deux grandeurs apparemment indépendantes s'avèrent en fait liées négativement Nombre de fautes d’orthographe Source : Nicolas Gauvrit, Statistiques : méfiez-vous, Ellipses, 2007. Pointure
Les variables de confusion • Si deux grandeurs sont liées, il se peut qu'il n'y ait en fait aucune causalité entre elles. • Il se peut qu'aucune relation logique ne puisse alors être établie entre les deux variables. • Mais il se peut aussi qu'on trouve une causalité indirecte, passant par une autre variable (ou grandeur). Dans un tel cas, on appelle cette variable cachée variable de confusion.
Exemple : Fautes d’orthographe et pointure Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion âge Source : Nicolas Gauvrit, Statistiques : méfiez-vous, Ellipses, 2007. • L'exemple des fautes d'orthographe et de la taille des pieds est un cas où une telle variable de confusion intervient : il s’agit de l'âge. • Dans une école, les plus grands pieds correspondent, en moyenne et globalement, aux élèves les plus vieux, donc à ceux de CM2, meilleurs que les CE1 ou les CP en orthographe...
Corrélation contraire au lien causal • Les variables de confusion peuvent faire apparaître des liens de corrélation entre des variables indépendantes. • Mais, il existe des cas, où la corrélation est le contraire du lien causal.
Exemple : espérance de vie et consommation d’alcool • Le diagramme ci-contre montre une liaison positive entre les 2 variables. • Cela voudrait donc dire que lorsque l’on boit plus d’alcool, on vit plus vieux. Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays Espérance de vie Consommation d’alcool Source : Joseph Klatzman, Attention stisitiques !, La Découverte 1996.
Exemple : espérance de vie et consommation d’alcool Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays • La figure ci-contre nous permet de mieux analyser la relation entre ces 2 variables. • On y découvre que : • les pays les plus riches sont ceux où l’on boit le plus • Les pays les plus riches sont aussi ceux où l’on vit le plus longtemps. Espérance de vie Consommation d’alcool Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996.
Exemple : espérance de vie et consommation d’alcool En fait, il faut considérer la variable de confusion "richesse du pays". Cette variable agit sur l'espérance de vie de manière inverse de la consommation d'alcool. • Autrement dit, si l'on considère un pays comme la France, on peut dire que dans ce pays : • les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de réduire l'espérance de vie. • Mais d'un autre côté, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considérablement l'espérance de vie. Cette augmentation fait plus que compenser la réduction d'espérance de vie due à la consommation d'alcool. • Le diagramme causal de la figure ci dessous donne une représentation de la situation.
La corrélation partielle • La corrélation partielle est la corrélation observée quand les autres variables sont maintenues à une valeur constante. • La corrélation partielle est souvent plus significative que la corrélation totale
Exemple : Corrélation partielle • Supposons par exemple qu’une banque découvre que, dans la tranche d’âge 25-60 ans, les variables « âge » et « portefeuille d’actions » sont fortement corrélées positivement. Doit-on conclure que le désir d’investir en bourse augmente avec l’âge ?
Exemple : corrélation partielle • Supposons qu’une troisième variable, « le revenu », soit prise en compte. Le nuage de points dans l’espace devient alors :
Exemple : corrélation partielle • Supposons maintenant que l’on découpe la population en groupes de telle manière que tous les individus d’un même groupe aient approximativement le même revenu.
Exemple : corrélation partielle • Ainsi, à l’intérieur de chaque groupe de revenu, la corrélation entre âge et portefeuille est beaucoup moins marquée que sur l’ensemble de la population. Ainsi, la corrélation observée entre âge et portefeuille n’est qu’une conséquence de la tendance à l’augmentation des revenus avec l’âge.
Corrélation partielle – Corrélation totale • A l’inverse, il peut exister des cas où deux variables ont une corrélation totale nulle et une corrélation partielle forte.