1 / 49

Benoît Laplante, professeur

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 7 Séance du 14 mars 2013. Benoît Laplante, professeur. L’analyse de la causalité. Expérimentation, observation et causalité La décomposition de la variance

gwen
Download Presentation

Benoît Laplante, professeur

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Programmes de maîtrise et de doctorat en démographieModèles de risque et de duréeCours 7Séance du 14 mars 2013 Benoît Laplante, professeur

  2. L’analyse de la causalité Expérimentation, observation et causalité La décomposition de la variance L’étude des relations entre plusieurs variables

  3. Expérimentation, observation et causalité On utilise un modèle linéaire lorsque l’on juge raisonnable de représenter l’effet d’une variable indépendante sur une variable dépendante par une relation linéaire. Dans ce contexte, linéaire veut dire • proportionnel et • additif.

  4. Expérimentation, observation et causalité En sciences sociales, on distingue habituellement deux objectifs différents de la modélisation statistique : • prédire et • expliquer. Si l’objectif est de prédire, on cherche à construire l’équation qui prédit le mieux la variable dépendante. • On cherche à maximiser l’ajustement ou la proportion de variance expliquée et on ne se préoccupe pas de la précision ou de la qualité de l’estimation des effets des variables indépendantes. Si l’objectif est d’expliquer, les choses sont plus compliquées.

  5. Expérimentation, observation et causalité Si l’objectif est d’expliquer, les choses sont plus compliquées. On s’intéresse aux effets des variables indépendantes et donc… … on se préoccupe de la précision et de la qualité de l’estimation de leurs effets. Le problème tient au fait qu’en sciences sociales, on utilise généralement des données qui sont recueillies par l’observation plutôt que par l’expérimentation. Tout le problème de l’étude des processus sociaux au moyen des méthodes statistiques tient au fait que les données qu’on y utilise ne sont pas le résultat de la manipulation expérimentale, mais celui de l’observation. Les relations empiriques que l’on constate entre les caractères dans la population sont le produit des processus que l’on étudie et non de la manipulation expérimentale.

  6. Expérimentation, observation et causalité La méthode expérimentale moderne est due à Claude Bernard. En gros, elle consiste à considérer qu’on peut établir une relation de cause à effet lorsqu’on constate que la variation de la variable dépendante est reliée à la variation d’une variable indépendante unique dont les valeurs sont fixées par le chercheur et de manière telle qu’une autre source potentielle de variation de la variable dépendante ne peut agir sur elle. On entend souvent que les sciences de l’observation ne peuvent pas établir des relations de cause à effet parce qu’elles utilisent des données qui ne sont pas le fruit de la manipulation expérimentale et on en renvoie notamment à Claude Bernard pour s’en convaincre. Le fait est que la pensée de Claude Bernard est autrement plus nuancée.

  7. BERNARD, Claude. Introduction à l'étude de la médecine expérimentale Paris : J.-B. Baillière, 1865. (p. 28-32).

  8. Expérimentation, observation et causalité Dans Le Suicide, Durkheim suit une démarche qui s’apparente à celle que décrit Bernard, mais pour des données qui résultent de l’observation. Il s’assure de l’existence du lien entre deux variables en examinant leur relation à l’intérieur des modalités d’une autre variable. Au sens moderne, il examine la relation entre deux variables en posant qu’elle peut être conditionnelle à l’effet d’une troisième. On trouve une démarche analogue chez Weber. Elle sera systématisée par P. Lazarsfeld. On peut appliquer cette démarche aux relations estimées au moyen de modèles linéaires.

  9. Expérimentation, observation et causalité Cette démarche est également ce qui fonde notamment • le path analysis du biologiste Sewall Wright, dès 1921, • The American occupational structure de P. Blau et M. Duncan, en 1967, • Constructing social theories d’Arthur Stinchcombe en 1968. ainsi que • Causality de Judea Pearl en 2000. Wright, S. 1921. « Correlation and causation ». Journal of Agricultural Research, 20, 557-585. Wright, S. 1934. « The method of path coefficients ». Annals of Mathematical Statistics, 5(3), 161-215.

  10. Expérimentation, observation et causalité Le « path analysis » de S. Wright

  11. Expérimentation, observation et causalité Le XXe siècle a connu le développement des méthodes qui permettent l’étude des processus sociaux en se fondant sur la modélisation des relations complexes dans l’ensemble des sciences sociales. Parmi les plus connus, on trouve les systèmes d’équations structurales (« Structural equation modelling ») qui résultent de la combinaison du « path analysis » de S. Wright et de l’analyse factorielle de Thurstone, et qu’estiment notamment • le Lisrel de Karl Jöreskog et Dag Sörbom, • l’EQS de Peter Bentler, • le Mplus de Muthén et Muthén, • Amos, distribué avec le SPSS d’IBM • proc CALIS de SAS, • gllamm si on est patient… • depuis l’été 2011, -sem- de Stata et depuis l’été 2013, -gsem-.

  12. Expérimentation, observation et causalité La fin du XXe siècle a vu le rejet de ces approches par les économistes, notamment parce qu’on leur reprochait • de ne pas estimer des paramètres stables et • parce qu’on s’est aperçu qu’il est toujours possible de proposer au moins deux modèles différents qui s’ajustent aux données et • « parce que les études fondées sur l’observation ne peuvent pas permettre d’établir des liens de cause à effet ». Heckman, James J. 2000. « Causal parameters and policy analysis in economics: a twentieth century retrospective » The Quarterly Journal of Economics, 115, 45-97.

  13. Expérimentation, observation et causalité À l’heure actuelle, en économétrie, la mode est • aux expériences et • aux expériences naturelles. Ces approches permettent d’estimer l’effet d’une variable à la fois, mais ne permettent pas d’étudier des processus complexes. Les autres sciences sociales n’ont pas suivi les économètres et continuent d’utiliser et de développer des méthodes d’études des systèmes de relations complexes. Pearl (2009) propose une synthèse poussée des développements philosophiques, méthodologiques et techniques et des conditions qui permettent de tirer des conclusions valides sur les relations causales établies notamment à partir de données recueillies par observation. Pearl, Judea. 2009. Causality, 2nd edition. Cambridge University Press, New York.

  14. Expérimentation, observation et causalité Pearl attribue aux statisticiens le refus de toute interprétation causale des liens entre variables observées. • Il montre de manière assez convaincante que le refus de la causalité remonte à K. Pearson et • que la seule forme d’interprétation causale « légitime» dans le monde de la statistique est celle qui se démontre au moyen de l’expérience aléatoire au sens de R. Fisher. Les économistes se sont simplement ralliés à cette vison. On peut lire un dialogue imaginaire entre un étudiant qui soutient sa thèse et un examinateur externe statisticien assez amusant à l’url suivant • http://bayes.cs.ucla.edu/BOOK-2K/jw.html

  15. La décomposition de la variance • On représente la variance d’une variable par un surface, généralement un cercle. • On représente les relations entre deux variables en superposant les cercles qui représentent la variance de chacune. La représentation graphique des covariances

  16. La décomposition de la variance • La portion du cercle de la variable indépendante qui se superpose au cercle de la variable dépendante sans se superposer à celui de l’autre variable indépendante représente l’effet net de la variable indépendante sur la variable dépendante. Les effets bruts et les effets nets

  17. La décomposition de la variance en analyse de la variance L’analyse de la variance a été inventée par R. Fisher (1921). Elle a été développée à l’origine pour étudier les causes de la variation d’un caractère quantitatif selon les modalités d’un caractère qualitatif en situation expérimentale. On peut voir l’analyse de la variance comme la généralisation du test de différence des moyennes au cas où le caractère qualitatif a plus de deux modalités. Elle a été généralisée au cas de plusieurs caractères qualitatifs, toujours en situation expérimentale. Fisher, R. 1921. « Studies in Crop Variation. I. An examination of the yield of dressed grain from Broadbalk ». Journal of Agricultural Science, 11, 107-135.

  18. La décomposition de la variance en analyse de la variance La décomposition de la variance de l’analyse de la variance repose sur le fait que par définition, en situation expérimentale, les « variables indépendantes » ne sont pas corrélées. On peut donc décomposer exactement la variance de la variable dépendante en • variance interclasses (ou variance des moyennes conditionnelles), c.-à-d. la variance de la variable dépendante qui provient de la différence entre les moyennes de cette variable calculée dans les classes qui correspondent aux différentes modalités de la variable indépendante et en • variance intraclasses (ou moyenne des variances conditionnelles), c.-à-d. la variance de la variable dépendante au sein de chacune des classes qui correspondent aux différentes modalités de la variable indépendante et qui est comprise comme la variance résiduelle ou inexpliquée.

  19. La décomposition de la variance en analyse de la variance Lorsqu’on utilise l’analyse de la variance avec deux « variables indépendantes » … …et que l’on croit que les effets des deux « variables indépendantes » ne sont pas simplement additifs, … … on peut construire ce qui se nomme une « interaction » dans le jargon de l’analyse de la variance et qu’on nomme plus proprement une relation conditionnelle. Techniquement, la relation conditionnelle est représentée en ajoutant les produits des variables dichotomiques qui représentent les modalités des variables indépendantes … … et réalisée en décomposant la variance comme dans le cas plus simple, … …mais entre toutes les modalités générées par la construction des produits.

  20. La décomposition de la variance en analyse de la variance Se pose alors un problème qui n’existe pas lorsqu’on n’utilise que les « variables indépendantes » originales: Par définition, les variables indépendantes originales ne sont pas corrélées. Par contre, les produits des variables indépendantes sont corrélés aux variables indépendantes dont ils sont les produits. À cause de cette corrélation, on ne peut plus attribuer de manière certaine chaque portion de la variance de la variable dépendante à une modalité (ou une combinaison de modalités) des variables originales.

  21. La décomposition de la variance en analyse de la variance L’analyse de la variance résout ce problème grâce à une convention. La variance commune • à une modalité qui résulte du produit des modalités de deux variables originales et • à une modalité d’une variable originale est attribuée à la modalité de la variable originale.

  22. La décomposition de la variance en analyse de la variance Cette convention permet de résoudre le problème de la relation conditionnelle dans l’analyse de la variance En permettant de construire un test qui compare • la quantité de la variance de la variable dépendante qui est expliquée par les seules variables indépendantes à • la quantité de la variance de la variable dépendante qui est expliquée par les variables indépendantes et leur « interaction ». Si la quantité de variance qui est expliquée par les variables indépendantes et leur interaction est statistiquement supérieure à celle qui est expliquée par les variables indépendantes seules… … on a la preuve que la relation entre les variables indépendantes et la variable dépendante n’est pas linéaire (additive), mais bien conditionnelle (multiplicative).

  23. La décomposition de la variance en régression (et dans les modèles linéaires en général) La régression a été développée principalement pour étudier des données recueillies par observation… … dans lesquelles les variables indépendantes sont presque toujours corrélées jusqu’à un certain point. Par définition, en régression, l’effet d’une variable indépendante est toujours un effet net. Ceci signifie que lorsqu’une portion de la variance de la variable dépendante ne peut pas être attribuée à une seule variable indépendante parce que cette portion est partagée par au moins deux variables indépendantes qui sont corrélées, cette portion n’est attribuée à aucune variable indépendante. On peut donc très bien obtenir une équation de régression dont le coefficient de détermination (R2) est élevé alors qu’aucune des variables indépendantes n’a d’effet net significatif.

  24. La décomposition de la variance en régression (et dans les modèles linéaires en général) L’usage de données issues de l’observation pose toujours le problème de l’attribution de la variance de la variable dépendante à une seule variable indépendante. Ce problème peut être nommé de différentes manières selon les disciplines et selon la manière dont on l’envisage. En économétrie, on nomme ce problème « endogénéité » lorsqu’on suppose qu’il est dû au fait qu’une des variables indépendantes a un effet sur une autre variable indépendante. La solution la plus générale au problème consiste à admettre que les processus sociaux sont complexes, que les variables indépendantes sont corrélées « naturellement » et à utiliser des modèles ou des approches qui permettent de tenir compte de ce fait.

  25. L’étude des relations entre plusieurs variables La corrélation La relation bivariée asymétrique Les relations trivariées • Deux causes « indépendantes » • Effets d’inhibition et de distorsion • Variable antécédente et variable intermédiaire • Cause commune ou corrélation fallacieuse • Relation conditionnelle

  26. La simple corrélation • Le cas le plus simple de la relation bivariée: • deux variables sont corrélées sans que l’on présume que l’une explique l’autre. • Relation symétrique. • Exemple: deux indicateurs de la même variable latente.

  27. Une seule variable indépendante • On pose qu’une variable en « explique » une autre. • Statistiquement, la relation est réciproque. • La direction de l’effet est un choix.

  28. Deux variables indépendantes ayant des effets indépendants • On suppose que deux variables indépendantes expliquent une variable dépendante • …que leurs effets sont additifs et • …que leur corrélation est sans importance.

  29. Deux variables indépendantes ayant des effets indépendants • Les effets bruts ne doivent pas être nuls. • Les effets nets ne doivent pas être nuls. • Les effets nets ne doivent pas être « significativement » différents des effets bruts.

  30. Deux variables indépendantes ayant des effets indépendants On peut construire ce genre d’équation avec des modèles de risque. Voici différentes manières d’exprimer la même chose :

  31. Deux variables indépendantes ayant des effets indépendants Si les effets nets sont « significativement » différents des effets bruts, il est probable que l’on se trouve dans un cas de figure différent …où la corrélation entre les deux variables indépendantes n’est pas sans conséquence.

  32. Inhibition et distorsion Il existe des cas « spéciaux » qui sont des variations sur le cas des deux variables indépendantes L’inhibition • L’effet brut d’une variable indépendante est nul, mais pas son effet net lorsqu’on contrôle l’effet d’une autre variable indépendante. La distorsion • L’effet brut d’une variable indépendante est d’un signe, mais son effet net est du signe inverse lorsqu’on contrôle l’effet d’une autre variable indépendante. L’inhibition et la distorsion se produisent généralement lorsque les deux variables indépendantes • sont corrélées et • que leurs effets sur la variable dépendante sont de signes opposés.

  33. La variable intermédiaire • On suppose qu’une variable indépendante exogène (parfois dite variable antécédente) exerce son effet sur la variable dépendante (par définition endogène) par l’intermédiaire d’une variable indépendante endogène (la variable intermédiaire).

  34. La variable intermédiaire • Les effets bruts ne doivent pas être nuls. • L’effet net de la variable antécédente doit être nul. • L’effet net de la variable intermédiaire ne doit pas être « significativement » différent de son effet brut.

  35. Interprétation de la variable intermédiaire • Le secteur en vert représente la covariance de la variable antécédente (en jaune) et de la variable dépendante (en bleu). • La variable antécédente (en jaune) a un effet brut sur la variable dépendante (en bleu) • Elle n’a pas d’effet net lorsqu’on contrôle l’effet de la variable intermédiaire (en rouge). • Il ne reste plus que l’effet net (en mauve) de la variable intermédiaire.

  36. La cause commune • La corrélation entre deux variables est due à ce que chacune dépend de la même cause. • C’est ce cas que l’on nomme « corrélation fallacieuse ».

  37. Interprétation de la cause commune • Le secteur en vert représente la covariance des deux variables (« la jaune » et la « bleue ») qui dépendent de la même cause • Ce secteur « disparaît » lorsqu’on contrôle l’effet de la cause commune (en rouge). • Il ne reste plus que les effets nets (en orange et en mauve) de la cause commune sur chacune des deux autres variables.

  38. La cause commune • Les effets bruts ne doivent pas être nuls. • L’effet net de la variable antécédente doit être nul. • L’effet net de la variable intermédiaire ne doit pas être « significativement » différent de son effet brut. • Autrement dit, les mêmes conditions que pour la variable intermédiaire. • Les deux cas ne peuvent être distingués que par la théorie.

  39. La relation conditionnelle • L’effet d’une variable indépendante sur la variable dépendante dépend d’une autre variable dépendante.

  40. La relation conditionnelle Le coefficient de cette variable varie selon les valeurs d’une autre variable indépendante.

  41. La relation conditionnelle Autrement dit, l’effet de cette variable indépendante est une fonction de l’autre variable indépendante.

  42. La relation conditionnelle • Le « test » se fait généralement en comparant la capacité d’explication de l’équation qui correspond aux effets « linéaires » des variables indépendantes à la capacité d’explication de l’équation qui correspond à la relation conditionnelle.

  43. La relation conditionnelle Dans une relation conditionnelle, l’effet d’une variable indépendante sur la variable dépendante est une fonction linéaire d’une autre variable indépendante.

  44. La relation conditionnelle

  45. La relation conditionnelle • On peut mieux comprendre ce que sont les coefficients d’une équation qui comprend une relation conditionnelle en réfléchissant au coefficient à partir de sa définition.

  46. Relation conditionnelle • Lorsque la relation est conditionnelle, le vrai coefficient (l’effet) de chacune des deux VI impliquées dans la relation conditionnelle est une fonction de l’autre VI.

More Related