190 likes | 410 Views
La corrélation et régression, approfondissement. Plan de la présentation Causalité chez Hume Des questions de base Des données simples Des formules Un exercice collectif: le «cercle des corrélations». Jean-Herman Guay. David Hume (1711-1776).
E N D
La corrélation et régression, approfondissement Plan de la présentation Causalité chez Hume Des questions de base Des données simples Des formules Un exercice collectif: le «cercle des corrélations» Jean-Herman Guay
David Hume (1711-1776) • «Tous les raisonnements sur les faits paraissent se fonder sur la relation de la cause à l'effet. C'est au moyen de cette seule relation que nous dépassons l'évidence de notre mémoire et de nos sens. Si vous demandiez à quelqu'un pourquoi il croit à la réalité d'un fait qu'il ne constate pas effectivement, par exemple que son ami est à la campagne ou en France, il vous donnerait une raison ; cette raison serait un autre fait : une lettre qu'il a reçue ou la connaissance de ses résolutions antérieures et de ses promesses. Un homme qui trouverait une montre ou une autre machine dans une île déserte conclurait qu'il y a eu précédemment des hommes sur cette île. Tous nos raisonnements sur les faits sont de même nature. On y suppose constamment qu'il y a une connexion entre le fait présent et ce qu'on en infère. (...) Si donc nous désirons nous satisfaire au sujet de la nature de l'évidence qui nous donne la certitude des faits, il faut que nous recherchions comment nous arrivons à la connaissance de la cause et de l'effet. J'oserai affirmer, comme une proposition générale qui n'admet pas d'exception, que la connaissance de cette relation ne s'obtient, en aucun cas, par des raisonnements a priori; mais qu'elle naît entièrement de l'expérience quand nous trouvons que des objets particuliers sont en conjonction constante l'un avec l'autre. » • Hume, Enquête sur l'entendement humain
Organiser en une série chronologique E Concret
R Concret
À partir de là, que pouvons-nous dégager pour élaborer un modèle?
Corrélation et régression: des cousines! R=-.8 R=+.8 R=+.6 Forte positive Forte négative Assez forte R=+.5 R=0 R=0 Non linéaire, Effet de cycle? Non linéaire Absence Abstrait
Corrélation et régression: des cousines! Forte positive Forte négative Assez forte Non linéaire Non linéaire Absence linéaire ou non-linéaire Abstrait
R Abstrait
Les équations de régressionLa base de notre modèle valeur de Y = (coefficient*valeur de X) + constante + erreur
Et dans Excel? E Avec la matrice de gauche: 1. faites un graphique «Nuage de points»; 2) en cliquant sur les points, «Ajouter une droite de tendance», puis choisissez les options «Équation» et «R carré». Vous devriez obtenir le même résultat. Abstrait
Relations et relations Rares mais possibles Relativement fréquentes: des exceptions Relativement fréquentes: trop d’exceptions?
Des mots • Corrélation : cor< cum, relation avec. • Corrélation et causalité? Synonymes? NON! Concomitance? • Contiguïté et antériorité de la cause sur l’effet: • Direction de la causalité? La corrélation y répond-elle? NON! • Force de la causalité? La corrélation y répond-elle? OUI! • Régression: réduction des données d’un phénomène complexe en vue de le représenter par une loi simplificatrice • Droite de régression, par opposition d’autres fonctions • Des moindres carrés ordinaires: la méthode des Moindres Carrés Ordinaires (MCO) consiste à minimiser la Somme des Carrés des Résidus (SCR) elle se démarque des Moindres Carrés Pondérés (MCP) que nous ne voyons pas.
Exercice en classe • Comprendre chaque variable • Choisir les variables appropriées en éliminant celles qui ne sont plus nécessaires • Dresser la liste des relations les plus intéressantes et être en mesure de les mettre en mots, bref de les décrire. • Qu’est ce qui explique le nombre de personnes tuées par million en prenant les variables une à une?
5 questions, 5 réponses à trouver! • Quel pays s’approche le plus de la médiane si on regarde le nombre de personnes tuées en 2009? Et si on regarde le nombre de personnes tuées par million en 2009? Discutez brièvement les implications de ces résultats. • De façon générale, existe-t-il une différence concernant le nombre de personnes tuées par million en 2009 entre les pays d’Europe de l’Ouest et les pays d’Europe de l’Est (ancien espace soviétique)? Utilisez quelques mesures de dispersion (écart-type, variance, étendue, quartile...) et de tendance centrale (moyenne, médiane, mode...) pour étayer votre affirmation. • Quel est l’estimé du nombre de personnes tuées par million sur les routes de Bulgarie en 2012? Faut-il nuancer cet estimé et pourquoi? • Quel est l’estimé du nombre de personnes tuées sur les route de l’Allemagne en 2012? Faut-il nuancer cet estimé et pourquoi? • Bien que cela puisse être trompeur, en quelle année, voire quel mois et quel jour, le nombre de personnes tuées par million en France et Allemagne devrait être identique?