1 / 35

STT-2400 Régression linéaire

STT-2400 Régression linéaire. Pierre Duchesne courriel: duchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 28 décembre 2007. Plan de cours. 1. Nuages de points et régression. 2. Régression linéaire simple.

blanca
Download Presentation

STT-2400 Régression linéaire

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STT-2400Régression linéaire Pierre Duchesne courriel: duchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 28 décembre 2007

  2. Plan de cours • 1. Nuages de points et régression. • 2. Régression linéaire simple. • 3. Régression linéaire multiple. • 4. Tester la qualité de l’ajustement. • 5. Transformations. • 6. Choix des variables. • 7. Diagnostiquer un modèle de régression: étude des résidus. • 8. Valeurs aberrantes et influence des observations. STT-2400; Régression linéaire

  3. Barème • Le barème proposé est le suivant: • Examen intra : 35%. • Examen final : 45%. • Devoirs : 20%. Ouvrages de référence • Weisberg, S. (2005), Applied Linear Regression, Wiley: NY (Obligatoire). • Sen, A. et Srivastava, M. (1990), Regression Analysis, Springer-Verlag; NY (Recommandé). STT-2400; Régression linéaire

  4. Régression linéaire (STT-2400) Section 1 Nuages de points et la régression.

  5. Qu’est-ce que l’analyse de régression? • L’objectif premier de l’analyse de régression, ou plus simplement de la régression, est l’étude des relations de dépendance. • Est-ce que la distance parcourue, durant une période donnée, dans une certaine catégorie de véhicules routiers, est affectée par le prix de l’essence? • Est-ce que le niveau de cholestérol est affecté si un individu suit une diète? Est-ce que d’autres variables entrent en ligne de compte, comme l’âge, le sexe, le conditionnement physique? STT-2400; Régression linéaire

  6. Une méthode possible: la régression linéaire • La méthode privilégiée dans STT-2400 est la régression linéaire. • Il existe d’autres techniques: • Régression non-linéaire; régression non-paramétrique; réseaux de neurones; • Etc. • La majorité des techniques existantes qui rivalisent avec la régression linéaire reposent fortement sur la compréhension de la régression linéaire. STT-2400; Régression linéaire

  7. Objectifs de la régression • Comme technique statistique, on peut affirmer qu’un objectif fondamental de la régression est de synthétiser l’information disponible. • On recherche un modèleparcimonieux. • La simplicité est également un objectif: pour des performances comparables, on recherche le modèle le plus simple. STT-2400; Régression linéaire

  8. Spécification d’un modèle • Parfois un modèle est déjà dicté par des considérations théoriques: • 1. Pour un objet de masse m, on sait que F = ma, c’est-à-dire que pour une accélération donnée a, on peut trouver exactement la force F. • 2. La théorie de la chimie prédit que, pour un échantillon de gaz à température constante, la relation suivante est satisfaite: pvg = c, où p est la pression et v le volume. Une fois que c et g sont fixés, pour une pression donnée, on peut exactement trouver le volume. STT-2400; Régression linéaire

  9. Spécification d’un modèle (suite) • Parfois, on ignore le modèle mais on doit tenter de relier une variable réponse à des préviseurs. • Exemple: est-ce que les pays dont le revenu per capita est plus élevé ont tendance à afficher un plus bas taux de natalité que ceux avec un revenu per capita plus bas? • Variable réponse: taux de natalité; • Préviseur: revenu per capita. STT-2400; Régression linéaire

  10. Première étape: outils graphiques • Lorsque nous avons à notre disposition une variable réponse et un seul préviseur, l’outil graphique fondamental est le nuage de points. • Axe vertical: variable réponse; • Axe horizontal: préviseur. • En présence de plusieurs préviseurs, la généralisation de cette idée est le nuage de points matriciel. STT-2400; Régression linéaire

  11. Exemple: héritage de la taille • Durant la période 1893-1898, Karl Pearson a étudié l’héritage des traits génétiques d’une génération à l’autre. • Population: mères au Royaume-Uni d’un âge inférieur à 65 ans et filles adultes âgées de plus de 18 ans. • Taille de l’échantillon: n = 1375. • Question d’intérêt: hérédité de la mère à la fille. • Préviseur: taille de la mère (Mheight). • Variable réponse: taille de la fille (Dheight). • Est-ce que des mamans grandes (petites) ont tendance à avoir des filles grandes (petites)? STT-2400; Régression linéaire

  12. En résumé, exemple des tailles • 1. Si les filles et leur mère avaient exactement la même taille, les points devraient être répartis sur la droite y = x. • 2. Une question d’intérêt est s’il semble exister une relation entre la variable réponse et le préviseur: ici clairement oui! • 3. Le nuage de points est de forme plutôt elliptique. • 4. Il est important de dégager la tendance générale suivie par la majorité des points. • 5. Il est également important de faire un examen des points plus isolés (points ayant un effet de levier, valeurs aberrantes; sujet traité dans la dernière partie du cours). STT-2400; Régression linéaire

  13. Exemple: jeux de données de Forbes • James D. Forbes était un physicien écossais de la fin du 19ième siècle. • Il a étudié la relation entre la pression atmosphérique et le point d’ébullition de l’eau. • L’altitude peut être obtenu à partir de la pression atmosphérique en utilisant un baromètre (pression plus faible correspondant à une altitude plus élevée). • Fragilité des baromètres du milieu du 19ième siècle a incité Forbes a considérer la possibilité d’utiliser la température d’ébullition de l’eau comme un substitut pour une lecture directe de la pression atmosphérique. STT-2400; Régression linéaire

  14. Exemple (suite) • Données: récoltées dans les Alpes et en Écosse. • Les données ont été recueillies en mesurant la pression locale en pouces de mercure avec un baromètre, et le point d’ébullition de l’eau en degrés Fahrenheit avec un thermomètre. • Au niveau de la mer, l’eau bout à 100 degrés Celsius (degrés C = (degrés F - 32)*5/9) mais cela décroît avec des altitudes plus élevées (ou des pressions atmosphériques plus faibles). • Cela prend plus de temps faire cuire un œuf à la coque en haute altitude! (la température n’est pas aussi forte!) STT-2400; Régression linéaire

  15. En résumé, données de Forbes • 1. La taille échantillonnale est beaucoup plus faible que dans l’exemple sur les tailles. • 2. Les points semblent fortement répartis autour d’une droite: pour une température donnée, ceci suggère peu de variation dans la pression atmosphérique. • 3. Cependant, un examen visuel fait ressortir une erreur systématique. STT-2400; Régression linéaire

  16. Retrait de la tendance linéaire, ou première analyse des résidus • Pour une droite y = mx + boù le coefficient de pente (m) et d’ordonnée à l’origine (b) sont fournis, on peut retirer la tendance linéaire de la pression atmosphérique en considérant: • On fait le graphique du résidu versus la température: l’axe vertical est sur une échelle plus petite, augmentant ainsi la résolution. • Un effet de courbure est nettement présent. STT-2400; Régression linéaire

  17. Transformation pour améliorer la linéarité • Afin que les méthodes de régression linéaire fonctionnent bien, il faut habituellement qu’un lien linéaire soit présent. • Lorsque ce n’est pas le cas, on peut envisager de transformer la variable réponse, ou encore le préviseur. • On peut refaire les analyses pour voir si les transformations améliorent la qualité du lien linéaire. • Dans le cas des données de Forbes, une théorie issue de la physique suggérait de considérer log(Pression) versus log(Température). STT-2400; Régression linéaire

  18. Exemple, Smallmouth bass • C’est un poisson populaire dans les sports de pêche. • Lors de l’étude de la croissance des populations de poissons, on pourrait vouloir comprendre la dépendance de la longueur du poisson en fonction de l’âge du poisson. • Variable réponse: longueur en mm. • Préviseur: âge à la capture (déterminé en comptant des anneaux). • Taille de l’échantillon: n = 439. • C’est une étude transversale (i.e. que toutes les observations ont été prises au même moment), par opposition à une étude longitudinale. STT-2400; Régression linéaire

  19. Utilisation d’un smoother (procédure SAS PROC LOESS) • On remarque sur le graphique une ligne pleine et une ligne pointillée qui n’est pas tout à fait une droite. • Essentiellement, l’idée consiste à calculer des moyennes à chaque valeur du préviseur (ici âge) et de relier les points obtenus. • Si on ne dispose pas de valeurs répétées pour une valeur du préviseur x (disons), on peut prendre des valeurs dans un voisinage de x. • C’est un exemple de régression dite nonparamétrique. • En SAS la procédure qui permet de calculer des smoother est PROC LOESS. STT-2400; Régression linéaire

  20. PROC LOESS pour l’exemple sur les tailles • Dans cette situation, le smoother a été obtenu en calculant la « meilleure droite » dans des voisinages de chacun des x. • Le smoother LOESS et la ligne droite sont en accord pour le centre du préviseur Mheight (la moyenne du préviseur), et sont moins en accord aux extrémités (c’est souvent le cas que les smoothers sont moins fiables aux extrémités du graphique). • Ce genre de graphique tend à révéler de l’information sur ce que l’on appellera la fonction moyenne. STT-2400; Régression linéaire

  21. Exemple, prévision de la température • Les données portent sur la chute de neige à Fort Collins, Colorado (USA). • La question d’intérêt porte sur la prévision des chutes de neige du 1er janvier au 30 juin sachant les précipitations du 1er septembre au 31 décembre. STT-2400; Régression linéaire

  22. En résumé, exemple des chutes de neige • On note que la force de la relation (linéaire ou autre) semble beaucoup plus faible. • C’est un exemple de situation ou l’on pourrait penser que la variable réponse et le préviseur ne sont pas corrélés. • Éventuellement, nous voudrons tester l’hypothèse que les deux variables sont non-corrélées versus la contre-hypothèse qu’il existe une corrélation. • L’idée sera de comparer les deux ajustements d’une façon à préciser plus tard durant le semestre. STT-2400; Régression linéaire

  23. Exemple, croissance des dindons • Des dindons contenus dans des enclos clairement identifiés sont élevés avec une diète identique, à l’exception que pour un enclos donné, de la méthionine (c’est un acide aminé) est ajoutée (elle est comptabilisée comme un pourcentage de la diète des dindons). • La méthionine a été fournies de trois façons différentes. • Pour la dose = 0, il y avait 10 enclos. • Pour les autres doses, cinq enclos ont reçu une certaine dose selon un certain procédé. STT-2400; Régression linéaire

  24. En résumé, exemple des dindons • De manière générale, le poids semble augmenter avec la dose. • Si on ignore pour l’instant les trois sources de méthionine, on peut dire que de manière générale, une relation linéaire est plus ou moins satisfaisante. STT-2400; Régression linéaire

  25. Fonctions moyennes • Considérons que la variable réponse est Y, et que le préviseur est X. • On veut savoir comment la distribution de Yest affectée lorsque l’on fait varier X. • On définit la fonction moyenne de la manière suivante: • C’est une fonction qui dépend de manière générale de x. STT-2400; Régression linéaire

  26. Un exemple de fonction moyenne: la droite • Dans l’exemple sur les tailles, on pourrait penser que la relation est linéaire entre la variable réponse (Dheight) et le préviseur (Mheight) et postuler: • Il y a donc deux paramètres, l’ordonné à l’origine et le paramètre de pente. STT-2400; Régression linéaire

  27. Origine du terme régression • On a déjà mentionné que si y = x, c’est-à-dire si b0 = 0 et b1 = 1, alors les filles auraient la même taille que leur mère. • La droite pointillée a été déterminé selon la technique des moindres carrés, technique qui fera l’objet de la prochaine section. • Cette droite est déterminée par les données. • On note que la pente est inférieure à un. STT-2400; Régression linéaire

  28. Origine du terme régression (suite) • Ainsi, les mères qui sont grandes ont tendance à avoir des filles qui sont plus grandes que la moyenne, mais plus petites que leur mère (en effet la pente est inférieure à un). • Les mères qui sont petites ont tendance à avoir des filles qui sont petites (par rapport à la moyenne), mais plus grandes que leur mère. • Le phénomène illustré ici suggère une régression des valeurs extrêmes d’une génération donnée vers la moyenne la génération qui suit. STT-2400; Régression linéaire

  29. Un autre exemple de fonction moyenne: régression non-linéaire • Dans l’exemple des dindons, nous aurions pu faire appel à un modèle de croissance. • Exemple: • Interprétation des paramètres:Dose = 0 donne le baselineb0 (croissance de base sans traitement). Si x est grand, alors la fonction moyenne approche b0 + b1, qui peut-être perçu comme la limite de croissance. On aura alors b2 comme un terme qui détermine à quel rythme la croissance maximale est atteinte. STT-2400; Régression linéaire

  30. Fonctions variances • Définition: • C’est la variance de la variable réponse lorsque l’on fixe le préviseur X à la valeur particulière x. • Exemples: • Dheight étant donné Mheight: variance plutôt constante pour chaque valeur de Mheight. • Exemple des poissons: plutôt plausible également. • Exemple des dindons: il faut faire attention, puisque chaque chiffre est une moyenne pour un groupe d’enclos et on ne peut apprécier la variabilité entre les enclos. STT-2400; Régression linéaire

  31. Hypothèse courante en régression linéaire • Souvent l’on supposera une hypothèse de variance constante, que l’on résumera comme suit: STT-2400; Régression linéaire

  32. En résumé, exemple classique de Anscombe • Ce qu’il faut retenir avec cet exemple est que l’utilisation des graphiques est souvent essentiel. • Il faut rappeler que les statistiques décrivant l’ajustement sont toutes fins pratiques identiques. • Premier cas: situation idéale; • Second cas: ligne droite n’est peut-être pas la fonction moyenne; courbe lisse, peut-être quadratique? • Troisième cas: une valeur semble aberrante (outlier); • Quatrième cas: il y a peu d’information sur la fonction moyenne; un seul point dicte l’allure de la régression; il est rare que l’on veut qu’une seule observation possède une telle influence. STT-2400; Régression linéaire

  33. Exemple, consommation d’essence • Lorsque l’on dispose de plusieurs préviseurs, le nuage de points matriciel peut s’avérer particulièrement utile. • Le jeu de données porte sur la consommation d’essence, et plus particulièrement sur la variation de la consommation dans les 50 états et le District de Columbia. • Drivers = nombre de permis de conduire dans l’état; • FuelC = Essence vendue pour usage routier (milliers de gallons); • Income = Revenu personnel par personne (année 2000, en milliers de dollars); • Miles = Distance totale des autoroutes en miles dans l’état; • Pop = population 2001 des individus de plus de 16 ans; • Tax = Taxe sur l’essence dans l’état; • State = nom de l’état; • Essence = 1000 x FuelC / Pop; • PermisCon = 1000 x Drivers / Pop; • logMiles = logarithme en base 2 du préviseur Miles. STT-2400; Régression linéaire

  34. En résumé, exemple sur la consommation d’essence • Chaque graphique est pertinent dans l’élaboration d’une régression d’une variable réponse en fonction d’un préviseur. • Il semble que la variable Essence a tendance à diminuer en moyenne à mesure que la variable Taxe augmente, mais il y a beaucoup de variation. • Globalement, la variable essence semble au mieux peu reliée avec chacune des variables dans le nuage de points matriciel. STT-2400; Régression linéaire

  35. En résumé, exemple sur la consommation d’essence (suite) • L’information dans un nuage de point matriciel est marginale, puisque l’on regarde la variable réponse en fonction de chaque préviseur pris un à la fois. • Une étude simultanée entre la variable réponse et l’ensemble des préviseurs pourrait mener à des conclusions différentes. • Les relations existantes entre les préviseurs est également importante. • Il est attendu que si ces derniers ne sont pas reliés entre eux, que l’information contenue dans un nuage de points matriciel soit assez complète. STT-2400; Régression linéaire

More Related