STT-2400 Régression linéaire

STT-2400Régression linéaire Pierre Duchesne courriel: duchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 28 décembre 2007

Plan de cours • 1. Nuages de points et régression. • 2. Régression linéaire simple. • 3. Régression linéaire multiple. • 4. Tester la qualité de l’ajustement. • 5. Transformations. • 6. Choix des variables. • 7. Diagnostiquer un modèle de régression: étude des résidus. • 8. Valeurs aberrantes et influence des observations. STT-2400; Régression linéaire

Barème • Le barème proposé est le suivant: • Examen intra : 35%. • Examen final : 45%. • Devoirs : 20%. Ouvrages de référence • Weisberg, S. (2005), Applied Linear Regression, Wiley: NY (Obligatoire). • Sen, A. et Srivastava, M. (1990), Regression Analysis, Springer-Verlag; NY (Recommandé). STT-2400; Régression linéaire

Régression linéaire (STT-2400) Section 1 Nuages de points et la régression.

Qu’est-ce que l’analyse de régression? • L’objectif premier de l’analyse de régression, ou plus simplement de la régression, est l’étude des relations de dépendance. • Est-ce que la distance parcourue, durant une période donnée, dans une certaine catégorie de véhicules routiers, est affectée par le prix de l’essence? • Est-ce que le niveau de cholestérol est affecté si un individu suit une diète? Est-ce que d’autres variables entrent en ligne de compte, comme l’âge, le sexe, le conditionnement physique? STT-2400; Régression linéaire

Une méthode possible: la régression linéaire • La méthode privilégiée dans STT-2400 est la régression linéaire. • Il existe d’autres techniques: • Régression non-linéaire; régression non-paramétrique; réseaux de neurones; • Etc. • La majorité des techniques existantes qui rivalisent avec la régression linéaire reposent fortement sur la compréhension de la régression linéaire. STT-2400; Régression linéaire

Objectifs de la régression • Comme technique statistique, on peut affirmer qu’un objectif fondamental de la régression est de synthétiser l’information disponible. • On recherche un modèleparcimonieux. • La simplicité est également un objectif: pour des performances comparables, on recherche le modèle le plus simple. STT-2400; Régression linéaire

Spécification d’un modèle • Parfois un modèle est déjà dicté par des considérations théoriques: • 1. Pour un objet de masse m, on sait que F = ma, c’est-à-dire que pour une accélération donnée a, on peut trouver exactement la force F. • 2. La théorie de la chimie prédit que, pour un échantillon de gaz à température constante, la relation suivante est satisfaite: pvg = c, où p est la pression et v le volume. Une fois que c et g sont fixés, pour une pression donnée, on peut exactement trouver le volume. STT-2400; Régression linéaire

Spécification d’un modèle (suite) • Parfois, on ignore le modèle mais on doit tenter de relier une variable réponse à des préviseurs. • Exemple: est-ce que les pays dont le revenu per capita est plus élevé ont tendance à afficher un plus bas taux de natalité que ceux avec un revenu per capita plus bas? • Variable réponse: taux de natalité; • Préviseur: revenu per capita. STT-2400; Régression linéaire

Première étape: outils graphiques • Lorsque nous avons à notre disposition une variable réponse et un seul préviseur, l’outil graphique fondamental est le nuage de points. • Axe vertical: variable réponse; • Axe horizontal: préviseur. • En présence de plusieurs préviseurs, la généralisation de cette idée est le nuage de points matriciel. STT-2400; Régression linéaire

Exemple: héritage de la taille • Durant la période 1893-1898, Karl Pearson a étudié l’héritage des traits génétiques d’une génération à l’autre. • Population: mères au Royaume-Uni d’un âge inférieur à 65 ans et filles adultes âgées de plus de 18 ans. • Taille de l’échantillon: n = 1375. • Question d’intérêt: hérédité de la mère à la fille. • Préviseur: taille de la mère (Mheight). • Variable réponse: taille de la fille (Dheight). • Est-ce que des mamans grandes (petites) ont tendance à avoir des filles grandes (petites)? STT-2400; Régression linéaire

En résumé, exemple des tailles • 1. Si les filles et leur mère avaient exactement la même taille, les points devraient être répartis sur la droite y = x. • 2. Une question d’intérêt est s’il semble exister une relation entre la variable réponse et le préviseur: ici clairement oui! • 3. Le nuage de points est de forme plutôt elliptique. • 4. Il est important de dégager la tendance générale suivie par la majorité des points. • 5. Il est également important de faire un examen des points plus isolés (points ayant un effet de levier, valeurs aberrantes; sujet traité dans la dernière partie du cours). STT-2400; Régression linéaire

Exemple: jeux de données de Forbes • James D. Forbes était un physicien écossais de la fin du 19ième siècle. • Il a étudié la relation entre la pression atmosphérique et le point d’ébullition de l’eau. • L’altitude peut être obtenu à partir de la pression atmosphérique en utilisant un baromètre (pression plus faible correspondant à une altitude plus élevée). • Fragilité des baromètres du milieu du 19ième siècle a incité Forbes a considérer la possibilité d’utiliser la température d’ébullition de l’eau comme un substitut pour une lecture directe de la pression atmosphérique. STT-2400; Régression linéaire

Exemple (suite) • Données: récoltées dans les Alpes et en Écosse. • Les données ont été recueillies en mesurant la pression locale en pouces de mercure avec un baromètre, et le point d’ébullition de l’eau en degrés Fahrenheit avec un thermomètre. • Au niveau de la mer, l’eau bout à 100 degrés Celsius (degrés C = (degrés F - 32)*5/9) mais cela décroît avec des altitudes plus élevées (ou des pressions atmosphériques plus faibles). • Cela prend plus de temps faire cuire un œuf à la coque en haute altitude! (la température n’est pas aussi forte!) STT-2400; Régression linéaire

En résumé, données de Forbes • 1. La taille échantillonnale est beaucoup plus faible que dans l’exemple sur les tailles. • 2. Les points semblent fortement répartis autour d’une droite: pour une température donnée, ceci suggère peu de variation dans la pression atmosphérique. • 3. Cependant, un examen visuel fait ressortir une erreur systématique. STT-2400; Régression linéaire

Retrait de la tendance linéaire, ou première analyse des résidus • Pour une droite y = mx + boù le coefficient de pente (m) et d’ordonnée à l’origine (b) sont fournis, on peut retirer la tendance linéaire de la pression atmosphérique en considérant: • On fait le graphique du résidu versus la température: l’axe vertical est sur une échelle plus petite, augmentant ainsi la résolution. • Un effet de courbure est nettement présent. STT-2400; Régression linéaire

Transformation pour améliorer la linéarité • Afin que les méthodes de régression linéaire fonctionnent bien, il faut habituellement qu’un lien linéaire soit présent. • Lorsque ce n’est pas le cas, on peut envisager de transformer la variable réponse, ou encore le préviseur. • On peut refaire les analyses pour voir si les transformations améliorent la qualité du lien linéaire. • Dans le cas des données de Forbes, une théorie issue de la physique suggérait de considérer log(Pression) versus log(Température). STT-2400; Régression linéaire

Exemple, Smallmouth bass • C’est un poisson populaire dans les sports de pêche. • Lors de l’étude de la croissance des populations de poissons, on pourrait vouloir comprendre la dépendance de la longueur du poisson en fonction de l’âge du poisson. • Variable réponse: longueur en mm. • Préviseur: âge à la capture (déterminé en comptant des anneaux). • Taille de l’échantillon: n = 439. • C’est une étude transversale (i.e. que toutes les observations ont été prises au même moment), par opposition à une étude longitudinale. STT-2400; Régression linéaire

Utilisation d’un smoother (procédure SAS PROC LOESS) • On remarque sur le graphique une ligne pleine et une ligne pointillée qui n’est pas tout à fait une droite. • Essentiellement, l’idée consiste à calculer des moyennes à chaque valeur du préviseur (ici âge) et de relier les points obtenus. • Si on ne dispose pas de valeurs répétées pour une valeur du préviseur x (disons), on peut prendre des valeurs dans un voisinage de x. • C’est un exemple de régression dite nonparamétrique. • En SAS la procédure qui permet de calculer des smoother est PROC LOESS. STT-2400; Régression linéaire

PROC LOESS pour l’exemple sur les tailles • Dans cette situation, le smoother a été obtenu en calculant la « meilleure droite » dans des voisinages de chacun des x. • Le smoother LOESS et la ligne droite sont en accord pour le centre du préviseur Mheight (la moyenne du préviseur), et sont moins en accord aux extrémités (c’est souvent le cas que les smoothers sont moins fiables aux extrémités du graphique). • Ce genre de graphique tend à révéler de l’information sur ce que l’on appellera la fonction moyenne. STT-2400; Régression linéaire

Exemple, prévision de la température • Les données portent sur la chute de neige à Fort Collins, Colorado (USA). • La question d’intérêt porte sur la prévision des chutes de neige du 1er janvier au 30 juin sachant les précipitations du 1er septembre au 31 décembre. STT-2400; Régression linéaire

En résumé, exemple des chutes de neige • On note que la force de la relation (linéaire ou autre) semble beaucoup plus faible. • C’est un exemple de situation ou l’on pourrait penser que la variable réponse et le préviseur ne sont pas corrélés. • Éventuellement, nous voudrons tester l’hypothèse que les deux variables sont non-corrélées versus la contre-hypothèse qu’il existe une corrélation. • L’idée sera de comparer les deux ajustements d’une façon à préciser plus tard durant le semestre. STT-2400; Régression linéaire

Exemple, croissance des dindons • Des dindons contenus dans des enclos clairement identifiés sont élevés avec une diète identique, à l’exception que pour un enclos donné, de la méthionine (c’est un acide aminé) est ajoutée (elle est comptabilisée comme un pourcentage de la diète des dindons). • La méthionine a été fournies de trois façons différentes. • Pour la dose = 0, il y avait 10 enclos. • Pour les autres doses, cinq enclos ont reçu une certaine dose selon un certain procédé. STT-2400; Régression linéaire

En résumé, exemple des dindons • De manière générale, le poids semble augmenter avec la dose. • Si on ignore pour l’instant les trois sources de méthionine, on peut dire que de manière générale, une relation linéaire est plus ou moins satisfaisante. STT-2400; Régression linéaire

Fonctions moyennes • Considérons que la variable réponse est Y, et que le préviseur est X. • On veut savoir comment la distribution de Yest affectée lorsque l’on fait varier X. • On définit la fonction moyenne de la manière suivante: • C’est une fonction qui dépend de manière générale de x. STT-2400; Régression linéaire

Un exemple de fonction moyenne: la droite • Dans l’exemple sur les tailles, on pourrait penser que la relation est linéaire entre la variable réponse (Dheight) et le préviseur (Mheight) et postuler: • Il y a donc deux paramètres, l’ordonné à l’origine et le paramètre de pente. STT-2400; Régression linéaire

Origine du terme régression • On a déjà mentionné que si y = x, c’est-à-dire si b0 = 0 et b1 = 1, alors les filles auraient la même taille que leur mère. • La droite pointillée a été déterminé selon la technique des moindres carrés, technique qui fera l’objet de la prochaine section. • Cette droite est déterminée par les données. • On note que la pente est inférieure à un. STT-2400; Régression linéaire

Origine du terme régression (suite) • Ainsi, les mères qui sont grandes ont tendance à avoir des filles qui sont plus grandes que la moyenne, mais plus petites que leur mère (en effet la pente est inférieure à un). • Les mères qui sont petites ont tendance à avoir des filles qui sont petites (par rapport à la moyenne), mais plus grandes que leur mère. • Le phénomène illustré ici suggère une régression des valeurs extrêmes d’une génération donnée vers la moyenne la génération qui suit. STT-2400; Régression linéaire

Un autre exemple de fonction moyenne: régression non-linéaire • Dans l’exemple des dindons, nous aurions pu faire appel à un modèle de croissance. • Exemple: • Interprétation des paramètres:Dose = 0 donne le baselineb0 (croissance de base sans traitement). Si x est grand, alors la fonction moyenne approche b0 + b1, qui peut-être perçu comme la limite de croissance. On aura alors b2 comme un terme qui détermine à quel rythme la croissance maximale est atteinte. STT-2400; Régression linéaire

Fonctions variances • Définition: • C’est la variance de la variable réponse lorsque l’on fixe le préviseur X à la valeur particulière x. • Exemples: • Dheight étant donné Mheight: variance plutôt constante pour chaque valeur de Mheight. • Exemple des poissons: plutôt plausible également. • Exemple des dindons: il faut faire attention, puisque chaque chiffre est une moyenne pour un groupe d’enclos et on ne peut apprécier la variabilité entre les enclos. STT-2400; Régression linéaire

Hypothèse courante en régression linéaire • Souvent l’on supposera une hypothèse de variance constante, que l’on résumera comme suit: STT-2400; Régression linéaire

En résumé, exemple classique de Anscombe • Ce qu’il faut retenir avec cet exemple est que l’utilisation des graphiques est souvent essentiel. • Il faut rappeler que les statistiques décrivant l’ajustement sont toutes fins pratiques identiques. • Premier cas: situation idéale; • Second cas: ligne droite n’est peut-être pas la fonction moyenne; courbe lisse, peut-être quadratique? • Troisième cas: une valeur semble aberrante (outlier); • Quatrième cas: il y a peu d’information sur la fonction moyenne; un seul point dicte l’allure de la régression; il est rare que l’on veut qu’une seule observation possède une telle influence. STT-2400; Régression linéaire

Exemple, consommation d’essence • Lorsque l’on dispose de plusieurs préviseurs, le nuage de points matriciel peut s’avérer particulièrement utile. • Le jeu de données porte sur la consommation d’essence, et plus particulièrement sur la variation de la consommation dans les 50 états et le District de Columbia. • Drivers = nombre de permis de conduire dans l’état; • FuelC = Essence vendue pour usage routier (milliers de gallons); • Income = Revenu personnel par personne (année 2000, en milliers de dollars); • Miles = Distance totale des autoroutes en miles dans l’état; • Pop = population 2001 des individus de plus de 16 ans; • Tax = Taxe sur l’essence dans l’état; • State = nom de l’état; • Essence = 1000 x FuelC / Pop; • PermisCon = 1000 x Drivers / Pop; • logMiles = logarithme en base 2 du préviseur Miles. STT-2400; Régression linéaire

En résumé, exemple sur la consommation d’essence • Chaque graphique est pertinent dans l’élaboration d’une régression d’une variable réponse en fonction d’un préviseur. • Il semble que la variable Essence a tendance à diminuer en moyenne à mesure que la variable Taxe augmente, mais il y a beaucoup de variation. • Globalement, la variable essence semble au mieux peu reliée avec chacune des variables dans le nuage de points matriciel. STT-2400; Régression linéaire

En résumé, exemple sur la consommation d’essence (suite) • L’information dans un nuage de point matriciel est marginale, puisque l’on regarde la variable réponse en fonction de chaque préviseur pris un à la fois. • Une étude simultanée entre la variable réponse et l’ensemble des préviseurs pourrait mener à des conclusions différentes. • Les relations existantes entre les préviseurs est également importante. • Il est attendu que si ces derniers ne sont pas reliés entre eux, que l’information contenue dans un nuage de points matriciel soit assez complète. STT-2400; Régression linéaire

STT-2400 Régression linéaire