1 / 152

La Régression Logistique Michel Tenenhaus

La Régression Logistique Michel Tenenhaus. Méthodes explicatives : une réponse Y. Variables explicatives. Variable à expliquer. X. , X. , …, . X. 1. 2. k. Quantitatives. Qualitatives. Mélange. Y. Régression multiple. Analyse de la variance. Modèle linéaire général .

pello
Download Presentation

La Régression Logistique Michel Tenenhaus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La Régression LogistiqueMichel Tenenhaus

  2. Méthodes explicatives : une réponse Y Variables explicatives Variable à expliquer X , X , …, X 1 2 k Quantitatives Qualitatives Mélange Y Régression multiple Analyse de la variance Modèle linéaire général Quantitatif Qualitatif - Régression - Régression - Régression Logistique Logistique Logistique Segmentation Segmentation Segmentation - - - Analyse factorielle Analyse factorielle Analyse factorielle - - - discriminante discriminante discriminante Analyse discriminante - bayesienne Réseaux de neurones : Optimiser la prévision pour les modèle non-linéaires (!!!!) Loi de probabilité de la réponse dans la famille exponentielle (Binomiale, Poisson, Normale, Gamma, Gauss Inverse, ...) : Modèle linéaire généralisé (Proc GENMOD)

  3. Plan du cours • Régression logistique binaire simple (chd) • Régression logistique binaire multiple - Données individuelles (faillite, bébé) - Données agrégées (job satisfaction) • Régression logistique ordinale (bordeaux) - pentes égales - partiellement à pentes égales (Proc Genmod) • Régression logistique multinomiale (bordeaux, alligator) - utilisation de SPSS et de la Proc Catmod Utilisation de SPSS et de la Proc Logistic

  4. P. Allison (1999): Logistic Regression Using the SAS System: Theory and Applications Cary, NC: SAS Institute Inc. Références Collet D. (1999): Modelling binary data, Chapman & Hall/CRC, Londres Tenenhaus M. (2007): Statistique, Dunod

  5. Les données Y = variable à expliquer binaire X1,…, Xk = variables explicatives numériques ou binaires (indicatrices de modalités) A. La régression logistique binaire • Régression logistique simple (k = 1) • Régression logistique multiple (k > 1)

  6. I. La régression logistique simple • Variable dépendante : Y = 0 / 1 • Variable indépendante : X • Objectif : Modéliser (x) = Prob(Y = 1/X = x) • Le modèle linéaire (x) = 0 + 1x convient mal lorsque X est continue. • Le modèle logistique est plus naturel.

  7. Exemple : Age and Coronary Heart Disease Status (CHD) Les données

  8. Plot of CHD by Age

  9. Description des données regroupées par classe d’age Tableau des effectifs de CHD par classe d’age Graphique des proportions de CHD par classe d’age

  10. Le modèle logistique ou Fonction de lien : Logit

  11. Fonctions de lien • Fonction logit g(p) = log(p / (1 - p)) • Fonction normit ou probit g(p) = -1(p) où  est la fonction de répartition de la loi normale réduite • Fonction « complementary log-log » g(p) = log(-log(1-p))

  12. Estimation des paramètres du modèle logistique Les données Le modèle yi = 1 si caractère présent, 0 sinon

  13. Vraisemblance des données Probabilité d’observer les données [(x1,y1), …, (xi,yi), …, (xn,yn)]

  14. Log-Vraisemblance

  15. Estimation du maximum de vraisemblance • On cherche maximisant la Log-vraisemblance . • La matrice est estimée par la matrice

  16. Résultats Test LRT pour H0 : 1 = 0

  17. Résultats Estimated Covariance Matrix Variable Intercept age Intercept 1.285173 -0.02668 age -0.02668 0.000579 Ecart-type de la constante = 1.2851731/2 = 1.134 Ecart-type de la pente = .0005791/2 = .024 Covariance entre la constante et la pente = -.02668

  18. Test de Wald Le modèle H0 : 1 = 0 H1 : 1  0 Test Statistique utilisée Décision de rejeter H0 au risque  Rejet de H0 si Wald ou NS = P(2(1)Wald)  

  19. Test LRT Le modèle H0 : 1 = 0 H1 : 1  0 Le test LRT est plus puissant que le test de WALD. Test Statistique utilisée Décision de rejeter H0 au risque  Rejet de H0 si  ou NS = P( 2(1)  )  

  20. Intervalle de confiance de (x) au niveau 95% De on déduit l’intervalle de confiance de

  21. Intervalle deconfiance de (x)au niveau 95%

  22. Intervalle de confiance de (x) au niveau 95%

  23. Proportion observée : Proportion théorique : puisque E(yi) = i estimé par Comparaison entre les proportions observées et théoriques

  24. Comparaison entre les proportions observées et théoriques

  25. Test de Hosmer & Lemeshow(Goodness of fit test) Les données sont rangées par ordre croissant des probabilités calculées à l’aide du modèle, puis partagées en 10 classes au plus. Effectif théorique : Effectif observé : puisque E(yi) = i estimé par

  26. Le test du khi-deux est utilisé pour comparer les effectifs observés fci aux effectifs théoriques : Nb de degrés de liberté = Nb de groupes - 2

  27. Résultat Modèle acceptable Ce test est malheureusement peu puissant.

  28. Mesure de la qualité de la modélisation • Pseudo R2 (McFadden) • R2 de Cox & Snell • R2 ajusté de Nagelkerke

  29. Tableau de classification • Une observation i est affectée à la classe [Y=1] si  c. • Tableau de classification (c = 0.5) Sensibilité = 29/43 Spécificité = 45/57 taux de faux positifs = 12/41 taux de faux négatifs = 14/59 TABLE OF CHD BY PREDICTS CHD PREDICTS Frequency‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ 45 ‚ 12 ‚ 57 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 14 ‚ 29 ‚ 43 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 59 41 100

  30. Objectifs • Sensibilité = capacité à diagnostiquer les malades parmi les malades • Spécificité = capacité à reconnaître les non-malades parmi les non-malades • 1 - Spécificité = risque de diagnostiquer un malade chez les non-malades. Trouver un compromis acceptable entre forte sensibilité et forte spécificité.

  31. Graphique ROC (Receiver Operating Characteristic) • Sensibilité : capacité à prédire un évènement • Spécificité : capacité à prédire un non-événement • Graphique ROC : y = Sensibilité(c) x = 1 - Spécificité (c) C= 0.5 L’aire sous la courbe ROC est une mesure du pouvoir prédictif de la variable X. Ici cette surface est égale à 0.8.

  32. N = effectif total t = nombre de paires avec des réponses différentes = nb(0)*nb(1) nc = nombre de paires concordantes (yi < yj et ) nd = nombre de paires discordantes (yi < yj et ) t - nc - nd = Nb d’ex-aequo (yi < yj et ) D de Somer = (nc - nd) / t Gamma = (nc - nd) / (nc + nd) Tau-a = (nc - nd) / .5N(N-1) c = (nc + .5(t - nc - nd)) / t c = aire sous la courbe ROC Coefficients d ’association entre les probabilités calculées et les réponses observées

  33. Analyse des résidus données individuelles Résidu de Pearson (Standardized Residual) à comparer à 2 en valeur absolue

  34. Autres statistiques pour l’analyse des résidus Déviance : Résidu déviance (Deviance) à comparer à 2 en valeur absolue Influence de chaque observation sur la déviance (DifDev) iD = D(toutes les obs.) - D(toutes les obs. sauf l’obs. i) Studentized residual :

  35. Analyse des résidus 4 5 3 16 2 1 0 -1 -2 -3 N = 100 100 100 Standardized residual Studentized residual Deviance value

  36. Les données Les ratios suivants sont observés sur 46 entreprises : II. La régression logistique multipleExemple : Prévision de faillite Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.

  37. Les données des entreprises

  38. Boîtes à moustaches des ratios financiers selon le critère de Faillite

  39. Intervalle de confiance des moyennes des ratios financiers selon le critère de Faillite

  40. Régressions logistiques simplesde Y sur les ratios X NS < .05  Prédicteur significatif

  41. ACP des entreprises

  42. ACP des entreprises (sans X4)

  43. Le modèle de la régression logistique Le modèle

  44. Vraisemblance des données Probabilité d’observer les données [(x1,y1), …, (xi,yi), …, (xn,yn)]

  45. Résultats

  46. Résultats

  47. Le modèle estimé Prévision de faillite

  48. Test de Hosmer & Lemeshow

  49. Régression logistique pas à pas descendante Sans X2

  50. Régression logistique pas à pas descendante Sans X4

More Related