1 / 22

Régressions

Régressions. Christelle Scharff IFI 2004. Régression linéaire. Cette méthode se focalise sur les cas o ù les valeurs d’une variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite. Régression logistique.

more
Download Presentation

Régressions

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Régressions Christelle Scharff IFI 2004

  2. Régression linéaire • Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues • Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

  3. Régression logistique • Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) • Exemple: Une variable booléenne • Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable àêtre égale à 0 et 1. • Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

  4. Prédiction de banqueroute

  5. Étude de Cas

  6. Compagnie de téléphone • Adoption d’un nouveau service téléphonique (boite vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire • 10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone • Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?

  7. Réponses au questionnaire Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

  8. Le modèle de régression logistique • Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk • Y = 1: Choisir une option • Y = 0: Ne pas choisir une option • Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. • Exemples: Maximum Likehood Estimates, Newton-Raphson

  9. Interprétation des coefficients • Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès • Si i > 0, le facteur i augmente la chance de succès • Si i < 0, le facteur i décroît la chance de succès

  10. Suite de l’ étude de cas

  11. Poser le problème (1) • On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne • Soit Y la variable représentant l’adoption d’un nouveau service téléphonique • Y = 1 si un nouveau service est adopté, et Y = 0 sinon

  12. Poser le problème (2) • On a trois variables x1 pour l’éducation, x2 pour la stabilité de résidence et x3 pour le salaire • X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon • X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon • X3 = 1 pour un salaire élevé, 0 sinon • Modèle:

  13. Résumé des données

  14. Calcul de 0, 1, 2et3 0 12 3

  15. Modèle Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 2160 x 0.076 = 164

  16. Nouvelles données Calculs d’erreurs 598 nouvelle personnes sont sondées Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 85 x 0.289 = 24.5

  17. Calcul d’erreurs • Total erreur: -2.8 (or 2.8 / 119 = 2.3%) • La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%

  18. Tableau de contingence • Matrice de contingence [Kohavi, Provost, 1998]: TP: true positive, FP: false positive, FN: false negative, TN: true negative

  19. Calcul de taux • Vrais positives: • Cas positifs correctement prédits • 103 / 119 = 86.5 % • Fausses positives: • Cas incorrectement prédits positif • 13 / 479 = 2.7 % • Exactitude: • Nombre total de prédictions correctes • (103 + 466) / 598 = 95.15% • Précision: • Proportion des prédictions positives correctes • 103 / (103 + 13) = 88.8 % • Erreurs: • Proportion des prédictions incorrectes • (13+16) / 598 = 4.85 %

  20. Quel est le meilleur modèle? • Vrai: Offrir une carte de crédit • Faux: Ne pas offrir une carte de crédit • Modèle 1: • Modèle 2: • Taux d’erreur pour les 2 modèles: 10% • Le meilleur modèle est Modèle 2 car ce modèle a moins de FP

  21. Conclusion • Méthode facile a comprendre • Méthode efficace • Les prédictions sont faciles à réaliser • Le bruit peut avoir un effet significatif sur la méthode • Besoin de plusieurs mesures pour évaluer le modèle

  22. Références • N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. • Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.

More Related