220 likes | 327 Views
Régressions. Christelle Scharff IFI 2004. Régression linéaire. Cette méthode se focalise sur les cas o ù les valeurs d’une variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite. Régression logistique.
E N D
Régressions Christelle Scharff IFI 2004
Régression linéaire • Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues • Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite
Régression logistique • Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) • Exemple: Une variable booléenne • Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable àêtre égale à 0 et 1. • Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1
Compagnie de téléphone • Adoption d’un nouveau service téléphonique (boite vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire • 10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone • Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?
Réponses au questionnaire Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155
Le modèle de régression logistique • Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk • Y = 1: Choisir une option • Y = 0: Ne pas choisir une option • Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. • Exemples: Maximum Likehood Estimates, Newton-Raphson
Interprétation des coefficients • Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès • Si i > 0, le facteur i augmente la chance de succès • Si i < 0, le facteur i décroît la chance de succès
Poser le problème (1) • On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne • Soit Y la variable représentant l’adoption d’un nouveau service téléphonique • Y = 1 si un nouveau service est adopté, et Y = 0 sinon
Poser le problème (2) • On a trois variables x1 pour l’éducation, x2 pour la stabilité de résidence et x3 pour le salaire • X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon • X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon • X3 = 1 pour un salaire élevé, 0 sinon • Modèle:
Calcul de 0, 1, 2et3 0 12 3
Modèle Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 2160 x 0.076 = 164
Nouvelles données Calculs d’erreurs 598 nouvelle personnes sont sondées Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 85 x 0.289 = 24.5
Calcul d’erreurs • Total erreur: -2.8 (or 2.8 / 119 = 2.3%) • La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%
Tableau de contingence • Matrice de contingence [Kohavi, Provost, 1998]: TP: true positive, FP: false positive, FN: false negative, TN: true negative
Calcul de taux • Vrais positives: • Cas positifs correctement prédits • 103 / 119 = 86.5 % • Fausses positives: • Cas incorrectement prédits positif • 13 / 479 = 2.7 % • Exactitude: • Nombre total de prédictions correctes • (103 + 466) / 598 = 95.15% • Précision: • Proportion des prédictions positives correctes • 103 / (103 + 13) = 88.8 % • Erreurs: • Proportion des prédictions incorrectes • (13+16) / 598 = 4.85 %
Quel est le meilleur modèle? • Vrai: Offrir une carte de crédit • Faux: Ne pas offrir une carte de crédit • Modèle 1: • Modèle 2: • Taux d’erreur pour les 2 modèles: 10% • Le meilleur modèle est Modèle 2 car ce modèle a moins de FP
Conclusion • Méthode facile a comprendre • Méthode efficace • Les prédictions sont faciles à réaliser • Le bruit peut avoir un effet significatif sur la méthode • Besoin de plusieurs mesures pour évaluer le modèle
Références • N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. • Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.