680 likes | 918 Views
La classification. Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple. Définition et Objectifs. Prévoir l’appartenance à une « classe » non observée à partir de variables observées
E N D
Plan • Définition et Objectifs • Analyse discriminante • Régression logistique • Arbres de décision • Réseaux bayésiens • Exemple
Définition et Objectifs Prévoir l’appartenance à une « classe » non observée à partir de variables observées • Rappel sur la terminologie (Stat/Marketing) • Applications typiques • Scoring de risque • Connaissant les caractéristiques individuelles d’un emprunteur, quel est le risque qu’il ne rembourse pas son crédit ? • Scoring marketing • A qui envoyer le mailing de lancement d’un nouveau produit ?
Caractérisation • Un problème supervisé (par opposition à la segmentation ou à l’association) • Deux utilisations : • Descriptive : Déterminer les “règles” de séparation • Décisionnelle : Attribuer un nouvelle individu à une classe. • Utilisation descriptive • Problème de type géométrique • Utilisation décisionnelle • Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : • P(Incident|Caractéristiques) • P(RéponseMailing|…)
Caractérisation (suite) • Les variables observées peuvent être Qualitatives ou quantitatives • La variable à prévoir est binaire (Oui/Non) ou discrète • Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) • Exemple : Score de crédit • Données : Historique de dossiers de crédit • Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. • Variable à prévoir : Incident de remboursement
Techniques disponibles • Analyse factorielle discriminante • Modèle logit/probit • Arbres de décision • Réseaux bayésiens • Réseaux neuronaux
Analyse discriminante • Méthode géométrique (descriptive) • Basée uniquement sur une notion de distance • Maximisation du rapport Inertie Interclasse / Inertie totale
Principe de l’analyse discriminante Axe 2 Chercher le meilleur axe de séparation Axe 1 Axe Optimal
Cadre théorique • On suppose que la classe détermine la distribution conditionnelle des variables observées • fj(x) est la densité de probabilité de x pour les individus du groupe j. • Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x) • On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal Classe x1 x2 xn
Méthodes de résolution • Méthodes paramétriques • On choisit une famille paramétrée de lois de probabilité pour fj(x) • Les observations permettent d’estimer les paramètres • Méthodes non paramétriques • Variantes de la méthode du noyau
Cas simple • Hypothèses • On considère deux classes, et f1(x) et f2(x) suivent une loi normale • Les matrices de variance/covariance sont identiques pour les deux classes • Résultat • On peut calculer un scores(x) fonction linéaire des variables x. • La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))
La régression logistique • On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) • Qui se transforme en : s(x)=ln(p/1-p) • s(x) est une combinaison linéaire des xi s(x)=0+ 1.x1+ 1.x2+…+ 1.xn • Ses coefficients i sont estimés par le MV L=∏iC1f1(xi) ∏iC2f2(xi)
Arbres de décision • Une méthode de régression • Basée sur la théorie de l’information • Fonctionnant pour des variables continues ou discrètes • Recherche itérative de variables discriminantes • Produisant des modèles faciles à interpréter(sous forme de règles SI … ALORS … SINON)
Principe • Un arbre de décision est construit récursivement • En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »
Utilisation d’un arbre de décision SI RA ALORS La boule est bleue SINON SI M b ALORS La boule est rouge SINON La boule est bleue
Construction d’un arbre de décision • Théorie de l’information (Shannon, 1948) A …AAAAAAAA… p(A)=1 p(B)=0 ?? …AABABABBA… p(A)=0.5 p(B)=0.5
Entropie • Entropie = mesure du désordre • Cas de deux événements
Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d’entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2
Exemple d’arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible
Les réseaux bayésiens • Introduction • L’inférence ou le calcul de P(X|e) • L’apprentissage ou le calcul de P • Applications des réseaux bayésiens • Conclusion
A B V V F V F F Une représentation graphique de la causalité S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A. • L’information ne circule pas seulement dans le sens des flèches
Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique
A P S’il a plu pendant la nuit, l’herbe de mon jardin est humide. V Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide J Modèle de causalité A J’ai oublié de débrancher mon arroseur automatique P Il a plu pendant cette nuit J L’herbe de mon jardin est humide V L’herbe du jardin de mon voisin est humide
La connaissance de J renforce la croyance en l’une des deux causes A ou P Utilisation du modèle • La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible
Le cas général Connexion convergente X et Y causent Z Connexion en série X cause Z, Z cause Y Connexion divergente Z cause X et Y.
Circulation de l’information (1) X = tremblement de terreY = cambriolageZ = alarme L’information ne peut circuler de X à Y que si Z est connu.
Circulation de l’information (2) X = ensoleillement Y = prix du bléZ = récolte L’information ne peut circuler de X à Y que si Z n’est pas connu.
Circulation de l’information (3) X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit. L’information ne peut circuler de X à Y que si Z n’est pas connu.
d-séparation (blocage) • On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée : • Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z. • Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera X|Z|Y
d-séparation : exemple A|B|D : Le chemin A-B-D est en série en B ( B ). Le chemin A-C-D est convergent en C ( C ). A|D|E : Tous les chemins de A à E passent par D. Le chemin A-B-D-E est en série en D (B D E). Le chemin A-C-D-E est divergent en D (C D E).
Une représentation probabiliste associée • Un nœud = une variable aléatoire • Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux). • Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc. • Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.
Retour à l’exemple (1) Probabilités inconditionnelles
Retour à l’exemple (2) Probabilités conditionnelles
Retour à l’exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(A=V|J=V) et p(P=V|J=V) 0.625 0.625 Comparer p(A=V|J=V, V=V) et p(P=V|J=V, V=V) 0.4 1
A et P sont d-séparés Si J est connu, l’information peut circuler de A à P (AJP est une connexion convergente) A et P sont indépendants P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J Retour à l’exemple (4)
Résumé • La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe • Ces résultats sont quantitatifs • Les calculs mis en œuvre, même sur des cas très simples, sont lourds • Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.
Réseaux bayésiens : définition • Un réseau bayésien est défini par • un graphe acyclique orienté G = (V,E) , où V est l’ensemble des nœuds de G, et E l’ensemble des arcs de G • un espace probabilisé fini (W, Z,P) • un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que
Théorème fondamental • Soit B=(G,P) un réseau bayésien • Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors • X et Y sont indépendants conditionnellement à Z
Inférence dans les réseaux bayésiens • Inférence = Révision des probabilités • Calculer P(X|e) • La complexité dépend de la complexité du réseau
Inférence : approche intuitive • Cas d’une chaîne • Calculer P(C|A=Vrai) ? déf RB déf Cond Th. Bayes
Inférence : approche intuitive (suite) • Calculer P(E|A=Faux) ?
Inférence : aspects théoriques • Problème NP-complet dans le cas général • Méthodes simples (réseaux sans boucles) • Méthodes « graphiques » (réseaux avec boucles) • Méthodes approchées (réseaux de grande taille)
Inférence dans les réseaux sans boucle Polyarbre Chaîne Arbre