1 / 67

La classification

La classification. Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple. Définition et Objectifs. Prévoir l’appartenance à une « classe » non observée à partir de variables observées

manasa
Download Presentation

La classification

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La classification

  2. Plan • Définition et Objectifs • Analyse discriminante • Régression logistique • Arbres de décision • Réseaux bayésiens • Exemple

  3. Définition et Objectifs Prévoir l’appartenance à une « classe » non observée à partir de variables observées • Rappel sur la terminologie (Stat/Marketing) • Applications typiques • Scoring de risque • Connaissant les caractéristiques individuelles d’un emprunteur, quel est le risque qu’il ne rembourse pas son crédit ? • Scoring marketing • A qui envoyer le mailing de lancement d’un nouveau produit ?

  4. Caractérisation • Un problème supervisé (par opposition à la segmentation ou à l’association) • Deux utilisations : • Descriptive : Déterminer les “règles” de séparation • Décisionnelle : Attribuer un nouvelle individu à une classe. • Utilisation descriptive • Problème de type géométrique • Utilisation décisionnelle • Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : • P(Incident|Caractéristiques) • P(RéponseMailing|…)

  5. Caractérisation (suite) • Les variables observées peuvent être Qualitatives ou quantitatives • La variable à prévoir est binaire (Oui/Non) ou discrète • Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) • Exemple : Score de crédit • Données : Historique de dossiers de crédit • Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. • Variable à prévoir : Incident de remboursement

  6. Techniques disponibles • Analyse factorielle discriminante • Modèle logit/probit • Arbres de décision • Réseaux bayésiens • Réseaux neuronaux

  7. Analyse factorielle discriminante

  8. Analyse discriminante • Méthode géométrique (descriptive) • Basée uniquement sur une notion de distance • Maximisation du rapport Inertie Interclasse / Inertie totale

  9. Principe de l’analyse discriminante Axe 2 Chercher le meilleur axe de séparation Axe 1 Axe Optimal

  10. Régression logistique

  11. Cadre théorique • On suppose que la classe détermine la distribution conditionnelle des variables observées • fj(x) est la densité de probabilité de x pour les individus du groupe j. • Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x) • On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal Classe x1 x2 xn

  12. Méthodes de résolution • Méthodes paramétriques • On choisit une famille paramétrée de lois de probabilité pour fj(x) • Les observations permettent d’estimer les paramètres • Méthodes non paramétriques • Variantes de la méthode du noyau

  13. Cas simple • Hypothèses • On considère deux classes, et f1(x) et f2(x) suivent une loi normale • Les matrices de variance/covariance sont identiques pour les deux classes • Résultat • On peut calculer un scores(x) fonction linéaire des variables x. • La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))

  14. La régression logistique • On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) • Qui se transforme en : s(x)=ln(p/1-p) • s(x) est une combinaison linéaire des xi s(x)=0+ 1.x1+ 1.x2+…+ 1.xn • Ses coefficients i sont estimés par le MV L=∏iC1f1(xi) ∏iC2f2(xi)

  15. Arbres de décision

  16. Arbres de décision • Une méthode de régression • Basée sur la théorie de l’information • Fonctionnant pour des variables continues ou discrètes • Recherche itérative de variables discriminantes • Produisant des modèles faciles à interpréter(sous forme de règles SI … ALORS … SINON)

  17. Principe • Un arbre de décision est construit récursivement • En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »

  18. Utilisation d’un arbre de décision SI RA ALORS La boule est bleue SINON SI M b ALORS La boule est rouge SINON La boule est bleue

  19. Construction d’un arbre de décision • Théorie de l’information (Shannon, 1948) A …AAAAAAAA… p(A)=1 p(B)=0 ?? …AABABABBA… p(A)=0.5 p(B)=0.5

  20. Entropie • Entropie = mesure du désordre • Cas de deux événements

  21. Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d’entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2

  22. Exemple d’arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible

  23. Réseaux bayésiens

  24. Les réseaux bayésiens • Introduction • L’inférence ou le calcul de P(X|e) • L’apprentissage ou le calcul de P • Applications des réseaux bayésiens • Conclusion

  25. A B V V F V F F Une représentation graphique de la causalité S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A. • L’information ne circule pas seulement dans le sens des flèches

  26. Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique

  27. A P S’il a plu pendant la nuit, l’herbe de mon jardin est humide. V Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide J Modèle de causalité A J’ai oublié de débrancher mon arroseur automatique P Il a plu pendant cette nuit J L’herbe de mon jardin est humide V L’herbe du jardin de mon voisin est humide

  28. La connaissance de J renforce la croyance en l’une des deux causes A ou P Utilisation du modèle • La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible

  29. Le cas général Connexion convergente X et Y causent Z Connexion en série X cause Z, Z cause Y Connexion divergente Z cause X et Y.

  30. Circulation de l’information (1) X = tremblement de terreY = cambriolageZ = alarme L’information ne peut circuler de X à Y que si Z est connu.

  31. Circulation de l’information (2) X = ensoleillement Y = prix du bléZ = récolte L’information ne peut circuler de X à Y que si Z n’est pas connu.

  32. Circulation de l’information (3) X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit. L’information ne peut circuler de X à Y que si Z n’est pas connu.

  33. d-séparation (blocage) • On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée :  • Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z. • Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera  X|Z|Y

  34. d-séparation : exemple A|B|D :  Le chemin A-B-D est en série en B ( B ). Le chemin A-C-D est convergent en C ( C ). A|D|E :  Tous les chemins de A à E passent par D. Le chemin A-B-D-E est en série en D (B  D E). Le chemin A-C-D-E est divergent en D (C  D  E).

  35. Une représentation probabiliste associée • Un nœud = une variable aléatoire • Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux). • Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc. • Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.

  36. Retour à l’exemple (1) Probabilités inconditionnelles

  37. Retour à l’exemple (2) Probabilités conditionnelles

  38. Retour à l’exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide.  Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors  qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(A=V|J=V) et p(P=V|J=V) 0.625 0.625 Comparer p(A=V|J=V, V=V) et p(P=V|J=V, V=V) 0.4 1

  39. A et P sont d-séparés Si J est connu, l’information peut circuler de A à P (AJP est une connexion convergente) A et P sont indépendants P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J Retour à l’exemple (4)

  40. Résumé • La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe • Ces résultats sont quantitatifs • Les calculs mis en œuvre, même sur des cas très simples, sont lourds • Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.

  41. Réseaux bayésiens : définition • Un réseau bayésien est défini par • un graphe acyclique orienté G = (V,E) , où V est l’ensemble des nœuds de G, et E l’ensemble des arcs de G • un espace probabilisé fini (W, Z,P) • un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que

  42. Théorème fondamental • Soit B=(G,P) un réseau bayésien • Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors • X et Y sont indépendants conditionnellement à Z

  43. Inférence dans les réseaux bayésiens • Inférence = Révision des probabilités • Calculer P(X|e) • La complexité dépend de la complexité du réseau

  44. Inférence : approche intuitive • Cas d’une chaîne • Calculer P(C|A=Vrai) ? déf RB déf Cond Th. Bayes

  45. Inférence : approche intuitive (suite) • Calculer P(E|A=Faux) ?

  46. Inférence : conditionnement

  47. Inférence : aspects théoriques • Problème NP-complet dans le cas général • Méthodes simples (réseaux sans boucles) • Méthodes « graphiques » (réseaux avec boucles) • Méthodes approchées (réseaux de grande taille)

  48. Inférence dans les réseaux sans boucle Polyarbre Chaîne Arbre

  49. Principe

  50. Inférence dans les réseaux avec boucle

More Related