La classification

La classification

Plan • Définition et Objectifs • Analyse discriminante • Régression logistique • Arbres de décision • Réseaux bayésiens • Exemple

Définition et Objectifs Prévoir l’appartenance à une « classe » non observée à partir de variables observées • Rappel sur la terminologie (Stat/Marketing) • Applications typiques • Scoring de risque • Connaissant les caractéristiques individuelles d’un emprunteur, quel est le risque qu’il ne rembourse pas son crédit ? • Scoring marketing • A qui envoyer le mailing de lancement d’un nouveau produit ?

Caractérisation • Un problème supervisé (par opposition à la segmentation ou à l’association) • Deux utilisations : • Descriptive : Déterminer les “règles” de séparation • Décisionnelle : Attribuer un nouvelle individu à une classe. • Utilisation descriptive • Problème de type géométrique • Utilisation décisionnelle • Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : • P(Incident|Caractéristiques) • P(RéponseMailing|…)

Caractérisation (suite) • Les variables observées peuvent être Qualitatives ou quantitatives • La variable à prévoir est binaire (Oui/Non) ou discrète • Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) • Exemple : Score de crédit • Données : Historique de dossiers de crédit • Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. • Variable à prévoir : Incident de remboursement

Techniques disponibles • Analyse factorielle discriminante • Modèle logit/probit • Arbres de décision • Réseaux bayésiens • Réseaux neuronaux

Analyse factorielle discriminante

Analyse discriminante • Méthode géométrique (descriptive) • Basée uniquement sur une notion de distance • Maximisation du rapport Inertie Interclasse / Inertie totale

Principe de l’analyse discriminante Axe 2 Chercher le meilleur axe de séparation Axe 1 Axe Optimal

Régression logistique

Cadre théorique • On suppose que la classe détermine la distribution conditionnelle des variables observées • fj(x) est la densité de probabilité de x pour les individus du groupe j. • Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x) • On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal Classe x1 x2 xn

Méthodes de résolution • Méthodes paramétriques • On choisit une famille paramétrée de lois de probabilité pour fj(x) • Les observations permettent d’estimer les paramètres • Méthodes non paramétriques • Variantes de la méthode du noyau

Cas simple • Hypothèses • On considère deux classes, et f1(x) et f2(x) suivent une loi normale • Les matrices de variance/covariance sont identiques pour les deux classes • Résultat • On peut calculer un scores(x) fonction linéaire des variables x. • La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))

La régression logistique • On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) • Qui se transforme en : s(x)=ln(p/1-p) • s(x) est une combinaison linéaire des xi s(x)=0+ 1.x1+ 1.x2+…+ 1.xn • Ses coefficients i sont estimés par le MV L=∏iC1f1(xi) ∏iC2f2(xi)

Arbres de décision

Arbres de décision • Une méthode de régression • Basée sur la théorie de l’information • Fonctionnant pour des variables continues ou discrètes • Recherche itérative de variables discriminantes • Produisant des modèles faciles à interpréter(sous forme de règles SI … ALORS … SINON)

Principe • Un arbre de décision est construit récursivement • En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »

Utilisation d’un arbre de décision SI RA ALORS La boule est bleue SINON SI M b ALORS La boule est rouge SINON La boule est bleue

Construction d’un arbre de décision • Théorie de l’information (Shannon, 1948) A …AAAAAAAA… p(A)=1 p(B)=0 ?? …AABABABBA… p(A)=0.5 p(B)=0.5

Entropie • Entropie = mesure du désordre • Cas de deux événements

Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d’entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2

Exemple d’arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible

Réseaux bayésiens

Les réseaux bayésiens • Introduction • L’inférence ou le calcul de P(X|e) • L’apprentissage ou le calcul de P • Applications des réseaux bayésiens • Conclusion

A B V V F V F F Une représentation graphique de la causalité S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A. • L’information ne circule pas seulement dans le sens des flèches

Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique

A P S’il a plu pendant la nuit, l’herbe de mon jardin est humide. V Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide J Modèle de causalité A J’ai oublié de débrancher mon arroseur automatique P Il a plu pendant cette nuit J L’herbe de mon jardin est humide V L’herbe du jardin de mon voisin est humide

La connaissance de J renforce la croyance en l’une des deux causes A ou P Utilisation du modèle • La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible

Le cas général Connexion convergente X et Y causent Z Connexion en série X cause Z, Z cause Y Connexion divergente Z cause X et Y.

Circulation de l’information (1) X = tremblement de terreY = cambriolageZ = alarme L’information ne peut circuler de X à Y que si Z est connu.

Circulation de l’information (2) X = ensoleillement Y = prix du bléZ = récolte L’information ne peut circuler de X à Y que si Z n’est pas connu.

Circulation de l’information (3) X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit. L’information ne peut circuler de X à Y que si Z n’est pas connu.

d-séparation (blocage) • On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée : • Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z. • Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera X|Z|Y

d-séparation : exemple A|B|D : Le chemin A-B-D est en série en B ( B ). Le chemin A-C-D est convergent en C ( C ). A|D|E : Tous les chemins de A à E passent par D. Le chemin A-B-D-E est en série en D (B  D E). Le chemin A-C-D-E est divergent en D (C  D  E).

Une représentation probabiliste associée • Un nœud = une variable aléatoire • Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux). • Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc. • Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.

Retour à l’exemple (1) Probabilités inconditionnelles

Retour à l’exemple (2) Probabilités conditionnelles

Retour à l’exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide.  Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors  qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(A=V|J=V) et p(P=V|J=V) 0.625 0.625 Comparer p(A=V|J=V, V=V) et p(P=V|J=V, V=V) 0.4 1

A et P sont d-séparés Si J est connu, l’information peut circuler de A à P (AJP est une connexion convergente) A et P sont indépendants P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J Retour à l’exemple (4)

Résumé • La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe • Ces résultats sont quantitatifs • Les calculs mis en œuvre, même sur des cas très simples, sont lourds • Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.

Réseaux bayésiens : définition • Un réseau bayésien est défini par • un graphe acyclique orienté G = (V,E) , où V est l’ensemble des nœuds de G, et E l’ensemble des arcs de G • un espace probabilisé fini (W, Z,P) • un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que

Théorème fondamental • Soit B=(G,P) un réseau bayésien • Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors • X et Y sont indépendants conditionnellement à Z

Inférence dans les réseaux bayésiens • Inférence = Révision des probabilités • Calculer P(X|e) • La complexité dépend de la complexité du réseau

Inférence : approche intuitive • Cas d’une chaîne • Calculer P(C|A=Vrai) ? déf RB déf Cond Th. Bayes

Inférence : approche intuitive (suite) • Calculer P(E|A=Faux) ?

Inférence : conditionnement

Inférence : aspects théoriques • Problème NP-complet dans le cas général • Méthodes simples (réseaux sans boucles) • Méthodes « graphiques » (réseaux avec boucles) • Méthodes approchées (réseaux de grande taille)

Inférence dans les réseaux sans boucle Polyarbre Chaîne Arbre

Principe

Inférence dans les réseaux avec boucle

La classification

La classification

Presentation Transcript

La classification « actuelle » des êtres vivants

Vade-mecum de la classification et de la reclassification

Chapitre 3. La classification des peines

La classification des tres vivants,

Classification de la matière

LA CLASSIFICATION DE LA MATIÈRE

SSR La classification Axes des travaux

Évolution de la classification (1)

LA CLASSIFICATION ACTUELLE DU VIVANT

La classification des minéraux

La Classification de la Mati ère

La Classification

La classification périodique des éléments

La classification des êtres vivants,

D’une classification phylogénétique à la phylogenèse…

Voici la classification de l‘année 2004 :

La Classification Périodique des éléments

La classification périodique des éléments

La classification périodique des éléments

La classification périodique

Évolution de la classification des GHM

La Dé classification de Pluton