160 likes | 407 Views
ETUDES SUR LA CLASSIFICATION. Mehdi ADDAR. Maxime HAVEZ. Individu I. Sylvain DOUSSET. Bertrand LE MAROUILLE. Classe A. Classe B. Manuel BOUILLON. Aurélien TEXIER. Encadrant : Farid BENINEL. I - Présentation. Mehdi ADDAR. Maxime HAVEZ. Individu I. Sylvain DOUSSET.
E N D
ETUDES SUR LA CLASSIFICATION Mehdi ADDAR Maxime HAVEZ Individu I Sylvain DOUSSET Bertrand LE MAROUILLE Classe A Classe B Manuel BOUILLON Aurélien TEXIER Encadrant : Farid BENINEL
I - Présentation Mehdi ADDAR Maxime HAVEZ Individu I Sylvain DOUSSET Bertrand LE MAROUILLE Classe A Classe B Manuel BOUILLON Aurélien TEXIER Encadrant : Farid BENINEL
I – Présentation des données • Données sur les clients d’une banque Allemande à Munich. • Problématique d’une banque : Accorder ou non un prêt à un client? Etudes sur la Classification
I – Présentation de la méthode de classification Individu à classifier Combinaison d’équipes de classifieurs Classifieur synthétique grâce à un « choix social » Etudes sur la Classification
II – Mise en place d’une équipe de classifieurs Mehdi ADDAR Maxime HAVEZ Individu I Sylvain DOUSSET Bertrand LE MAROUILLE Classe A Classe B Manuel BOUILLON Aurélien TEXIER Encadrant : Farid BENINEL
Dans notre cas, créer une équipe d’un classifieur • taux d’erreur : 0,27 • proportion d'erreur (Acceptation de mauvais clients): 0.09733333 • II – Méthode du «favorite class model » • Créer une équipe de N classifieurs (N = nombre de classes de la variable à expliquer, pour N > 2). • Prendre en compte les 4 covariables les plus corrélées à la variable à expliquer. • Analyser les résultats obtenus. • Laufkont(Compte courant) • laufzeit(Durée en mois) • moral(Paiement des crédits précédents) • Sparkont(Montant des réserves) Etudes sur la Classification
D = 7 • Définition d’un seuil = 0.1 • II – Méthode du « random choice » • Sélection aléatoire de 4 covariables parmi les D variables les plus corrélées à « Kredit ». • On a ainsi solutions de classifieurs différents. Il est donc important de • les évaluer afin de déterminer ceux que l’on gardera. • a = nombre d’individus correctement classés dans Clk et Cll. • b = nombre d’individus mal classés dans Clk et Cll. • c = nombre d’individus correctement classés dans Clk et mal dans Cll. • d = nombre d’individus mal classés dans Clk et bien dans Cll. Etudes sur la Classification
II – Méthode du « random choice » - Suite Etudes sur la Classification
III – Classifieur Synthétique, Résultats et Interprétations Mehdi ADDAR Maxime HAVEZ Individu I Sylvain DOUSSET Bertrand LE MAROUILLE Classe A Classe B Manuel BOUILLON Aurélien TEXIER Encadrant : Farid BENINEL
III – Méthode composante par composante • Utilisation des équipes de classifieurs obtenues précédemment et création d’un classifieur synthétique grâce à ces méthodes. • Méthode du minimum. • Même système pour les méthodes du maximum, de la moyenne, du produit, de la moyenne pondérée. • Pour la méthode du trimmed mean (moyenne tronquée), on retire 10% des classifieurs (parmi les plus éloignés à la moyenne des classifieurs), puis méthode de la moyenne standard. Etudes sur la Classification
III – Méthode composante par composante • Méthode du minimum Méthode du maximum Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC :0.7721743 Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC :0.7721743 Etudes sur la Classification
III – Méthode composante par composante • Méthode de la moyenne Méthode de la médiane Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC :0.814217 Proportion d'erreur : 0.2933333 Proportion d'erreur (Acceptation de mauvais clients): 0.02966667 AUC :0.8069564 Etudes sur la Classification
III – Méthode composante par composante • Méthode du produit Méthode Trimmed Mean Proportion d'erreur : 0.3033333 Proportion d'erreur (Acceptation de mauvais clients): 0.02716667 AUC :0.8171115 Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC :0.8130887 Etudes sur la Classification
III – Méthode basée sur la distance au profil moyen • On utilise désormais une méthode qui opère par combinaison de composantes. • Pour chaque individu, on calcule la distance au profil moyen de chacune des deux classes de la variable expliquée « Kredit ». Ce profil moyen est calculé selon les classifieurs. • Ensuite on affecte l’individu à la classe avec laquelle il est le plus proche. Proportion d'erreur : 0.2333333 AUC : 0.8080357 Etudes sur la Classification
Conclusion Mehdi ADDAR Maxime HAVEZ Individu I Sylvain DOUSSET Bertrand LE MAROUILLE Classe A Classe B Manuel BOUILLON Aurélien TEXIER Encadrant : Farid BENINEL