220 likes | 296 Views
Scoring Séance II. Rappel de la modélisation sur un exemple Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois X : variables explicatives (âge, revenu,…) Population d’estimation: crédits accordés de 2001 à 2004 Modélisation Logistique. Plan.
E N D
Rappel de la modélisation sur un exemple • Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois • X : variables explicatives (âge, revenu,…) • Population d’estimation: crédits accordés de 2001 à 2004 • Modélisation Logistique
Plan 1- Travail sur les variables : X et Y 2- Mesure de la qualité d’un score a-Courbe de performance et courbe de sélection b- Propriétés c- Comparaison de courbes de performance d- Courbe de discrimination 3- Performance pour un établissement de crédit
1- Travail sur les variables explicatives a- Découpages des variables quantitatives Objectif: - délinéariser Moyens: • Transformation des variables quantitatives en variables dichotomiques • Découpage selon des critères de risques (critère de variance, Belson, Qui-Deux)
1- Travail sur les variables explicatives a- Découpages des variables quantitatives
1- Travail sur les variables explicatives b- Regroupement des modalités des var. qualitatives Objectif: - Réduire le nombre de modalités des variables qualitatives afin de rendre l’estimation plus robuste Moyens: • Selon une logique subjective: instituteur avec professeur • Selon un taux de risque: si l’intervalle de confiance des taux de risques est faible • Selon le profil selon toutes les autres variables
1- Travail sur les variables explicatives c- Sélection des variables à mettre dans le modèle Objectif: • Mettre un minimum de variables dans le modèle afin de simplifier et de rendre le modèle plus robuste Moyens: • Sélection Backward: • Etape 1: estimation d’un modèle avec toutes les variables disponibles. • Etape 2: calcul de la significativité de chaque variable. • Etape 3: suppression des variables disponibles de la moins significative. Retour à l’étape 1 si un seuil de significativité n’est pas attend (5%, 1%,…) • Sélection Foreward • Etape 1: on estime tous les modèles à une variable en plus des variables imposées • Etape 2: on calcul la performance de tous les modèles • Etape 3: on impose en plus la variable qui donne le meilleure modèle Retour à l’étape 1 si un seuil de gain de performance est atteint (5%, 1%)
1- Travail sur les variables explicatives d- Sélection des croisements de variables Objectif: • Trouver des liens non additifs • Décorréler le modèle Moyens: • Sélection subjective: • Exemple: (Revenu-Charges) / (Nb de personnes dans le foyer) • Exemple: Situation familiale et âge et nb d’enfants • Recherche automatique • Analyse du gain marginal de performance de chaque croisement par rapport au modèle avec les variables seules • Analyse de la matrice de corrélation des variables explicatives entre elles.
2- Mesure de la qualité d’un score Rappel des objectifs: • Classer les individus • Discriminer les bons des mauvais • Définir un seuil d’acceptation • Arbitrer entre risques et volume
2- Mesure de la qualité d’un scorea- Courbe de performance et courbe de sélection Courbe de performance: La courbe de performance du score S est définie par l’équation paramétrique: • x(s)=P(S ≥ s) • y(s)=P(Y=0/S ≥ s)/P(Y=0) On note y=p(x) l’équation implicite. y(s) représente la proportion relative de défaillants sélectionnés Courbe de sélection - x(s)=P(S ≥ s) • y(s)=P(S ≥ s/Y=0) On note y=s(x) l’équation implicite y(s) représente la proportion conditionnelle de défaillants sélectionnés Rque: s(x)=P(S ≥ s/Y=0)=P(Y=0/S ≥ s)P(S ≥ s)/P(Y=0)=x p(x) La courbe de sélection est souvent préférée car plus interprétable.
2- Mesure de la qualité d’un scoreb- Propriétés Propriété 1: La courbe de sélection (resp. performance) est indépendante de la représentation retenue pour le score (ex: Xß, 1/(1+exp(Xß))) : Dém: soit h strictement croissante et S*=h(S). Alors la courbe de performance associée à S* a pour équation paramétrique: • x*(s)=P(S* ≥ s)=x(h-1(s))=x(s*) • y*(s)=y(h-1(s))=P(Y=0/S ≥h-1(s))P(Y=0)=y(s*) La courbe de sélection (resp. de performance) regarde la qualité du classement, elle est invariante par transformation bijective Autres propriétés de la courbe de sélection: • La courbe est dans le carré [0,1] x [0,1] • La courbe est croissante: plus bas est le seuil moins accepte de mauvais • La courbe passe par (0,0): si on n’accepte personne, on n’accepte pas de mauvais • La courbe passe par (1,1): si on accepte tout le monde, on accepte tous les mauvais
2- Mesure de la qualité d’un scorec- Comparaison des Courbes de sélection Remarque: Les courbes de sélection dépendent à la fois du score S considéré, de la population sur laquelle on l’évalue et du critère Y. • Application d’un score sur des populations différentes: • Population de test et de construction • Par génération de production • Application de différents scores: • Ancien et nouveau scores • Selon le seuil de sélection des variables • Selon les variables utilisées • Application sur différents critères Y: • Critère 3 incidents de paiements ou Critère contentieux (Cf. partie 3) Comparaison: Le score S* est plus performant sur la population Pop* que le score S^ sur la population Pop^ ssi la courbe de sélection de (S*,Pop*) est en dessous de (S^, Pop^). Remarque: Cette comparaison est une relation d’ordre partiel. Si les scores sont non comparables, il faut faire intervenir le seuil d’acceptation.
2- Mesure de la qualité d’un scorec- Comparaison des Courbes de sélection
1-P(Y=0) 2- Mesure de la qualité d’un scored- Mesure synthétique de la performance Indice de Gini: C’est le rapport entre la qualité du score S mesurée comme la surface sous la bissectrice et la performance du score idéal. Gini= Surf1 / Surf2 Surf 2 Surf 1 Surf 1 Surf 2 Surf 2 Surf 1 Surf 2 Surf 1 Surf 2 Surf 2 Surf 2 Surf 1 Surf 2 Surf 2
2- Mesure de la qualité d’un scored- Mesure synthétique de la performance Adéquation à la loi logistique: On calcule sur des intervalles de X ß: x= moyenne sur l’intervalle de (X ß) y= ln (P1 / (1-P1) ) avec P1=moyenne sur l’intervalle de P (Y=1/ X ß) Pour mémoire, on a posé: P(Y=1/ X ß) = 1/( 1+exp(-X ß) ) La courbe doit se rapprocher d’une droite.
2- Mesure de la qualité d’un scoree- Courbes de Discrimination On regarde les lois conditionnelles des scores sachant les valeurs de Y: - f0(s) densité de S sachant Y=0 - G0(s) fonction de répartition de S sachant Y=0 - f1(s) densité de S sachant Y=1 - G1(s) fonction de répartition de S sachant Y=1 Courbe de discrimination: • x(s)= G1(s) pourcentage de bon refusé • y(s)= G0(s) pourcentage de mauvais refusé Un autre indice synthétique de performance: La statistique de Kolmogorov-Smirnov : KS=Max sur s de (G0(s) – G1(s)) Comparaison: un score (S*,Pop*) est plus discriminant qu’un score (S^, Pop^) ssi il se trouve au dessus. C’est une relation d’ordre partielle. Remarque: un score qui est plus discriminant qu’un autre est également plus performant.
2- Mesure de la qualité d’un scoree- Courbes de Discrimination
3- Performance pour un établissement de Crédit En variant les critères de risque • On estime sur les incidents lourds mais on vérifie la performance sur les contentieux et les pertes. • L’estimation et la mesure de performance se font sur des critères différents car il faut un nb minimum de réalisations observées supérieure pour l’estimation.
3- Performance pour un établissement de Crédit En variant les critères marketing • On estime sur les demandes de documentations mais on mesure la performance sur la prise de produit
3- Performance pour un établissement de Crédit En variant les horizons d’observation Question: est ce que mon score est performant pour prévoir les risques proches et lointains? • Mesure de performance sur des taux de mauvais à 1 an, 2 an, 3 an, 4 an,… En variant les générations Question: est ce que mon score est performant pour toutes les générations de production? Crédit produit en 2000, 2001, … 2005 • Mesure de performance par génération de production • Détection des effets produits, temporels, commerciaux
3- Performance pour un établissement de Crédit En variant les variables Question: est ce que je peux garder la même performance mais avec des variables plsu stables/robustes? Exemple: âge versus CSP. • Mesure de performance en variant les variables explicatives