600 likes | 768 Views
Michel Tenenhaus. Méthodes de segmentation. Numérique Ordinale Nominale. Réponse : Y. découpé en 10 classes, puis considéré comme ordinale. Numérique Ordinale Nominale. Prédicteurs : X 1 ,…, X k. Les données. Objectif :.
E N D
Michel Tenenhaus Méthodes de segmentation
Numérique • Ordinale • Nominale Réponse : Y découpé en 10 classes, puis considéré comme ordinale • Numérique • Ordinale • Nominale Prédicteurs : X1,…, Xk Les données Objectif : • Construire un arbre de décision à l’aide des prédicteurs. • Les segments terminaux sont aussi purs que possible par • rapport à la réponse Y.
Les méthodes • CHAID : Chi-squared Automatic Interaction Detector • CART : Classification And Decision Tree • SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent
Utilisation de CART Élagage avec la règle de un écart-type
Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y
2. Description d’une étape de CHAID sur un segment 1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.
Description d’une étape de CHAID sur un segment 2. Phase de division Pour chaque prédicteur Xj : • Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.
Description d’une étape de CHAID sur un segment 3. Règle d’arrêt basées sur des critères • Segment pur • Prédicteurs constants sur le segment • Taille du segment • Taille des segments descendants • Profondeur de l’arbre • Valeur de la p-value minimum
Utilisation de CHAID pour Y binaire Pas de correction de Bonferroni
Étude MaliTest de l’efficacité du diffuseur d’iode RHODIFUSE Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Crétinisme - Hypoproductivité
Classification des goitres selon l ’OMS • Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. • Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. • Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. • Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. • Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.
L’expérimentation N’Djiba Sirablo (Témoin) 17 19 6 15 4 2 Sebabougou 15 Bamako 5 Woloni 7 37 Niger
Les données • Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II • X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou • X2= Sexe : 1 = Homme, 2 = Femme • X3= Jour : 0 = 0, 1 = 180, 2 = 360 • X4 = Iode : 1 = Absence, 2 = Présence
1 2 3 4 5 6 0 Absence .76 .07 .12 .05 N'Djiba Homme Présence .80 .12 .08 .00 180 N'Djiba Homme 360 Présence .84 .06 .10 .00 N'Djiba Femme 0 Absence .30 .13 .32 .24 N'Djiba Femme 180 Présence .38 .22 .29 .10 N'Djiba Femme 360 Présence .54 .15 .26 .05 Sebabougou Homme 0 Absence .55 .23 .15 .06 Sebabougou Homme 180 Présence .81 .14 .05 .01 Sebabougou Homme 360 Présence .87 .06 .06 .01 Sebabougou Femme 0 Absence .38 .18 .21 .24 Sebabougou Femme 180 Présence .59 .13 .19 .09 360 Sebabougou Femme Présence .64 .06 .20 .11 Les données (en fréquence) Fréquence de répartition des goitres VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme 0 Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme 0 Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme 0 Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme 0 Absence .34 .10 .32 .24 11 Woloni Femme Présence .45 .24 .24 .08 180 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24
Utilisation de CHAID pour Y ordinale Population des hommes
Population des femmes
Utilisation de CHAID pour Y numérique Avec de correction de Bonferroni
Présentation de CART Exemple : Crédit On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).
Entropie quadratique Mesures de liaison entre Xbinaire et Y Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :
Exemple Segment très impur
Segment t Effectif = nt Impureté i(t) X = 1 X X1 a Segment tgauche Effectif = ntgauche Impureté i(tgauche) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Division d’un segment Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini
(0) i(0)=.49919198 (1) (2) i(1)=.23106222 i(2)=.26634552 Exemple Diminution de l’impureté = Critère de Gini
Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y nominale : le critère Twoing
Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y ordinale : le critère Ordered Twoing
Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y numérique : le critère LSD(Least Square Deviation)
Construction de l’arbre maximum TMax • On part de l’échantillon de base t0. • Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). • Si X est nominale, la dichotomie est quelconque. • Si X est ordinale, la dichotomie est {[X i],[X >i]} • On itère la procédure sur chaque segment descendant. • La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.
Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01 - Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1
Les règles d’arrêt • Les prédicteurs sont constants sur le segment. • Le segment est pur. • Profondeur de l’arbre égale au maximum spécifié. • Taille du segment < minimum spécifié (ici 20). • Taille du sous-segment < minimum spécifié (ici 5). • Diminution de l’impureté < minimum spécifié (ici .0001).
Chaque segment terminal est affecté à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés Risque global
Tableau des gains nt • Gain = Nb de réponses cibles dans le segment t • Gain (%) = % de réponses cibles de l’échantillon • total dans le segment t • Resp (%) = % de réponses cibles dans le segment t • - Index (%) =
On construit l’arbre maximum Tmax. On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet. Élagage (Pruning)
L’algorithme d’élagage de CART correspondant à une suite croissante de pénalités de complexité k :
Choix de l’arbre à retenir Par défaut = 1
Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) • TEMPERATURE : Somme des températures moyennes journalières • SOLEIL : Durée d’insolation • CHALEUR : Nombre de jours de grande chaleur • PLUIE : Hauteur des pluies • QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)
Arbre de taille maximale T1
T2 T3 T4 T5