Michel Tenenhaus

Michel Tenenhaus Méthodes de segmentation

Numérique • Ordinale • Nominale Réponse : Y découpé en 10 classes, puis considéré comme ordinale • Numérique • Ordinale • Nominale Prédicteurs : X1,…, Xk Les données Objectif : • Construire un arbre de décision à l’aide des prédicteurs. • Les segments terminaux sont aussi purs que possible par • rapport à la réponse Y.

Les méthodes • CHAID : Chi-squared Automatic Interaction Detector • CART : Classification And Decision Tree • SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent

Exemple : Référendum sur la constitution européenne

Utilisation de CART Élagage avec la règle de un écart-type

Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y

2. Description d’une étape de CHAID sur un segment 1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.

Description d’une étape de CHAID sur un segment 2. Phase de division Pour chaque prédicteur Xj : • Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.

Description d’une étape de CHAID sur un segment 3. Règle d’arrêt basées sur des critères • Segment pur • Prédicteurs constants sur le segment • Taille du segment • Taille des segments descendants • Profondeur de l’arbre • Valeur de la p-value minimum

Étude danoise sur la prospérité (Source : Croux, 2005)

Utilisation de CHAID pour Y binaire Pas de correction de Bonferroni

Étude MaliTest de l’efficacité du diffuseur d’iode RHODIFUSE Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Crétinisme - Hypoproductivité

Classification des goitres selon l ’OMS • Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. • Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. • Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. • Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. • Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

L’expérimentation N’Djiba Sirablo (Témoin) 17 19 6 15 4 2 Sebabougou 15 Bamako 5 Woloni 7 37 Niger

Les données • Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II • X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou • X2= Sexe : 1 = Homme, 2 = Femme • X3= Jour : 0 = 0, 1 = 180, 2 = 360 • X4 = Iode : 1 = Absence, 2 = Présence

Les données (en effectif)

1 2 3 4 5 6 0 Absence .76 .07 .12 .05 N'Djiba Homme Présence .80 .12 .08 .00 180 N'Djiba Homme 360 Présence .84 .06 .10 .00 N'Djiba Femme 0 Absence .30 .13 .32 .24 N'Djiba Femme 180 Présence .38 .22 .29 .10 N'Djiba Femme 360 Présence .54 .15 .26 .05 Sebabougou Homme 0 Absence .55 .23 .15 .06 Sebabougou Homme 180 Présence .81 .14 .05 .01 Sebabougou Homme 360 Présence .87 .06 .06 .01 Sebabougou Femme 0 Absence .38 .18 .21 .24 Sebabougou Femme 180 Présence .59 .13 .19 .09 360 Sebabougou Femme Présence .64 .06 .20 .11 Les données (en fréquence) Fréquence de répartition des goitres VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme 0 Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme 0 Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme 0 Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme 0 Absence .34 .10 .32 .24 11 Woloni Femme Présence .45 .24 .24 .08 180 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24

Évolution des niveaux moyens de goitre

Utilisation de CHAID pour Y ordinale Population des hommes

Population des femmes

École de Management Avancé

Utilisation de CHAID pour Y numérique Avec de correction de Bonferroni

Présentation de CART Exemple : Crédit On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).

Entropie quadratique Mesures de liaison entre Xbinaire et Y Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :

Exemple Segment très impur

Segment t Effectif = nt Impureté i(t) X = 1 X X1 a Segment tgauche Effectif = ntgauche Impureté i(tgauche) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Division d’un segment Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini

(0) i(0)=.49919198 (1) (2) i(1)=.23106222 i(2)=.26634552 Exemple Diminution de l’impureté = Critère de Gini

Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y nominale : le critère Twoing

Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y ordinale : le critère Ordered Twoing

Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y numérique : le critère LSD(Least Square Deviation)

Construction de l’arbre maximum TMax • On part de l’échantillon de base t0. • Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). • Si X est nominale, la dichotomie est quelconque. • Si X est ordinale, la dichotomie est {[X  i],[X >i]} • On itère la procédure sur chaque segment descendant. • La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.

Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01 - Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1

Les règles d’arrêt • Les prédicteurs sont constants sur le segment. • Le segment est pur. • Profondeur de l’arbre égale au maximum spécifié. • Taille du segment < minimum spécifié (ici 20). • Taille du sous-segment < minimum spécifié (ici 5). • Diminution de l’impureté < minimum spécifié (ici .0001).

Chaque segment terminal est affecté à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés Risque global

Tableau de classification et risque global

Tableau des gains nt • Gain = Nb de réponses cibles dans le segment t • Gain (%) = % de réponses cibles de l’échantillon • total dans le segment t • Resp (%) = % de réponses cibles dans le segment t • - Index (%) =

On construit l’arbre maximum Tmax. On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet. Élagage (Pruning)

Mesure de coût-complexité C(T)

L’algorithme d’élagage de CART correspondant à une suite croissante de pénalités de complexité k :

Choix de l’arbre à retenir Par défaut  = 1

Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) • TEMPERATURE : Somme des températures moyennes journalières • SOLEIL : Durée d’insolation • CHALEUR : Nombre de jours de grande chaleur • PLUIE : Hauteur des pluies • QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

Les données

Arbre de taille maximale T1

T2 T3 T4 T5

Michel Tenenhaus