1 / 59

Michel Tenenhaus

Michel Tenenhaus. Méthodes de segmentation. Numérique Ordinale Nominale. Réponse : Y. découpé en 10 classes, puis considéré comme ordinale. Numérique Ordinale Nominale. Prédicteurs : X 1 ,…, X k. Les données. Objectif :.

odell
Download Presentation

Michel Tenenhaus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Michel Tenenhaus Méthodes de segmentation

  2. Numérique • Ordinale • Nominale Réponse : Y découpé en 10 classes, puis considéré comme ordinale • Numérique • Ordinale • Nominale Prédicteurs : X1,…, Xk Les données Objectif : • Construire un arbre de décision à l’aide des prédicteurs. • Les segments terminaux sont aussi purs que possible par • rapport à la réponse Y.

  3. Les méthodes • CHAID : Chi-squared Automatic Interaction Detector • CART : Classification And Decision Tree • SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent

  4. Exemple : Référendum sur la constitution européenne

  5. Utilisation de CART Élagage avec la règle de un écart-type

  6. Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y

  7. 2. Description d’une étape de CHAID sur un segment 1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.

  8. Description d’une étape de CHAID sur un segment 2. Phase de division Pour chaque prédicteur Xj : • Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.

  9. Description d’une étape de CHAID sur un segment 3. Règle d’arrêt basées sur des critères • Segment pur • Prédicteurs constants sur le segment • Taille du segment • Taille des segments descendants • Profondeur de l’arbre • Valeur de la p-value minimum

  10. Étude danoise sur la prospérité (Source : Croux, 2005)

  11. Utilisation de CHAID pour Y binaire Pas de correction de Bonferroni

  12. Étude MaliTest de l’efficacité du diffuseur d’iode RHODIFUSE Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Crétinisme - Hypoproductivité

  13. Classification des goitres selon l ’OMS • Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. • Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. • Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. • Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. • Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

  14. L’expérimentation N’Djiba Sirablo (Témoin) 17 19 6 15 4 2 Sebabougou 15 Bamako 5 Woloni 7 37 Niger

  15. Les données • Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II • X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou • X2= Sexe : 1 = Homme, 2 = Femme • X3= Jour : 0 = 0, 1 = 180, 2 = 360 • X4 = Iode : 1 = Absence, 2 = Présence

  16. Les données (en effectif)

  17. 1 2 3 4 5 6 0 Absence .76 .07 .12 .05 N'Djiba Homme Présence .80 .12 .08 .00 180 N'Djiba Homme 360 Présence .84 .06 .10 .00 N'Djiba Femme 0 Absence .30 .13 .32 .24 N'Djiba Femme 180 Présence .38 .22 .29 .10 N'Djiba Femme 360 Présence .54 .15 .26 .05 Sebabougou Homme 0 Absence .55 .23 .15 .06 Sebabougou Homme 180 Présence .81 .14 .05 .01 Sebabougou Homme 360 Présence .87 .06 .06 .01 Sebabougou Femme 0 Absence .38 .18 .21 .24 Sebabougou Femme 180 Présence .59 .13 .19 .09 360 Sebabougou Femme Présence .64 .06 .20 .11 Les données (en fréquence) Fréquence de répartition des goitres VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme 0 Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme 0 Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme 0 Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme 0 Absence .34 .10 .32 .24 11 Woloni Femme Présence .45 .24 .24 .08 180 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24

  18. Évolution des niveaux moyens de goitre

  19. Utilisation de CHAID pour Y ordinale Population des hommes

  20. Population des femmes

  21. École de Management Avancé

  22. Utilisation de CHAID pour Y numérique Avec de correction de Bonferroni

  23. Présentation de CART Exemple : Crédit On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).

  24. Entropie quadratique Mesures de liaison entre Xbinaire et Y Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :

  25. Exemple Segment très impur

  26. Segment t Effectif = nt Impureté i(t) X = 1 X X1 a Segment tgauche Effectif = ntgauche Impureté i(tgauche) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Division d’un segment Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini

  27. (0) i(0)=.49919198 (1) (2) i(1)=.23106222 i(2)=.26634552 Exemple Diminution de l’impureté = Critère de Gini

  28. Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y nominale : le critère Twoing

  29. Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y ordinale : le critère Ordered Twoing

  30. Segment t Effectif = nt X = 1 X X = 0 Segment tgauche Effectif = ntgauche Segment tdroit Effectif = ntdroit Y numérique : le critère LSD(Least Square Deviation)

  31. Construction de l’arbre maximum TMax • On part de l’échantillon de base t0. • Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). • Si X est nominale, la dichotomie est quelconque. • Si X est ordinale, la dichotomie est {[X  i],[X >i]} • On itère la procédure sur chaque segment descendant. • La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.

  32. Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01 - Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1

  33. Les règles d’arrêt • Les prédicteurs sont constants sur le segment. • Le segment est pur. • Profondeur de l’arbre égale au maximum spécifié. • Taille du segment < minimum spécifié (ici 20). • Taille du sous-segment < minimum spécifié (ici 5). • Diminution de l’impureté < minimum spécifié (ici .0001).

  34. Chaque segment terminal est affecté à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés Risque global

  35. Tableau de classification et risque global

  36. Tableau des gains nt • Gain = Nb de réponses cibles dans le segment t • Gain (%) = % de réponses cibles de l’échantillon • total dans le segment t • Resp (%) = % de réponses cibles dans le segment t • - Index (%) =

  37. On construit l’arbre maximum Tmax. On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet. Élagage (Pruning)

  38. Mesure de coût-complexité C(T)

  39. L’algorithme d’élagage de CART correspondant à une suite croissante de pénalités de complexité k :

  40. Choix de l’arbre à retenir Par défaut  = 1

  41. Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) • TEMPERATURE : Somme des températures moyennes journalières • SOLEIL : Durée d’insolation • CHALEUR : Nombre de jours de grande chaleur • PLUIE : Hauteur des pluies • QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

  42. Les données

  43. Arbre de taille maximale T1

  44. T2 T3 T4 T5

More Related