1 / 36

La segmentazione a priori: CHAID

La segmentazione a priori: CHAID. Elena Pallini Elena Santi Francesco Bontempone Rosangelo Giampaolo. Dott.ssa Elena Pallini pallinielena@yahoo.it Dott.ssa Elena Santi santi_elena@libero.it

cuyler
Download Presentation

La segmentazione a priori: CHAID

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La segmentazione a priori: CHAID Elena Pallini Elena Santi Francesco Bontempone Rosangelo Giampaolo Dott.ssa Elena Pallini pallinielena@yahoo.it Dott.ssa Elena Santi santi_elena@libero.it Dott. Francesco Bontempone frabon@micso.net Dott. Rosangelo Giampaolo rosangelogiampaolo@libero.it

  2. Suddividere in gruppi omogenei un insieme di individui, intervistati presso i punti vendita COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio Obiettivo dell’analisi

  3. Fonte statistica:interviste effettuate in punti vendita Coop 7200osservazioni 3 classi di variabili: variabili socio-demografiche ed economiche punteggi di soddisfazione sul servizio di distribuzione e relative variazioni variabili “Coop” Struttura del dataset

  4. Grado di omogeneità all’interno dei gruppi e di eterogeneità tra i gruppi è valutato con il test delChi-quadro Significatività statistica normalizzata con il fattore di Bonferroni Modello statistico Tecnica di segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection)

  5. Variabile target SOCIO (sì / no) Primo livello: data set “completo” • Variabili indipendenti • Prima fase:Sono state incluse nell’analisi tutte le variabili • Seconda fase:Sono state incluse nell’analisi le variabili “a blocchi”

  6. Variabile target CANALE (iper / non iper) Secondo livello: data set “non soci” • Variabili indipendenti • Prima fase:Sono state incluse nell’analisi tutte le variabili • Seconda fase:Sono state incluse nell’analisi le variabili “a blocchi”

  7. Data set partizionato in: Alberi: impostazioni comuni 70% Training Set 30% Validation Set Minimo numero di osservazioni per foglia: 50 Massima profondità dell’albero: 6

  8. Distribuzione variabile target • Variabile target: SOCIO (sì / no)

  9. Alberi 1° livello (1) tutte le variabili SOCIO (sì/no) variabili socio-demografiche ed economiche (2) punteggi di soddisfazione variabili “Coop” • I risultati ottenuti sono identici a quelli con le sole variabili “Coop” • Le variabili considerate non hanno alcun valore esplicativo

  10. SOCIO *** Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni

  11. SOCIO – Punteggi di soddisfazione e variazioni Tasso di corretta classificazione • validation set 0,744 • training set 0,755 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 7 foglie finali

  12. Matrice di confusione SOCIO – Punteggi di soddisfazione e variazioni • Il 3% dei “soci” sono malclassificati • Il 46% dei “non soci” sono malclassificati

  13. - 1 - - 2 - - 7 - - 6 - - 3 - - 4 - - 5 - 1° livello: Albero “soddisfazione” • Variabile target: SOCIO (sì / no) • Variabili indipendenti: punteggi di soddisfazione e variazioni • Data set completo

  14. Segmenti finali: caratteristiche Le promozioni inducono gli acquirenti a diventare “soci” I “non soci” sono sensibili alle variazioni nei servizi per i prodotti no food

  15. SOCIO *** Variabili “Coop”

  16. SOCIO – Variabili Coop Tasso di corretta classificazione • validation set 0,871 • training set 0,884 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con5foglie finali

  17. Matrice di confusione SOCIO – Variabili Coop • Il 1% dei “soci” sono malclassificati • Il 22% dei “non soci” sono malclassificati

  18. - 5 - - 1 - - 2 - - 3 - - 4 - 1° livello: Albero “varCoop” • Variabile target: SOCIO (sì / no) • Variabili indipendenti: variabili “Coop” • Data set completo

  19. Segmenti finali: caratteristiche “Contenti”(segmento 1) Soci Coop “Attenti alle promozioni”(segmento 4) “Attratti da Coop ma impossibilitati ad andarci”(segmento 2) Non soci “Non attratti da Coop ma costretti ad andarci”(segmento 3)

  20. Distribuzione variabile target • Variabile target: CANALE (iper / non iper)

  21. Alberi 2° livello: data set “non soci” tutte le variabili CANALE (iper / non iper) variabili socio-demografiche ed economiche (*) punteggi di soddisfazione variabili “Coop” (*) (*) Le variabili considerate non hanno alcun valore esplicativo

  22. CANALE *** Tutte le variabili

  23. CANALE – Tutte le variabili Tasso di corretta classificazione • validation set 0,753 • training set 0,787 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 6 foglie finali

  24. Matrice di confusione CANALE – Tutte le variabili • Il 63% dei frequentatori “iper” sono malclassificati • Il 5% dei frequentatori “non iper” sono malclassificati

  25. - 4 - - 5 - - 6 - - 1 - - 2 - - 3 - 2° livello: Albero “ALL” • Variabile target: CANALE (iper / non iper) • Variabili indipendenti: tutte le variabili • Data set: NON SOCI

  26. Segmenti finali: caratteristiche Bologna: i ricercatori di varietà scelgono l’iper 2 macro-zone Veneto, Romagna e Marche: i ricercatori di varietà scelgono il “non iper”

  27. CANALE *** Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni

  28. CANALE – Punteggi di soddisfazione e variazioni Tasso di corretta classificazione • validation set 0,763 • training set 0,768 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 5 foglie finali

  29. Matrice di confusione CANALE – Punteggi di soddisfazione e variazioni • Il 51% dei frequentatori “iper” sono malclassificati • Il 12% dei frequentatori “non iper” sono malclassificati

  30. - 3 - - 4 - - 5 - - 1 - - 2 - 2° livello: Albero “soddisfazione” • Variabile target: CANALE (iper / non iper) • Variabili indipendenti: punteggi di soddisfazione e variazioni • Data set: NON SOCI

  31. Segmenti finali: caratteristiche Chi è poco interessato all’assortimento frequenta il “non iper” Chi è molto interessato all’assortimento e alle promozioni frequenta l’ “iper”

  32. Conclusioni • 3 alberi su 4 malclassificano una delle due modalità della variabile target con valori superiori al 40% • L’unico albero utilizzabile per l’analisi: Albero “varCoop” con variabile target SOCIO

  33. Conclusioni • insufficiente contenuto informativo del data set • categorizzazione delle variabili non sufficientemente accurata • nel caso di CANALE può essere dovuta anche allo sbilanciamento del campione rispetto al target I modelli hanno una scarsa capacità classificatoria. Perché? Possibili interpretazioni:

  34. Sesso Età Professione Titolo di studio Stato civile Area di acquisto Variabili socio-demografiche ed economiche • Numero componenti famiglia • Numero minorenni • Numero percettori di reddito • Numero occupati • Numero auto possedute

  35. Generale Prezzi Promozioni Assortimento Personale, servizio Pulizia, igiene Qualità prodotti freschi Qualità del servizio • Reparto ortofrutta • Reparto carne • Reparto pane, pasticceria • Reparto salumi, formaggi e gastronomia • Reparto pesce fresco • Prodotti no-food N.B. Per ogni variabile sono stati rilevati sia la soddisfazione sul servizio che la relativa variazione rispetto al passato

  36. Canale di vendita (IPER / NON IPER) Socio (SI / NO) Insegna Numero soci in famiglia Preferenza su Coop Area di acquisto Variabili “Coop”

More Related