1 / 63

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID. PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella.

piera
Download Presentation

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini e-mail: chiaracimini@hotmail.comDott.ssa Miriam Gotti e-mail: mirigot@hotmail.com Dott.re Alessandro Raspanti e-mail:alexrasp@libero.itDott.re Marco Stella:stella174@virgilio.it

  2. OBIETTIVO • Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio

  3. MODELLO • Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); • Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; • Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse

  4. ANALISI DEL DATASET • Numero di osservazioni: 7200 • Variabili suddivise in: • variabili socio-demografiche ed economiche; • punteggi di soddisfazione sul servizio di distribuzione; • variabili “Coop”

  5. ANALISI DEL DATASET • Variabili socio-demografiche ed economiche: sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute • Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food • Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop

  6. ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-media inferiore, media superiore-università STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1 ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI

  7. SCHEMA DEL PROGETTO

  8. PRIMO LIVELLO DI ANALISI • TUTTE LE VARIABILI DISPONIBILI • VARIABILE TARGET: PRIMO_PV • DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% • NUMERO DI OSSERVAZIONI: 1950 • SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%)

  9. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE • Numero di nodi terminali: 4 • Tasso di corretta classificazione sul validation set: 89,49%

  10. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE

  11. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE • In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne • In termini relativi predomina chi frequenta insegne Coop

  12. PRIMO LIVELLO DI ANALISI • PRIMO PV - VARIABILI CONSIDERATE TUTTE • Nessun frequentatore di Coop come “Primo PV” è malclassificato • Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

  13. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SODDISFAZIONE • Il tasso di corretta classificazione risulta costante

  14. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE

  15. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP” • Numero di nodi terminali: 4 • Tasso di corretta classificazione sul validation set: 89,49%

  16. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP”

  17. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP” • In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne • In termini relativi predomina chi frequenta insegne Coop

  18. PRIMO LIVELLO DI ANALISI • PRIMO PV - VARIABILI CONSIDERATE TUTTE • Nessun frequentatore di Coop come “Primo PV” è malclassificato • Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

  19. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE • Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce

  20. PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE

  21. PRIMO LIVELLO DI ANALISI • CONFRONTO TRA MODELLI • RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” • LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE

  22. PRIMO LIVELLO DI ANALISI • CONFRONTO TRA MODELLI • TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )

  23. CONCLUSIONI: primo livello • PRIMO PV • Le variabili COOP sono quelle che generano la segmentazione migliore; • le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; • i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; • coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;

  24. SCHEMA DEL PROGETTO

  25. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILE TARGET: CANALE • CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV • DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : • IPER 31,28% • NON IPER 47,82% • MISSING 20,90% • NUMERO DI OSSERVAZIONI: 1560

  26. SECONDO LIVELLO DI ANALISI: CANALE • Numero di nodi terminali: 5 • Tasso di corretta classificazione sul validation set: 72,24% • VARIABILI CONSIDERATE: TUTTE

  27. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: TUTTE

  28. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: TUTTE • Segmento più numeroso risulta essere quello della zona Romagna-Marche • Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); • Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento • canale Iper in caso di soddisfazione alta o media dell’assortimento • Canale non Iper in caso di soddisfazione bassa dell’assortimento

  29. SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “TUTTE” • Il 48% dei frequentatori “Iper ” è malclassificato • Il 17% dei frequentatori “Non Iper” è malclassificato

  30. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE • Numero di nodi terminali: 7 • Tasso di corretta classificazione sul validation set: 68,98%

  31. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE

  32. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE • Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale • Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta

  33. SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” • Il 46% dei frequentatori “Iper ” è malclassificato • Il 23% dei frequentatori “Non Iper” è malclassificato

  34. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP” • Numero di nodi terminali: 5 • Tasso di corretta classificazione sul validation set: 68,98%

  35. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP”

  36. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP” • Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) • Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così comein Romagna-Marche e Veneto

  37. SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “COOP” • Il 35% dei frequentatori “Iper ” è malclassificato • Il 29% dei frequentatori “Non Iper” è malclassificato

  38. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE • Numero di nodi terminali: 6 • Tasso di corretta classificazione sul validation set: 68,98%

  39. SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

  40. SECONDO LIVELLO DI ANALISI: CANALE • Il nodo più numeroso risulta quello della zona Romagna-Marche • In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper • Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

  41. SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” • Il 53% dei frequentatori “Iper ” è malclassificato • Il 19% dei frequentatori “Non Iper” è malclassificato

  42. SECONDO LIVELLO DI ANALISI: CANALE • CONFRONTO TRA MODELLI • RISULTATI SIMILI PER I MODELLI • TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE

  43. SECONDO LIVELLO DI ANALISI:CANALE • CONFRONTO TRA MODELLI • IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI

  44. CONCLUSIONI: CANALE • La segmentazione migliore è quella che utilizza tutte le variabili; • il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; • in Veneto ed in Romagna-Marche prevale il canale nonIper ; • nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassadell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento

  45. SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILE TARGET: SOCIO • SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV • DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: • SI’ 50,90% • NO 49,10% • NUMERO DI OSSERVAZIONI: 1560

  46. SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE • Numero di nodi terminali: 2 • Tasso di corretta classificazione sul validation set: 88,78%

  47. SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE

  48. SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE • Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop • Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set • chi frequenta altre insegne non è socio

  49. SECONDO LIVELLO DI ANALISI: SOCIO • SOCIO - VARIABILI CONSIDERATE “TUTTE” • Il 25% dei “Non Soci” è malclassificato • Nessun “Socio” è malclassificato

  50. SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: SODDISFAZIONE • Numero di nodi terminali: 3 • Tasso di corretta classificazione sul validation set: 78,21%

More Related