630 likes | 769 Views
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID. PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella.
E N D
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini e-mail: chiaracimini@hotmail.comDott.ssa Miriam Gotti e-mail: mirigot@hotmail.com Dott.re Alessandro Raspanti e-mail:alexrasp@libero.itDott.re Marco Stella:stella174@virgilio.it
OBIETTIVO • Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio
MODELLO • Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); • Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; • Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse
ANALISI DEL DATASET • Numero di osservazioni: 7200 • Variabili suddivise in: • variabili socio-demografiche ed economiche; • punteggi di soddisfazione sul servizio di distribuzione; • variabili “Coop”
ANALISI DEL DATASET • Variabili socio-demografiche ed economiche: sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute • Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food • Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop
ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-media inferiore, media superiore-università STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1 ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI
PRIMO LIVELLO DI ANALISI • TUTTE LE VARIABILI DISPONIBILI • VARIABILE TARGET: PRIMO_PV • DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% • NUMERO DI OSSERVAZIONI: 1950 • SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%)
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE • Numero di nodi terminali: 4 • Tasso di corretta classificazione sul validation set: 89,49%
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: TUTTE • In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne • In termini relativi predomina chi frequenta insegne Coop
PRIMO LIVELLO DI ANALISI • PRIMO PV - VARIABILI CONSIDERATE TUTTE • Nessun frequentatore di Coop come “Primo PV” è malclassificato • Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SODDISFAZIONE • Il tasso di corretta classificazione risulta costante
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP” • Numero di nodi terminali: 4 • Tasso di corretta classificazione sul validation set: 89,49%
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP”
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: “COOP” • In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne • In termini relativi predomina chi frequenta insegne Coop
PRIMO LIVELLO DI ANALISI • PRIMO PV - VARIABILI CONSIDERATE TUTTE • Nessun frequentatore di Coop come “Primo PV” è malclassificato • Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE • Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce
PRIMO LIVELLO DI ANALISI • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE
PRIMO LIVELLO DI ANALISI • CONFRONTO TRA MODELLI • RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” • LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE
PRIMO LIVELLO DI ANALISI • CONFRONTO TRA MODELLI • TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )
CONCLUSIONI: primo livello • PRIMO PV • Le variabili COOP sono quelle che generano la segmentazione migliore; • le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; • i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; • coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILE TARGET: CANALE • CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV • DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : • IPER 31,28% • NON IPER 47,82% • MISSING 20,90% • NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: CANALE • Numero di nodi terminali: 5 • Tasso di corretta classificazione sul validation set: 72,24% • VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: TUTTE • Segmento più numeroso risulta essere quello della zona Romagna-Marche • Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); • Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento • canale Iper in caso di soddisfazione alta o media dell’assortimento • Canale non Iper in caso di soddisfazione bassa dell’assortimento
SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “TUTTE” • Il 48% dei frequentatori “Iper ” è malclassificato • Il 17% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE • Numero di nodi terminali: 7 • Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SODDISFAZIONE • Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale • Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta
SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” • Il 46% dei frequentatori “Iper ” è malclassificato • Il 23% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP” • Numero di nodi terminali: 5 • Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: “COOP” • Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) • Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così comein Romagna-Marche e Veneto
SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “COOP” • Il 35% dei frequentatori “Iper ” è malclassificato • Il 29% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE • Numero di nodi terminali: 6 • Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
SECONDO LIVELLO DI ANALISI: CANALE • Il nodo più numeroso risulta quello della zona Romagna-Marche • In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper • Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper • VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
SECONDO LIVELLO DI ANALISI: CANALE • CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” • Il 53% dei frequentatori “Iper ” è malclassificato • Il 19% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE • CONFRONTO TRA MODELLI • RISULTATI SIMILI PER I MODELLI • TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
SECONDO LIVELLO DI ANALISI:CANALE • CONFRONTO TRA MODELLI • IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI
CONCLUSIONI: CANALE • La segmentazione migliore è quella che utilizza tutte le variabili; • il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; • in Veneto ed in Romagna-Marche prevale il canale nonIper ; • nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassadell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento
SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILE TARGET: SOCIO • SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV • DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: • SI’ 50,90% • NO 49,10% • NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE • Numero di nodi terminali: 2 • Tasso di corretta classificazione sul validation set: 88,78%
SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: TUTTE • Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop • Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set • chi frequenta altre insegne non è socio
SECONDO LIVELLO DI ANALISI: SOCIO • SOCIO - VARIABILI CONSIDERATE “TUTTE” • Il 25% dei “Non Soci” è malclassificato • Nessun “Socio” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO • VARIABILI CONSIDERATE: SODDISFAZIONE • Numero di nodi terminali: 3 • Tasso di corretta classificazione sul validation set: 78,21%