1 / 21

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING. Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso. GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani- Cerioli , Cap. XI. Analogia con la regressione logistica:

rodney
Download Presentation

DATA MINING PER IL MARKETING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli, Cap. XI

  2. Analogia con la regressione logistica: La variabile da prevedere Y è qualitativa (nominale): appartenenza a differenti classi; spesso Y è dicotomica Le variabili esplicative X1, X2, … forniscono informazioni su fattori ritenuti rilevanti nella previsione di Y e possono essere sia qualitative che quantitative C’è però una differenza cruciale rispetto alla regressione logistica: NON si esplicita un modello, ma si utilizza un algoritmo gerarchico di segmentazione  analisi esplorativa Grande capacità di calcolo e software specializzato (SPSS) Output di tipo grafico: struttura ad albero Negli alberi di classificazione l’obiettivo è di tipo previsivo, ma si ottiene anche selezione delle variabili (che è problematica nella regressione logistica quando le variabili sono numerose) segmentazionedelle unità (ad esempio: clienti)

  3. Vantaggi degli alberi di classificazione L’algoritmo di segmentazione è di tipo sequenziale (ricorsivo)  veloce (per un computer) e in grado di gestire data set di grandi dimensioni: utile nelle applicazioni di data mining Nasce come metodo di segmentazione e di previsione: sono un obiettivo centrale, non un sottoprodotto del modello (a differenza della regressione)  semplicità d’uso per l’utente e facilità di interpretazione dei risultati a fini di marketing: regole decisionali Non utilizzando un modello, c’è meno dipendenza da ipotesi sulla forma di distribuzione delle variabili Il metodo è facilmente applicabile anche con variabili esplicative rilevate su scale differenti(variabili quantitative, ordinali e nominali) L’algoritmo produce automaticamente anche una regola di selezione delle variabili (che nella regressione può essere problematica)

  4. Svantaggi degli alberi di classificazione L’algoritmo di segmentazione è di tipo sequenziale (ricorsivo) le scelte effettuate ad un passo influenzano anche quelle nei passi successivi: non è possibile “recuperare” dopo una scelta non ottimale ad un certo passo  ad esempio, regole talvolta non coerenti Notevole variabilità/instabilità dei risultati In pratica, il guadagno rispetto alla regressione (logistica) in termini di accuratezza della classificazione è spesso abbastanza modesto Performance migliori si possono ottenere con ulteriori estensioni degli alberi di classificazione, che però sono più complesse e più difficili da implementare: random forests

  5. Algoritmo - introduzione • Due variabili esplicative X1 e X2; variabile dipendente Y • Algoritmo sequenziale con split (suddivisioni) dicotomici • Al primo passo lo split è in corrispondenza di X1 = t1: si individuano 2 regioni del piano X1-X2, in cui la previsione di Y è costante  ad esempio, Y=0 se X1≤t1 e Y=1 se X1>t1 • Al passo successivo la regione X1t1 è suddivisa in corrispondenza di X2=t2; poi la regione X1>t1 è suddivisa in corrispondenza di X1=t3; etc. • Regioni R1, …, R5  la previsione di Y è costante entro ogni regione • Rappresentazione ad albero (v. grafico) Separazione lineare tra le classi

  6. Algoritmo – introduzione 2 • Le 5 regioni costituiscono una partizione dello spazio delle variabili esplicative (featurespace) • Regola di previsione (Y quantitativo) o di classificazione (Y dicotomico o nominale): ad ogni punto dello spazio delle variabili esplicative è associato un valore adattato • La regola è non parametrica: non è necessario specificare una forma funzionale (con parametri) per f(X) • Y quantitativo: alberi di regressione • Y qualitativo (dicotomico o nominale): alberi di classificazione

  7. Algoritmo – introduzione 3 Split nell’albero in X1=t1: per i punti in cui X1≤t1la previsione di Y deve essere diversa da quella per i punti in cui X1>t1 • La regola è sequenziale (ricorsiva): l’algoritmo non è in grado di ottenere una partizione del tipo seguente (in cui ai punti A e B è associata la stessa previsione di Y): • Svantaggio: nell’albero, non è possibile riconsiderare l’effetto di uno split. Ad esempio i punti A e B appartengono alla stessa regione nel grafico sopra riportato. Nell’albero essi sarebbero invece divisi dallo split in corrispondenza di X1=t • Vantaggio: interpretabilità della rappresentazione ad albero che è sempre in 2 dimensioni anche quando le dimensioni di X sono molto grandi (il grafico sopra riportato è invece ottenibile solo con 2 variabili esplicative) B A t

  8. Algoritmo – esempio (v. libro) e terminologia • Previsione di Y = rischio di credito (2 classi); 3 variabili esplicative • Y= variabile nominale con J modalità (classificazione); nell’es. J=2 • X1, …, Xp: p variabili esplicative profilo xi = (xi1, …, xip)’; = featurespace

  9. Algoritmo – esempio (v. libro) e terminologia • Regolache associa a ogni x un intero j{1, … J}: d(x): x  j • Regola di classificazione: partizione di in J sottoinsiemi A1, …, AJ: Aj = {x: d(x) = j} j=1,…,J • Radice (root): nodo iniziale da cui si diramano i successivi  tutte le unità sono in un unico gruppo: la classificazione (in base a Y) è la stessa per tutte le unità • Ramo: insieme dei nodi che discendono da un determinato nodo • Foglie: nodi terminali

  10. Algoritmo – esempio (v. libro) Y stimato = “basso” • Nodo iniziale: classificazione degli 8 clienti che minimizza la probabilità di errore: v. distribuzione marginale rischio di credito • probabilità di errore (stimata) = 3/8 = 37.5% • Suddivisione del nodo iniziale in base a un predittore: Patrimonio • Max. riduzione della probabilità di errore conoscendo il Patrimonio: • Se Patrimonio = basso la previsione èRischio = alto(0 errori); se Patrimonio = medio o alto la previsione èRischio = basso (1 errore) • La probabilità (stimata) di errore si riduce: 1/8 = 0.125 • Per esercizio: costruire la tabella di errata classificazione • Passi successivi: v. albero

  11. Esempio – SPSS (v. file: Esempio_alberi_intro.sav) Modifichiamo i criteri di crescita perché in questo esempio il campione è piccolo (n=8) • Analizza – classifica – albero

  12. Successione gerarchica di partizioni: ad ogni passo, è scelto lo split che max il miglioramento nella capacità previsiva (min l’eterogeneità dei gruppi) • Ogni nodo è attribuito alla classe di Y con frequenza massima • Selezione delle esplicative • L’albero è stato fatto crescere fino alla profondità max: le foglie sono perfettamente omogenee per quanto riguarda Y • In pratica, si vogliono strutture meno complesse: vantaggi interpretativi e di stabilità  differenti regole per la “crescita” e la “potatura” dell’albero • Quattro nodi terminali (foglie): associabili a uno specifico valore di Y  regola di classificazione

  13. Esempio – Regola di classificazione j=1: basso rischio j=2: alto rischio • Nodo 3 e Nodo 6: basso rischio (Y = 1) • Nodo 1 e Nodo 5: alto rischio (Y = 2) • Partizione degli 8 clienti in 4 gruppi (segmenti): tale regola può essere utilizzata per allocare nuovi clienti in una delle classi di rischio • Effetti negativi della gerarchia degli split binari: • La segmentazione finale non sempre è consistente. Ad es.: patrimonio = medio  basso rischio se risparmio  medio (nodo 3); patrimonio = medio  alto rischio se risparmio > medio (nodo 5) • Instabilità dell’albero a seguito di piccole variazioni nei dati o nei criteri di analisi  v. ZC, Fig. 11.3: effetti della modifica di un’osservazione griglia: alto rischio grigio: basso rischio

  14. Fasi di una segmentazione gerarchica • Dicotomizzazione delle variabili esplicative • Scelta del criterio di suddivisione dei nodi • Definizione dei criteri di arresto per la crescita dell’albero e/o di semplificazione della struttura ottenuta • Scelta della regola di attribuzione delle foglie alle modalità di Y (regola di classificazione) • Stima del tasso di errata classificazione

  15. 1. Split dicotomici • Ad ogni passo si effettua una suddivisione in due gruppi: è necessario rendere dicotomica ogni variabile esplicativa • Se Xj è continua occorre individuare un valore di soglia: in pratica si possono testare come possibili soglie gli n-1 valori osservati di Xj nel campione dal primo al penultimo • Se Xj è discreta (quantitativa in classi o ordinale) con r modalità: r-1 possibili split, coerenti con l’ordinamento delle modalità (v. esempio) • Se Xj è nominale con r modalità: il numero di split possibili cresce molto rapidamente con r. Ad es.: 4 modalità {a,b,c,d}  7 possibili split binari: {a} + {b,c,d} {b} + {a,c,d} {c} + {a,b,d} {d} + {a,b,c} {a,b} + {c,d} {a,c} + {b,d} {a,d} + {b,c}

  16. 2. Suddivisione dei nodi • La scelta dello split da effettuare avviene confrontando tutte le variabili e tutti i possibili split (dicotomici) di ciascuna variabile • Si sceglie lo split che garantisce il più elevato miglioramento nella capacità predittiva su Y • La misura di tale miglioramento non è però univoca  differenti algoritmi di classificazione (anche in SPSS): v. diapositive successive

  17. 3. Regole di arresto e semplificazione • Nell’esempio precedente l’albero è stato fatto crescere fino alla dimensione max: foglie omogenee • Tale procedura ha però vari inconvenienti: • Difficoltà di lettura dell’albero quando n è grande • Grande instabilità dei risultati • Scarsa capacità predittiva (overfitting) • Per questo si prevedono regole per • Limitare la crescita dell’albero e/o garantire nodi sufficientemente grandi (v. opzioni SPSS)  implicazioni di marketing • Semplificare la struttura dell’albero, senza pregiudicare la capacità classificatoria: pruning

  18. 4. Regola di classificazione • Se la foglia è omogenea, la classe assegnata è l’unica presente • Se la foglia è eterogenea, si adotta la regola della maggioranza: la classe assegnata alla foglia è quella più frequente (min la percentuale di errori di classificazione) • La regola di classificazione così ottenuta può essere utilizzata anche per classificare nuove unità sulla base del loro “profilo” sulle variabili esplicative • E’ cruciale valutare la capacità previsivadella regola ottenuta, cioè la corrispondenza tra classe stimata e classe effettiva delle nuove unità

  19. Errori di classificazione per Y dicotomica (v. regressione logistica) • Probabilità di avere un falso positivo: • Probabilità di avere un falso negativo: • Analogia con errori I e II specie nella verifica di ipotesi • Specificità della regola di classificazione: • Sensitività della regola di classificazione: • Tabella di errata classificazione; curva ROC

  20. 5. Stima del tasso di errata classificazione • Un primo criterio consiste nel calcolare il tasso di errata classificazione nei nodi terminali dell’albero: stima di risostituzione (p. 531) • Tale stima è 1 – Hit rate nella tabella di errata classificazione • Nell’esempio relativo al Rischio di credito: • La stima della probabilità di errore sarebbe 0: foglie perfettamente omogenee • E’ una stima affidabile?

  21. Overfitting • L’overfitting si verifica quando il modello è “troppo” complesso per i dati a disposizione: curseof dimensionality – rasoio di Occam • In presenza di overfitting si ha ottimo adattamento ma pessima capacità previsiva  cause ed esempi di overfitting • Possibili soluzioni: • Penalizzare le strutture complesse • Stimare l’errore di generalizzazione, suddividendo il campione in due parti: training set (usato per l’apprendimento, cioè la stima del modello) e test set (usato per la convalida, cioè la verifica del modello su nuove unità)  le misure calcolate sul test set forniscono una stima più accurata dell’errore di generalizzazione Stima “per risostituzione” del tasso di errata class. Dimensione ottima dell’albero  oltre tale soglia si segmenta “rumore”

More Related