250 likes | 366 Views
DATA MINING PER IL MARKETING. Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso. ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore flessibilità per applicazioni aziendali (Capitoli 5 – 6 del libro).
E N D
DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore flessibilità per applicazioni aziendali (Capitoli 5 – 6 del libro)
Regressione con variabiliesplicative qualitative(categoriali) • caratteristiche socio-demografiche dei consumatori (sesso, professione, …) • tipologia e area geografica dei punti vendita • categoria merceologica dei prodotti • brand • … • in generale: gruppi diversi di osservazioni
Esempio: consumo e reddito USA (miliardi di $): p. 222 Consumo Reddito Negli anni 1942-1945 il modello sembra diverso: c’è una variabile importante esclusa dal modello
Aggiunta di unavariabiledummy (variabileindicatrice con valori 0-1) Il modello di regressione diventa multiplo: Consumo = f(Reddito, dummy)
Risultati del modello di regressionemultipla X1 = Reddito X2= Dummy Interpretazione coefficienti: significato di β2?
Ricordando la definizione di X2 (dummy):a parità di reddito (X1), la stimadell’ammontaredeiconsumi(y cappello) diminuiscedi un ammontarepari a -55.46 (miliardi di $) neglianni in cui dummy=1 (cioèpassando da un periodo di pace a uno di guerra) se X2 = 0 (pace) se X2 = 1 (guerra)
Rappresentazionegraficadell’effettodellavariabile dummy (β2=-55.46): due rette con diversa intercetta e uguale pendenza Consumo Reddito L’adattamento ai dati migliora sensibilmente con la variabile dummy: v. p. 224
Generalizzazione al caso di variabili qualitative con più di due modalità Esempio: destagionalizzazione di una serie storica
Seriestoricadellevendite di un bene(§5.2) v. file: Esempio dati vendite stagionali
Modello:vendite stimate = f(trend + stagionalità + componente erratica) In questo esempio è presente solo la serie storica Y: le uniche variabili esplicative sono definite in funzione del tempo (trend, stagionalità e eventualmente ciclo) Il modello può essere generalizzato includendo anche altre variabili esplicative (variabili esogene) se disponibili
Come possiamo rappresentare X? La prima osservazione fa riferimento al primo trimestre (primavera); La seconda osservazione fa riferimento al secondo trimestre (estate); Ecc. • Perché manca la dummy per l’inverno? • formulazione alternativa (4 dummy; no intercetta): p. 227 • La scelta della dummy da eliminare (o della formulazione del modello) non cambia l’adattamento né le previsioni
Stima dei parametri • I coefficienti delle dummy stagionali rappresentano l’effetto della stagione considerata relativo alla stagione esclusa, a parità di trend • Su tali stime si possono applicare tutte le procedure della regressione multipla (intervalli, test …): v. libro
Destagionalizzazione (p. 229-230) La serie destagionalizzata non risente più delle ciclicità stagionali
Detrendizzazione (p. 229-230) La serie detrendizzata non mostra più un andamento di lungo periodo (è stazionaria)
La serie detrendizzata e destagionalizzata non risente più né delle ciclicità stagionali né dell’andamento di lungo periodo: dovrebbe essere assimilabile alla componente erratica (in realtà ciò è vero solo in parte: perché?)
Esercitazioni con variabili dummy • Seminar sulla previsione delle vendite per il budgeting • Previsione del consumo di gas (Esercizio 6.1, pp. 243-252) • Indagine sull’ascolto radiofonico (Esercizio 6.2, pp. 253-258) • Analisi delle retribuzioni aziendali (Esercizio 6.4, pp. 264-271) • Vendita di fusti di birra (Esercizio 6.5, pp. 272-277)
Eteroschedasticità • Assunzione del modello: • Var(i) = Var(yi) = 2 costante (omoschedasticità) • In pratica, l’ipotesi è spesso violata tipicamente: Var(yi) varia in funzione del livello di una o più esplicative
Esempio: dati trade La variabilità della spesa aumenta con il numero di visite Implicazioni di marketing
Esempio: dati trade Anche la variabilità dei residui aumenta con il numero di visite
Trasformazioni di Y Trasformare Y può aiutare a rendere Var(yi) approx costante (cioè a eliminare l’eteroschedasticità) Trasformazioni più comuni: log(yi) se i E(yi) (yi)1/2 se yi è un conteggio Classe generale: Box-Cox (v. Zani-Cerioli, pp. 203-212) Le trasformazioni dei dati possono aiutare anche a rendere migliore l’approx della distribuzione di Y a una Normale rendere migliore l’approx di una funzione lineare
Esempio dati trade – log(Y) La trasformazione logaritmica non sembra del tutto soddisfacente
Esempio dati trade – normalità Y Sqrt(Y) Y log(Y): la trasformazione logaritmica può essere preferibile dal punto di vista dell’approx della distribuzione di Y con una Normale
Esempio dati trade – log(Y) – log(X) Interpretazione coefficienti Analisi per esercizio
Autocorrelazione • Assunzione del modello: • I disturbi i, e quindi le osservazioni yi, sono tra loro incorrelati (indipendenti) • In pratica, l’ipotesi è spesso violata quando Y è una serie storica tipicamente il valore di Y al tempo t è influenzato dai valori di Y ai tempi precedenti: autocorrelazione (correlazione seriale) • Dettagli: §5.4