260 likes | 388 Views
Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo. Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005. Una collaborazione. RAI sede di Torino, Divisione ICT
E N D
Analisi di dati altamente dimensionati per laprevisione dell’ascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005
Una collaborazione • RAI sede di Torino, Divisione ICT • ICTeam, una software house con sedi a Bergamo e a Torino • Dipartimento di Matematica del Politecnico di Torino
Scopo del progetto • Data warehouse dei dati sull’audience televisiva ormai assodato • Prevedere lo share a breve e medio termine • Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) • Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05
Database management • Dati prelevati dai database RAI tramite SQL • SQL acronimo per Structured Query Language • Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. • Linguaggio non procedurale (facile accesso ai dati) • Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle • interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05
Misurazione dell’ascolto televisivo • Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo • Misure d’ascolto: • copertura lorda CL: numero di contatti al lordo delle duplicazioni • ascolto medioAm su un intervallo T: Am:=CL /T • share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale • Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05
Previsione dell’ascolto televisivo • Previsione in un contesto di regressione • Scelta della variabile risposta: share o ascolto? (shareRAI1, shareRAI2, shareRAI3, sharealtro) (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) • share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in +3 • Una risposta trivariata o tre risposte univariate? • Scelta delle variabili predittori: • minuto: fattore di 24 livelli (ore) o predittore quantitativo? • giorno della settimana: fattore di 7 livelli • genere trasmesso e controprogrammazione: fattori di 17 livelli • ?? mese / stagione Gasparini-Imparato 16/09/05
Trasformazione dello share • Alla generica osservazione n, poni • si dice che Y è una trasformazione logit additivo • il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 • trasformazioneusata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05
Distribuzioni normali logistiche • Trasformazione logistica additiva: La sua inversa è dettalogit additivo: • Una composizione x ha distribuzionenormale logisticaadditivase • Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05
Trasformazione dell’ascolto • Alla generica osservazione n, poni semplicemente y in= log (ascoltoin)i=1,2,3 • la trasformazione Y vive in tutto lo spazio 3 • utile quando la platea (il normalizzante dello share) è variabile • noi useremo questa trasformazione e la supporremo normale • platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato • dalla stima dell’ascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05
Modello previsivo finale Implementazione di un modello ibrido parametrico - non parametrico • parametrico modello di regressione lineare: utile in presenza di “buchi” e di scarsa numerosità di occorrenze passate • non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Gasparini-Imparato 16/09/05
Modello parametrico finale • Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1 • Scelta della risposta: Y=log (ascoltoRAI1) • Scelta e codifica dei predittori: • minuto: fattore di 24 livelli (ore del giorno) • giorno della settimana: fattore di 7 livelli • genere di RAI1: fattore di 17 livelli • genere di Can5: fattore di 17 livelli (controprogrammazione) • log (platea): dato quantitativo inputato Gasparini-Imparato 16/09/05
Controprogrammazione e platea • L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5 RAI2 vs. Italia1 RAI3 vs. Rete4 • Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea2005]i = (0.3) *[platea2004]i + 0.25) *[platea2003]i + + *[platea2002]i + *[platea2001]i (0.3) (0.25) (0.25) (0.2) Gasparini-Imparato 16/09/05
Scelta delle interazioni • Testati modelli con più interazioni con il test F: • interazione giorno - minuto: significativa • interazione giorno - genere: non significativa • interazione genere RAI1- genere CANALE5: significativa • Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. • Osservazione: oggigiorno il problema di avere troppidati è sempre più frequente... Gasparini-Imparato 16/09/05
Formulazione del modello Modello con interazione giorno-minuto e genere1-genere5: [log(asc_individui)]ijkpm = a0 + [min]m + [giorno]j + [genere1 a0 [min]m [giorno]j [genere1]k log(platea) + [genere5]p + aplatea + + + [min:giorno]mj [genere1:genere5]kp + errore i=1,…,njkpm (variabile a seconda del campionamento) j=1,…,6 , k,p=1,…,16, m=1,…,23 Gasparini-Imparato 16/09/05
Prelevamento dei dati • Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004. • sotto-campionamento casuale del DB: • 2004: un dato/15 min. 2003-2002: un dato/30min • 2001: un dato/1h 2000: un dato/2h • prove di sensitività al variare del sotto-campionamento casuale Gasparini-Imparato 16/09/05
Analisi dei residui • Andamento dei box-plot dell’errore per fascia oraria • possibilità di eteroschedascticità • omogeneità alternata durante il mattino • Grande omogeneità nel pomeriggio e di notte • out-liers in tarda mattinata, prime-time e second-time Gasparini-Imparato 16/09/05
Validazione del modello • Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto d’ora • Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello • l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005 Gasparini-Imparato 16/09/05
share stimato share reale Risultati 7-9 marzo 2005 • Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : • il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05
Errore e intervalli previsivi • Andamento dell’errore: • In media l’errore è pari a 4.5 % • nel 75% dei casi inferiore a 5 % • Intervallo previsivo per la stima dello share: ~ + _ • Intervallo previsivo al 68% media dev. standard • 68% delle volte lo share reale è compreso nell’intervallo previsivo ~ • I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05
share stimato share reale Risultati 4-6 marzo 2005 • Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05
Il modello non parametrico • media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori • l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate • anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05
Scelta del modello ibrido • Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ? • Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato • Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato • Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Gasparini-Imparato 16/09/05
Calibrazione empirica del modello • Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli • modello parametrico se N < N0 • modello non parametrico altrimenti • analisi 7-9 marzo 2005 e ottobre-novembre 2004: Le analisi congiunte sui due modelli suggeriscono la scelta di N0 ~50 come parametro ottimale • ulteriore riduzione degli errori: • In media l’errore è pari a 0.035 • nel 75% dei casi inferiore a 0.04 Gasparini-Imparato 16/09/05
Fascia oraria 16.00 – 17..00 TUTTI TUTTI Variazione % SHARE SHARE atteso Numero di occorrenze Genere in programmazione Esporta SHARE medio 22,75 Front-end grafico del sistema prototipale
fascia Esporta Front-end grafico nel sistema prototipale Fascia oraria Risultati SPERIMENTALI Numero occorrenze SHARE medio 25,77 1312 3,83 Varianza %
Lavoro futuro • Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) • Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) • Analisi suddivisa per target • Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05