1 / 26

Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo

Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo. Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005. Una collaborazione. RAI sede di Torino, Divisione ICT

ksena
Download Presentation

Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analisi di dati altamente dimensionati per laprevisione dell’ascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005

  2. Una collaborazione • RAI sede di Torino, Divisione ICT • ICTeam, una software house con sedi a Bergamo e a Torino • Dipartimento di Matematica del Politecnico di Torino

  3. Scopo del progetto • Data warehouse dei dati sull’audience televisiva ormai assodato • Prevedere lo share a breve e medio termine • Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) • Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05

  4. Database management • Dati prelevati dai database RAI tramite SQL • SQL acronimo per Structured Query Language • Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. • Linguaggio non procedurale (facile accesso ai dati) • Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle • interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05

  5. Misurazione dell’ascolto televisivo • Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo • Misure d’ascolto: • copertura lorda CL: numero di contatti al lordo delle duplicazioni • ascolto medioAm su un intervallo T: Am:=CL /T • share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale • Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05

  6. Previsione dell’ascolto televisivo • Previsione in un contesto di regressione • Scelta della variabile risposta: share o ascolto? (shareRAI1, shareRAI2, shareRAI3, sharealtro) (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) • share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in +3 • Una risposta trivariata o tre risposte univariate? • Scelta delle variabili predittori: • minuto: fattore di 24 livelli (ore) o predittore quantitativo? • giorno della settimana: fattore di 7 livelli • genere trasmesso e controprogrammazione: fattori di 17 livelli • ?? mese / stagione Gasparini-Imparato 16/09/05

  7. Trasformazione dello share • Alla generica osservazione n, poni • si dice che Y è una trasformazione logit additivo • il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 • trasformazioneusata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05

  8. Distribuzioni normali logistiche • Trasformazione logistica additiva: La sua inversa è dettalogit additivo: • Una composizione x ha distribuzionenormale logisticaadditivase • Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05

  9. Trasformazione dell’ascolto • Alla generica osservazione n, poni semplicemente y in= log (ascoltoin)i=1,2,3 • la trasformazione Y vive in tutto lo spazio 3 • utile quando la platea (il normalizzante dello share) è variabile • noi useremo questa trasformazione e la supporremo normale • platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato • dalla stima dell’ascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05

  10. Modello previsivo finale Implementazione di un modello ibrido parametrico - non parametrico • parametrico modello di regressione lineare: utile in presenza di “buchi” e di scarsa numerosità di occorrenze passate • non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Gasparini-Imparato 16/09/05

  11. Modello parametrico finale • Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1 • Scelta della risposta: Y=log (ascoltoRAI1) • Scelta e codifica dei predittori: • minuto: fattore di 24 livelli (ore del giorno) • giorno della settimana: fattore di 7 livelli • genere di RAI1: fattore di 17 livelli • genere di Can5: fattore di 17 livelli (controprogrammazione) • log (platea): dato quantitativo inputato Gasparini-Imparato 16/09/05

  12. Controprogrammazione e platea • L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5 RAI2 vs. Italia1 RAI3 vs. Rete4 • Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea2005]i = (0.3) *[platea2004]i + 0.25) *[platea2003]i + + *[platea2002]i + *[platea2001]i (0.3) (0.25) (0.25) (0.2) Gasparini-Imparato 16/09/05

  13. Scelta delle interazioni • Testati modelli con più interazioni con il test F: • interazione giorno - minuto: significativa • interazione giorno - genere: non significativa • interazione genere RAI1- genere CANALE5: significativa • Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. • Osservazione: oggigiorno il problema di avere troppidati è sempre più frequente... Gasparini-Imparato 16/09/05

  14. Formulazione del modello Modello con interazione giorno-minuto e genere1-genere5: [log(asc_individui)]ijkpm = a0 + [min]m + [giorno]j + [genere1 a0 [min]m [giorno]j [genere1]k log(platea) + [genere5]p + aplatea + + + [min:giorno]mj [genere1:genere5]kp + errore i=1,…,njkpm (variabile a seconda del campionamento) j=1,…,6 , k,p=1,…,16, m=1,…,23 Gasparini-Imparato 16/09/05

  15. Prelevamento dei dati • Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004. • sotto-campionamento casuale del DB: • 2004: un dato/15 min. 2003-2002: un dato/30min • 2001: un dato/1h 2000: un dato/2h • prove di sensitività al variare del sotto-campionamento casuale Gasparini-Imparato 16/09/05

  16. Analisi dei residui • Andamento dei box-plot dell’errore per fascia oraria • possibilità di eteroschedascticità • omogeneità alternata durante il mattino • Grande omogeneità nel pomeriggio e di notte • out-liers in tarda mattinata, prime-time e second-time Gasparini-Imparato 16/09/05

  17. Validazione del modello • Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto d’ora • Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello • l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005 Gasparini-Imparato 16/09/05

  18. share stimato share reale Risultati 7-9 marzo 2005 • Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : • il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05

  19. Errore e intervalli previsivi • Andamento dell’errore: • In media l’errore è pari a 4.5 % • nel 75% dei casi inferiore a 5 % • Intervallo previsivo per la stima dello share: ~ + _ • Intervallo previsivo al 68% media dev. standard • 68% delle volte lo share reale è compreso nell’intervallo previsivo ~ • I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05

  20. share stimato share reale Risultati 4-6 marzo 2005 • Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05

  21. Il modello non parametrico • media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori • l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate • anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05

  22. Scelta del modello ibrido • Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ? • Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato • Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato • Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Gasparini-Imparato 16/09/05

  23. Calibrazione empirica del modello • Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli • modello parametrico se N < N0 • modello non parametrico altrimenti • analisi 7-9 marzo 2005 e ottobre-novembre 2004: Le analisi congiunte sui due modelli suggeriscono la scelta di N0 ~50 come parametro ottimale • ulteriore riduzione degli errori: • In media l’errore è pari a 0.035 • nel 75% dei casi inferiore a 0.04 Gasparini-Imparato 16/09/05

  24. Fascia oraria 16.00 – 17..00 TUTTI TUTTI Variazione % SHARE SHARE atteso Numero di occorrenze Genere in programmazione Esporta SHARE medio 22,75 Front-end grafico del sistema prototipale

  25. fascia Esporta Front-end grafico nel sistema prototipale Fascia oraria Risultati SPERIMENTALI Numero occorrenze SHARE medio 25,77 1312 3,83 Varianza %

  26. Lavoro futuro • Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) • Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) • Analisi suddivisa per target • Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05

More Related