1 / 52

Lezione 8: Un pot-pourri

Sintesi della lezione. Il test chi quadroIl data miningLaboratorio: il test chi quadro

waverly
Download Presentation

Lezione 8: Un pot-pourri

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Lezione 8: Un pot-pourri (tirare le fila)

    2. Sintesi della lezione Il test chi quadro Il data mining Laboratorio: il test chi quadro …e per finire un caso reale (e complesso) dell’applicazione di tecniche elementari di analisi dati

    3. Test parametrici I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione Esempio: differenza fra due medie Condizioni di validità dei test parametrici Variabili numeriche Distribuzione normale della popolazione Varianza omogenea

    4. Test non-parametrici /1 I test non-parametrici consentono la verifica di ipotesi relative a: Variabili non-numeriche Variabili ordinali Variabili categoriche Distribuzioni diverse dal normale oppure ignote

    5. Test non-parametrici /2 I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica Numero ministri donna vs. numero ministri uomo Volume di vendita di due (o più) prodotti concorrenti Numero di morti per tumore in due diverse popolazioni

    6. Il test ?2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza “Goodness of fit” (“bontà dell’adattamento”) Test di indipendenza Organizzazione dei dati per Il test ?2

    7. “Goodness of fit” I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) H0: distribuzione “attesa” H1: distribuzione diversa da quella attesa

    8. Distribuzione attesa Assenza di preferenza Assenza di differenze rispetto ad una popolazione nota

    9. Il test ?2 /1

    10. Confronto fra distribuzione osservata e distribuzione attesa Il test ?2 /2

    11. La statistica ?2

    12. La distribuzione ?2 La tabella della distribuzione ?2 consente di identificare la zona critica per qualsiasi valore di gdl e per qualsiasi alfa (Gdl= n. categorie – 1)

    13. Laureati e titolo di studio dei genitori

    14. ?2 nella letteratura scientifica “La distribuzione dei figli di genitori laureati per titolo di studio era significativamente diversa rispetto a quella per la popolazione italiana (?2(2,n=120)=29,02,p<0,05)”

    15. Esercitazione /1 Ipotesi: le automobili sportive hanno più incidenti rispetto alle automobili di altro tipo

    16. Esercitazione /2

    17. Il ?2 come test di indipendenza Il test di indipendenza è utilizzato per verificare la presenza di una relazione fra due variabili Assenza di relazione: le due variabili sono indipendenti Due variabili sono indipendenti quando la distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda variabile La distribuzione di frequenza per la prima variabile è la stessa per tutte le categorie della seconda variabile

    18. Personalità e preferenza per i colori H0: la preferenza per i colori è indipendente rispetto alla personalità del soggetto La distribuzione delle preferenze è uguale per i due gruppi H1: la preferenza per i colori non è indipendente rispetto alla personalità Le distribuzioni sono diverse

    19. Calcolo delle frequenze attese

    20. Confronto frequenze osservate/ frequenze attese

    21. Calcolo dei gradi di libertà

    22. Verifica dell’ipotesi

    23. Esercitazione /1 Ipotesi: la “cecità ai colori” è determinata da un gene sul cromosoma Y (legato al sesso del soggetto)

    24. Esercitazione /2

    25. Condizioni di validità del test ?2 Campioni casuali Osservazioni indipendenti Per ogni “cella” il valore di fa deve essere superiore a 4

    26. ?2 e Excel/Open Office Excel non comprende una funzione per il calcolo della statistica ?2 La funzione test.chi(<dati osservati>;<dati attesi>) restituisce la probabilità che la differenza fra dati osservati e dati attesi (test di indipendenza) sia dovuta al caso (H0) Open Office: chitest(<dati osservati>;<dati attesi>)

    27. Tecniche e applicazioni avanzate dell’analisi dati

    28. Tecniche e applicazioni avanzate Dati e informazione Il data mining Cluster analysis Modelli predittivi Estrazione di regole Reti neurali Limiti del data mining

    29. Dati e informazione /1 L’applicazione delle moderne tecnologie informatiche genera immensi volumi di dati Acquisti dei singoli consumatori in un supermercato Transazioni bancarie o con carte di credito Ricette mediche Dati analitici su sequenze di DNA

    30. Dati e informazione /2 Nella maggior parte dei casi i dati raccolti nelle basi dati hanno un uso operativo immediato Emissione della ricevuta fiscale Emissione di un estratto conto Liquidazione delle somme dovute alle farmacie Richiesta di brevetto

    31. Dati e informazione /3 Almeno in via teorica i dati contenuti nelle basi dati possono essere utilizzati per scopi diversi da quelli originalmente previsti ad es. Analizzare le preferenze dei consumatori Individuare i clienti più redditizi Individuare i clienti a rischio di “churn” Studiare nuove tendenze epidemiologiche Scoprire “bersagli” per nuovi farmaci

    32. Dati e informazione /4 L’estrazione di nuove informazioni da grandi basi dati sono note è stato chiamato “data mining” Il data mining si basa sull’utilizzo di tecniche avanzate di analisi dati

    33. L’input per il data mining L’input per il data mining consiste in grandi insiemi di osservazioni dove ogni osservazione è caratterizzata da un elevato numero di variabili Cliente Nome Cognome Sesso Classe età Zona residenza Volume acquisti prodotto A Volume acquisti prodotto B ….. Volume acquisti prodotto N

    34. Cluster analysis La cluster analysis è una tecnica che consente di dividere un insieme di osservazioni in cluster (sotto-gruppi) in modo tale che: Le osservazioni “simili” sono raggruppati nello stesso cluster Le osservazioni “dissimili” sono raggruppati in cluster diversi

    35. Applicazioni del cluster analysis Segmentazione della clientela Individuazione di gruppi omogenei di clienti ai quali indirizzare una campagna di marketing o di promozione Creazione di alberi filogenetici in base alle sequenze di DNA

    36. Modelli predittivi /1 Utilizzare i dati storici (ad es. relativi al comportamento dei clienti) per la creazione di modelli che consentono la previsione dei comportamenti futuri Un modello predittivo consente di prevedere il valore di una variabile target in base ai valori di un insieme di variabili predittrici (predictor variables)

    37. Modelli predittivi /2 Generazione del modello in base a dati storici dove si conoscono i valori : delle possibili variabili predittrici della variabile target Validare il modello Altri dati storici Applicare il modello Ai dati operativi (dove il valore della variabile target è ignoto)

    38. Analisi del churn /1 In molti business moderni (ad es. telecomunicazioni, banche, assicurazioni) il costo di acquisizione di un nuovo cliente è estremamente elevato Un cliente infedele che cambia fornitore cagiona una perdita economica L’individuazione dei segni premonitori di infedeltà consente l’attuazione di misure correttive (azioni di marketing ecc.)

    39. Analisi del churn /2 Possibili variabili predittrici Caratteristiche socio-culturali del cliente Modalità di utilizzo del servizio (tempo t) Nuove offerte società concorrenti (tempo t) Disservizi (tempo t) Variabile target E’ ancora cliente al tempo t+n? (si/no)

    40. Generazione di regole I sistemi di data mining moderni comprendono degli algoritmi che consentono la generazione di un modello predittivo formulato come un insieme di regole Se età>=45 ?fedele (87%) Se età<45 E uso < 45mins/giorno ? fedele (75%%) Se età<45 E uso >= 45mins/giorno ? infedele (73%) ecc.

    41. Le reti neurali “Apprendimento” basato su modelli (molto astratti) del funzionamento del cervello Training set: un insieme di osservazioni che comprendono variabili predittrici e variabili target Nuova osservazione (variabili predittrici) Calcolo automatico della variabile target

    42. Tempi di calcolo per i modelli Il tempo necessario per la creazione di un modello cresce esponenzialmente con il numero delle variabili Il problema è particolarmente grave per i modelli basati su reti neurali

    43. Poca trasparenza dei modelli /1 Cluster: le caratteristiche di un cluster sono spesso poco comprensibili all’operatore umano Esempio: clienti con >45 anni, acquisti shampoo/settimana >2, acquisti cibo cani >3, zona residenza: Vomero

    44. Poca trasparenza dei modelli /2 Modelli a regole: le regole possono essere insensate oppure difficilmente comprensibili Esempio 1: SE (il prodotto è un autobus) ALLORA spesa mensile>100 euro Esempio 2: Se (aeroporto_partenza=Lagos)e (classe=business) e (orario_partenza<6.00am) e (menu=vegetariano) ALLORA soddisfazione=ALTA

    45. Poca trasparenza dei modelli /3 Reti neurali: le reti neurali rappresentano una “scatola nera”. Difficilmente l’analisi potrà penetrare i meccanismi matematici che determinano il funzionamento della rete

    46. Modelli semplici e complessi /1 I sistemi di data mining sono in grado di identificare relazioni semplici fra variabili ad es. relazioni lineari: y=a+bx Grande parte delle relazioni più interessanti richiedono l’utilizzo di operatori logici ad es. Se (<età>45) E [(<fumatore>) E (NON (fattore protettivo) oppure (<età>15 E (<altro fattore rischio>) ALLORA rischio=elevato

    47. Modelli semplici e complessi Esiste un numero potenzialmente infinito di combinazioni fra operatori logici L’unico modo per generare un modello ottimale è la ricerca esaustiva di tutte le possibili combinazioni (problema NP-complete) I modelli di data mining si limitano alle combinazioni più semplici L’unico modo per creare un modello realmente complesso è di partire da un’ipotesi teorica Strategia base dell’analisi dei dati

    48. Debolezze strategiche del data mining /1 Il data mining si presenta come una tecnica di analisi dati che automatizza il processo di generazione delle ipotesi In questa visione è il sistema di data mining e non l’analista umano a scegliere le variabili predittrici

    49. Debolezze strategiche del data mining /2 MA in realtà è comunque necessaria una scelta da parte dell’analista Definizione della variabile target Qual è il problema? Definizione degli input al sistema Scelta del modello di base In nessun caso l’analisi dati può prescindere dall’attività intelligente dell’analista umano

    50. Metodologia e analisi dati /1 Una visione ideologica della ricerca scientifica

    51. Metodologia e analisi dati /2 La realtà

    52. Conclusioni La ricerca scientifica come creazione artistica Le tecniche come strumenti di lavoro Il pennello Il lessico Lo strumento Conoscere a fondo lo strumento per poi dimenticarlo….

More Related