520 likes | 732 Views
Sintesi della lezione. Il test chi quadroIl data miningLaboratorio: il test chi quadro
E N D
1. Lezione 8: Un pot-pourri (tirare le fila)
2. Sintesi della lezione Il test chi quadro
Il data mining
Laboratorio: il test chi quadro
…e per finire
un caso reale (e complesso) dell’applicazione di tecniche elementari di analisi dati
3. Test parametrici I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione
Esempio: differenza fra due medie
Condizioni di validità dei test parametrici
Variabili numeriche
Distribuzione normale della popolazione
Varianza omogenea
4. Test non-parametrici /1 I test non-parametrici consentono la verifica di ipotesi relative a:
Variabili non-numeriche
Variabili ordinali
Variabili categoriche
Distribuzioni diverse dal normale oppure ignote
5. Test non-parametrici /2 I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica
Numero ministri donna vs. numero ministri uomo
Volume di vendita di due (o più) prodotti concorrenti
Numero di morti per tumore in due diverse popolazioni
6. Il test ?2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza
“Goodness of fit” (“bontà dell’adattamento”)
Test di indipendenza Organizzazione dei dati per Il test ?2
7. “Goodness of fit” I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione)
H0: distribuzione “attesa”
H1: distribuzione diversa da quella attesa
8. Distribuzione attesa Assenza di preferenza
Assenza di differenze rispetto ad una popolazione nota
9. Il test ?2 /1
10. Confronto fra distribuzione osservata e distribuzione attesa Il test ?2 /2
11. La statistica ?2
12. La distribuzione ?2 La tabella della distribuzione ?2 consente di identificare la zona critica per qualsiasi valore di gdl e per qualsiasi alfa
(Gdl= n. categorie – 1)
13. Laureati e titolo di studio dei genitori
14. ?2 nella letteratura scientifica “La distribuzione dei figli di genitori laureati per titolo di studio era significativamente diversa rispetto a quella per la popolazione italiana (?2(2,n=120)=29,02,p<0,05)”
15. Esercitazione /1 Ipotesi: le automobili sportive hanno più incidenti rispetto alle automobili di altro tipo
16. Esercitazione /2
17. Il ?2 come test di indipendenza Il test di indipendenza è utilizzato per verificare la presenza di una relazione fra due variabili
Assenza di relazione: le due variabili sono indipendenti
Due variabili sono indipendenti quando la distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda variabile
La distribuzione di frequenza per la prima variabile è la stessa per tutte le categorie della seconda variabile
18. Personalità e preferenza per i colori H0: la preferenza per i colori è indipendente rispetto alla personalità del soggetto
La distribuzione delle preferenze è uguale per i due gruppi
H1: la preferenza per i colori non è indipendente rispetto alla personalità
Le distribuzioni sono diverse
19. Calcolo delle frequenze attese
20. Confronto frequenze osservate/ frequenze attese
21. Calcolo dei gradi di libertà
22. Verifica dell’ipotesi
23. Esercitazione /1 Ipotesi: la “cecità ai colori” è determinata da un gene sul cromosoma Y (legato al sesso del soggetto)
24. Esercitazione /2
25. Condizioni di validità del test ?2 Campioni casuali
Osservazioni indipendenti
Per ogni “cella” il valore di fa deve essere superiore a 4
26. ?2 e Excel/Open Office Excel non comprende una funzione per il calcolo della statistica ?2
La funzione test.chi(<dati osservati>;<dati attesi>) restituisce la probabilità che la differenza fra dati osservati e dati attesi (test di indipendenza) sia dovuta al caso (H0)
Open Office: chitest(<dati osservati>;<dati attesi>)
27. Tecniche e applicazioni avanzate dell’analisi dati
28. Tecniche e applicazioni avanzate Dati e informazione
Il data mining
Cluster analysis
Modelli predittivi
Estrazione di regole
Reti neurali
Limiti del data mining
29. Dati e informazione /1 L’applicazione delle moderne tecnologie informatiche genera immensi volumi di dati
Acquisti dei singoli consumatori in un supermercato
Transazioni bancarie o con carte di credito
Ricette mediche
Dati analitici su sequenze di DNA
30. Dati e informazione /2 Nella maggior parte dei casi i dati raccolti nelle basi dati hanno un uso operativo immediato
Emissione della ricevuta fiscale
Emissione di un estratto conto
Liquidazione delle somme dovute alle farmacie
Richiesta di brevetto
31. Dati e informazione /3 Almeno in via teorica i dati contenuti nelle basi dati possono essere utilizzati per scopi diversi da quelli originalmente previsti ad es.
Analizzare le preferenze dei consumatori
Individuare i clienti più redditizi
Individuare i clienti a rischio di “churn”
Studiare nuove tendenze epidemiologiche
Scoprire “bersagli” per nuovi farmaci
32. Dati e informazione /4 L’estrazione di nuove informazioni da grandi basi dati sono note è stato chiamato “data mining”
Il data mining si basa sull’utilizzo di tecniche avanzate di analisi dati
33. L’input per il data mining L’input per il data mining consiste in grandi insiemi di osservazioni dove ogni osservazione è caratterizzata da un elevato numero di variabili Cliente
Nome
Cognome
Sesso
Classe età
Zona residenza
Volume acquisti prodotto A
Volume acquisti prodotto B
…..
Volume acquisti prodotto N
34. Cluster analysis La cluster analysis è una tecnica che consente di dividere un insieme di osservazioni in cluster (sotto-gruppi) in modo tale che:
Le osservazioni “simili” sono raggruppati nello stesso cluster
Le osservazioni “dissimili” sono raggruppati in cluster diversi
35. Applicazioni del cluster analysis Segmentazione della clientela
Individuazione di gruppi omogenei di clienti ai quali indirizzare una campagna di marketing o di promozione
Creazione di alberi filogenetici in base alle sequenze di DNA
36. Modelli predittivi /1 Utilizzare i dati storici (ad es. relativi al comportamento dei clienti) per la creazione di modelli che consentono la previsione dei comportamenti futuri
Un modello predittivo consente di prevedere il valore di una variabile target in base ai valori di un insieme di variabili predittrici (predictor variables)
37. Modelli predittivi /2 Generazione del modello in base a dati storici dove si conoscono i valori :
delle possibili variabili predittrici
della variabile target
Validare il modello
Altri dati storici
Applicare il modello
Ai dati operativi (dove il valore della variabile target è ignoto)
38. Analisi del churn /1 In molti business moderni (ad es. telecomunicazioni, banche, assicurazioni) il costo di acquisizione di un nuovo cliente è estremamente elevato
Un cliente infedele che cambia fornitore cagiona una perdita economica
L’individuazione dei segni premonitori di infedeltà consente l’attuazione di misure correttive (azioni di marketing ecc.)
39. Analisi del churn /2 Possibili variabili predittrici
Caratteristiche socio-culturali del cliente
Modalità di utilizzo del servizio (tempo t)
Nuove offerte società concorrenti (tempo t)
Disservizi (tempo t)
Variabile target
E’ ancora cliente al tempo t+n? (si/no)
40. Generazione di regole I sistemi di data mining moderni comprendono degli algoritmi che consentono la generazione di un modello predittivo formulato come un insieme di regole
Se età>=45 ?fedele (87%)
Se età<45 E uso < 45mins/giorno ? fedele (75%%)
Se età<45 E uso >= 45mins/giorno ? infedele (73%)
ecc.
41. Le reti neurali “Apprendimento” basato su modelli (molto astratti) del funzionamento del cervello
Training set: un insieme di osservazioni che comprendono variabili predittrici e variabili target
Nuova osservazione (variabili predittrici)
Calcolo automatico della variabile target
42. Tempi di calcolo per i modelli Il tempo necessario per la creazione di un modello cresce esponenzialmente con il numero delle variabili
Il problema è particolarmente grave per i modelli basati su reti neurali
43. Poca trasparenza dei modelli /1 Cluster: le caratteristiche di un cluster sono spesso poco comprensibili all’operatore umano
Esempio: clienti con >45 anni, acquisti shampoo/settimana >2, acquisti cibo cani >3, zona residenza: Vomero
44. Poca trasparenza dei modelli /2 Modelli a regole: le regole possono essere insensate oppure difficilmente comprensibili
Esempio 1: SE (il prodotto è un autobus) ALLORA spesa mensile>100 euro
Esempio 2: Se (aeroporto_partenza=Lagos)e (classe=business) e (orario_partenza<6.00am) e (menu=vegetariano) ALLORA soddisfazione=ALTA
45. Poca trasparenza dei modelli /3 Reti neurali: le reti neurali rappresentano una “scatola nera”. Difficilmente l’analisi potrà penetrare i meccanismi matematici che determinano il funzionamento della rete
46. Modelli semplici e complessi /1 I sistemi di data mining sono in grado di identificare relazioni semplici fra variabili
ad es. relazioni lineari: y=a+bx
Grande parte delle relazioni più interessanti richiedono l’utilizzo di operatori logici ad es.
Se (<età>45) E [(<fumatore>) E (NON (fattore protettivo) oppure (<età>15 E (<altro fattore rischio>) ALLORA rischio=elevato
47. Modelli semplici e complessi Esiste un numero potenzialmente infinito di combinazioni fra operatori logici
L’unico modo per generare un modello ottimale è la ricerca esaustiva di tutte le possibili combinazioni (problema NP-complete)
I modelli di data mining si limitano alle combinazioni più semplici
L’unico modo per creare un modello realmente complesso è di partire da un’ipotesi teorica
Strategia base dell’analisi dei dati
48. Debolezze strategiche del data mining /1 Il data mining si presenta come una tecnica di analisi dati che automatizza il processo di generazione delle ipotesi
In questa visione è il sistema di data mining e non l’analista umano a scegliere le variabili predittrici
49. Debolezze strategiche del data mining /2 MA in realtà è comunque necessaria una scelta da parte dell’analista
Definizione della variabile target
Qual è il problema?
Definizione degli input al sistema
Scelta del modello di base
In nessun caso l’analisi dati può prescindere dall’attività intelligente dell’analista umano
50. Metodologia e analisi dati /1
Una visione ideologica della ricerca scientifica
51. Metodologia e analisi dati /2 La realtà
52. Conclusioni La ricerca scientifica come creazione artistica
Le tecniche come strumenti di lavoro
Il pennello
Il lessico
Lo strumento
Conoscere a fondo lo strumento per poi dimenticarlo….