Lezione 8: Un pot-pourri

1. Lezione 8: Un pot-pourri (tirare le fila)

2. Sintesi della lezione Il test chi quadro Il data mining Laboratorio: il test chi quadro �e per finire un caso reale (e complesso) dell�applicazione di tecniche elementari di analisi dati

3. Test parametrici I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione Esempio: differenza fra due medie Condizioni di validit� dei test parametrici Variabili numeriche Distribuzione normale della popolazione Varianza omogenea

4. Test non-parametrici /1 I test non-parametrici consentono la verifica di ipotesi relative a: Variabili non-numeriche Variabili ordinali Variabili categoriche Distribuzioni diverse dal normale oppure ignote

5. Test non-parametrici /2 I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica Numero ministri donna vs. numero ministri uomo Volume di vendita di due (o pi�) prodotti concorrenti Numero di morti per tumore in due diverse popolazioni

6. Il test ?2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza �Goodness of fit� (�bont� dell�adattamento�) Test di indipendenza Organizzazione dei dati per Il test ?2

7. �Goodness of fit� I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) H0: distribuzione �attesa� H1: distribuzione diversa da quella attesa

8. Distribuzione attesa Assenza di preferenza Assenza di differenze rispetto ad una popolazione nota

9. Il test ?2 /1

10. Confronto fra distribuzione osservata e distribuzione attesa Il test ?2 /2

11. La statistica ?2

12. La distribuzione ?2 La tabella della distribuzione ?2 consente di identificare la zona critica per qualsiasi valore di gdl e per qualsiasi alfa (Gdl= n. categorie � 1)

13. Laureati e titolo di studio dei genitori

14. ?2 nella letteratura scientifica �La distribuzione dei figli di genitori laureati per titolo di studio era significativamente diversa rispetto a quella per la popolazione italiana (?2(2,n=120)=29,02,p<0,05)�

15. Esercitazione /1 Ipotesi: le automobili sportive hanno pi� incidenti rispetto alle automobili di altro tipo

16. Esercitazione /2

17. Il ?2 come test di indipendenza Il test di indipendenza � utilizzato per verificare la presenza di una relazione fra due variabili Assenza di relazione: le due variabili sono indipendenti Due variabili sono indipendenti quando la distribuzione della prima variabile � priva di rapporto con la distribuzione per la seconda variabile La distribuzione di frequenza per la prima variabile � la stessa per tutte le categorie della seconda variabile

18. Personalit� e preferenza per i colori H0: la preferenza per i colori � indipendente rispetto alla personalit� del soggetto La distribuzione delle preferenze � uguale per i due gruppi H1: la preferenza per i colori non � indipendente rispetto alla personalit� Le distribuzioni sono diverse

19. Calcolo delle frequenze attese

20. Confronto frequenze osservate/ frequenze attese

21. Calcolo dei gradi di libert�

22. Verifica dell�ipotesi

23. Esercitazione /1 Ipotesi: la �cecit� ai colori� � determinata da un gene sul cromosoma Y (legato al sesso del soggetto)

24. Esercitazione /2

25. Condizioni di validit� del test ?2 Campioni casuali Osservazioni indipendenti Per ogni �cella� il valore di fa deve essere superiore a 4

26. ?2 e Excel/Open Office Excel non comprende una funzione per il calcolo della statistica ?2 La funzione test.chi(<dati osservati>;<dati attesi>) restituisce la probabilit� che la differenza fra dati osservati e dati attesi (test di indipendenza) sia dovuta al caso (H0) Open Office: chitest(<dati osservati>;<dati attesi>)

27. Tecniche e applicazioni avanzate dell�analisi dati

28. Tecniche e applicazioni avanzate Dati e informazione Il data mining Cluster analysis Modelli predittivi Estrazione di regole Reti neurali Limiti del data mining

29. Dati e informazione /1 L�applicazione delle moderne tecnologie informatiche genera immensi volumi di dati Acquisti dei singoli consumatori in un supermercato Transazioni bancarie o con carte di credito Ricette mediche Dati analitici su sequenze di DNA

30. Dati e informazione /2 Nella maggior parte dei casi i dati raccolti nelle basi dati hanno un uso operativo immediato Emissione della ricevuta fiscale Emissione di un estratto conto Liquidazione delle somme dovute alle farmacie Richiesta di brevetto

31. Dati e informazione /3 Almeno in via teorica i dati contenuti nelle basi dati possono essere utilizzati per scopi diversi da quelli originalmente previsti ad es. Analizzare le preferenze dei consumatori Individuare i clienti pi� redditizi Individuare i clienti a rischio di �churn� Studiare nuove tendenze epidemiologiche Scoprire �bersagli� per nuovi farmaci

32. Dati e informazione /4 L�estrazione di nuove informazioni da grandi basi dati sono note � stato chiamato �data mining� Il data mining si basa sull�utilizzo di tecniche avanzate di analisi dati

33. L�input per il data mining L�input per il data mining consiste in grandi insiemi di osservazioni dove ogni osservazione � caratterizzata da un elevato numero di variabili Cliente Nome Cognome Sesso Classe et� Zona residenza Volume acquisti prodotto A Volume acquisti prodotto B �.. Volume acquisti prodotto N

34. Cluster analysis La cluster analysis � una tecnica che consente di dividere un insieme di osservazioni in cluster (sotto-gruppi) in modo tale che: Le osservazioni �simili� sono raggruppati nello stesso cluster Le osservazioni �dissimili� sono raggruppati in cluster diversi

35. Applicazioni del cluster analysis Segmentazione della clientela Individuazione di gruppi omogenei di clienti ai quali indirizzare una campagna di marketing o di promozione Creazione di alberi filogenetici in base alle sequenze di DNA

36. Modelli predittivi /1 Utilizzare i dati storici (ad es. relativi al comportamento dei clienti) per la creazione di modelli che consentono la previsione dei comportamenti futuri Un modello predittivo consente di prevedere il valore di una variabile target in base ai valori di un insieme di variabili predittrici (predictor variables)

37. Modelli predittivi /2 Generazione del modello in base a dati storici dove si conoscono i valori : delle possibili variabili predittrici della variabile target Validare il modello Altri dati storici Applicare il modello Ai dati operativi (dove il valore della variabile target � ignoto)

38. Analisi del churn /1 In molti business moderni (ad es. telecomunicazioni, banche, assicurazioni) il costo di acquisizione di un nuovo cliente � estremamente elevato Un cliente infedele che cambia fornitore cagiona una perdita economica L�individuazione dei segni premonitori di infedelt� consente l�attuazione di misure correttive (azioni di marketing ecc.)

39. Analisi del churn /2 Possibili variabili predittrici Caratteristiche socio-culturali del cliente Modalit� di utilizzo del servizio (tempo t) Nuove offerte societ� concorrenti (tempo t) Disservizi (tempo t) Variabile target E� ancora cliente al tempo t+n? (si/no)

40. Generazione di regole I sistemi di data mining moderni comprendono degli algoritmi che consentono la generazione di un modello predittivo formulato come un insieme di regole Se et�>=45 ?fedele (87%) Se et�<45 E uso < 45mins/giorno ? fedele (75%%) Se et�<45 E uso >= 45mins/giorno ? infedele (73%) ecc.

41. Le reti neurali �Apprendimento� basato su modelli (molto astratti) del funzionamento del cervello Training set: un insieme di osservazioni che comprendono variabili predittrici e variabili target Nuova osservazione (variabili predittrici) Calcolo automatico della variabile target

42. Tempi di calcolo per i modelli Il tempo necessario per la creazione di un modello cresce esponenzialmente con il numero delle variabili Il problema � particolarmente grave per i modelli basati su reti neurali

43. Poca trasparenza dei modelli /1 Cluster: le caratteristiche di un cluster sono spesso poco comprensibili all�operatore umano Esempio: clienti con >45 anni, acquisti shampoo/settimana >2, acquisti cibo cani >3, zona residenza: Vomero

44. Poca trasparenza dei modelli /2 Modelli a regole: le regole possono essere insensate oppure difficilmente comprensibili Esempio 1: SE (il prodotto � un autobus) ALLORA spesa mensile>100 euro Esempio 2: Se (aeroporto_partenza=Lagos)e (classe=business) e (orario_partenza<6.00am) e (menu=vegetariano) ALLORA soddisfazione=ALTA

45. Poca trasparenza dei modelli /3 Reti neurali: le reti neurali rappresentano una �scatola nera�. Difficilmente l�analisi potr� penetrare i meccanismi matematici che determinano il funzionamento della rete

46. Modelli semplici e complessi /1 I sistemi di data mining sono in grado di identificare relazioni semplici fra variabili ad es. relazioni lineari: y=a+bx Grande parte delle relazioni pi� interessanti richiedono l�utilizzo di operatori logici ad es. Se (<et�>45) E [(<fumatore>) E (NON (fattore protettivo) oppure (<et�>15 E (<altro fattore rischio>) ALLORA rischio=elevato

47. Modelli semplici e complessi Esiste un numero potenzialmente infinito di combinazioni fra operatori logici L�unico modo per generare un modello ottimale � la ricerca esaustiva di tutte le possibili combinazioni (problema NP-complete) I modelli di data mining si limitano alle combinazioni pi� semplici L�unico modo per creare un modello realmente complesso � di partire da un�ipotesi teorica Strategia base dell�analisi dei dati

48. Debolezze strategiche del data mining /1 Il data mining si presenta come una tecnica di analisi dati che automatizza il processo di generazione delle ipotesi In questa visione � il sistema di data mining e non l�analista umano a scegliere le variabili predittrici

49. Debolezze strategiche del data mining /2 MA in realt� � comunque necessaria una scelta da parte dell�analista Definizione della variabile target Qual � il problema? Definizione degli input al sistema Scelta del modello di base In nessun caso l�analisi dati pu� prescindere dall�attivit� intelligente dell�analista umano

50. Metodologia e analisi dati /1 Una visione ideologica della ricerca scientifica

51. Metodologia e analisi dati /2 La realt�

52. Conclusioni La ricerca scientifica come creazione artistica Le tecniche come strumenti di lavoro Il pennello Il lessico Lo strumento Conoscere a fondo lo strumento per poi dimenticarlo�.

Lezione 8: Un pot-pourri

Lezione 8: Un pot-pourri

Presentation Transcript

a cura del

Quinta Lezione

Quattordicesima Lezione

Lezione 3 Acceleratori

Lezione 2

JEOPARDY

LEZIONE 12

Lezione VII-IIX giovedì 20-X-2011

LEZIONE 13

LEZIONE A.6 Le distribuzioni cumulate

LEZIONE 10

Nona Lezione

LEZIONE 9

LEZIONE 6

La 1° lezione d’inglese in classe 1°

Et maintenant, un Pot-Pourri de la Grammaire et du Vocabulaire

Dodicesima Lezione

XV lezione 1 giugno Lezione h 14 gioved ì

Lezione 14 Camere a deriva

LEZIONE 1 Nascita e oggetto della demografia

LEZIONE A.9 La standardizzazione

LEZIONE A.10 Simmetria e ‘normalità’