1 / 110

“Analisi di dati categoriali”

“Analisi di dati categoriali”. Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti. Variabili. Possono applicarsi diverse tipologie di variabili. Le principali sono definite in base a: - alla scala di misurazione

johnson
Download Presentation

“Analisi di dati categoriali”

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

  2. Variabili Possono applicarsi diverse tipologie di variabili. Le principali sono definite in base a: - alla scala di misurazione • alle relazioni che intercorrono tra loro • all’osservabilità NB: se una variabile registra sempre lo stesso stato rispetto alla proprietà osservata è detta COSTANTE.

  3. Variabili: la scala di misurazione Si distinguono tre principali livelli di misurazione delle variabili: nominale, ordinale e cardinale. A seconda della scala di misurazione cambiano le procedure di rilevazione (operativizzazione delle proprietà in casi) e le analisi applicabili.

  4. Variabili NOMINALI Quando le modalità non sono ordinabili e possiedono un alto grado di autonomia semantica (le modalità hanno senso di per sé, indipendentemente dalle altre). La fede religiosa L’essere d’accordo o no (si/no) con una certa affermazione La condizione occupazionale Il colore dei capelli Il genere Non è possibile nessuna operazione aritmetica sulle modalità. Tuttavia alle modalità è possibile attribuire dei valori a cui corrispondono delle etichette. Ad esempio per il genere (variabile nominale): 1=femmina; 2=maschio

  5. Variabili ORDINALI Quando le modalità sono ordinabili e possiedono un basso grado di autonomia semantica. La frequenza di un certo luogo (spesso, qualche volta, mai) …teatro u.m. L’ordinamento in preferenze di alcuni colori (rosso, giallo, verde) L’essere molto, abbastanza, poco o per niente d’accordo … Il livello d’istruzione in gradi scolastici. È possibile applicare sulle modalità operazione di confronto (<>=). Alle modalità è possibile attribuire dei valori a cui corrispondono delle etichette. Ad esempio per il titolo di studio: 4=Laurea; 3=Diploma; 2=Licenza Media; 1=Licenza Elementare

  6. Variabili CARDINALI (e quasi-cardinali) Quando le modalità costituiscono numeri derivati da misurazioni discrete (conteggi) o continue, e non possiedono nessun grado di autonomia semantica (le modalità non hanno senso di per sé, se non in relazione alle altre). L’altezza in centimetri L’età in anni Il reddito Grado di accordo tra 0 e 100 su una certa affermazione* È possibile applicare sulle modalità tutte le operazione di confronto (-+*/). Le modalità corrispondono ai valori, e non vengono attribuite etichette.

  7. Esempio sull’autonomia semantica VARIABILE NOMINALE: proprietà=appartenenza religiosa Paese A Paese B Nel paese A ci sono meno islamici che nel paese B. VARIABILE ORDINALE: proprietà=frequenza a messa Gruppo A Gruppo B NO Nel gruppo A sono più praticanti del paese B. NON E’ VERO ! Il confronto deve avvenire considerando anche le altre modalità.

  8. La distribuzione di frequenza • La prima è più elementare delle analisi è la distribuzione di frequenza. • Essa consiste in un banale conteggio delle modalità di una variabile.

  9. LA MATRICE DEI DATI: CASI PER VARIABILI

  10. Distribuzioni di frequenza: il genere Il conteggio dei casi osservati

  11. Distribuzioni di frequenza Le quote percentuali delle modalità

  12. Distribuzioni di frequenza Le percentuali sui casi validi, al netto dei casi mancanti

  13. Proporzioni 0,486 0,514 1,000 Proporzioni Proporzioni : complemento ad 1 delle percentuali

  14. Rappresentazioni grafiche didistribuzioni di frequenza DIAGRAMMA A BARRE

  15. Rappresentazioni grafiche didistribuzioni di frequenza DIAGRAMMA A TORTA

  16. L’analisi monovariata: le statistiche • Le statistiche servono a dare una descrizione sintetica del fenomeno. • Esse si applicano in modo diverso secondo la scala di misurazione con la quale sono rilevate le variabili.

  17. L’analisi monovariata: le statistiche • Esistono misure di tendenza centrale che sintetizzano l’informazione contenuta nella variabile in un valore caratteristico. • Esistono misure di dispersione che indicano la varietà delle informazioni presenti in una variabile.

  18. Le misure di tendenza centralesu variabili NOMINALI LA MODA: E’ la modalità più frequente.

  19. MODA in una distribuzione di frequenza

  20. Le misure di dispersionesu variabili NOMINALI L’indice di omogeneità

  21. Situazione di omogeneità Composizione religiosa in India 2001

  22. Situazione di eterogeneità Risultati elezioni in Germania 2009, percentuali

  23. Indice di omogeneità Misura la dispersione in una variabile nominale Dove k è il numero di modalità e pi è la proporzione di casi che si trovano nella categoria i-esima. L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle frequenze proporzionali. Indice di eterogeneità

  24. ESEMPIO con due modalità (p,1- p) O Indice di omogeneità È massimo (=1) quando tutti i casi assumono la stessa modalità. È minimo (=1/k) quando la distribuzione è massimamente eterogenea, i casi si distribuiscono ugualmente nelle diverse modalità. 1 Omin = 0,502 + 0,502 = 0,50 1/2 Omax = 02 + 12 = 1 p 1/2 0 1

  25. Indice di omogeneità relativa Per confrontare distribuzioni con un diverso numero di modalità. Varia tra 0 (minima omogeneità) ed 1 (massima omogeneità).

  26. Video di Faidate presenti su youtube e categoria tematica Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio: elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una minore in Francia, dove invece i contenuti sono dispersi tra più categorie.

  27. Le distribuzioni di frequenza: le proporzioni come distribuzioni di probabilità Le proporzioni delle modalità possono essere interpretate come probabilità.

  28. Una probabilità può variare tra 0 e 1 Un evento è certo quando ha probabilità 1 Un evento è irrealizzabile quando ha probabilità 0 La somma delle probabilità di tutti gli eventi possibili è uguale a 1 Nell’esempio abbiamo che la probabilità di estrarre a caso una femmina dal nostro campione è 0,514. La probabilità di estrarre un maschio è di 0,486. Estraendo a caso un soggetto dal nostro campione abbiamo più probabilità di estrarre una femmina che non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o un maschio o una femmina.

  29. Test di significativitàVARIABILI CATEGORIALITest del Chi-quadrato(MONOVARIATA)

  30. In un convegno internazionale una sessione è composta da scienziati delle seguenti nazionalità.

  31. Test di significatività Poniamo l’ipotesi che la composizione dei membri del convegno non sia distribuita ugualmente secondo la nazionalità. Infatti, se fosse vero il contrario, considerate cinque le nazioni che partecipano al convegno, avremmo dovuto avere che alla sessione partecipassero il 20 % di scienziati per nazione.

  32. Hp di lavoro:Vi sono differenze nella partecipazione al convegno secondo la nazionalità. Hp0 nulla:Non vi sono differenze. 20% per nazione.

  33. Calcoliamo le differenze per misurare quanto il fenomeno osservato si discosta dalla situazione ipotizzata: O E Totale 65,9 Ipotesi nulla

  34. Chi-Quadrato χ2 Il chi-quadrato che abbiamo osservato costituisce una misura della distanza dall’ipotesi nulla di equidistribuzione (20% di scienziati per nazione).

  35. Maggiore è il valore di χ2 , più siamo lontani dall’ipotesi di equidistribuzione. Chi-Quadrato χ2 i=1…K Dove f*i è la frequenza attesa

  36. Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla. Test del Chi-Quadrato χ2

  37. Distribuzione del Chi-Quadrato χ2 Il chi-quadrato ha una funzione di densità nota, ma variabile secondo i gradi di libertà. I gradi di libertà, nell’esempio proposto, sono k-1, dove k sono le modalità. I gradi di libertà rappresentano le frequenze di cella che possiamo “liberamente” inserire dato il totale. Oppure, costituiscono i vincoli minimi necessari a riempire tutte le celle.

  38. Gradi di libertà = k – 1 gdl = 4 gdl = 3 gdl = 1

  39. φ(χ2) Funzione di densità di χ2 φ(χ2) χ2 0

  40. Il χ2E’ FUNZIONE DEI GRADI DI LIBERTA’ φ(χ2) g=1 g=4 g=10 g=20 χ2 0

  41. Distribuzione nota della v.c. χ2 φ(χ2) Funzione di densità di χ2con gl=10 AREA di NON Rifiuto di H0 AREA di Rifiuto di H0 0.80 0.20 χ2 0 13,44

  42. Logica falsificazionista, errori Realtà del fenomenmo Esito del test

  43. αè la probabilità teorica di rifiutare a priori l’H0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05

  44. Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 g = gradi di libertà α χ2 χ2α 0

  45. Ricapitolando … Il chi-quadrato osservato è uguale a 65,9.I gradi di libertà sono 4.Hp nulla: Non vi sono differenze: 20% per nazione Livello di significatività alfa=0,05

  46. Valore critico del Chi-quadro α 0

  47. Rifiutiamo H0. Respingiamo l’ipotesi nulla di equidistribuzione. Con una significatività statistica dello 0,05 accettiamo che gli scienziati non rappresentano allo stesso modo le nazioni che partecipano alla sessione. φ(χ2) Funzione di densità di χ2con gl=4 AREA di Rifiuto di H0 e accettazione di H1 0.95 0.05 χ2 0 9,49 65,9 χα2

  48. Relazioni tra variabili • La relazione tra variabili può essere caratterizzata da: • forma • forza • direzione.

More Related