880 likes | 1.14k Views
“Teoria e metodi della ricerca sociale e organizzativa”. Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti. Lezione. L’inchiesta campionaria e l’analisi secondaria Corbetta, capitolo 5. 1. Cos’è l’inchiesta campionaria
E N D
“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti
Lezione L’inchiesta campionaria e l’analisi secondaria Corbetta, capitolo 5. 1. Cos’è l’inchiesta campionaria 2. La matrice dei dati 3. L’analisi secondaria
L’Inchiesta campionaria (o Survey) La survey è un particolare metodo di raccolta dati basato su: • sull’interrogazione di un gruppo di individui “rappresentativi” di una certa popolazione, • secondo procedure standardizzate (questionario), • con l’obiettivo di studiare le relazioni tra le variabili rilevate sulle proprietà degli individui osservati.
La survey ideale Si raccolgono informazioni su tutta la popolazione oggetto di studio. Lo strumento di rilevazione è realmente oggettivo, tutti gli intervistati interpretano esattamente cosa viene chiesto loro e rispondono correttamente.
La “rappresentatività” La “rappresentatività” è determinata dal campionamento, ossia dalla procedura attraverso la quale si selezionano le unità di analisi nella popolazione su cui rilevare il fenomeno oggetto di studio. La selezione delle unità è detta CAMPIONE.
La “rappresentatività” In fase di campionamento (o selezione dei casi) possono commettersi tre errori: - di copertura - di campionamento - di non-risposta
La “rappresentatività” L’errore di copertura Non è conosciuta la lista della popolazione su cui effettuare la selezione! Ad esempio, non è possibile effettuare un campione di persone senza fissa dimora.
La “rappresentatività” L’errore di non risposta Parte consistente degli intervistati non viene raggiunta o si rifiuta di rispondere! Il rischio è che le non risposte potrebbero essere dovute a errori sistematici. Ad esempio è noto che nelle indagini in cui viene chiesto il reddito i lavoratori autonomi hanno tassi di non risposta molto maggiori dei lavoratori dipendenti. I campioni telefonici sono particolarmente esposti a questo problema.
La “rappresentatività” L’errore di campionamento E’ la misura di quanto il campione sia simile alla popolazione. NB: solo i campionamenti probabilistici (o casuali) assicurano la possibilità di conoscere la misura dell’imprecisione che commettiamo nel selezionare le unità di analisi.
La “rappresentatività” Un campionamento è casuale quando di ogni unità di analisi è nota la probabilità di essere estratta. La statistica ci offre allora gli strumenti matematici per misurare l’errore di campionamento.
La “rappresentatività” Campione casuale semplice: quando, per esempio, tutte le unità hanno la stessa probabilità di essere intervistate l’errore di campionamento per la media di un campione è: • Dove: • - z è il coefficiente che determina l’intervallo di fiducia, • - s è la deviazione standard, • n è l’ampiezza del campione ed N della popolazione , • f la frazione di campionamento, data da n/N La stima della media della popolazione è “approssimativamente” compresa al 95 % tra la media del campione più e meno e. NB: L’errore dipende più dall’ampiezza del campione che non da quella della popolazione.
Lo strumento di rilevazione: il questionario Nelle survey le procedure di raccolta delle informazioni consistono nell’utilizzare uno strumento di rilevazione standardizzato (il questionario): Lo scopo è assicurare, quanto il più possibile, l’invarianza dello stimolo, ossia lo strumento deve essere lo stesso per tutti i soggetti intervistati.
Lo strumento di rilevazione: il questionario Un questionario è caratterizzato dalla standardizzazione delle domande e delle risposte, ossia da un insieme di regole che assicurino il principio dell’invarianza dello stimolo.
Il Questionario: invarianza dello stimolo Con invarianza dello stimolo si intende che le domande debbono essere poste nello stesso modo ed avere lo stesso significato per tutti i soggetti intervistati. Le discrezionalità interpretative delle domande, dell’intervisto come dell’intervistatore, devono essere ridotte al minimo. Idealmente il questionario dovrebbe misurare l’oggettività della realtà e per questo dovrebbe possedere requisiti di neutralità ed universalità rispetto alle interpretazioni dell’intervistato e dell’intervistatore.
Il Questionario: le domande chiuse Uno dei principali criteri di standardizzazione è costituito dall’uso di domande chiuse, ossia domande la cui gamma di risposte è decisa a priori dal ricercatore.
Il Questionario: le domande chiuse, vantaggi I vantaggi delle domande chiuse sono: 1) presentano a tutti gli intervistati lo stesso quadro di riferimento, 2) costituiscono una sorta di promemoria che aiuta l’intervistato a ricordare, 3) eliminano l’indecisione nella risposta costringendo l’intervistato ad una scelta precisa.
Il Questionario: le domande chiuse, svantaggi Gli svantaggi delle domande chiuse sono: 1) impossibilità di registrare risposte alternative a quelle previste, 2) influenza delle opzioni sulle scelte che possono forzare l’intervistato, 3) maggiore rischio di discrezionalità dell’intervistato nell’interpretazione della domanda e della risposta.
Il Questionario: formulazione delle domande - 1 LINGUAGGIO: 1.Usare un linguaggio semplice (es: evitare concetti difficili o tecnicismi) 4.Evitare espressioni in gergo 5.Evitare definizioni ambigue (es: “locali nell’abitazione?”) 6.Evitare parole connotate negativamente (es: “Lei è xenofobo?”) 7.Evitare domande sintatticamente complesse (es: doppia negazione) 8.Evitare domande con risposta non univoca (non unire due domande in una) STRUTTURA: 2.Lunghezza delle domande 3.Numero delle alternative di risposta 21.Sequenza delle domande (seguire un criterio logico) SENSO: 9.Evitare domande non discriminanti (es: non fare domande scontate) 10.Evitare domande tendenziose (es: aggettivazioni come “i coraggiosi soldati”)
Il Questionario: formulazione delle domande - 2 COMPORTAMENTI E ATTEGGIAMENTI: 11.Comportamenti presunti (usare filtri, non dare scontati certi comportamenti) 12.Focalizzazione nel tempo (es:circoscrivere i tempi di un consumo culturale) 13.Concretezza Vs. astrazione (evitare concetti troppo astratti) 14.Comportamenti e atteggiamenti (distinguere i fatti dalle opinioni) 18.Intensità degli atteggiamenti (misurare intensità diverse) SENSIBILITA’ DELL’INTERVISTATO: 15.Desiderabilità sociale delle risposte (evitare stereotipi) 16.Domande imbarazzanti (spersonalizzare la domanda) 17.Mancanza di opinioni, non so (non forzare le risposte) 19.Acquiescenza o (uniformità nelle risposte – response set) 20.Effetto memoria (nelle interviste telefoniche)
Questionari on-lineArchivio dati per le Scienze Socialiwww.sociologiadip.unimib.it/sociodata
Modalità di raccolta dei dati • Le tecniche di raccolta dei dati tramite questionario si distinguono secondo le modalità di interfaccia tra intervistatore e intervistato e secondo il mezzo impiegato: • Assenza dell’intervistatore: • Questionario postale • Questionari auto-somministrati, con cartaceo • Questionari auto-compilati, on-line • Presenza dell’intervistatore: • Interviste faccia a faccia, con cartaceo (PAPI)* • Interviste faccia a faccia, con computer (CAPI)** • Interviste telefoniche (CATI)*** • * Paper Assisted Personal Interviewing • ** Computer Assisted Personal Interviewing • *** Computer Assisted Telephone Interviewing
La raccolta delle informazioni L’obiettivo della survey è lo studio delle relazioni tra le variabili: il questionario registra gli STATI delle proprietà che caratterizzano le unità di analisi (gli individui), con il fine di mettere in relazione le proprietà tra loro, secondo quelle che sono le ipotesi di ricerca.
La raccolta delle informazioni Alcune proprietà possono essere ad esempio: - l’anno di nascita - il genere - il grado del titolo di studio - la condizione occupazionale
La raccolta delle informazioni Gli stati su cui sono registrate le proprietà rappresentano i possibili modi con cui le proprietà si manifestano: - l’anno di nascita (1980, …, 1990) - il genere (maschio/femmina) - il titolo di studio (lic.elementare, …, laurea) - la condizione occupazionale (disoccupato, occupato, ritirato, …, altro)
La raccolta delle informazioni Gli stati delle proprietà sono registrati in VARIABILI e prendono il nome di VALORI, MODALITA’ o CATEGORIE della variabile. L’anno di nascita avrà un range di valori (var. metrica) Il genere avrà due modalità (variabile dicotomica) Il titolo di studio avrà k modalità ordinate (var.ordinale) La condizione occupazionale avrà k modalità non ordinabili (variabile categoriale) NB: anche alle modalità possono essere assegnati dei valori!
La matrice dei dati La survey raccoglie informazioni in una MATRICE DATI organizzata nella forma CASI X VARIABILI, dove a ogni riga corrisponde un caso (o UNITA’ di ANALISI), e ad ogni colonna una variabile. Le informazioni così organizzate permettono l’analisi dei dati attraverso l’uso di software statistici.
La matrice dei dati – Il data set La matrice dati in forma software è chiamata BASE DATI (DATA SET), ed è registrata come un qualsiasi file dati. Ad ogni individuo corrisponde un RECORD (l’insieme delle celle di una riga) che raccoglie tutte le informazioni che lo riguardano.
UN DATA SET (17 individui X 6 variabili) Età, Sesso, Stato civile, Stato civile precedente, Anno matrimonio, Titolo di studio
UN DATA SET (17 individui X 6 variabili) • Sul data set vengono realizzate analisi che: • sintetizzano le informazioni • ES: Nel campione considerato sono presenti 10 donne e 7 uomini; 3 laureati e 14 non laureati. • e che permettono di testare delle ipotesi sulle relazioni tra le variabili • ES: Nel campione considerato gli uomini sono più laureati delle donne (3/10 rispetto a 0/14).
Tipi di Survey • Esistono diversi tipi di survey: • Cross-sectional o trasversali: ripetute nel tempo su campioni diversi (es: Eurobarometer) • Survey trasversale retrospettiva (es:ILFI 1a wave) • Panel o longitudinali: ripetute nel tempo sugli stessi individui (ISTAT – Forze Lavoro) • Panel dinamico (ILFI), il campione può integrare nuovi casi secondo alcune regole di inclusione
Caratteristiche dell’analisi secondaria L’analisi secondaria utilizza dati già raccolti al di fuori degli scopi per cui questi dati erano stati prodotti inizialmente. I dati “archiviati” acquisiscono per questo un valore potenziale a prescindere dagli esiti dello studio in cui furono originati. L’analisi secondaria RICICLA dunque in modo creativo ed economico informazioni raccolte nel passato recente o lontano.
L’analisi secondaria ØL’analisi secondaria di dati survey ØVantaggi e svantaggi dell’analisi secondaria ØLe fonti dati
L’Analisi Secondaria di dati survey “Una ricerca che viene condotta su dati di inchiesta campionaria già precedentemente raccolti e disponibili nella forma della matrice-dati originale” Corbetta, pag.225
Caratteristiche dell’analisi secondaria Nell’analisi secondaria la raccolta dei dati non è responsabilità diretta del ricercatore. Nell’analisi primaria, infatti, il ricercatore è responsabile del disegno della ricerca, della raccolta dati, delle analisi e della presentazione dei risultati. Nell’analisi secondaria egli si occupa solo delle ultime due fasi.
Caratteristiche dell’analisi secondaria L’analisi secondaria e l’analisi primaria possono essere utilizzate in modo complementare. L’analisi secondaria può essere utile nello studio diacronico di un certo fenomeno sociale. Per il passato vengono utilizzati dati già esistenti, sulla loro base, per il presente, vengono raccolti nuovi dati ad hoc.
Vantaggi dell’analisi secondaria 1- Superamento dei problemi posti dai costi economici e di tempo.
Vantaggi dell’analisi secondaria 2- Sedimentazione storica dei dati che mette a disposizione un insieme di risorse informative sempre più ricco.* Inoltre una parte di queste risorse ha due qualità particolari: la rappresentatività dei campioni a livello nazionale e la standardizzazione dei metodi di rilevazione. Queste qualità permettono studi comparativi tra diverse nazioni.
Vantaggi dell’analisi secondaria * A favore della sedimentazione dei dati ha giocato un ruolo fondamentale lo sviluppo tecnologico, soprattutto nel campo informatico. Esso ha infatti agevolato sia la manipolabilità delle matrici dati sottoforma di files, sia la diffusione e l’accessibilità a software applicativi dedicati all’analisi statistica.
Vantaggi dell’analisi secondaria 3- Opportunità di comparare dati prodotti nel passato con dati prodotti in tempi successivi. Possibilità di effettuare analisi di trend su determinati fenomeni.
Svantaggi dell’analisi secondaria 1- I dati già raccolti sono semplicemente “vecchi”. Il loro utilizzo va contestualizzato al momento della rilevazione. Talvolta, in mancanza di dati aggiornati, si impiegano per studiare fenomeni che si vorrebbero attuali, ma la cui osservazione appartiene al passato.
Svantaggi dell’analisi secondaria 2- Quasi sempre i dati archiviati sono stati raccolti con finalità diverse da quelle per cui vengono riutilizzati nell’analisi secondaria. I ricercatori originari, perseguendo obiettivi diversi, potrebbero aver impiegato termini, definizioni, classificazioni e misurazioni delle variabili adeguati ai loro scopi, ma non adeguati al contesto in cui vengono riutilizzati.
Svantaggi dell’analisi secondaria 3- Quando si utilizzano dei dati archiviati occorre verificare e valutare la loro QUALITÀ. I dati non sono sempre “pronti all’uso” ed in certi casi possono non essere utilizzabili.
La qualità dei dati Reperebilità e Leggibilità dei files I files dei dati per l’analisi secondaria: - devono essere recuperati dalla fonte; - devono essere in un formato “leggibile”; - se non sono leggibili devono essere forniti della documentazione tecnica necessaria (es: tracciato record).
La qualità dei dati Documentazione metodologica Devono essere sempre noti fonte e disegno della ricerca, ed in particolare le note metodologiche su: - date e tempi della rilevazione, - campionamento, - tecniche di intervista (CATI, CAPI, ecc.), - questionario (domande e risposte), - codebook (codifica della matrice dati), - missing (distinzione tra NA, DK e mancanti).
La qualità dei dati Integrità dei dati Occorre verificare l’integrità dei dati in termini di corrispondenza della matrice-dati originale. A causa di possibili errori durante il trattamento dei dati le informazioni potrebbero infatti non corrispondere.
Le fonti dati L’analisi secondaria richiede dunque disponibilità di dati con un elevato livello di qualità. Il ricercatore che vuole fare analisi secondaria si rivolge così alle fonti di dati.
Fonti statistiche pubbliche (ufficiali) nazionali Servizi statistici statali nazionali (Istat, IRER, ecc.) ed enti pubblici preposti alla raccolta di dati (anagrafi comunali, uffici ministeriali, ecc.) Fonti autonome Società private (istituti di ricerca, banche, associazioni, ecc.) ed istituzioni accademiche o enti pubblici non preposti alla raccolta dei dati Fonti internazionali Servizi statistici sovranazionali (Eurostat,ecc.) e organizzazioni internazionali (ONU,OCSE, Fmi, ecc.) Archivi dati per le scienze sociali Archivi dati nazionali per le scienze sociali e network internazionali (ICPSR, UK Data Archive, ADPSS-Sociodata, ecc.) Le fonti dati: una classificazione
Le fonti statistiche pubbliche (ufficiali) nazionali Queste fonti iniziano a svilupparsi tra il ‘700 e l’800, quando gli stati nazionali necessitano, per motivi di amministrazione pubblica, di informazioni sulla popolazione raccolte in modo sistematico. Un esempio di dati prodotti da queste fonte sono i Censimenti della Popolazione. Il primo in Italia è quello del 1861.