1 / 49

TECNICHE DI COSTRUZIONE DEI TEST

OBIETTIVO: COME SCEGLIERE UN TEST? Come costruire un test?. Che cosa vogliamo misurare?Che cosa misura il test?In che misura il test riesce a misurare ci che intende misurare?. TIPI DI TEST. Test qualitativi e test quantitativiObiettiviStimoliRisposteSistemi di codifica delle risposteTest

chi
Download Presentation

TECNICHE DI COSTRUZIONE DEI TEST

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. TECNICHE DI COSTRUZIONE DEI TEST prof.ssa Lisa Di Blas diblali@units.it ricevimento: Martedì 10.30-12.00, st. 501E

    2. OBIETTIVO: COME SCEGLIERE UN TEST? Come costruire un test? Che cosa vogliamo misurare? Che cosa misura il test? In che misura il test riesce a misurare ciò che intende misurare?

    3. TIPI DI TEST Test qualitativi e test quantitativi Obiettivi Stimoli Risposte Sistemi di codifica delle risposte Test di massima prestazione e test di tipica prestazione Obiettivi Stimoli Risposte Sistemi di codifica delle risposte

    4. TEST COME STRUMENTO DI OSSERVAZIONE SISTEMATICA: procedura di somministrazione e di scoring standardizzati TEST QUANTITATIVO SI PROPONE di MISURARE una QUALITÀ ovvero di ASSEGNARE una QUANTITÀ ad una QUALITÀ PSICOLOGICA

    5. COME MISURIAMO? Misurazione come processo di assegnazione di valori numerici ad entità non numeriche, secondo regole di corrispondenza Nei test di cui ci occupiamo si usano scale Likert (ordinali) per dare un valore numerico alle risposte ai singoli item punteggi su scala (o aggregato di item) per definire profili e misure di qualità (livello di scala ordinale, ma trattate COME SE fossero a livello di scala a intervalli, quando i punteggi osservati hanno una distribuzione normale )

    6. CHE COSA MISURIAMO? UN COSTRUTTO Il costrutto è un concetto teorico, formulato per rappresentare la qualità psicologica che si vuole valutare o misurare in modo sistematico COSTRUTTO ? REALTÀ

    7. DEFINIRE UN COSTRUTTO Definizione teorica del costrutto: Che cosa intendiamo per …? Dalla definizione dipendono i nostri tentativi di misurare il costrutto (facet analysis) Definizione operativa del costrutto: Quale metodo di misurazione? Quali indicatori? Definizione empirica del costrutto: Che cosa mostrano i dati empirici? In che direzione vanno? È il dominio della Psicometria

    8. DEFINIRE UN COSTRUTTO Ogni scelta circoscrive il costrutto: pertanto costrutto ?misura

    9. DEFINIRE UN COSTRUTTO I risultati empirici permettono di raffinare il costrutto, in un processo circolare da definizione teorica a definizione empirica La definizione del costrutto è in ogni caso un processo virtualmente infinito,poiché ogni momento della definizione può essere corretto e migliorato

    10. L’ERRORE NEL PROCESSO DI MISURAZIONE In ogni momento della definizione del costrutto, dalla definizione teorica a quella empirica, possiamo commettere errori

    11. FONTI d’ERRORE nella MISURAZIONE ERRORI SISTEMATICI: Definizione del costrutto Scelta degli indicatori oppure del metodo Trattamento dei dati possono essere tenuti sotto controllo migliorando la definizione del costrutto, attraverso i vari livelli ERRORI CASUALI non possono essere tenuti sotto controllo, ma si può stimare il loro impatto

    12. REALTÀ COSTRUTTO ERRORE PUNTEGGIO (MISURA) La qualità della relazione tra COSTRUTTO e PUNTEGGIO può essere valutata sotto 3 aspetti Validità Affidabilità Generalizzabilità

    13. 3 proprietà essenziali di un test VALIDITÀ: capacità di un test di misurare ciò che intende misurare (errore sistematico) Validità di contenuto Validità esterna Validità di costrutto AFFIDABILITÀ: stabilità o coerenza con cui il test misura ciò che misura (errore casuale) GENERALIZZABILITÀ: con quale accuratezza è possibile estendere un campione di osservazioni all’universo che dovrebbero rappresentare?

    14. VALIDITÀ di CONTENUTO La verifica della validità di contenuto dipende essenzialmente da VALUTAZIONI su Campionatura degli stimoli Aspetti formali del test (dal titolo alla griglia di correzione)

    15. VALIDITÀ di CONTENUTO: aspetti formali che coinvolgono anche la validità apparente REGOLA BASE: NESSUNA DIFFICOLTÀ NON PERTINENTE TITOLO ISTRUZIONI ITEM: evitare l’uso di linguaggio complesso negazioni (“Non mi sembra di preoccuparmi per quello che mi succede”) domande doppie (“Mi piace ascoltare musica e leggere libri”)

    16. VALIDITÀ di CONTENUTO: aspetti formali OPZIONI di RISPOSTA risposte aperte dicotomiche likert unipolari (da poco a moderatamente a molto) bipolari (da opposto a neutro a molto) GRIGLIA di CORREZIONE è valida se permette di classificare qualsiasi tipo di risposta e se più siglatori assegnano alla stessa risposta lo stesso valore numerico (o categoria)

    17. VALIDITÀ di CONTENUTO: aspetti formali Controllare gli stili di risposta acquiescenza: item rovesciati (da ricodificare prima di calcolare i punteggi scala) desiderabilità sociale: scala Lie risposte estreme

    18. VALIDITÀ di CONTENUTO: la campionatura degli stimoli Possiamo sostenere che gli stimoli del test sono coerenti con la definizione del costrutto e che lo rappresentano in tutti i suoi aspetti? Giudizio di esperti Giudizio delle persone cui il test è destinato Verifica psicometrica: grado di accordo tra giudici

    19. VALIDITÀ di CONTENUTO: la campionatura degli stimoli Grado di accordo tra giudici (interrater agreement): rappresenta il grado in cui diverse persone assegnano esattamente lo stesso valore numerico (o categoria) allo stesso oggetto di valutazione Regola pratica: meglio includere indicatori di debole validità che rischiare di escludere indicatori validi: CRITERI NON RESTRITTIVI IN FASE DI SELEZIONE Percentuale di accordo (sul singolo stimolo e sull’insieme) Coefficiente k di Cohen (sull’insieme di stimoli)

    20. VALIDITÀ di CONTENUTO: in breve, la validità di contenuto è un giudizio formulato intorno al grado di corrispondenza tra definizione teorica e definizione operativa del costrutto: se contenuti e forma del test sono stati espressi in modo tale da cogliere ciò che si intende misurare e non altro, limitando l’impatto di errori sistematici (tra cui bias cognitivo-affettivi del rispondente)

    21. VALIDITÀ ESTERNA Se un costrutto viene elaborato per osservare e comprendere la realtà, allora un costrutto e la sua misura può dirsi valido quando trova un riscontro in un evento esterno (criterio). Un test è valido se permette di prevedere correttamente le reazioni di un individuo in determinate circostanze

    22. VALIDITÀ ESTERNA: la scelta del criterio formulazione di ipotesi “se … allora …” chiare e sensate in termini teorici precisando a priori i livelli di generalità delle variabili confrontate le reti di relazioni attese tra misure del costrutto e del criterio le conclusioni circa la validità del test in esame dipendono dalla scelta del criterio

    23. VALIDITÀ ESTERNA: la variabile “tempo” Validità concorrente test e criterio sono rilevati in un unico momento temporale T1 Validità di previsione test e criterio sono rilevati in momenti differenti, con test in T1 e criterio in T2, T3, … La distanza temporale deve essere scelta in linea con ipotesi teoriche

    24. VALIDITÀ ESTERNA: tecniche di verifica Analisi della correlazione (lineare) Analisi della regressione (lineare) obiettivi esplicativi: spiegare una variabile spiegare una relazione obiettivi applicativi di previsione Metodo dei gruppi contrapposti

    25. VALIDITÀ CONCORRENTE Verifica l’intensità e la direzione della relazione tra test e criterio, rilevati in un breve arco di tempo. Il risultato empirico ha senso solo in relazione a esiti attesi. I correlati osservati aiutano a ridefinire ciò che stiamo misurando VALIDITÀ CONVERGENTE: quando si rileva una correlazione da moderata a elevata tra 2 misure di costrutti teoricamente (piuttosto) simili VALIDITÀ DIVERGENTE: quando si rileva una correlazione bassa o nulla tra 2 misure di costrutti teoricamente dissimili

    26. VALIDITÀ CONCORRENTE: un esempio (N = 70)

    27. VALIDITÀ CONCORRENTE: un esempio (N = 70)

    28. ANALISI DELLA REGRESSIONE MULTIPLA A SCOPO ESPLICATIVO Le relazioni tra la misura e le variabili esterne al test è coerente con le ipotesi formulate sulla base delle relazioni che intercorrono logicamente il costrutto che si intende misurare e le variabili esterne?

    29. ANALISI DELLA REGRESSIONE MULTIPLA A SCOPO ESPLICATIVO Si stabilisce una relazione di DIPENDENZA tra test e criteri esterni secondo criteri logici: Il test è una delle VI che si associa in modo esclusivo al criterio esterno (VD), quando inserita in un modello di regressione che verifica anche l’impatto di un insieme VI teoricamente rilevanti? Quale il suo peso unico? peso coerente con le attese? Se confrontato con più criteri esterni (VI), il test (VD) come si associa in modo esclusivo a ciascuno di questi?

    30. ANALISI DELLA REGRESSIONE MULTIPLA: elementi informativi 1. l’equazione di previsione di Y con 2 VI:

    31. ANALISI DELLA REGRESSIONE MULTIPLA: elementi informativi 2. Coefficienti di regressione parziale, b e ß: rappresentano il peso o impatto unico di ciascuna VI nell’equazione di previsione di Y (t test verifica ovvero )

    32. ANALISI DELLA REGRESSIONE MULTIPLA: elementi informativi 3A. Coefficiente di correlazione semi-parziale: rappresenta la % di varianza che ogni VI, parzializzata dalle altre VI, spiega della varianza totale di Y 3B. Coefficiente di correlazione parziale: rappresenta la % di varianza che ogni VI, parzializzata dalle altre VI, spiega della varianza di Y, parzializzata dalle altre VI

    35. ANALISI DELLA REGRESSIONE MULTIPLA: elementi informativi 4. Coefficiente di determinazione multiplo : rappresenta un indice quantitativo di RPE o riduzione proporzionale dell’errore ( )

    36.

    37. VALIDITÀ ESTERNA: la scelta del criterio Le VI devono presentare bassi livelli di intercorrelazione (multicollinearità) per poter contribuire significativamente alla stima della VD.

    38. VALIDITÀ ESTERNA: la scelta del criterio Un eventuale errore di specificazione pesa sulla significatività dell’intero modello di previsione e sulla precisione dei coefficienti parziali di associazione

    39. ANALISI DELLA REGRESSIONE MULTIPLA a SCOPO di PREVISIONE Legge della parsimonia: maggior con minor costo ovvero numero di k predittori La variabilità dei punteggi residui attorno alla retta di regressione può essere espressa come: e a livello di dati campionari, l’errore standard della stima l’errore standard della previsione è dato da

    40. ANALISI DELLA REGRESSIONE MULTIPLA a SCOPO di PREVISIONE pertanto è possibile definire intervalli fiduciari atorno al valore di Y stimato:

    41. La predicibilità differenziale : il predittore è equo? Equità delle misure: stessa intercetta per i diversi sottogruppi Equità relazionale: stesso coefficiente di regressione per i sottogruppi Può esserci Equità delle misure, ma non relazionale Equità relazionale, ma non delle misure Disequità relazionale e disequità delle misure

    42. La predicibilità differenziale : equità delle misure?

    43. La predicibilità differenziale: equità relazionale? Le differenze sistematiche tra sottogruppi possono dipendere da variabili moderatrici (se escluse, errore di specificazione) Un esempio

    44. La predicibilità differenziale : tecniche di verifica* Confronto statistico tra parametri osservati nei diversi campioni Analisi della regressione: la VM viene aggiunta nel modello di previsione dopo aver centrato la VM, viene creato il termine d’interazione Quale l’effetto dell’interazione? R2change L’effetto è significativo? F E qual è la natura dell’effetto? Confronto tra parametri

    45. 3 gruppi High (+ 0,5 SD) Beta = .300 (R2 = .106) Medium Beta = .290 (R2 = .118) Low (-0,5 SD) Beta = .046 (R2 = .005)

    46. ESERCITAZIONI: Correlazioni: verifica della validità esterna, convergente e divergente, tra misure dei Big Five: Big Five Marker Scales e Five Factor Personality Inventory

    47. ESERCITAZIONI: Correlazioni tra le scale stesse del Five Factor Personality Inventory (FFPI)

    48. ESERCITAZIONI: ARM viene applicata per verificare le associazioni parziali tra scale BFMEX (VD) e FFPI-Big Five (VI)

    49. ESERCITAZIONI: ARM viene applicata per verificare le associazioni parziali tra scale BFMEX (VD) e FFPI-Big Five (VI)

    50. ESERCITAZIONI: ARM viene applicata per verificare le associazioni parziali tra scale BFMEX (VD) e FFPI-Big Five (VI)

More Related