Cap. 19 Test statistici CioÃ¨ come veriï¬care ipotesi statistiche utilizzando i dati campionari

Cap. 19 Test statisticiCioè come veriﬁcareipotesi statistiche utilizzando i dati campionari

Obbiettivo • L’obiettivo non è piùutilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro • L’obiettivo è invece utilizzare dati campionari per stabilire se un’ipotesi, qualche che essa sia, possa essere «ragionevolmente» accettata o riﬁutata(in termini probabilistici). • L’ipotesi statistica è una congettura riguardante una qualche caratteristica (statistica) del fenomeno in U • Tale congettura è formulata a priori, ovvero prima di estrarre il campione • L’ipotesi può essere parametrica, quando riguarda il valore di un parametro (la media, la varianza…) di U, oppure non parametrica, ad esempio l’esistenza o meno di relazione statistica in una coppia di fenomeni congiuntamente osservati sulla stessa U, oppure riguardo al tipo di v.c. adatta a interpretare il fenomeno in U … • L’ipotesi sottoposta a test si chiama ipotesi nulla (H0).

La veriﬁca di ipotesi (statistiche) è la metodologia inferenziale che a partire dai dati campionari porta a decidere se accettare o riﬁutare l’ipotesi nulla H0controllando probabilisticamente l’errore campionario. • Il test statistico è la regola pratica che porta a questa decisione.

Errore campionario • Un test statistico, cioèla regola che porta ad accettare o rifiutareH0, è basato sui dati campionari, cioèsu una osservazione parziale dell’intera U di riferimento. • E’ dunque condotto in condizioni di incertezza: quando il test porta al rifiuto di H0 questo non significa necessariamente “H0falsa” ma solo che “i dati campionari non suffragano sufficientementeH0”. Quando invece il test porta all’accettazione di H0questo non significa necessariamente “H0vera” ma soltanto che “i dati campionari sono consistenti e supportano H0”. • Accettare o rifiutareH0sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. • Errore di I specie: rifiutare H0 quando H0 è vera. • Errore di II specie: accettare H0 quando H0 è falsa.

Livello di significatività • Il livello di significatività, ovvero la probabilità dell’errore di I specie che si è disposti a tollerare, è scelto a piacere • Però, minore è la probabilità dell’errore di I specie (a) che si è disposti a tollerare, maggiore è la probabilità dell’errore di II specie (b) che si è costretti a subire. • L’ideale sarebbe avere dei dati che identifichino con grande precisione la correttezza della nostra ipotesi statistica, ovvero tali per cui anche fissando una piccola probabilità dell’errore di I specie (a) si abbia una piccola probabilità dell’errore di II specie (b), ovvero un valore grande di 1- b (che viene chiamato potenza del test statistico). • Generalmente il livello di significatività è fissato al 90%, 95% o 99%

Z-test per la verifica di ipotesi su mpopolazione normale, s2nota • Si calcola la stima puntuale per m, cioè la media del campione: • Se H0 è vera, dovrebbe essere piccola

Z-test per la verifica di ipotesi su mpopolazione normale, s2nota • Con le probabilità scelte ae (1- a)si divide la probabilità(area) sotto la curva a campana della statistica test Z in due zone: • una zona di valori a favore dell’accettazione di H0. Sono i valori intorno allo 0, con probabilità pari a (1- a) -zona di accettazione • una zona di valori che depongono per il riﬁuto di H0. Sono i valori lontani da 0 (in + e in -) cioè quelli corrispondenti alle due code della campana. Sotto ciascuna coda si divide la probabilitàresidua aequamente in a/2e a/2– zona di rifiuto o zona critica. • Test: si riﬁutaH0 a livello (1- a)se il valore sperimentale cade nella regione critica, individuata dal valore Z-score za/2

Z-test per la verifica di ipotesi su mpopolazione normale, s2ignota • Al posto di s2 utilizziamo la sua stima: • La statistica test che si ottiene non è più distribuita come una normale standard Z ma come una T di Student con n-1 gradi di libertà: • Per ottenere il valore critico del test bisogna guardare sulle tavole il T-score ta/2

Test approssimati per grandi campioni • in mancanza di informazioni ausiliarie a priorisulla normalitàdella popolazione è necessario compensare con una quantitàdi dati campionari sufﬁcientemente grande.

Z-test per la verifica di ipotesi sulla frequenza relativa p, grandi campioni

Verifica dell’ipotesi di indipendenza statistica tra due variabili X e Y • Quando si dispone di dati completi, cioè in ambito descrittivo, si ha se e soltanto se X e Y sono statisticamente indipendenti. • Con dati campionari l’indice può essere diverso da 0 anche se X e Y sono statisticamente indipendenti, a causa dell’errore campionario.

Verifica dell’ipotesi di indipendenza statistica tra due variabili X e Y • Un teorema di teoria delle probabilitàgarantisce che per n sufﬁcientementegrande (e, come al solito, sotto H0) la statistica test c2 è approssimativamente una v.c. chiamata (anche lei!) Chi quadrato con gradi di libertà (k-1)(h-1), dove k è il numero di righe e h è il numero di colonne della tabella di contingenza, cioè dei dati campionari.

Test Chi quadrato di indipendenza statistica • Il valore sperimentale coincide in questo caso con la stima puntuale del c2 • Questo valore va confrontato con il valore critico riportato nelle tavole, per i relativi gradi di libertà

Cap. 19 Test statistici CioÃ¨ come veriï¬care ipotesi statistiche utilizzando i dati campionari