620 likes | 777 Views
Lo stimatore. Si definisce stimatore la v.c. descritta dai diversi valori che può assumere una stima al variare del campione estratto.
E N D
Lo stimatore • Si definisce stimatore la v.c. descritta dai diversi valori che può assumere una stima al variare del campione estratto. • Mentre lo stimatore di un parametro è una v.c., la stima è il valore assunto dallo stimatore in seguito all’estrazione di un campione di n elementi ed il calcolo della statistica al suo interno. • Per stimare il parametro incognito della popolazione è possibile poter scegliere tra differenti stimatori associati a differenti funzioni (v.c) dei dati campionari • Sarà scelto quello stimatore che riesce a fornire una stima che abbia la massima probabilità di avvicinarsi al vero valore del parametro da stimare
Le proprietà dello stimatore • Uno stimatore deve avere le seguenti proprietà: • Correttezza Il suo valore atteso coincide con il parametro della popolazione • Consistenza E’ una proprietà asintotica. Uno stimatore è consistente se al crescere della numerosità campionaria, la sua distribuzione tende ad accentrarsi sempre più vicino al parametro della popolazione. • Efficienza relativa Nel confronto tra due stimatori corretti uno stimatore è più efficiente dell’altro se presenta varianza più piccola. Esperimenti di simulazione
Stima della media della popolazione con deviazione standard nota • Come si ottiene un intervallo di confidenza dalla distribuzione campionaria? • Per stimare m,viene estratto un campione di numerosità n e la media deve essere calcolata • Sotto certe condizioni, si distribuisce in modo normale (o approssimativamente normale)così:
1 - a dei valori ottenuti estraendo tutti i possibili campioni di numerosità n, determinano un intervallo che include il valore atteso della popolazione • Da qui la relazione: Noi sappiamo che
Livello di Confidenza 1 - a Limite superiore Limite inferiore Guardiamo la simulazione
Non tutti gli intervalli di confidenza sono corretti UCL LCL Non tutti contengo all’interno il valore atteso pari a 100 0 100 Il livello di confidenza è 90%, e 10 dei 100 non contengono al loro interno m
Supponiamo di voler calcolare il valor medio di una distribuzione risultante dal lancio di due dadi ripetuto 100 volte La devianza standard è nota e pari as = 1.71. Al livello di confidenza del 90% l’intervallo di confidenza è: za/2 4 sono i Livelli di confidenza comunemente utilizzati Con 100 lanci l’intervallo di confidenza è: [media campionaria - .28, media campionaria + .28]
Ricalcolare l’intervallo di confidenza al livello di confidenza di 95% Soluzione • L’intervallo al 90% è = 2(.28) = .56 • L’intervallo al 95% è = 2(.34) = .68 • Perchè al 95% l’intervallo è maggiore, è più probabile • che includa il valore di m. .95 .90
Esempio • Si vuole stimare il numero medio di ore alla settimana passate dai bambini a guardare la televisione • Si intervistano 100 bambini • Calcolare l’intervallo di confidenza al 95%, sapendo che la devianza standard è s = 8.0 Soluzione Il parametro da stimare è m (numero di ore settimanali passate davanti alla TV) 1 - a =.95, a = .05. a/2 = .025. Z.025 = 1.96
Osserviamo l’istogramma. Esso mostra che la variabile Numero di ore passate davanti la Tv, si distribuisce in modo normale. L’uso della distribuzione normale per il calcolo dell’intervallo è allora appropriato. (Teorema del Limite Centrale) • Analisi con Excel
Interpretazione dell’intervallo di confidenza • E’ sbagliato dire che l’intervallo di confidenza è un intervallo per il quale ci sono 1 - apossibilità che la media della popolazione cada tra il limite inferiore e quello superiore. • Questo perchèmè un parametro e non una variabile casuale.
L’ampiezza dell’intervallo di confidenza è funzione di: • Deviazione standard della popolazione • Livello di confidenza • Numerosità del campione
Accuratezza della stima La numerosità campionaria • Possiamo controllare il variare dell’ampiezza dell’intervallo di confidenza al variare della numerosità campionaria • Possiamo invece stabilire l’intervallo campionario e calcolare la numerosità campionaria necessaria La numerosità campionaria necessaria per stimare la media è:
Esempio • Si vuole verificare il diametro dei bulloni prodotti dalla propria fabbrica con un’accuratezza di stima pari ad 1 mm. • Quale deve essere la numerosità campionaria con: • Ipotesi di distribuzione normale del diametro dei bulloni • Livello di confidenza 99% • Deviazione Standard nota e pari a s = 6 mm. • d=1 mm.
n n*= 1 + n/N • Soluzione • L’accuratezza della stima è +/- 1 mm. • Con un livello di confidenza del 99% a = .01, allora za/2 = z.005 = 2.575. • Se si conosce la numerosità della popolazione c’è la correzione per popolazioni finite
Esempio • Si vuole verificare la percentuale di pezzi difettosi prodotti dalla propria fabbrica con un’accuratezza delle stima pari al 2%. • Quale deve essere la numerosità campionaria con: • Ipotesi di approssimazione alla distribuzione normale standardizzata • Livello di confidenza 99% • Deviazione Standard nota e pari a s =10 • d=2
Soluzione • L’accuratezza della stima è +/-2 • Con un livello di confidenza del 99% a = .01, za/2 = z.005 = 2.575.
Esperimenti di simulazione • Non distorsione della media campionaria • Vogliamo dimostrare che la media campianaria è uno stimatore corretto della media della popolazionem, estraendo campioni di numerosità 4 utilizzando: • La Distribuzione binomiale con p = .3 e n = 10, per 100 campioni • La Distribuzione normale con m = 3 e s = .75, per 300 campioni • E’ calcolata la media delle medie campionarie ed è dimostrato per 10, 20, … campioni
Risultati simulati per una distribuzione binomiale m = np = 3. Numero di campioni 10 20 30 100 Risultati simulati per una distribuzione normale m = 3. 10 30 100 300
distorsione della varianza campionaria • Vogliamo dimostrare che la varianza campianaria non è uno stimatore corretto della varianza della popolazionem, estraendo campioni di numerosità 4 utilizzando: • Confronteremo l’errore associato a s2 (corretto) con l’errore associato alla variabile casuale campionaria v2 • I campioni sono estratti da una Distribuzione binomiale con p = .3 e n = 10, per 100 campioni
Lo stimatore s2 approssima il valore reale della varianza 2.1 La variabile v2 è sempre al di sotto del valore reale della varianza (l’andamento è però simile)
TEST D’IPOTESI • La verifica di ipotesi vaglia il grado di attendibilità che può essere attribuito a delle ipotesi, che riguardano il valore di un parametro incognito di una distribuzione Esempio Considerato che in un campione casuale di consumatore il p% ha preferito un nuovo prodotto come posso considerare valida tale ipotesi per la popolazione?
Il concetto di test di ipotesi • Ci sono due ipotesicirca il parametro o i parametri della popolazione. • H0L’ipotesi nulla[ ad esempio m = 5] • H1L’ipotesi alternativa[ ad esempio m <5] • Le ipotesi possono essere: • Semplicise si specifica in modo univoco la distribuzione della popolazione oggetto di rilevazione • Compostese si specificano diversi valori del parametro A loro volta possono essere • Unidirezionali • Bidirezionali
Esempio Supponiamo di voler verificare:. • H0 L’ipotesi nulla [m = 5] • contro H1L’ipotesi alternativa[m <5] Quello che vogliamo provare Costruiamo, attraverso i risultati campionari, la statistica relativa al parametro ipotizzato Ci domandiamo quale è il grado di attendibilità delle osservazioni campionarie, in modo da stabilire se le differenze risultanti rispetto alla popolazione siano significative oppure dovute ad errore campionario m = 5
Abbiamo due possibilità:. • Rifiutare H0 (l’ipotesi nulla) in favore dell’ipotesi alternativa • AccettareH0 (l’ipotesi nulla) a sfavoredell’ipotesi alternativa • Possiamo commettere due tipi di errore: • Errore di primo tipo - Rifiuto H0 (l’ipotesi nulla) quando essa è vera • Errore di secondo tipo - Accetto H0 (l’ipotesi nulla) quando essa è falsa
Verifica di ipotesi sulla media di una popolazione con varianza nota Esempio 1 • Un nuovo sistema di gestione di carte di credito sarà implementato in un ipermercato solo se la spesa media mensili con carte di credito è maggiore di 170 Euro • Un campione di 400 estratti conto mensili viene esaminato • Si suppone che la spesa mensile con carta di credito abbia una distribuzione normale con s = 65 Euro Il nuovo sistema sarà implementato?
Ipotesi alternativa Ipotesi nulla Soluzione • La popolazione di interesse è l’ammontare di spesa mensile effettuata con carta di credito • Si vuole dimostrare che la spesa media mensile con carta di credito è maggiore di 170 Euro H1 : m > 170 • L’ ipotesi nulla è relativa ad un solo valore del parametro m : H0 : m = 170
178 Se m è uguale a 170, allora .La distribuzione della media campionaria mostrerà questo E’ lo stesso avere sotto l’ipotesi nulla (m = 170)? Una media campionaria di 178 è sufficientemente più grande di 170 per affermare che la media della popolazione è maggiore di 170?
Bisogna definire il valore di che si ritiene sufficiente per rifiutare l’ipotesi nulla . La regione di rifiuto sarà, dunque: Il metodo della regione di rifiuto La regione di rifiuto è un range di valori: se il valor test cade in questo range, l’ipotesi nulla è rifiutata in favore dell’ipotesi alternativa
La Regione di rifiuto è: Non rifiutiamo H0 Rifiutiamo H0
= P( dato che H0 è vera) La Regione di rifiuto è : a Rifiutiamo H0 qui a = P(commettere errore I tipo) = P(rifiutare H0 quando H0 è vera)
La Regione di rifiuto è : a = 0.05
a = 0.05 La Regione di rifiuto è : Conclusione La media campionaria (178) è maggiore del valore critico 175.34, perciò c’è sufficiente evidenza statistica per rifiutare H0 a favore di H1, al livello di significatività del 5% 178
Il test statistico standardizzato • Invece di utilizzare la statistica , possiamo utilizzare il valore standardizzato z • Allora rifiuteremo la regione perchè Test ad una coda
Esempio 1 - continua Svolgiamo l’esercizio utilizzando il test statistico standardizzato H0: m = 170 H1: m > 170 • Test statistico: • Regione di rifiuto: z > z.05 = 1.645. • Conclusione: 2.46 > 1.645, così rifiutiamo l’ipotesi nulla in favore dell’ipotesi alternativa
Metodo del P-value Il p-value del test è la probabilità associata al test statistico • Il p - value fornisce informazioni circa la significatività che supporta l’ipotesi alternativa
Esempio 1 - continua La probabilità di avere un test statistico con un valore che delimita la regione di rifiuto pari a 178 è: Il p-value
L’evento è raro sotto H0 con ma… …diventa più probabile sotto H1, con Interpretazione del p-value Dato che la probabilità che la media campionaria possa assumere un valore maggiore di 178 quando m = 170 è così piccola (.0069), ci sono ottime ragioni per credere che m > 170. Possiamo concludere che più piccolo è il p-value e più significatività è a supporto dell’ipotesi alternativa
Descrizione del p-value • Se il p-value è minore di 1%, c’è una estrema evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è compreso tra 1% e 5%, c’è una forte evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è compreso tra 5% e 10%, c’è una debole evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è maggiore del 10%, non c’è evidenza statistica a supporto dell’ipotesi alternativa
Esempio 2 • Con un campione di 25 bottiglie si vuole controllare che il contenuto medio delle bottiglie prodotte non sia inferiore a 16 ml come indicato sull’etichetta. • Viene misurato il contenuto delle 25 bottiglie • Da precedenti esperienze si sa che il contenuto si distribuisce in modo normale con deviazione standard pari a 0.4 ml • Quando possiamo considerare non veritiera l’indicazione sull’etichetta?
H0: m = 16 Vogliamo testare l’ipotesi nulla H1: m < 16 Contro l’ipotesi alternativa • Il test statistico è Soluzione H0: m = 16 Allora Si seleziona il livello di significatività a = 0.05 H1: m < 16 Si definisce la regione di accettazione z < - za = -1.645 Test ad una coda
Si rifiuta l’ipotesi nulla m =16, a favore dell’ipotesi alternativa m < 16 quando a = 0.05 Regione di Rifiuto -1.25 a = 0.05 0 è troppo piccolo 16 Un campione con una media così lontana da 16, È veramente un evento raro se m = 16. -za= -1.645
Regione di Rifiuto -1.25 a = 0.05 Il valore della statistica test non cade nell’area di rifiuto per cui accettiamo l’ipotesi nulla Non c’è sufficiente evidenze per dire che la media della popolazione è minore di 16ml. p-value = P(Z < - 1.25) = .1056 > .05 -za= -1.645 0
Esempio 3 • Il tempo richiesto per completare una parte di produzione critica in una catena di produzione si distribuisce in modo normale. Si pensa che la media sia 130 sec. • Testare se vera questa ipotesi con un campione di 100 osservazioni la cui media è di 126,8 sec. E conoscendo la deviazione standard che è pari a 15 sec.
H0: m = 130 Vogliamo testare l’ipotesi nulla H1: m = 130 Contro l’ipotesi alternativa Soluzione Definiamo la regione di accettazione z < - za/2o z > za/2
Dobbiamo stabilire i valori a/2 = 0.025 a/2 = 0.025 a/2 = 0.025 a/2 = 0.025 0 za/2= 1.96 -za/2= -1.96 Regione di accettazione Per rifiutare l’ipotesi nulla a favore di quella alternativa 130
za/2= 1.96 -za/2= -1.96 Il valore del test statistico cade nell’area di rifiuto quindi rifiutiamo l’ipotesi nulla C’è sufficiente evidenza statistica per affermare che la media non è 130. p-value = P(Z < - 2.13)+P(Z > 2.13) = 2(.0166) = .0332 < .05 a/2 = 0.025 a/2 = 0.025 -2.13 2.13 0
a m= m1 Come si calcola l’errore di II tipo Il calcolo richiede che: • La regione di rifiuto sia espressa nel valore del parametro (non standardizzando) • Il valore alternativo (sotto H1) sia specificato H0: m = m0 H1: m = m1 (m0 non è uguale a m1) m= m0
a = .05 • Riprendiamo l’Esempio 1 • La regione di rifiuto era con a = .05. m0 = 170 175.34 …ma H0 è falsa m1 = 180 175.34
6.5.1Gli effetti su b al cambiamento di a Diminuendo il livello dia,cresce il valore dib, e viceversa a1 > a2 b1 < b2 • Il valore dib, può essere diminuito aumentando la numerosità del campione