1 / 61

Lo stimatore

Lo stimatore. Si definisce stimatore la v.c. descritta dai diversi valori che può assumere una stima al variare del campione estratto.

kelii
Download Presentation

Lo stimatore

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lo stimatore • Si definisce stimatore la v.c. descritta dai diversi valori che può assumere una stima al variare del campione estratto. • Mentre lo stimatore di un parametro è una v.c., la stima è il valore assunto dallo stimatore in seguito all’estrazione di un campione di n elementi ed il calcolo della statistica al suo interno. • Per stimare il parametro incognito della popolazione è possibile poter scegliere tra differenti stimatori associati a differenti funzioni (v.c) dei dati campionari • Sarà scelto quello stimatore che riesce a fornire una stima che abbia la massima probabilità di avvicinarsi al vero valore del parametro da stimare

  2. Le proprietà dello stimatore • Uno stimatore deve avere le seguenti proprietà: • Correttezza Il suo valore atteso coincide con il parametro della popolazione • Consistenza E’ una proprietà asintotica. Uno stimatore è consistente se al crescere della numerosità campionaria, la sua distribuzione tende ad accentrarsi sempre più vicino al parametro della popolazione. • Efficienza relativa Nel confronto tra due stimatori corretti uno stimatore è più efficiente dell’altro se presenta varianza più piccola. Esperimenti di simulazione

  3. Stima della media della popolazione con deviazione standard nota • Come si ottiene un intervallo di confidenza dalla distribuzione campionaria? • Per stimare m,viene estratto un campione di numerosità n e la media deve essere calcolata • Sotto certe condizioni, si distribuisce in modo normale (o approssimativamente normale)così:

  4. 1 - a dei valori ottenuti estraendo tutti i possibili campioni di numerosità n, determinano un intervallo che include il valore atteso della popolazione • Da qui la relazione: Noi sappiamo che

  5. Livello di Confidenza 1 - a Limite superiore Limite inferiore Guardiamo la simulazione

  6. Non tutti gli intervalli di confidenza sono corretti UCL LCL Non tutti contengo all’interno il valore atteso pari a 100 0 100 Il livello di confidenza è 90%, e 10 dei 100 non contengono al loro interno m

  7. Supponiamo di voler calcolare il valor medio di una distribuzione risultante dal lancio di due dadi ripetuto 100 volte La devianza standard è nota e pari as = 1.71. Al livello di confidenza del 90% l’intervallo di confidenza è: za/2 4 sono i Livelli di confidenza comunemente utilizzati Con 100 lanci l’intervallo di confidenza è: [media campionaria - .28, media campionaria + .28]

  8. Ricalcolare l’intervallo di confidenza al livello di confidenza di 95% Soluzione • L’intervallo al 90% è = 2(.28) = .56 • L’intervallo al 95% è = 2(.34) = .68 • Perchè al 95% l’intervallo è maggiore, è più probabile • che includa il valore di m. .95 .90

  9. Esempio • Si vuole stimare il numero medio di ore alla settimana passate dai bambini a guardare la televisione • Si intervistano 100 bambini • Calcolare l’intervallo di confidenza al 95%, sapendo che la devianza standard è s = 8.0 Soluzione Il parametro da stimare è m (numero di ore settimanali passate davanti alla TV) 1 - a =.95, a = .05. a/2 = .025. Z.025 = 1.96

  10. Osserviamo l’istogramma. Esso mostra che la variabile Numero di ore passate davanti la Tv, si distribuisce in modo normale. L’uso della distribuzione normale per il calcolo dell’intervallo è allora appropriato. (Teorema del Limite Centrale) • Analisi con Excel

  11. Interpretazione dell’intervallo di confidenza • E’ sbagliato dire che l’intervallo di confidenza è un intervallo per il quale ci sono 1 - apossibilità che la media della popolazione cada tra il limite inferiore e quello superiore. • Questo perchèmè un parametro e non una variabile casuale.

  12. L’ampiezza dell’intervallo di confidenza è funzione di: • Deviazione standard della popolazione • Livello di confidenza • Numerosità del campione

  13. Accuratezza della stima La numerosità campionaria • Possiamo controllare il variare dell’ampiezza dell’intervallo di confidenza al variare della numerosità campionaria • Possiamo invece stabilire l’intervallo campionario e calcolare la numerosità campionaria necessaria La numerosità campionaria necessaria per stimare la media è:

  14. Esempio • Si vuole verificare il diametro dei bulloni prodotti dalla propria fabbrica con un’accuratezza di stima pari ad 1 mm. • Quale deve essere la numerosità campionaria con: • Ipotesi di distribuzione normale del diametro dei bulloni • Livello di confidenza 99% • Deviazione Standard nota e pari a s = 6 mm. • d=1 mm.

  15. n n*= 1 + n/N • Soluzione • L’accuratezza della stima è +/- 1 mm. • Con un livello di confidenza del 99% a = .01, allora za/2 = z.005 = 2.575. • Se si conosce la numerosità della popolazione c’è la correzione per popolazioni finite

  16. Esempio • Si vuole verificare la percentuale di pezzi difettosi prodotti dalla propria fabbrica con un’accuratezza delle stima pari al 2%. • Quale deve essere la numerosità campionaria con: • Ipotesi di approssimazione alla distribuzione normale standardizzata • Livello di confidenza 99% • Deviazione Standard nota e pari a s =10 • d=2

  17. Soluzione • L’accuratezza della stima è +/-2 • Con un livello di confidenza del 99% a = .01, za/2 = z.005 = 2.575.

  18. Esperimenti di simulazione • Non distorsione della media campionaria • Vogliamo dimostrare che la media campianaria è uno stimatore corretto della media della popolazionem, estraendo campioni di numerosità 4 utilizzando: • La Distribuzione binomiale con p = .3 e n = 10, per 100 campioni • La Distribuzione normale con m = 3 e s = .75, per 300 campioni • E’ calcolata la media delle medie campionarie ed è dimostrato per 10, 20, … campioni

  19. Risultati simulati per una distribuzione binomiale m = np = 3. Numero di campioni 10 20 30 100 Risultati simulati per una distribuzione normale m = 3. 10 30 100 300

  20. distorsione della varianza campionaria • Vogliamo dimostrare che la varianza campianaria non è uno stimatore corretto della varianza della popolazionem, estraendo campioni di numerosità 4 utilizzando: • Confronteremo l’errore associato a s2 (corretto) con l’errore associato alla variabile casuale campionaria v2 • I campioni sono estratti da una Distribuzione binomiale con p = .3 e n = 10, per 100 campioni

  21. Lo stimatore s2 approssima il valore reale della varianza 2.1 La variabile v2 è sempre al di sotto del valore reale della varianza (l’andamento è però simile)

  22. TEST D’IPOTESI • La verifica di ipotesi vaglia il grado di attendibilità che può essere attribuito a delle ipotesi, che riguardano il valore di un parametro incognito di una distribuzione Esempio Considerato che in un campione casuale di consumatore il p% ha preferito un nuovo prodotto come posso considerare valida tale ipotesi per la popolazione?

  23. Il concetto di test di ipotesi • Ci sono due ipotesicirca il parametro o i parametri della popolazione. • H0L’ipotesi nulla[ ad esempio m = 5] • H1L’ipotesi alternativa[ ad esempio m <5] • Le ipotesi possono essere: • Semplicise si specifica in modo univoco la distribuzione della popolazione oggetto di rilevazione • Compostese si specificano diversi valori del parametro A loro volta possono essere • Unidirezionali • Bidirezionali

  24. Esempio Supponiamo di voler verificare:. • H0 L’ipotesi nulla [m = 5] • contro H1L’ipotesi alternativa[m <5] Quello che vogliamo provare Costruiamo, attraverso i risultati campionari, la statistica relativa al parametro ipotizzato Ci domandiamo quale è il grado di attendibilità delle osservazioni campionarie, in modo da stabilire se le differenze risultanti rispetto alla popolazione siano significative oppure dovute ad errore campionario m = 5

  25. Abbiamo due possibilità:. • Rifiutare H0 (l’ipotesi nulla) in favore dell’ipotesi alternativa • AccettareH0 (l’ipotesi nulla) a sfavoredell’ipotesi alternativa • Possiamo commettere due tipi di errore: • Errore di primo tipo - Rifiuto H0 (l’ipotesi nulla) quando essa è vera • Errore di secondo tipo - Accetto H0 (l’ipotesi nulla) quando essa è falsa

  26. Verifica di ipotesi sulla media di una popolazione con varianza nota Esempio 1 • Un nuovo sistema di gestione di carte di credito sarà implementato in un ipermercato solo se la spesa media mensili con carte di credito è maggiore di 170 Euro • Un campione di 400 estratti conto mensili viene esaminato • Si suppone che la spesa mensile con carta di credito abbia una distribuzione normale con s = 65 Euro Il nuovo sistema sarà implementato?

  27. Ipotesi alternativa Ipotesi nulla Soluzione • La popolazione di interesse è l’ammontare di spesa mensile effettuata con carta di credito • Si vuole dimostrare che la spesa media mensile con carta di credito è maggiore di 170 Euro H1 : m > 170 • L’ ipotesi nulla è relativa ad un solo valore del parametro m : H0 : m = 170

  28. 178 Se m è uguale a 170, allora .La distribuzione della media campionaria mostrerà questo E’ lo stesso avere sotto l’ipotesi nulla (m = 170)? Una media campionaria di 178 è sufficientemente più grande di 170 per affermare che la media della popolazione è maggiore di 170?

  29. Bisogna definire il valore di che si ritiene sufficiente per rifiutare l’ipotesi nulla . La regione di rifiuto sarà, dunque: Il metodo della regione di rifiuto La regione di rifiuto è un range di valori: se il valor test cade in questo range, l’ipotesi nulla è rifiutata in favore dell’ipotesi alternativa

  30. La Regione di rifiuto è: Non rifiutiamo H0 Rifiutiamo H0

  31. = P( dato che H0 è vera) La Regione di rifiuto è : a Rifiutiamo H0 qui a = P(commettere errore I tipo) = P(rifiutare H0 quando H0 è vera)

  32. La Regione di rifiuto è : a = 0.05

  33. a = 0.05 La Regione di rifiuto è : Conclusione La media campionaria (178) è maggiore del valore critico 175.34, perciò c’è sufficiente evidenza statistica per rifiutare H0 a favore di H1, al livello di significatività del 5% 178

  34. Il test statistico standardizzato • Invece di utilizzare la statistica , possiamo utilizzare il valore standardizzato z • Allora rifiuteremo la regione perchè Test ad una coda

  35. Esempio 1 - continua Svolgiamo l’esercizio utilizzando il test statistico standardizzato H0: m = 170 H1: m > 170 • Test statistico: • Regione di rifiuto: z > z.05 = 1.645. • Conclusione: 2.46 > 1.645, così rifiutiamo l’ipotesi nulla in favore dell’ipotesi alternativa

  36. Metodo del P-value Il p-value del test è la probabilità associata al test statistico • Il p - value fornisce informazioni circa la significatività che supporta l’ipotesi alternativa

  37. Esempio 1 - continua La probabilità di avere un test statistico con un valore che delimita la regione di rifiuto pari a 178 è: Il p-value

  38. L’evento è raro sotto H0 con ma… …diventa più probabile sotto H1, con Interpretazione del p-value Dato che la probabilità che la media campionaria possa assumere un valore maggiore di 178 quando m = 170 è così piccola (.0069), ci sono ottime ragioni per credere che m > 170. Possiamo concludere che più piccolo è il p-value e più significatività è a supporto dell’ipotesi alternativa

  39. Descrizione del p-value • Se il p-value è minore di 1%, c’è una estrema evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è compreso tra 1% e 5%, c’è una forte evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è compreso tra 5% e 10%, c’è una debole evidenza statistica a supporto dell’ipotesi alternativa • Se il p-value è maggiore del 10%, non c’è evidenza statistica a supporto dell’ipotesi alternativa

  40. Esempio 2 • Con un campione di 25 bottiglie si vuole controllare che il contenuto medio delle bottiglie prodotte non sia inferiore a 16 ml come indicato sull’etichetta. • Viene misurato il contenuto delle 25 bottiglie • Da precedenti esperienze si sa che il contenuto si distribuisce in modo normale con deviazione standard pari a 0.4 ml • Quando possiamo considerare non veritiera l’indicazione sull’etichetta?

  41. H0: m = 16 Vogliamo testare l’ipotesi nulla H1: m < 16 Contro l’ipotesi alternativa • Il test statistico è Soluzione H0: m = 16 Allora Si seleziona il livello di significatività a = 0.05 H1: m < 16 Si definisce la regione di accettazione z < - za = -1.645 Test ad una coda

  42. Si rifiuta l’ipotesi nulla m =16, a favore dell’ipotesi alternativa m < 16 quando a = 0.05 Regione di Rifiuto -1.25 a = 0.05 0 è troppo piccolo 16 Un campione con una media così lontana da 16, È veramente un evento raro se m = 16. -za= -1.645

  43. Regione di Rifiuto -1.25 a = 0.05 Il valore della statistica test non cade nell’area di rifiuto per cui accettiamo l’ipotesi nulla Non c’è sufficiente evidenze per dire che la media della popolazione è minore di 16ml. p-value = P(Z < - 1.25) = .1056 > .05 -za= -1.645 0

  44. Esempio 3 • Il tempo richiesto per completare una parte di produzione critica in una catena di produzione si distribuisce in modo normale. Si pensa che la media sia 130 sec. • Testare se vera questa ipotesi con un campione di 100 osservazioni la cui media è di 126,8 sec. E conoscendo la deviazione standard che è pari a 15 sec.

  45. H0: m = 130 Vogliamo testare l’ipotesi nulla H1: m = 130 Contro l’ipotesi alternativa Soluzione Definiamo la regione di accettazione z < - za/2o z > za/2

  46. Dobbiamo stabilire i valori a/2 = 0.025 a/2 = 0.025 a/2 = 0.025 a/2 = 0.025 0 za/2= 1.96 -za/2= -1.96 Regione di accettazione Per rifiutare l’ipotesi nulla a favore di quella alternativa 130

  47. za/2= 1.96 -za/2= -1.96 Il valore del test statistico cade nell’area di rifiuto quindi rifiutiamo l’ipotesi nulla C’è sufficiente evidenza statistica per affermare che la media non è 130. p-value = P(Z < - 2.13)+P(Z > 2.13) = 2(.0166) = .0332 < .05 a/2 = 0.025 a/2 = 0.025 -2.13 2.13 0

  48. a m= m1 Come si calcola l’errore di II tipo Il calcolo richiede che: • La regione di rifiuto sia espressa nel valore del parametro (non standardizzando) • Il valore alternativo (sotto H1) sia specificato H0: m = m0 H1: m = m1 (m0 non è uguale a m1) m= m0

  49. a = .05 • Riprendiamo l’Esempio 1 • La regione di rifiuto era con a = .05. m0 = 170 175.34 …ma H0 è falsa m1 = 180 175.34

  50. 6.5.1Gli effetti su b al cambiamento di a Diminuendo il livello dia,cresce il valore dib, e viceversa a1 > a2 b1 < b2 • Il valore dib, può essere diminuito aumentando la numerosità del campione

More Related