1 / 20

MATEMATIKA 2

VERJETNOST IN STATISTIKA. STATISTIKA. STATISTIKA. Formulacija problema:. opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija ; ( npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z neko boleznijo , delnice na borzi, izidi na ruleti).

lona
Download Presentation

MATEMATIKA 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VERJETNOST IN STATISTIKA STATISTIKA STATISTIKA Formulacija problema: • opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija; • (npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z nekoboleznijo, delnice na borzi, izidi na ruleti) • vsak element populacije ima neko merljivo lastnost X; (npr. starost, kakovost izdelka, učinek zdravila, cena delnice) • vrednost X je zaradi nekega razloga (velikost populacije, način ali cena ugotavljanja, ...) znana le na delu populacije, ki mu pravimo vzorec; Osnovni problem statistike: Kaj lahko povemo o lastnosti X na podlagi njenih vrednosti na vzorcu? 1 MATEMATIKA 2

  2. VERJETNOST IN STATISTIKA VZORČENJE VZORČENJE Če je vzorec naključno izbran, so vrednosti X na vzorcu slučajna spremenljivka. Enako velja za vse druge količine (povprečja, standardni odkloni...), ki jih izpeljemo iz teh vrednosti. Idealni vzorec je reprezentativen v smislu, da se značilnosti X na vzorcu se ujemajo z značilnostmi na celotni populaciji. Pri naključnem vzorcu lahko določimo verjetnost, da je reprezentativen. Včasih skušamo reprezentativnost doseči z dirigiranim vzorčenjem (npr. onesnaženje običajno merijo na stalnih lokacijah). Obstaja nevarnost, da je takšno vzorčenje pristransko. Omejili se bomo na primere, ko je izbira vzorca povsem naključna. To pomeni, da vzorec izbiramo zaporedoma in pri tem imajo vsi elementi populacije enako verjetnost, da se znajdejo v vzorcu. (gre torej za izbiro z vračanjem; če je velikost vzorca majhna v primerjavi z velikostjo populacije smemo izbirati brez vračanja) 2 MATEMATIKA 2

  3. VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI Vzorčni parametri: Populacijski parametri: • velikost vzorca: n • velikost populacije: N • vrednosti X na vzorcu: X1,X2,...,Xn • vrednosti X na populaciji: x1,x2,...,xN • vzorčno povprečje: • populacijsko povprečje: • populacijska razpršenost: • vzorčna razpršenost: 3 MATEMATIKA 2

  4. VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI POVPREČNA VREDNOST IN RAZPRŠENOST VZORČNIH PARAMETROV • vzorec velikosti 1: E(Xk)=(populacijsko povprečje ) D(Xk)=2(populacijska razpršenost) • vzorec velikosti n: (vzorčenje z vračanjem) (enostavno vzorčenje) korekcijski faktor za primer relativno velikega vzorca 4 MATEMATIKA 2

  5. VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI Povprečna vrednost količine na množici vseh vzorcev ni enaka 2. Pravimo, da gre za pristranskooceno populacijske razpršenosti. Pri dovolj velikih vzorcih je razlika zanemarljiva, pri majhnih vzorcih pa ne, zato kot mero vzorčne razpršenosti vzamemo E(s2)= 2 5 MATEMATIKA 2

  6. VERJETNOST IN STATISTIKA OPISOVANJE PODATKOV rezultatikolokvija intervalidolžine 5 intervali dolžine 10 Običajno tvorimo 10-20 kategorij. Zaželjeno je, da je v večini kategoriji vsaj 5 enot. Pri računanju povprečja in razpršenosti upoštevamo sredine intervalov. 6 MATEMATIKA 2

  7. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV INTERVALSKO OCENJEVANJE Vzorčno povprečje in razpršenost sta primerna približka za populacijskopovprečje in razpršenost. Kolikšna je natančnost teh približkov? Simulirali smo 10 zaporedij po 100 metov kocke in dobili naslednjo tabelo: s 3.59 1.800 3.47 1.687 3.94 1.605 3.441.930 3.68 1.567 3.28 1.789 3.53 1.602 3.43 1.692 3.42 1.668 3.501.609 Kaj lahko sklepamo o dejanski povprečni vrednostiin standardnemu odklonu? 7 MATEMATIKA 2

  8. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Razsevni diagram zapovprečja in standardne odklone simulacij. Dejanska vrednost: =3.5, =1.708 Povprečje simulacij: =3.53, =1.695 Osnovni problem je: kakonapodlagivzorčnih parametrov oceniti dejanske populacijske parametre? Prinumeričnihmetodahdoločimo približek in oceno za napako približka. Dejanska vrednost je nekje na intervalu okoli približka. Na podlagi vzorca ni mogoče sklepati o parametrih populacije s 100% zanesljivostjo,... ...pač pa lahko določimo interval, za katerega je zelo verjetno, da vsebuje iskani populacijski parameter. 8 MATEMATIKA 2

  9. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Na vzorcu velikosti n dobimo vrednosti X1,X2,...,Xn in izračunamonjihovo povprečje Naj bo količina X normalno porazdeljena na celotni populaciji z neznanim povprečjem a. Zaradi enostavnosti privzemimo, da je standardni odklon enak . (tj. za okoli 95% vzorcev je populacijsko povprečje na izračunanem intervalu, za okoli 5% vzorcev pa je izven) Verjetnost, s katero se iskani parameter nahaja na nekem intervalu je stopnja zaupanja. Pripadajoči interval je interval zaupanja. Večja stopnja zaupanja ali večja razpršenost ⇒ potreben je širši interval zaupanja. Večji vzorec ⇒ zadošča ožji interval zaupanja. 9 MATEMATIKA 2

  10. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV • Splošni postopek za določanje intervala • zaupanja za populacijski parameter u: • določimo vzorčni parameter ū, ki je primeren približek za u • (npr. za povprečje ali s2 za razpršenost) • določimo porazdelitveni zakon vzorčnega parametra ū • (npr. normalni, binomski,...; to je najzahtevnejši korak - praviloma se omejimo na standardne primere) • izberemostopnjozaupanja • (običajno =95% ali =99%) • na podlagi porazdelitve in vrednosti vzorčnega parametra ū na danem vzorcu določimo interval zaupanja[U1,U2]zau, ki pripadaizbranistopnjizaupanja • ( tj. tako, daveljaP(U1≤ u ≤ U2) = ). 10 MATEMATIKA 2

  11. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Primanjših vzorcih ali neznanemu standardnemu odklonu ne moremo privzeti, da je povprečje normalno porazdeljeno. Običajno dobimo za približek porazdelitev, ki je odvisna od velikosti vzorca. Naj bo količina Xporazdeljena normalno z neznanim povprečjem a in standardnim odklonom . Iščemo interval zaupanja za populacijsko povprečje a pri stopnji zaupanja . Velja: T je porazdeljena po t.im. Studentovem porazdelitvenem zakonu S(n-1) 11 MATEMATIKA 2

  12. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV TabelamejnihvrednostiporazdelitveS(n): Senčena ploščina je enaka . parameter n (‘stopnjeprostosti’) mejnavrednostnastopnjizaupanja1- ( P(|T|≤t)=1- ) 95% 99% mejnevrednosti za normalno porazdelitev 12 MATEMATIKA 2

  13. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Za izbrano stopnjo zaupanja  iz tabel določimo t, da velja P(|T|≤t)= Interval zaupanja za a na stopnji zaupanja je interval zaupanja 95% 99% s 3.59 1.800 [3.237,3.942] [3.125,4.054] 3.47 1.687 [3.139,3.800] [3.034,3.905] 3.94 1.605 [3.625,4.254] [3.495,4.354] 3.44 1.930 [3.061,3.818] [2.941,3.938] 3.68 1.567[3.372,3.987] [3.275,4.084] 3.28 1.789 [2.929,3.630] [2.818,3.741] 3.53 1.602 [3.215,3.844] [3.116,3.943] 3.43 1.692 [3.098,3.761] [2.993,3.866] 3.42 1.668 [3.092,3.747] [2.989,3.850] 3.501.609 [3.184,3.815] [3.084,3.915] pri 3. poskusu je dejansko povprečje izven 95%-intervala zaupanja in komajda znotraj 99%-intervala zaupanja. 13 MATEMATIKA 2

  14. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Porazdelitev hi-kvadrat2(n) ima gostoto Primerjamo populacijskorazpršenost 2z vzorčno razpršenostjo s2: Intervalskaocenazastandardniodklonprinormalniporazdelitvi: Velja: 2 je porazdeljena po zakonu ‘hi-kvadrat’2(n-1). Porazdelitvenagostotanisimetrična, zato za zahtevano stopnjo zaupanja  poiščemo meji 2a in 2b, da velja P( 2≤2a)=P( 2≥2b)=1-/2⇒ P(2a≤2≤2 b)=  14 MATEMATIKA 2

  15. VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Tabelamejnihvrednostiporazdelitve2(n) Senčena ploščina je enaka . parameter n (‘stopnjeprostosti’) mejnavrednost2 ( P( 2≥2)= ) 15 MATEMATIKA 2

  16. VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV primerjamo dve domnevi: H0: ničelna domneva in H1: alternativna domneva (npr. H0 trdi, da porazdelitev ustreza zakonu P(2), H1 pa, da ustreza zakonu P(3.5)) PRESKUŠANJE STATISTIČNIH DOMNEV Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu. parametrične domneve (trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovo porazdeljena spremenljivka ima povrečjea) neparametrične domneve (trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena) Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pa je sestavljena. (npr. če H0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H1 pa, da ni Poissonova, sta obe sestavljeni) Omejili se bomo na osnovne primere parametričnih domnev, ko je vsaj ničelna domneva enostavna. 16 MATEMATIKA 2

  17. VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Leta2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali je to v nasprotju z domnevo, da je rojstvo dečka enako verjetno kot rojstvo deklice. Za slučajno spremenljivko X vzamemo število rojstev dečkov. Xje porazdeljenabinomskob(n,p). H0 je enostavna domneva p=0.5, H1 je sestavljena domneva p>0.5. Izberemomajhnoštevilo  (npr. 0.05 ali 0.01) in poiščemo kritično vrednost c, da je pri pogoju p=0.5 verjetnost P(X>c)=. Če je število dečkov večje od c, potem H0 zavrnemo, v nasprotnem primeru pa je ne zavrnemo. Binomsko porazdelitev b(17321,0.5) aproksimiramo z N(8660.5, 65.80), in vzamemo =0.05. Ker je dejanska vrednost (8930) večja od c0.05, ničelno domnevo zavrnemo. Pri 1% značilnosti preskusa dobimo c0.01=8813.5, torej domnevo zavrnemo tudi pri ostrejšem preskusu. 17 MATEMATIKA 2

  18. VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Enostavna parametrična domneva u=u0 ima tri alternativne parametrične domneve: u > u0 u < u0 u ≠u0 Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska. sprejmemozavrnemo u0 c zavrnemo sprejmemo zavrnemo sprejmemo zavrnemo c u0 c1u0c2 Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo. 18 MATEMATIKA 2

  19. VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1). Kritične vrednosti za dvostranski poskus pri značilnosti  so v (n-1)-vi vrstici in stolpcu, ki ustreza . Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza. Z porazdeljena po N(0,1) - kako določimo c? dvostranski preskus: enostranski preskus: 19 MATEMATIKA 2

  20. VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Povprečje 10 meritev gostote neke snovi nam je dalo 1.35g/cm3, čeprav bi teoretično pričakovali gostoto 1.2g/cm3. Na podlagi izkušenj vemo, da je pri tovrstnem merjenju standardna napaka =0.25g/cm3. Ali na podlagi tega lahko zavrnemo H0(=1.2g/cm3)? Značilnost preskusa naj bo 5%. 1.) H1(≠1.2) (dvostranski preskus) Ničelne domneve ne zavrnemo. (testna vrednost je manjša od kritične) 2.) H1(>1.2) (enostranski preskus) Ničelno domnevo zavrnemo. (testna vrednost je večja od kritične) Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve. 20 MATEMATIKA 2

More Related