420 likes | 873 Views
Valentina Mladinov. Osnove statističke obrade I dio. SADRŽAJ. I dio Što je statistika i čime se bavi? Reprezentativni uzorak Vjerojatnost Srednja vrijednost II dio Mjere disperzije Normalna i druge raspodjele Statistička značajnost. STATISTIKA.
E N D
Valentina Mladinov Osnove statističke obrade I dio
SADRŽAJ I dio Što je statistika i čime se bavi? Reprezentativni uzorak Vjerojatnost Srednja vrijednost II dio Mjere disperzije Normalna i druge raspodjele Statistička značajnost
STATISTIKA • Začeci u praktičnom pitanju – vjerojatnost pogotka/dobitka u igrama na sreću • - Girolamo Cardano (1560) – “Knjiga o igrama kockom” • Galileo Galilei (1620) – “Razmišljanja o igrama kockom” • Blaise Pascal (oko 1655)
Statistički način mišljenja jednog će dana za svakodnevni život građana postati jednako neophodan kao znanje čitanja i pisanja H.G.Wells (1866-1946)
TEORIJA VJEROJATNOSTI • Bavi se slučajnim događajima • KONTINUUM 0 – 1 0 – APSOLUTNA NEMOGUĆNOST 0.5 – JEDNAKA MOGUĆNOST ZA OBA ISHODA 1.0 APSOLUTNA SIGURNOST
STATISTIKA = grana primjenjene matematike koja se bavi prikupljanjem, obradom, interpretacijom i prezentacijom podataka = obrada brojčanih podataka radi jasnijeg prikazivanja (Boris Petz)
STATISTIKA DESKRIPTIVNA STATISTIKA: • bavi se opisavanjem prikupljenih podataka dobivenih prilikom ispitivanja ili mjerenja • sređivanje i sažimanje podataka kako bi bili što pregledniji • (npr. aritmetička sredina; standardna devijacija) ? Koje je prosječno vrijeme inkubacije gripe XYZ ? ? Koliko je veliki varijabilitet ? ? Gdje se pojedini rezultat nalazi u odnosu na sve ostale rezultate ? ? Kako se određena pojava raspoređuje u prirodi (oblik distribucije) ?
INFERENCIJALNA STATISTIKA: • služi analizi uzoraka i pronalaženju pravilnosti ili razlika unutar ili među uzorcima • omogućuje nam stvaranje zaključaka (smijemo li generalizirati iz konkretnog uzorka na opću zakonitost) - (npr. hipoteza, otkrivanje veza među varijablama, modeliranje odnosa ili sličnih postupaka poput analize varijance, faktorske analize... ) ! REPREZENTATIVNOST UZORKA
UZORAK - POPULACIJA Najčešće nismo u mogućnosti ispitati/mjeriti neku pojavu na populaciji (često je populacija beskonačna) → ispitujemo UZORAK, koji mora biti reprezentativan
REPREZENTATIVNI UZORAK • Uzorak mora dobro odražavati populaciju (u njemu moraju biti zastupljene sve karakteristike populacije) • Reprezentativnost uzorka ovisi o: - veličini uzorka - odabir uzorka (najčešće: slučajni) - varijabilnost pojave
VELIČINA UZORKA OVISI O: 1. ŽELJENOJ PRECIZNOSTI REZULTATA (veća preciznost → veći uzorak) 2. VARIJABILNOSTI POJAVE (veći varijabilitet → veći uzorak) 3. FREKVENCIJI POJAVE (rjeđa pojava → veći uzorak)
VJEROJATNOST Za zaključivanje iz uzorka na populaciju presudna je uloga TEORIJE VJEROJATNOSTI
SREDNJE VRIJEDNOSTI • Medijan • Mod • Aritmetička sredina
Medijan (centralna vrijednost) • (C) je vrijednost koja se u nizu rezultata poredanih po veličini nalazi točno u sredini Primjer: Rezultati mjerenja su: 7 9 4 7 8 7 10 6 6 9 8 Poredani po veličini: 4 6 6 7 7 7 8 8 9 9 10 Položaj C = (N + 1) / 2
Medijan (centralna vrijednost) C = (N + 1) / 2 • Ako je broj rezultata paran, računamo aritmetičku sredinu dva srednja rezultata • Medijan se koristi kad imamo i neke ekstremne rezlutate pa aritmetička sredina ne daje pravu sliku
Modalna (dominantna) vrijednost (D) je ona vrijednost koja je u nizu rezultata najčešća (ima najveću frekvenciju) • prednost: na nju utječe samo frekvencija rezultata - Mod se ne može odrediti ako ne postoje najmanje 2 jednake vrijednosti varijable.
Aritmetička sredina • Suma svih rezultata podijeli se s brojem • rezultata • Nema ju smisla računati ako imamo ekstremne rezultate
Harmonijska sredina • Računa se u onim situacijama kada obilježja elemenata jednog skupa stoje u recipročnom odnosu s obilježjem elemenata nekog drugog skupa Primjer: prosječni km/sat, prosječni broj slova u minuti...
Geometrijska sredina • Primjenjuje se u analizi vremenskih nizova • Pomoću nje izračunava se prosječna stopa promjene pojave Primjer: koliko je puta prosječno populacija ljudi u nekom mjestu porasla?
MJERE DISPERZIJE • Srednje vrijednosti nam opisuju skup koji smo izmjerili ali nisu dovoljne • Vrijednosti (rezultati) variraju u zavisnosti od mnogo faktora i slučajnih utjecaja • Npr. dva skupa mogu imati iste aritmetičke sredine ali različite distribucije • Da bismo mogli zaključivati o distribuciji pojave, a time i o populaciji, trebaju nam mjere disperzije (raspršenja)
Zabrinjavajući podaci… “Od 1970, postotak ljudi u dobi od 18 do 34 godine koji žive kod kuće sa svojim roditeljima narastao je 48%, od 12.5 milijuna na 18.6 milijuna” (Izvor: USAToday) ?
Najopasnije zanimanje u Hrvatskoj “…u Hrvatskoj je najnesigurnije raditi u građevinarstvu. Naime, prema podacima Inspektorata za prošlu godinu, od ukupno 39 smrtnih slučajeva kao posljedica ozljeđivanja na radu, čak je 17 bilo u građevinarstvu.” Izvor: http://www.tportal.hr/vijesti/hrvatska/80924/Gradevinar-najopasnije-zanimanje-u-Hrvatskoj.html ?
MJERE DISPERZIJE • Kada računamo neku srednju vrijednost, želimo da nam ona predstavlja / reprezentira sve naše rezultate • Srednju vrijednost možemo računati samo ako nam se rezultati skupljaju (grupiraju) oko neke srednje vrijednosti → Sama srednja vrijednost nam nije dovoljna, moramo znati i kako se grupiraju rezultati oko te srednje vrijednosti
MJERE DISPERZIJE • Raspon • Srednje odstupanje • Standardna devijacija • Koeficijent varijabilnosti
Raspon = razlika između najvećeg i najmanjeg rezultata - vrlo nesigurna mjera: obično je to veći, što je veći broj mjerenja
Srednje odstupanje = prosječna veličina odstupanja pojedinačnih rezultata, bez obzira na smjer odstupanja srednje odstupanje = | Xi –X | / N • može se računati uz aritmetičku sredinu, medijan i mod (nedovoljan za složenija računanja)
Varijanca / Standardna devijacija • Aritmetička sredina je težište rezultata, tj. vrijednost od koje suma odstupanja iznad i ispod nje uvijek iznosi nula • Kada bismo računali prosječno odstupanje a da vodimo računa o predznaku, onda bismo uvijek dobili nulu • Predznake izbjegnemo tako da ih kvadriramo
Varijanca / Standardna devijacija = zbrojimo kvadrirana odstupanja i izračunamo im aritmetičku sredinu • Varijanca = prosječna suma kvadriranih odstupanja • Korijen iz varijance puno se lakše definira i prikazuje = STANDARDNA DEVIJACIJA
STANDARDNA DEVIJACIJA = drugi korijen iz varijance = drugi korijen iz prosječne sume kvadriranih odstupanja • govori nam koliko dobro aritmetička sredina reprezentira uzorak
Koeficijent varijabilnosti • pokazuje nam koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije • Služi nam za uspoređivanje varijabilnosti različitih pojava • (npr. u kojem svojstvu neka grupa varira više, a u kojem manje, ili usporedba između 2 različite grupe u istom svojstvu
NORMALNA DISTRIBUCIJA • Normalna distribucija • = Gaussova krivulja • = zvonasta krivulja
NORMALNA DISTRIBUCIJA → rezultanta istodobnog djelovanja velikog broja faktora koji djeluju u različitim smjerovima po slučaju i najčešće se poništavaju
UVJETI za dobivanje normalne distribucije • Da se pojava koju mjerimo raspoređuje po normalnoj krivulji • Da imamo veliki broj rezultata (mjerenja) • Da su sva mjerenja standardizirana • Skupina na kojoj obavljamo mjerenja mora biti homogena po svim svojstvima i heterogena samo za ono svojstvo koje mjerimo
NORMALNA DISTRIBUCIJA • Poznavanje aritmetičke sredine i standardne devijacije potpuno nam definira raspodjelu rezultata • znamo na koji dio standardne devijacije pada određeni rezultat, tj. možemo točno odrediti položaj pojedinca u grupi • (z-vrijednosti)