570 likes | 1.16k Views
STATISTIKA. Janina Curk, II. gimnazija Maribor. Kaj je statistika. Statistika je veja matematike , ki proučuje metode zbiranja, urejanja, kvantitativne obdelave, prikazovanja in analiziranja številskih podatkov. Populacija in vzorec.
E N D
STATISTIKA Janina Curk, II. gimnazija Maribor
Kaj je statistika Statistika je veja matematike, ki proučuje metode zbiranja, urejanja, kvantitativne obdelave, prikazovanja in analiziranja številskih podatkov.
Populacija in vzorec • Množici pojavov (ljudi, predmetov, dogodkov), ki jo statistično proučujemo, pravimo populacija. • Posamezen pojav (npr. en dijak) je enotapopulacije. • Vzorec je skupina enot (dijakov), od katere pridobimo podatke.
Kakšen mora biti vzorec • Dovolj velik (ekstremi se nevtralizirajo) • Reprezentativen: po strukturi čim bolj enak populaciji • Primer: zanima te agresivnost slovenskih srednješolcev … • Naključno vzorčenje
Urejanje v ranžirno vrsto • Iz posameznih rezultatov ne dobimo splošnega vtisa • Ranžirna vrsta je ureditev rezultatov po velikosti • Prednosti: vidimo min. in maks. rezultat, kateri se največkrat pojavlja, kje približno je povprečje, ali je določen rezultat v primerjavi z drugimi nizek/visok
Primer: 9 dijakov piše test … RANŽIRNA VRSTA: 1 2 2 3 3 3 4 4 5
Frekvenčna porazdelitev posameznih rezultatov • Če je rezultatov veliko in se nekateri ponavljajo, naredimo frekvenčno porazdelitev: zapišemo rezultate po vrsti, poleg njih frekvence (absolutne in relativne – odstotki) • f% = Xi/N • Spodnja vrstica tabele: seštevek frekvenc (9, 100)
Frekvenčna porazdelitev grupiranih rezultatov • Če je zelo veliko rezultatov, dobimo še boljši splošni vtis, če jih grupiramo v razrede in tem pripišemo frekvence (učbenik str. 41 in 42) • Npr. pri nekem testu z maks. 100 točkami bi lahko rezultate razdelili v razrede. Če imamo rezultate grupirane v razrede, se pretvarjamo, da imajo vsi rezultati, ki padejo v določen razred, vrednost sredine razreda.
Legenda • Xi = individualni rezultat • N = numerus • f = absolutna frekvenca • f% = relativna frekvenca • Xmin = najmanjši rezultat • Xmax = najvišji rezultat
Grafični prikazi Poligon – lomljena črta Histogram - pravokotniki Vsak graf (tudi tabela ali slika)mora biti oštevilčen, imeti smiseln naslov, osi morajo biti jasno označene!
Srednje vrednosti Kažejo osrednjo težnjo rezultatov, okrog njih se rezultati kopičijo: • Modus • Mediana • Aritmetična sredina
Modus (Mo) • Je rezultat, ki se največkrat pojavlja • V našem primeru … • Lahko jih je več (bimodalne in multimodalne distribucije – porazdelitve rezultatov) • Prednosti: tudi pri kvalitativnih spremenljivkah (ločene kategorije, npr. spol, stan) • Pomanjkljivosti: upošteva le najpogostejšo vrednost (nenatančna mera)
Primer za pomanjkljivost modusa Modus je neuporabna mera, ko imamo malo podatkov, med katerimi se več vrednosti pojavlja z enako frekvenco. Če je npr. modus ocen, dobljenih z nekim testom znanja pri 10 dijakih, enak oceni dobro (3), nam to ne pove veliko o tem, kakšen je test v celoti. Situacija je namreč lahko zelo različna: 3, 3, 3, 3, 3, 4, 4, 4, 5, 5 1, 1, 1, 1, 2, 3, 3, 3, 3, 3 1, 2, 2, 3, 3, 3, 3, 4, 4, 5
Mediana (Me) • Je rezultat na sredini ranžirne vrste • Najprej izračunamo medianski položaj: (N+1)/2 • Mediana je ta rezultat v ranžirni vrsti (prešteješ). • V našem primeru… • Če bi bilo sodo število, vzameš povprečje obeh rezultatov • Pomanjkljivost: upošteva le vrednost na sredi (nenatančna mera) • Prednost: neodvisnost od skrajnih vrednosti
Aritmetična sredina (M) • Mean, AS, x prečno, „povprečje“, • oz. • V našem primeru … • Zaokroževanje na 2 decimalki • Pomanjkljivost: odvisnost od skrajnih vrednosti • Prednost: najobčutljivejša, najnatančnejša, upošteva vse rezultate
Primerza pomanjkljivost aritmetične sredine Štiri osebe so pri testiranju dosegle naslednje rezultate: 21, 22, 23 in 36. M = 25,50. Ta vrednost pade v praznino med prvimi tremi in četrtim rezultatom. Težko bi trdili, da posamezni rezultati težijo k temu povprečju in da jih to povprečje dobro zastopa. Skrajna vrednost 36 ga je namreč preveč »potegnila proti sebi«. V tem primeru bi mediana gotovo bolje opisovala osrednjo težnjo rezultatov kot aritmetična sredina – koliko znaša mediana?
Preverjanje razlik med aritmetičnimi sredinami • Npr. razlika na vprašalniku učnih navad med fanti in dekleti je 2 točki (fantje 39, dekleta 41) • Razlika je zelo majhna – ali res obstaja ali je zgolj naključna – posledica t.i. napake vzorčenja (pojavi se zaradi slučajnih dejavnikov, ker smo rezultate zbrali na vzorcu, ne na celi populaciji)? • Preverimo s posebnimi stat. metodami, ki se jih ne bomo učili, pač pa bomo sklepali „na oko“. • Razlika med dvema M je stat. pomembna: z visoko stopnjo prepričanosti (običajno na nivoju 95%) lahko trdimo, da res obstaja v populaciji (le 5% tveganje, da je v resnici ni).
Razpršenost rezultatov • K vsaki M sodi podatek o tem, koliko so rezultati okoli nje: • Zgoščeni (bolj reprezentativna) npr. M=50 za rezultate 48, 49, 50, 51, 52 • Razpršeni (manj reprezentativna) npr. M=50 za rezultate 5, 5, 60, 130 • Najpreprostejša mera je razpon: razlika med maksimalnim in minimalnim rezultatom • Najpogosteje pa računamo standardni odklon ali standardno deviacijo: pove, kolikšna so odstopanja posameznih rezultatov od aritmetične sredine
Razpršenost (nad.) • V našem primeru … • Velika in mala razpršenost: sploščena in koničasta distribucija (učbenik str. 46) • Primer za pomen mere razpršenosti: če se odpravljamo na počitnice, nam podatek o povprečni temperaturi pove, katerih oblačil naj vzamemo največ, podatek o razpršenosti pa, ali moramo vzeti tudi bistveno toplejša/lažja oblačila: M = 20 (ali to pomeni od 18 do 22 ali od 10 do 30?)
Primer za pomanjkljivost aritmetične sredine brez podatka o SD Pri eni zelo odstopajoči vrednosti nam M daje napačen vtis. Podatek o povprečni plači v tem podjetju bi bil 2875 evrov. Enako M bi dobili npr. za podatke 2000, 2000, 2000 in 5.500 (direktor), le da bi bila razpršenost posameznih rezultatov okoli povprečja v tem primeru bistveno manjša.
Normalna distribucija/porazdelitev rezultatov • Če na velikem vzorcu izmerimo neko osebnostno lastnost in rezultate grafično prikažemo, dobimo približek normalne ali Gaussove krivulje: največ ljudi srednje izraženo, proti ekstremom upada • Simetrična, zvonasta, enovrha • M = Mo = Me • Pri proučevanju se opiramo nanjo (učbenik str. 47)
Korelacija • Stopnja povezanosti med dvema spremenljivkama • Primer za pozitivno korelacijo: Čim boljše učne navade imajo dijaki, tem boljši je njihov učni uspeh. • Primer za negativno korelacijo: Čim pogosteje dijaki izostajajo od pouka, tem slabši je njihov učni uspeh. • Ena od mer je koeficient korelacije (r): pove, kako se obnaša x, če se y spreminja (izračuna se ne učimo)
Vrednosti koeficienta korelacije • r = – 1 pomeni popolno negativno korelacijo: če raste x, premosorazmerno pada y ali obratno • r = 0 pomeni, da med spremenljivkama ni nobene linearne povezave ali odvisnosti, torej iz ene spremenljivke ne moremo sklepati na drugo • r = + 1 pomeni popolno pozitivno korelacijo: če raste x, raste tudi y oz. če pada x, pada tudi y V psihologiji ni popolnih korelacij; korelacija 0,50 in več v psihologiji že relativno visoka.
Korelacijske raziskave • Dajo le podatek o stopnji povezanosti, ne pa o smeri (eksperiment!): ne vemo, ali • je x vzrok za y • je y vzrok za x • sta x in y povezani preko neke vmesne spremenljivke z (ne neposredno!) Primeri: • S koreliranjem spremenljivk lahko ugotovimo, da imajo dijaki z več izostanki v povprečju slabši učni uspeh (preštejemo izostanke, pogledamo uspeh in izračunamo stopnjo povezanosti), ne moremo pa vedeti, ali je slab učni uspeh posledica pogostih izostankov ali morda njihov vzrok. • S koreliranjem spremenljivk lahko ugotovimo, da sta gledanje filmov z agresivno vsebino in agresivnost pri otrocih v povezavi, ne moremo pa trditi, da je prav gledanje takšnih filmov vzrok agresivnosti. Mogoče pa agresivni otroci raje gledajo takšne filme?
Primer za vmesno spremenljivko V neki raziskavi v Angliji so ugotovili statistično povezavo med številom novorojenih otrok in številom štorkelj v okolici. Več ko je bilo v nekem kraju štorkelj, več otrok se je rojevalo. Povsem logično bi lahko skušali to razložiti z dejstvom, da štorklje vendarle imajo nekaj s prinašanjem otrok. Vendar so kmalu ugotovili, da je takšna povezava le posledica dejstva, da precej več štorkelj živi na podeželju kot v mestih (kar nas ne preseneča), prav tako pa imajo družine na podeželju več otrok kot v mestih. Konec koncev se je torej izkazalo, da večje število otrok ni bilo posledica delovnih štorkelj. Prav tako se štorklje niso naseljevale v krajih zaradi otrok. Očitno je, da sta bila pojava, število štorkelj in število otrok, posledica nekega tretjega pojava, to pa je bilo v tem primeru okolje.
Korelacijske raziskave - vaja Na prvi strani časopisa vas preseneti naslov: »Obiskovanje rejvpartijev negativno vpliva na šolsko uspešnost!!!« Pod naslovom si lahko ogledate več fotografij iz različnih rejvpartijev, povsem na dnu pa je z malimi črkami opisana raziskava, v kateri so raziskovalci ugotovili, da obstaja povezanost med pogostostjo obiskovanja rejvpartijev in povprečnimi ocenami v šoli. Dijaki, ki se pogosteje udeležujejo rejvpartijev, imajo v povprečju nekoliko nižje šolske ocene od tistih, ki se takih zabav ne udeležujejo. a. Ali naslov ustrezno povzema ugotovitve opisane raziskave? Kaj bi še morali vedeti o raziskavi, da bi bil naslov ustrezen? b. Ugotovljeno povezavo med rejvpartiji in šolskimi ocenami je mogoče razložiti (interpretirati) na različne načine. Kako?
Pričakovani odgovori • Ne. Iz opisa raziskave lahko zaključimo le, da so raziskovalci ugotovili povezanost med pogostostjo obiskovanja rejvpartijev in povprečnimi ocenami v šoli. Na vzročni odnos med obema spremenljivkama (obiskovanje rejvpartijev negativno vpliva na šolsko uspešnost) bi lahko sklepali šele takrat, ko bi vedeli, kakšna vrsta raziskave je bila izvedena. Zaključevanje o vzročno-posledičnih odnosih med spremenljivkami je mogoče le takrat, ko izvedemo eksperiment. • Ugotovljeno povezanost lahko interpretiramo vsaj na tri različne načine: (1) Obiskovanje rejvpartijev negativno vpliva na učni uspeh (spremenljivka x vpliva na spremenljivko y). (2) Dijaki, ki imajo slabe ocene, pogosteje obiskujejo rejvpartije (spremenljivka y vpliva na spremenljivko x). (3) Dijaki, ki niso motivirani za šolsko delo, obiskujejo rejvpartije, pa tudi šolske ocene imajo slabše (spremenljivki x in y sta obe odvisni od neke tretje spremenljivke).
Naloga 1 Dijak je za izdelavo seminarske naloge sestavil preprosto lestvico samoocenjevanja in anketiral 24 sošolcev. Kar najhitreje in najpreprosteje je želel ugotoviti najnižji in najvišji rezultat ter rezultat, ki se je največkrat pojavil. Kateri postopek urejanja in prikazovanja podatkov je uporabil? • Ranžirno vrsto • Frekvenčno porazdelitev individualnih rezultatov • Frekvenčno porazdelitev grupiranih rezultatov • Histogram
Naloga 2 Imamo tri nize podatkov: a) 15, 8, 11, 0, 13, 4, 7, 7, 12, 2 b) 4, 5, 7, 7, 10, 10, 10, 13, 13, 15, 16 c) 120, 5, 4, 4, 4, 2, 1, 0 V katerem primeru aritmetična sredina ni »realna« mera srednje vrednosti in zakaj ne?
Pričakovani odgovor Aritmetična sredina ni realna mera srednje vrednosti v primeru c), saj je preobčutljiva in jo skrajne vrednosti med rezultati močno izkrivijo.
Naloga 3 Število točk, ki ga je 25 dijakov doseglo pri pisnem preizkusu znanja iz zgodovine, se je gibalo med 15 in 40. Ker je doseženo število točk odločalo o udeležbi na področnem tekmovanju iz znanja zgodovine, je profesorica dijake razvrstila od najboljšega do najslabšega. Dijak, ki je zasedel 13. mesto, je dosegel 26 točk. Katero srednjo vrednost lahko določimo iz navedenih podatkov?
Pričakovani odgovor Določimo lahko mediano, ki je na 13. položaju v ranžirni vrsti, njena vrednost je 26.
Naloga 4 V raziskavi so želeli izmeriti povprečni IQ slovenskih srednješolcev. IQ dijakinj in dijakov, ki so ga psihologi izmerili na dveh mariborskih gimnazijah, se je gibal med 102 in 129. IQ 102 je bil izmerjen pri dveh dijakih, IQ 129 pri treh, pri največ dijakih pa so izmerili IQ 114. • Ugotovite srednjo vrednost, ki jo lahko določimo iz navedenih podatkov. • Pojasnite glavno metodološko pomanjkljivost omenjene raziskave.
Pričakovani odgovor • Določimo lahko modus: to je rezultat, ki se največkrat pojavlja. • Glavna pomanjkljivost raziskave je nereprezentativni vzorec. Rezultatov raziskave, ki je bila izvedena na mariborskih gimnazijcih, ne moremo posplošiti na vse slovenske srednješolce.
Naloga 5 Ocenite, pri katerih od spodaj navedenih podatkov bi bil standardni odklon največji, če bi ga izračunali. Utemeljite svojo napoved. • 7, 9, 10, 11, 11, 12, 13, 16, 17, 18. • 2, 5, 8, 11, 16, 17, 18, 20, 21, 22. • 52, 54, 55, 55, 57, 58, 60, 61, 63, 66.
Pričakovani odgovor Standardni odklon bi bil največji pri podatkih v nalogi b). To lahko ocenimo z razponom (razlika med največjim in najmanjšim rezultatom).
Naloga 6 Kateri od navedenih korelacijskih koeficientov kaže na visoko negativno povezanost med dvema spremenljivkama? a. + 0,56. b. - 0,82. c. -1,23. č. - 0,34.
Naloga 7 Če sta dve spremenljivki v korelaciji, to pomeni: a. da je ena spremenljivka zelo pomembna, druga pa manj; b. da je ena spremenljivka vzrok za pojavljanje druge spremenljivke; c. da vplivata druga na drugo, ne moremo pa trditi, da gre za vzročno povezavo med njima; č. da vedno ena spremenljivka narašča, druga pa upada.
Naloga 8 Spodaj so našteti pari psiholoških spremenljivk, med katerimi obstaja neka povezanost: pozitivna ali negativna. Ocenite, za kakšno korelacijsko povezanost bi šlo lahko med njimi. • Inteligentnost in splošni učni uspeh. • Izostajanje od pouka in splošni učni uspeh. • Splošni uspeh v četrtem letniku in število doseženih točk na maturi. • Kakovost predavanj in interes dijakov za predmet.
Pričakovani odgovor • Pozitivna • Negativna • Pozitivna • Pozitivna
Naloga 9 V neki raziskavi je bila korelacija med količino učenja dijakov (v minutah učenja na dan) in višino njihovega učnega uspeha (splošni uspeh ob koncu pouka) 0,42. a. Pojasnite, kaj pomeni ta statistični podatek. b. Razložite, zakaj med obema spremenljivkama ni mogoča popolna korelacija. c. Kateri dejavniki poleg količine učenja po vašem mnenju še vplivajo na učni uspeh v šoli? d. Zamislite si vsaj dve spremenljivki, ki sta verjetno v negativni korelaciji s šolskim uspehom.
Pričakovani odgovori a. Podatek nam pove, da je med količino učenja in učnim uspehom srednje visoka pozitivna povezanost. Dijaki, ki se več učijo, imajo pogosteje tudi boljše ocene v šoli. Ker pa koeficient ni blizu 1 ali zelo visok (na primer 0,90 ali višji), lahko sklepamo, da na učni uspeh poleg količine učenja vplivajo tudi številni drugi dejavniki. b. V psihologiji (in drugih družboslovnih znanostih) popolna korelacija med dvema spremenljivkama ni mogoča. Na vse psihološke pojave ali lastnosti praviloma vpliva veliko število različnih dejavnikov, ki jih morda nismo zajeli v raziskavo ali pa jih ni mogoče meriti. c. Na učni uspeh v šoli vplivajo številni dejavniki, fizični, fiziološki, socialni in psihološki. Med psihološkimi dejavniki najbolj vplivajo inteligentnost, predhodno znanje, motivacija, osebnostne značilnosti, kot so vztrajnost, čustvena stabilnost, učni stil, poznavanje učnih strategij itd. d. Taki spremenljivki bi bili lahko: izostajanje od pouka, slabi materialni pogoji šolanja, bolezen, negativno stališče do učenja in šolanja itd.
Kritičnost do statističnih podatkov Dijaki razpravljajo o primerih na listu (fotok.)
Iz kodeksa poklicne etike • Načelapsihološkeetike so vodilozapsihologa, ko s teoretičnim in praktičnimdelomprispeva k samouresničevanjučloveka, da lahko ta čimboljsuverenoobvladujevsapodročjasvojegaživljenja. • Psihologzavrnesodelovanje v postopkih, kikršijopravnealimoralnepravicedrugihljudi. • Psihologo potekupsihološkepomočivodistrokovnizapisobravnave (dosje). Podatkiizdosjeja so last obravnavanca. Psihologsvojedodatneosebnezapise o obravnavihraniločeno. Tiniso del strokovnedokumentacije in nisonikomur na vpogled.
Iz kodeksa poklicne etike • Psihologsmeodobveznostipopolnegaščitenjapodatkovodstopiti le v izjemnihprimerih (ko je ogroženoživljenjeobravnavancaaliživljenjedrugihljudiali, kogrezazlorabootrok). Psiholog je dolžanobravnavancaseznaniti s temiizjemaminazačetkupoklicnegaodnosa. • V varovanempsihološkemarhivu so hranjenatudipsihodiagnostičnasredstva in drugipsihološkistandardiziranipripomočki, katerihrazširjanje bi občutnoškodovalastroki, posameznikualidružbi. Psiholog je dolžantasredstvauporabljati in hranititako, da so dostopnasamodiplomiranimpsihologom. • Psiholog se zavedaproblemov, kijihpovzročadvojniodnos. Dolžan je preprečitivsakodnos, kizmanjšujepotrebnopoklicnorazdaljo in vodi do konfliktainteresovali do izkoriščanjaobravnavanca.