230 likes | 424 Views
TYTUT21. TUME II / Tilastollinen osuus Tunnusluvut Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008. Tunnusluvut…. Sijaintiluvut (kuvaavat tilastoaineiston keskimääräistä sijaintia) Moodi (tyyppiarvo) Mediaani Fraktiilit Keskiarvo
E N D
TYTUT21 TUME II / Tilastollinen osuus Tunnusluvut Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008
Tunnusluvut… • Sijaintiluvut (kuvaavat tilastoaineiston keskimääräistä sijaintia) • Moodi (tyyppiarvo) • Mediaani • Fraktiilit • Keskiarvo • Hajontaluvut (kuvaavat havaintojen keskinäistä sijaintia) • Vaihteluväli • Kvartaaliväli • Keskihajonta (=standardipoikkeama) • Varianssi • Variaatiokerroin • Muita tunnuslukuja • Vinous • Huipukkuus • Keskiarvon luottamusväli • Keskivirhe • Jne.. • Tunnuslukujen valinta riippuu aineistosta, tarvittavasta tulkinnasta ja tutkijan kokemuksesta
Tunnusluvut… • Mitta-asteikolle soveliaat keskiluvut
Tunnusluvut… • Mitta-asteikolle soveliaat hajontaluvut
Tunnusluvut… • Moodi • Voidaan laskea nominaaliasteikolliselle (laatueroasteikollinen, luokiteltu) muuttujalle, esim. eduskuntamme puolueista moodin muodostaa SDP (eniten edustajia) • Moodi = tyypillinen arvo = arvo, joka esiintyy useimmin (tyyppiarvo) • Muuttuja voi olla useampi moodinen (esim. bimodaalinen) • Moodi saadaan selville frekvenssijakaumasta • Esim. Laske muuttujan x arvoista moodi. 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 Useimmin esiintyy luku 13 eli Mo = 13
Tunnusluvut… • Mediaani • Mediaani lasketaan muuttujan suuruusjärjestykseen määritetystä listasta • Mediaani on järjestetyn listan keskimmäinen alkio, jos on parillinen määrä tietoa, niin kyseeseen tulee kahden keskimmäisen arvon keskiarvo mediaanin pienempien ja suurempien arvojen lukumäärä on sama. • Mediaanin laskentaan tarvitaan vähintään järjestysasteikollinen muuttuja • Esim. Laske muuttujan x arvoista mediaani. Järjestä luvut ensi suuruusjärjestykseen 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 2, 2, 4, 5, 8, 13, 13, 13, 14, 22, 34, 44, 89 Keskimmäinen luku on 13 eli Md = 13
Tunnusluvut… • Keskiarvo • Lasketaan vain välimatka- ja suhdeasteikon luvuille x = (x1 + x2 + x3 + … + xn) / n = ∑ (xi / n) • Jos erotellaan otoksesta ja perusjoukosta lasketut keskiarvot, niin x ja n viittaavat otokseen sekä μ ja N viittaavat perusjoukkoon • Keskiarvo lasketaan havainnoista, vaikka muuttuja olisikin lopullisessa julkaisussa luokiteltu • Keskiarvo on ”herkkä” poikkeaville luvuille, poikkeava arvo ”vetää” keskiarvoa puoleensa, esim. opiskelijoiden ikä olisi tyypillisesti välillä 20..24, mutta yksi opiskelija olisi 57-vuotias keskiarvo on kasvaa tyypillistä arvoa isommaksi • Otoksen keskiarvoon tulee suhtautua varauksella, sillä otoksen valinta (sattuma) vaikuttaa keskiarvoon • Keskiarvo voidaan laskea Likert-luokitukselle, jos muuttujan arvot ovat jakautuneet normaalisti (tiedot ovat Gausin käyrällä, tarkastellaan vinouman (skewness) arvioinnin yhteydessä) • Painotetun keskiarvon laskenta on joskus tarpeellinen. Painotus tehdään jonkin asian suhteen, esim. naisten osuus koko valtakunnassa, kun tiedetään kunnittain asukasluvut ja naisten osuudet. Painotus tapahtuu asukasluvulla. • Esim. Laske muuttujan x arvoista keskiarvo. 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 X = 263 / 13 ≈ 20
Tunnusluvut… • Fraktiilit • Puolet (50%) havainnoista on pienempiä kuin mediaani, vastaavasti suurempia • Vastaavasti voidaan määrittää p% fraktiili • Esim. • Q1 = Alakvartiili, arvo, jota pienempiä on 25% muuttujan arvoista • Q2 = Mediaani, arvo, jota pienempiä on 50% muuttujan arvoista • Q3 = Yläkvartiili, arvo, jota pienempiä on 75% muuttujan arvoista • Esim. Laske muuttujan x arvoista alakvartiili. Järjestä luvut ensi suuruusjärjestykseen 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 2, 2, 4, 5, 8, 13, 13, 13, 14, 22, 34, 44, 89 Q1 = 5 boxplot-kuvio
Tunnusluvut… • Vaihteluväli • Vaihteluväli ulottuu pienimmästä arvosta suurimpaan arvoon • Vaihteluvälin pituus on havaintoaineiston yhden muuttujan suurimman ja pienimmän arvon erotus • Havaintoaineiston arvot ovat vaihteluvälin sisällä, päätepisteet mukaan luettuna • Esim. EU-komissaarien iän vaihteluväli on (40v,66v) ja vaihteluvälin pituus on 26v • Vaihteluväli on siis helppo määrittää, mutta se ei ole välttämättä riittävä ainoana tunnuslukuna • Kvartiiliväli • Kvartiiliväli ulottuu alakvartiilista (Q1) yläkvartiiliin (Q3) • Ei ole yhtä herkkä poikkeaville arvoille kuin vaihteluväli • Kvartiiliväli voidaan ilmoittaa vasta lajitelluista arvoista • Kvartiiliväliin kuuluu 50% luvuista, neljännes jää sen alapuolelle ja neljännes jää yläpuolelle • Vastaavasti voidaan muodostaa väli, jonka ala- ja yläpuolelle jää vaikkapa 10% havaintoaineista (esim. lasten pituuden ja painon seuranta, ajatus on lähellä viitearvon laskentaa) • Kvartiilipoikkeama Q on puolet kvartiilivälin pituudesta Q=(Q3-Q1)/2
Tunnusluvut… • Keskihajonta (”yksimielisyyden mitta”) • Vaihteluväli ja kvartiiliväli mittaa vain osaa havainnoista • Keskihajonta huomioi kaikki havaintoaineiston havaintoarvot • Keskihajonta = standardipoikkeama (standarddeviation, SD) • Keskihajonnan voi laskea vain välimatka- tai suhdeasteikon muuttujille • Otokselle keskihajonnan tunnus on s ja koko populaatiolle σ (sigma) • Koko populaatiolle (tai jos n>30) voidaan käyttää jakajana n-1 tilalla N (ei vaikuta tulokseen enää paljoakaan) • Homogeenisille arvoille keskihajonta on pieni ja vastaavasti heterogeeniselle aineistolle suuri • Keskihajonta kannattaa ilmoittaa raportissa keskiarvon yhteydessä • Hyvinkin erilaisilla jakaumilla voi olla likimain samat keskiarvo ja keskihajonta. • Tulkintoja tehtäessä on aina varmistettava myös jakauman muoto.
Tunnusluvut… • Keskihajonta • Viitearvo lasketaan yleisesti kaavalla X ± 1,96*SD
Tunnusluvut… • Keskihajonta kaksi erilaista normaalijakaumaa pieni keskihajonta suuri keskihajonta 99,7% 99,7% 95,5% 95,5% 68,3% 68,3% -3s -2s -1s 1s 2s 3s -3s 3s x x -2s 2s Mo Md Mo Md -1s 1s
Tunnusluvut… • Varianssi ja variaatiokerroin • Keskihajonnan neliö on varianssi (”kaavasta otetaan pois neliöjuuri”) eli varianssi on s2 • Varianssi ei kuvaa niin hyvin hajontaa, sillä potenssiin korotuksen ansiosta vastaus ei ole enää samassa yksikössä • Jos esimerkiksi varianssi on 5 yksikköä ja havaintoarvojen suuruusluokka on 100 tai 10 000, niin varianssi on suhteellisesti isompi ensimmäiseen suuruusluokkaan nähden • Variaatiokerroin suhteuttaa varianssin havaintoarvojen suuruusluokkaan • Otokselle V=s/ ja populaatiolla V=σ/μ (sigma/myy) • Varitaatiokertoimen arvo on prosenttiluku eli kuinka paljon keskihajonta on keskiarvosta
Tunnusluvut… • Vinous (skewness) • Keskihajonta mittaa muuttujan arvojen hajaantumista keskiarvon ympärille, mutta se ei huomioi hajaantumisen suuntaa ”arvoja en enemmän keskiarvon tietyllä puolella, eikä tasaisesti molemmilla puolilla keskiarvoa” • Vinous kuvaa, miten tasaisesti arvot sijoittuvat keskiarvon molemmin puolin • Vinouden etumerkki kertoo suunnan ja itseisarvo kertoo suuruuden • Jos luvut ovat keskiarvon molemmin puolin tasaisesti, niin vinous on nolla • Positiivinen vinous kertoo, että jotkut arvot ovat poikkeuksellisen isoja • Negatiivinen vinous kertoo, että jotkut arvot ovat poikkeuksellisen pieniä • Jos |vinous|<0,2 ja jakauma ei ole useampi moodinen, niin jakauma voidaan olettaa normaalisti jakautuneeksi (muitakin menetelmiä jakauman normaalisuuden testaamiseen on olemassa) Positiivinen vinous Negatiivinen vinous
Tunnusluvut… • Huipukkuus (kurtosis) • Huipukkuus kuvaa myöskin jakauman muotoa • Normaalijakauman huipukkuus on nolla • Huipukkuus kertoo jakauman terävyyden • Positiivinen huipukkuus kuvaa terävähuippuisesta jakaumasta ja negatiivinen kuvaa jakauman laakeudesta tai monihuippuisuudesta A, positiivinen huipukkuus B, normaali jakauma C, negatiivinen huipukkuus
Tunnusluvut… • Vinous ja huipukkuus
Tunnusluvut… • Keskiarvon luottamusväli • Tunnuslukujen ilmoittamisen yhteydessä kuvataan, miten luotettavia kyseiset luvut ovat • Jos otoksesta lasketun keskiarvon perusteella ennustetaan (estimoidaan) perusjoukon keskiarvoa, ilmoitetaan keskiarvon luottamusväli • Luottamusväli kertoo millä välillä todellinen perusjoukon tunnusluvun arvo on tietyllä todennäköisyydellä • Luottamustaso kuvaa, mikä on tutkimuksen luotettavuus (riski kuvaa, millä todennäköisyydellä tulos tulee sattumasta) • Luottamustaso on yleensä 95% (0,05 on riskin osuus) • Esim. keskiarvo on 95%:n varmuudella välillä (175,9 cm, 178,8 cm) • z=virheeseen liittyvä normaalijakauman arvo (esim. 1,96), s=keskihajonta, n=otos
Tunnusluvut… • Standartoidut muuttujat • Standardoidun muuttujan arvo ilmoittaa jokaiselle havainnolle sen, kuinka paljon ja mihin suuntaan havainto poikkeaa kaikkien havaintojen kaskiarvosta. • Poikkeaman suuruus suhteutetaan keskihajontaan eli standardoidun muuttujan etumerkki ilmoittaa, kummalla puolella keskiarvoa havainto sijaitsee. • miinusmerkki tarkoittaa sitä, että havainto on keskiarvotulosta pienempi • plusmerkki taas sitä, että havainto on keskiarvotulosta suurempi. • itse lukuarvo kertoo sen, kuinka monen keskihajonnan (mitan) päässä keskiarvosta havainto sijaitsee. • Standardoidun muuttujan käyttö antaa mm. mahdollisuuden verrata kahden eri mittaustuloksen poikkemaa keskiarvotuloksesta myös siinä tapauksessa, että on mitattu eri asioita ja on käytetty eri mitta-asteikkoa. (esim. vertailu, onko potilaan verenpaine vai sokeriarvo otokseen nähden huonompi) • Standardoidun muuttujan keskiarvo = 0 ja keskihajonta = 1 kaikissa tapauksissa. • SPSS:llästandartoidut muuttujat lasketaan seuraavasti: • Analyze / DescriptiveStatistics / Descriptives • valitse muuttujat (muuttujat, joita vertailet) Variables-listaan • laita rasti kohtaan ”Savestandardizedvalues as variables” • nyt on uudet muuttujat, jotka kuvaavat standartoituja arvoja • Esim. jonkun muuttujan suhteen tiedetään keskiarvo, keskihajonta ja havaintoyksikön z, niin voidaan laskea ko. havaintoyksikön arvo. Z on kerroin eli kaava on xi=z*s+
Tunnusluvut… • Harjoitus 1 • Määritä palkkojen 1850 €, 1950 €, 2250 €, 1450 €, 1500 €, 1800 €, 1600 €, 2100 €, 1900 €, 1850 €, 2500 €, 1700 €, 2000 €, 2200 €, 1650 €, ja 2450 € moodi, mediaani keskiarvo. • Koearvosanat ilmoitetaan asteikolla A,B,C,D,E (E on ylin, A on alin). Määritä seuraavien arvosanojen moodi ja mediaani: A,B,A,C,D,E,D,A,B,C,D,A,C,D,E,B,A,E,D,C,A,D,C,B,B,C,B,C,A,B,C,E,B
Tunnusluvut… • Harjoitus 2 Päättele puuttuvat kohdat. Kyseessä on arvosanojen Jakautuminen hoitotyö-kurssilla. Arvosanat ovat 1…5 Testaa saamasi tulokset SPSS-ohjelmalla.
Tunnusluvut… • Harjoitus 3 • Laske ratsastukoulu-aineistolle jollekin jatkuvalle muuttujalle ja jollekin diskreetille muuttujalla • Vaihteluvälit • Keskiluvut (huomaa ero jatkuvan ja diskreetin muuttujan suhteen) • Fraktiilit • Hajontaluvut • Tarkastele Likert-asteikollisten muuttujien normaalijakaumaisuutta eli voiko ko. muuttujalle laskea esim. keskiarvoa (vinous, huipukkuus, diagrammin laatu) • Laske muuttujille keskihajonnat • Oletetaan, että kyseessä on otos, mikä on jonkin muuttujan keskiarvon luottamusväli • Mitä edellä kuvattujen tunnuslukujen valossa voisi päätellä? • Laske vaikkapa kilpailu-muuttujalle tunnuslukuja seuraavilla SPSS-ohjelman valikkotoiminnoille ja huomioi tulosten erot • Annalyze / Descriptive Statistics / Frequencies painikkeen “Statistics” alta valitaan sopivat tunnusluvut • Analyze / Descriptive Statistics / Descriptives painikkeen “Options” alta valitaan sopivat tunnusluvut • Analyze / Descriptive Statistics / Explore painikkeen “Statistics” alta valitaan sopivat tunnusluvut (tällä valinnalla tulee suoraan kaikki tärkeät tunnusluvut) • Standartoidut muuttujat ”kilpailu” ja ”hevosen koulutus” mitä voi tulkita yksittäisille havaintoyksiköille