140 likes | 261 Views
TYTUT21. TUME II / Tilastollinen osuus Tilastollinen riippuvuus Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008. Tilastollinen riippuvuus…. Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde.
E N D
TYTUT21 TUME II / Tilastollinen osuus Tilastollinen riippuvuus Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008
Tilastollinen riippuvuus… • Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde. • Esim. tupakointi on syy ja keuhkosyöpäriski on seuraus. • Sanotaan, että tupakointi on selittävä eli riippumaton (independent) muuttuja ja keuhkosyövän riski on selitettävä eli riippuva (dependent) muuttuja. • Tupakointi siis selittää keuhkosyövän esiintymisriskiä. • Muuttujien välinen riippuvuus voi olla positiivista (yksi kasvaa -> myös toinen kasvaa) tai negatiivista (yksi kasvaa -> toinen pienenee).
Tilastollinen riippuvuus… Hahmottele jostakin tilanteesta pistekuvio, Onko riippuvuutta? Onko positiivinen vai negatiivinen riippuvuus? • Tutkittaessa kahden muuttujan saamia arvoja saatetaan huomata, että muuttujien välillä on selvä riippuvuus, mutta se riippuvuus ei johdu suoraan muuttujista itsestään, vaan jostain muusta ulkopuolisesta tekijästä eli tutustu muuttujiin tilannekohtaisesti. • Muuttujien välistä riippuvuutta voidaan arvioida: 1) graafisesti, 2)testien avulla, 3)regressiolla • Suurempi otoskoko antaa luotettavampia tuloksia
Tilastollinen riippuvuus… • Riippuvuuden testaamiseen käytetään mm. • Ristiintaulukointia (khii-toiseen testi) • Korrelaatiota (Pearson, Spearman) • Riippuvuustestauksessa selvitetään, onko kahden muuttujan välillä jotain riippuvuutta • Muuttujien välillä voi olla jonkin asteinen riippuvuus, mutta testissä tulee analysoida, onko merkitsevyystaso riittävä • Tilastollinen merkitsevyystaso kuvataan p-arvolla (SPSS:ssä *, ** ja *** merkeillä) • p<0,001 tilastollisesti erittäin merkitsevä (***) [0%..0,1%[ • 0,001≤p<0,01 tilastollisesti merkitsevä (**) [0,1%..1%[ • 0,01 ≤p<0,05 tilastollisesti melkein merkitsevä (*) [1%,5%[ • 0,05 ≤p<0,1 tilastollisesti suuntaa antava [5%,10%[
Tilastollinen riippuvuus… • Ristiintaulukointi (crosstabs) • Sovelias tapa seurata riippuvuuksia luokitellulle (nominal) tiedolle • Ristiintaulukoinnin avulla saadaan 2D-taulukko, jossa voidaan vertailla vaikkapa kahden muuttujan eri kombinaatioiden frekvenssejä • Nopea tapa saada aineistosta perustietoa • Auttaa päättämään, millaista jatkotutkimusta kannattaa tehdä • Auttaa näkemään, millaisia ilmiöitä aineistosta voi nousta • Ristiintaulukoinnissa ei nähdä riskitasoa, jolla päättely tehdään kyseessä suuntaa-antava tieto, jonka perusteella tarkastellaan asiaa tarkemmin • Jos toinen muuttuja on luokitteluasteikollinen, niin riippuvuuden testaaminen kannattaa aloittaa ristiintaulukoinnista • Ristiintaulukoinnissa kannattaa laskea soluihin prosentit helpottaa yleensä analyysin tekoa • Jatkuva muuttuja luokitellaan ennen ristiintaulukointia
Tilastollinen riippuvuus… • Ristiintaulukointi (crosstabs) • Kahden muuttujan riippuvuuden voimakkuutta voidaan mitata kontingenssikertoimen avulla (C) • 0 ≤C<1 C<0,2 ei esiinny riippuvuutta, C>0,3 esiintyy riippuvuutta, muutoin riippuvuudesta ei voida tehdä päätelmää • Riippumattomuuden testaaminen tapahtuu khii-toiseen testillä (Χ2-testi ) • Testin edellytykset: • Otos on satunnaisesti valittu perusjoukosta • Korkeintaan 20 % odotetuista arvoista saa olla pienempiä kuin viisi • Jokaisen odotetun arvon on oltava vähintään 1
Tilastollinen riippuvuus… • Hypoteesit (kaikissa riippuvuustesteissä) • Nollahypoteesi: Muuttujien välillä ei ole yhteyttä perusjoukossa. • Vastahypoteesi: Muuttujien välillä on yhteyttä perusjoukossa. • Päättely p-arvosta (alle 5%, niin vastahypoteesi hyväksytään, 95% luottamustaso) • ”p-arvo ilmaisee, että onko nollasta poikkeava riippuvuus tilastollisesti merkitsevä, vai onko se sattumaa” • p-arvo kuvaa hylkäämisvirheen todennäköisyyttä (=kuinka suuri riski otetaan, että tulkitaan ko. riippuvuuden voimakkuus)
Tilastollinen riippuvuus… • Korrelaatio, R • Kertoimen arvot välillä [-1..1], nolla tarkoittaa ei riippuvuutta • Positiivinen kerroin tarkoittaa sitä, että jos muuttujan1 arvo kasvaa, niin silloin muuttujan2 arvo kasvaa, negatiiviselle arvolle muuttujan2 arvo pienenee • Syy-seuraus suhteissa puhutaan syy-muuttujaa selittäväksi muuttujaksi ja seuraus-muuttujaa selitettäväksi muuttujaksi (asiayhteys ratkaisee tilanteen) • Riippuvuuden voimakkuus: • 0..0,2 ei riippuvuutta • 0,2..0,3 ”harmaa alue” • 0,3..0,7 heikko, kohtalainen riippuvuus • 0,7..1 vahva riippuvuus
Tilastollinen riippuvuus… • Pearsonin korrelaatio • Lasketaan vähintään välimatka-asteikolliselle (scale) muuttujalle • Spearmanin korrelaatio • Lasketaan järjestysasteikon (ordinal) muuttujille (luokitteluasteikollehan oli ristiintaulukointi) • Korrelaatioon liittyy selitysaste (prosenttiluku), joka kuvaa kuinka suuren osan selitettävän muuttujan vaihtelusta voidaan selittää selittävän muuttujan avulla. • Selitysaste = korrelaatio2 * 100%
Tilastollinen riippuvuus… • Regressio • ”Tietty lääke tietyillä annoksilla alentaa verenpainetta tietyn verran” • Muuttujien tulee olla scale-asteikollisia • Jos muuttujien välinen riippuvuus on lineaarista, se voidaan kuvata matemaattisesti kaavalla • y=a+bx, missä x on selittävä (riippumaton) ja y selitettävä (riippuva) muuttuja • Lineaarinen regressio toteutetaan pienimmän neliösumman menetelmällä, PNS-menetelmä • Regressiolla voidaan siis mallintaa tilannetta voidaan ennustaa niitä havaintopareja, joita ei ole aineistossa • Regression hyvyyttä kuvataan selitysasteen avulla (r2) • Kun regressiosuoran kertoimet (a, b) saadaan, tulee tarkastella riippuvuuden luonteen lineaarisuus vaikkapa pistekaavion avulla
Tilastollinen riippuvuus… • Regressioesimerkki (harrastusaika riippuu henkilön iästä) Riippuva (selitettävä) muuttuja, y Riippumaton (selittävä) muuttuja, x y=2,499 + 0,009x Hyvyys = 1,5% ???
Tilastollinen riippuvuus… • Harjoitus 1 • Tarkastele ristiintaulukoinnin avulla kahden luokitellun asteikon riippuvuutta • Jos joku muuttuja on jatkuva, tee siitä luokiteltu muuttuja • Tarkastele samaa asiaa myös konteingenssikertoimen avulla, tuleeko sama tulos • Harjoitus 2 • Tarkastele järjestysasteikon muuttujan riippuvuuksia Spearmanin korrelaatiolla, mitä voit tulkita kertoimesta ja merkitsevyydestä • Tarkastele Scale-asteikon muuttujien Pearsonin korrelaatiota, mitä voit tulkita kertoimesta ja merkitsevyydestä • Tee korrelaatioita kerralla usean muuttujan kesken
Tilastollinen riippuvuus… • Harjoitus 3 • Tutki ratsastuskoulussa harrastusajan ja aloitusiän (ikä-harrastusaika) lineaarista riippuvuutta • Mikä on PNS-suoran yhtälö? • Mikä on mallin hyvyys?