1 / 13

TYTUT21

TYTUT21. TUME II / Tilastollinen osuus Tilastollinen riippuvuus Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008. Tilastollinen riippuvuus…. Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde.

linus-barry
Download Presentation

TYTUT21

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TYTUT21 TUME II / Tilastollinen osuus Tilastollinen riippuvuus Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008

  2. Tilastollinen riippuvuus… • Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde. • Esim. tupakointi on syy ja keuhkosyöpäriski on seuraus. • Sanotaan, että tupakointi on selittävä eli riippumaton (independent) muuttuja ja keuhkosyövän riski on selitettävä eli riippuva (dependent) muuttuja. • Tupakointi siis selittää keuhkosyövän esiintymisriskiä. • Muuttujien välinen riippuvuus voi olla positiivista (yksi kasvaa -> myös toinen kasvaa) tai negatiivista (yksi kasvaa -> toinen pienenee).

  3. Tilastollinen riippuvuus… Hahmottele jostakin tilanteesta pistekuvio, Onko riippuvuutta? Onko positiivinen vai negatiivinen riippuvuus? • Tutkittaessa kahden muuttujan saamia arvoja saatetaan huomata, että muuttujien välillä on selvä riippuvuus, mutta se riippuvuus ei johdu suoraan muuttujista itsestään, vaan jostain muusta ulkopuolisesta tekijästä  eli tutustu muuttujiin tilannekohtaisesti. • Muuttujien välistä riippuvuutta voidaan arvioida: 1) graafisesti, 2)testien avulla, 3)regressiolla • Suurempi otoskoko antaa luotettavampia tuloksia

  4. Tilastollinen riippuvuus… • Riippuvuuden testaamiseen käytetään mm. • Ristiintaulukointia (khii-toiseen testi) • Korrelaatiota (Pearson, Spearman) • Riippuvuustestauksessa selvitetään, onko kahden muuttujan välillä jotain riippuvuutta • Muuttujien välillä voi olla jonkin asteinen riippuvuus, mutta testissä tulee analysoida, onko merkitsevyystaso riittävä • Tilastollinen merkitsevyystaso kuvataan p-arvolla (SPSS:ssä *, ** ja *** merkeillä) • p<0,001  tilastollisesti erittäin merkitsevä (***) [0%..0,1%[ • 0,001≤p<0,01  tilastollisesti merkitsevä (**) [0,1%..1%[ • 0,01 ≤p<0,05  tilastollisesti melkein merkitsevä (*) [1%,5%[ • 0,05 ≤p<0,1  tilastollisesti suuntaa antava [5%,10%[

  5. Tilastollinen riippuvuus… • Ristiintaulukointi (crosstabs) • Sovelias tapa seurata riippuvuuksia luokitellulle (nominal) tiedolle • Ristiintaulukoinnin avulla saadaan 2D-taulukko, jossa voidaan vertailla vaikkapa kahden muuttujan eri kombinaatioiden frekvenssejä • Nopea tapa saada aineistosta perustietoa • Auttaa päättämään, millaista jatkotutkimusta kannattaa tehdä • Auttaa näkemään, millaisia ilmiöitä aineistosta voi nousta • Ristiintaulukoinnissa ei nähdä riskitasoa, jolla päättely tehdään  kyseessä suuntaa-antava tieto, jonka perusteella tarkastellaan asiaa tarkemmin • Jos toinen muuttuja on luokitteluasteikollinen, niin riippuvuuden testaaminen kannattaa aloittaa ristiintaulukoinnista • Ristiintaulukoinnissa kannattaa laskea soluihin prosentit  helpottaa yleensä analyysin tekoa • Jatkuva muuttuja luokitellaan ennen ristiintaulukointia

  6. Tilastollinen riippuvuus… • Ristiintaulukointi (crosstabs) • Kahden muuttujan riippuvuuden voimakkuutta voidaan mitata kontingenssikertoimen avulla (C) • 0 ≤C<1  C<0,2 ei esiinny riippuvuutta, C>0,3 esiintyy riippuvuutta, muutoin riippuvuudesta ei voida tehdä päätelmää • Riippumattomuuden testaaminen tapahtuu khii-toiseen testillä (Χ2-testi ) • Testin edellytykset: • Otos on satunnaisesti valittu perusjoukosta • Korkeintaan 20 % odotetuista arvoista saa olla pienempiä kuin viisi • Jokaisen odotetun arvon on oltava vähintään 1

  7. Tilastollinen riippuvuus… • Hypoteesit (kaikissa riippuvuustesteissä) • Nollahypoteesi: Muuttujien välillä ei ole yhteyttä perusjoukossa. • Vastahypoteesi: Muuttujien välillä on yhteyttä perusjoukossa. • Päättely p-arvosta (alle 5%, niin vastahypoteesi hyväksytään, 95% luottamustaso) •  ”p-arvo ilmaisee, että onko nollasta poikkeava riippuvuus tilastollisesti merkitsevä, vai onko se sattumaa” • p-arvo kuvaa hylkäämisvirheen todennäköisyyttä (=kuinka suuri riski otetaan, että tulkitaan ko. riippuvuuden voimakkuus)

  8. Tilastollinen riippuvuus… • Korrelaatio, R • Kertoimen arvot välillä [-1..1], nolla tarkoittaa ei riippuvuutta • Positiivinen kerroin tarkoittaa sitä, että jos muuttujan1 arvo kasvaa, niin silloin muuttujan2 arvo kasvaa, negatiiviselle arvolle muuttujan2 arvo pienenee • Syy-seuraus suhteissa puhutaan syy-muuttujaa selittäväksi muuttujaksi ja seuraus-muuttujaa selitettäväksi muuttujaksi (asiayhteys ratkaisee tilanteen) • Riippuvuuden voimakkuus: • 0..0,2 ei riippuvuutta • 0,2..0,3 ”harmaa alue” • 0,3..0,7 heikko, kohtalainen riippuvuus • 0,7..1 vahva riippuvuus

  9. Tilastollinen riippuvuus… • Pearsonin korrelaatio • Lasketaan vähintään välimatka-asteikolliselle (scale) muuttujalle • Spearmanin korrelaatio • Lasketaan järjestysasteikon (ordinal) muuttujille (luokitteluasteikollehan oli ristiintaulukointi) • Korrelaatioon liittyy selitysaste (prosenttiluku), joka kuvaa kuinka suuren osan selitettävän muuttujan vaihtelusta voidaan selittää selittävän muuttujan avulla. • Selitysaste = korrelaatio2 * 100%

  10. Tilastollinen riippuvuus… • Regressio • ”Tietty lääke tietyillä annoksilla alentaa verenpainetta tietyn verran” • Muuttujien tulee olla scale-asteikollisia • Jos muuttujien välinen riippuvuus on lineaarista, se voidaan kuvata matemaattisesti kaavalla • y=a+bx, missä x on selittävä (riippumaton) ja y selitettävä (riippuva) muuttuja • Lineaarinen regressio toteutetaan pienimmän neliösumman menetelmällä, PNS-menetelmä • Regressiolla voidaan siis mallintaa tilannetta  voidaan ennustaa niitä havaintopareja, joita ei ole aineistossa • Regression hyvyyttä kuvataan selitysasteen avulla (r2) • Kun regressiosuoran kertoimet (a, b) saadaan, tulee tarkastella riippuvuuden luonteen lineaarisuus vaikkapa pistekaavion avulla

  11. Tilastollinen riippuvuus… • Regressioesimerkki (harrastusaika riippuu henkilön iästä) Riippuva (selitettävä) muuttuja, y Riippumaton (selittävä) muuttuja, x y=2,499 + 0,009x Hyvyys = 1,5% ???

  12. Tilastollinen riippuvuus… • Harjoitus 1 • Tarkastele ristiintaulukoinnin avulla kahden luokitellun asteikon riippuvuutta • Jos joku muuttuja on jatkuva, tee siitä luokiteltu muuttuja • Tarkastele samaa asiaa myös konteingenssikertoimen avulla, tuleeko sama tulos • Harjoitus 2 • Tarkastele järjestysasteikon muuttujan riippuvuuksia Spearmanin korrelaatiolla, mitä voit tulkita kertoimesta ja merkitsevyydestä • Tarkastele Scale-asteikon muuttujien Pearsonin korrelaatiota, mitä voit tulkita kertoimesta ja merkitsevyydestä • Tee korrelaatioita kerralla usean muuttujan kesken

  13. Tilastollinen riippuvuus… • Harjoitus 3 • Tutki ratsastuskoulussa harrastusajan ja aloitusiän (ikä-harrastusaika) lineaarista riippuvuutta • Mikä on PNS-suoran yhtälö? • Mikä on mallin hyvyys?

More Related