530 likes | 1.88k Views
Korelacija i regresija. Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka. 15. studeni 2008. Odabir statističkog testa. Ovisi o: vrsti podataka/ljestvice mjerenja
E N D
Korelacija i regresija Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka 15. studeni 2008.
Odabir statističkog testa Ovisi o: • vrsti podataka/ljestvice mjerenja • raspodjeli (normalnost) • uzorku (veličina, zavisnost) • broju pokazatelja (uni/bi/multivarijatni testovi) • istraživačkom pitanju
Odabir testa: ovisnost o raspodjeli – parametrijski i neparametrijski • Parametrijski testovi: • pokazatelji koji ne odstupaju od normalne raspodjele • obrađuju izvorna mjerenja • Neparametrijski testovi: • nisu ograničeni normalnošću raspodjele • ne raščlanjuju izvorne podatke već "rankove"
Ovisnost o osobini uzorka • Veličina: • veliki uzorci – parametrijski testovi • mali uzorci – neparametrijski testovi • Zavisnost • nezavisni uzorci – neparni testovi • zavisni uzorci – parni testovi
Ovisnost o broju pokazatelja • univarijatni: • raščlanjuju samo jedan pokazatelj • bivarijatni • raščlanjuju dva pokazatelja • multivarijatni • raščlanjuju više pokazatelja
Istraživačko pitanje • Postoji li razlika (u istoj varijabli) između dvaju (ili više) skupina? • Postoji li povezanost dvaju varijabli? • Može li se iz jedne (ili više) varijable predvidjeti druga?
Varijable • biološke varijable – značajke ispitanika • osnovna značajka – biološka varijabilnost • potreba za mjerenjem na što većem broju ispitanika (reprezentativni uzorak!)
Varijable • stalne– ne će se promjeniti tijekom ispitivanja (spol, rasa, genotip...) • promjenive – mogu se promijeniti tijekom ispitavanja (broj leukocita, koncentracija glukoze...)
karboksihemoglobin u krvi broj popušenih cigareta na dan Varijable • nezavisne varijable – mjerimo neovisno o ishodu pokusa, prethode zavisnim varijablama, prediktori, rizični čimbenici, varijable izloženosti(os x) • zavisne varijable – kriteriji, posljedice djelovanja nezavisnih varijabli, predstavljaju mjeru ishoda koju u istraživanju mjerimo(os y) • primjer:
Postoji li povezanost dvaju varijabli? • statistički test KORELACIJA
Korelacija • sukladnost dvaju varijabli • govori o njihovoj povezanosti • uvjet pokazatelja: numerički (brojčana mjerna ljestvica) • nominalna • ordinalna • intervalna • omjerna • broj pokazatelja: dva
y y2 y1 x1 x2 x Grafički prikaz korelacije • točkasti dijagram (engl. scatter diagram)
Izračun korelacije • Matematički postupak za izračunavanje stupnja povezanosti dvaju brojčanih pokazatelja kojim se izračunava: • koeficijent korelacije r • statistička značajnost koeficijenta korelacije P
Koeficijent korelacije • Pozitivna potpuna (matematička) korelacija y r = +1 x
y 0 < r < +1 x Koeficijent korelacije • Pozitivna nepotpuna korelacija
y r = 0 x Koeficijent korelacije • Nepostojanje korelacije
y 0 > r > –1 x Koeficijent korelacije • Negativna nepotpuna korelacija
y r = -1 x Koeficijent korelacije • Negativna potpuna (matematička) korelacija
Pearsonov koeficijent korelacije rp • parametrijski test (računa s izmjerenim vrijednostima): • jednostavna linearna korelacija • dva pokazatelja • intervalna ili omjerna mjerna ljestvica • vrijednosti: -1 r+1 • barem jedna varijabla – normalna raspodjela • veliki uzorak (n > 35) • povezanost varijabli linearna
Spearmanov koeficijent korelacije • neparametrijski test (računa s rangovima): • linearna korelacija, r, rS • dva pokazatelja • ordinalna mjerna ljestvica • vrijednosti: -1 r +1 • kada rS, a ne rP: • ordinalna mjerna ljestvica • mali uzorak (n < 35) • x i y ne slijede normalnu raspodjelu
y y y x x x Kada NE računati korelaciju! • ... i kada se jedna varijabla izračunava iz druge (npr. BMI i tjelesna masa)
Koeficijent korelacije • r nema mjerne jedinice i izražava se brojem s dva decimalna mjesta • ne ovisi o tome koji je pokazatelj x, a koji y • r = 0 znači: nema linearne povezanosti • ne opisuje uzročno-posljedičnu vezu(samo povezanost)
Statistička značajnost povezanosti • uz koeficijent korelacije r potrebno naznačiti i statističku značajnost P • P – statistička značajnost povezanosti, izražava se brojem s tri decimalna mjesta • ovisi o veličini uzorka • statistički značajna korelacija P < 0,05 TUMAČITI SE SMIJU SAMO ZNAČAJNI KOEFICIJENTI KORELACIJE!
Tumačenje koeficijenta korelacije (za biološke varijable)* • r = 0 do ±0,25: nema povezanosti, • r = ± 0,26 do ± 0,50: slaba povezanost, • r = ± 0,51 do ± 0,75: umjerena do dobra povezanost • r = ± 0,76 do ± 1: vrlo dobra do izvrsna povezanost • r = ± 1: matematička povezanost *Colton, 1974.
Jakost povezanosti • udio zajedničkih vrijednosti • koeficijent determinacije – r2 • Primjer za r = 0,67; r2 = 0,45 ili 45% zajedničkih vrijednosti
Primjer za raspravu* Je li ispravno računati Pearsonov koeficijent korelacije za stupanj opeklina na tijelu i trajanje bolničkog liječenja izraženo u danima? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu* U istraživanju povezanosti raspoloženje i količine tekućine (vode) unesene pijenjem tijekom dana dobivena je povezanost r = 0,12; P = 0,003. Je li ispravno tumačiti kako postoji značajna povezanost raspoloženja i količine popijene tekućine? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu* U istraživanju povezanosti visine tijela i biološke dobi dobivena je korelacija r = 0,97; P = 0,001. Možemo li zaključiti kako su visina i dob nesumnjivo zaista izvrsno povezani? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu* U istraživanju povezanosti koncentracije alkohola u krvi i prometnih nesreća utvrđeni su r = 0,78; P = 0,002. Možemo li zaključiti kako uzimanje alkohola nesumnjivo uzrokuje prometne nesreće? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu* Usporedbom katalitičke koncentracije dvaju enzima u krvi ispitanika dobivena je povezanost r = 0,52; P = 0,002. Možemo li zaključiti kako vrijednosti enzima imaju 52% zajedničkih vrijednosti katalitičke koncentracije? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu* Ispitana je povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu u žena (n1=60) i muškaraca (n2=40). Koeficijent korelacije za žene iznosi r1 = 0,70, a za muškarce r2 = 0,50 i oba su statistički značajna. Možemo li zaključiti kako je r1> r2, tj. da je u žena veća povezanost vremena provedenog za računalom i brzine pisanja teksta na računalu? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.
Može li se iz jedne varijable predvidjeti druga? • statistički test REGRESIJSKA RAŠČLAMBA
Regresijska raščlamba ... matematički model koji daje što točniju procjenu koliko će se promijeniti promatrana zavisna varijabla (kriterij) kao odgovor na promjenu nezavisne varijable (prediktor).
Uvjeti za izračunavanje regresije • postojanje korelacije između ispitivanih varijabli • ravnomjerno raspršenje rezultata oko pravca regresije • kvalitetan ispitivani uzorak (nasumično uzorkovanje)
Regresijska raščlamba • linearna regresija • višestruka regresijska raščlamba • logistička regresija • Passing-Bablock regresija
Linearna regresija • matematička povezanost… • …dvaju pokazatelja (x i y) • nezavisna mjerenja • koliko promjena jednog (x) određuje promjenu drugog (y): • x: nezavisna varijabla (prediktor) • y: zavisna varijabla (kriterij) • rezultat: jednadžba pravca: y = a + bx y = b0 + b1x
y b a x 1 Linearna regresija • y = a + bx; a = odsječak; b = nagib pravca • y = x; idelan pravac kroz ishodište, a = 0; b = 1
Linerna regresija • metoda najmanjih kvadrata: • način utvrđivanja položaja regresijskog pravca među točkama • najmanji mogući zbroj kvadrata odstupanja pojedinačnih točaka od pravca po osi y, tj. suma kvadrata udaljenosti (y-y1)2 svih točaka y x
Linearna regresija • pogrješka prognoze (rezidual) – variranje rezultata oko pravca • standardna pogrješka prognoze – prosjek kvadrata udaljenosti svih točaka od pravca regresije (odgovara standardnoj devijaciji aritmetičke sredine)
y x Linearna regresija • granice pouzdanosti • raspon vrijednosti rezultata unutar kojeg s određenom sigurnošću nalazimo predviđene rezultate (uobičajeno 95% CI)
Višestruka regresijska raščlamba • omogućuje: • predviđanje zavisne varijable (kriterija) iz više nezavisnih (pokazatelja, prediktora) • nemaju svi pokazatelji istu vrijednost u predviđanju • pojedinačni značajni pokazatelji mogu izgubiti značajnost u višestrukoj regresiji
Logistička regresija • nalazi najbolji odgovarajući matematički model za predviđanje dihotomnog ishoda iz niza nezavisnih varijabli • značajka ishoda: dihotomnost, tj. dva moguća ishoda
Passing-Bablok regresija • model linearne regresije koji pretpostavlja kako niti jedna od dvaju varijabli nije niti zavisna niti nezavisna • najčešće: usporedba dvaju metoda mjerenja • rezultat: vrijednost odsječka i nagiba pravca s intervalom pouzdanosti koji ukazuju na postojanje stalne ili proporcionalne razlike između mjerenja
Hvala na pozornosti Lidija.Bilic-Zulle@medri.hr