Korrelatsioonanalüüs

Korrelatsioonanalüüs

Juhuslik vektor Juhuslikuks vektoriks nimetatakse vektorit, mille komponentideks on juhuslikud suurused. Näiteks võib vaadelda kolme komponendiga juhusliku vektorina inimese pulsist, hingamissagedusest ja arteriaalsest vererõhust koosnevat mõõtmistulemuste komplekti. Juhuslikku vektorit nimetatakse diskreetseks, kui tema komponendid on diskreetsed juhuslikud suurused ning pidevaks, kui komponendid on pidevad juhuslikud suurused..

Jaotustabel Kui diskreetse juhusliku vektori koordinaatide võimalikud väärtused on xi ja yj ,kus i = 1, ... , m ja j = 1, ... , n, siis selle vektori jaotust iseloomustatakse jaotustabeliga: Tabelis tähistab pijtõenäosust selleks, et juhuslik suurus X saavutab väärtuse xi ja juhuslik suurus Y saavutab väärtuse yj: pij = P((X = xi)  (Y = yj))

Juhusliku vektori jaotusfunktsiooniksF(x, y) nimetatakse järgnevalt defineeritud kahe muutuja funktsiooni: Pideva juhusliku vektori jaotustihedus e. tihedusfunktsioon on jaotusfunktsiooni teist järku segaosatuletis: Jaotustihedus on avaldatav kujul kus p1(x) ja p2(y) on juhuslike suuruste X ja Y tihedusfunktsioonid, r1(y|x) ning r2(x|y) on tinglikud jaotustihedused - juhusliku suuruse Y tihedusfunktsioon eeldusel, et juhusliku suuruse X väärtus on x ja juhusliku suuruse X tihedusfunktsioon eeldusel, et Y väärtus on y. Juhusliku vektori jaotusfunktsioon

Juhuslike suuruste sõltuvus Kaks suurust on sõltumatud, kui ühe suuruse muutumine ei mõjuta teise suuruse muutumist. Vastasel juhul on tegemist sõltuvate suurustega. Kui suurused on sõltuvad ja üks suurus on täpselt leitav teise kaudu, siis on räägitaksefunktsionaalsest sõltuvusest. Näiteks väljendavad funktsionaalset sõltuvust Ohmi seadus, Newtoni teine seadus, Kepleri seadused. Kui üht suurust pole võimalik teise kaudu täpselt arvutada, vaid selle asemel on ühe muutuja tendents muutuda kindlas suunas teise muutuja muutumisel, siis on tegemist statistilise e. stohhastilise sõltuvusega. Statistilise sõltuvuse korral sõltub ühe juhusliku suuruse jaotusfunktsioon teise juhusliku suuruse jaotusest. Näiteks on stohhastilises sõltuvuses rööv- ja saakloomade arvukus mingis piirkonnas.

y y x x Statistiline sõltuvus Sõltuvus puudub y y x x Korrelatiivne sõltuvus Regressioonsõltuvus Statistilise sõltuvuse liigid

Statistiline sõltuvus Regressioonsõltuvus Korrelatiivne sõltuvus Sõltuvuste vahekord Sõltumatute juhuslike suuruste puhul F(x, y) = F1(x)· F2(y) Pidevate juhuslike suuruste X ja Y sõltumatuseks on tarvilik ja piisav, et p(x, y) = p1(x)·p2(y)

Korrelatsioon- ja regressioonanalüüs Juhuslike suuruste vahelise statistilise sõltuvuse olemasolu, selle iseloomu ja tugevust uuritakse korrelatsioon- ja regressioonanalüüsi abil. Korrelatsioonanalüüsi kasutatakse juhuslike suuruste vahelise seose olemasolu, tugevuse ja iseloomu mõõtmiseks. Suurusi vaadeldakse sümmeetriliselt, s.t. ei eeldata, et üks tunnustest on “põhjus”, teine “tagajärg”. Regressioonanalüüsi korral jäetakse sümmeetria kõrvale ja räägitakse ühe juhusliku suuruse sõltuvusest teisest juhuslikust suurusest. Korrelatsioon- ja regressioonanalüüsi üheks ülesandeks on prognoosida teatava tõenäosusega statistiliselt sõltuvate komponentidega juhusliku vektori ühe koordinaadi muutumist tingimusel, et teine koordinaat omandab mingi kindla väärtuse.

Juhusliku vektori (X, Y) kovariatsiooniks e. korrelatsioonimomendiks nimetatakse suurust Diskreetse juhusliku vektori kovariatsiooni arvutamine: Pideva juhusliku vektori kovariatsiooni arvutamine: Teoreem Kui juhuslikud suurused X ja Y on sõltumatud, siis cov(X, Y) = 0. Kovariatsioon Vastupidine väide ei tarvitse õige olla.

Juhuslike suuruste X ja Y vaheliseks korrelatsioonikordajaks nimetatakse suurust 1. 2. Kui X ja Y on sõltumatud, siis • Kui , kus a ja b on konstandid, siis • Kui siis b > 0 ja kui siis b < 0. Korrelatsioon Kui cov(X, Y)  0, siis nimetatakse juhuslikke suurusi X ja Y korreleeruvateks, vastupidisel juhul aga mittekorreleeruvateks. Korrelatsioonikordaja omadused

1. Kui on lähedane ühele, siis X ja Y vaheline sõltuvus on lähedane lineaarsele. 2. Kui räägitakse positiivsest korrelatsioonist: juhuslikel suurustel X ja Y on tendents muutuda samas suunas. Negatiivse korrelatsiooni korral ( ) on ühe suuruse kasvamisel teisel suurusel tendents kahaneda. y y y x x x Nõrk positiivne korrelatsioon Tugev negatiivne korrelatsioon Tugev positiivne korrelatsioon Järeldused korrelatsioonikordaja omadustest

Kovariatsioonikordaja punkthinnang valimi põhjal: Korrelatsioonikordaja punkthinnang valimi põhjal e. Pearsoni empiiriline korrelatsioonikordaja: Pearsoni empiiriline korrelatsioonikordaja

Statistiline hüpotees: H0 : H1 : Nullhüpoteesi kontrollimiseks leitakse suurus Nullhüpoteesi kehtivuse korral on see suurus ligikaudselt Studenti jaotusega vabadusastmete arvuga k = n – 2. Leiame kriitilise punkti t-jaotuse kvantiilide tabelist: Korrelatiivse sõltuvuse olemasolu kontroll Kui etteantud usaldusnivooga b lükatakse nullhüpotees tagasi, siis see tähendab, et rb erineb oluliselt nullist ning X ja Y vahel on lineaarne korrelatiivne sõltuvus.

Kui siis võetakse vastu nullhüpotees. Vastupidisel juhul võetakse vastu alternatiivne hüpotees (korrelatiivne seos on olemas). Kui üldkogum on normaaljaotusega, siis on empiirilise korrelatsioonikordaja standardhälve määratav valemiga Küllalt suure valimi korral (n >=50) puhul on praktiliselt kindlaks usalduspiirkonnaks üldkogumi korrelatsioonikordajale vahemik Korrelatsioonikordaja usalduspiirid

Näide Viie kümnevõistleja 100 meetri tulemus ja kümnevõistluse punktisummad on:100m (X) 11,0 11,9 10,9 11,3 11,6 punkte(Y) 8008 7466 8100 8135 7940 Leida lineaarse korrelatsiooni kordaja ja kontrollida hüpoteesi korrelatsiooni olemasolust usaldusnivoodega 95% ja 90% Lahendus Ülesande andmete põhjal leiame: Lineaarne korrelatsioonikordaja:

Kuna seekord , siis võtame vastu sisuka hüpoteesi: 90%-lise usaldatavuse juures võib väita, et 100 meetri tulemuse ja punktisumma vahel on korrelatiivne seos. Kuna , siis pole alust nullhüpoteesi tagasi lükata: 95%-lise usaldatavuse ei saa väita, et 100 meetri tulemuse ja punktisumma vahel on korrelatiivne seos. Näide (järg) Kontrollime hüpoteesi korrelatiivse seose olemasolust. H0: rb = 0 H1: rb 0 Kui valida usaldusnivooks 90%, siis

Automarkide võimsuste ja hindade korrelatsiooniväli Spearmani korrelatsioonikordaja Spearmani korrelatsioonikordaja mõõdab kahe järjestustunnuse vahelist montoonset (mitte tingimata lineaarset) seost. Pearsoni korrelatsioonikordaja : rb = 0,729 Spearmani korrelatsioonikordaja : rs = 0,858 Kuna Spearmani korrelatsioonikordaja on oluliselt suurem kui Pearsoni korrelatsioonikordaja, on alust arvata, et hinna ja võimsuse vahel on mittelineaarne monotoonne seos.

4) arvutada summa 5) Leitakse Spearmani korrelatsioonikordaja Spearmani korrelatsioonikordaja Spearmani korrelatsioonikordaja arvutamiseks tuleb: 1) korrastada ühe tunnuse väärtused xi järjestatud hulka; 2) nummerdada saadud järjestatud hulga elemendid, alustades ühest (elementidele xi omistatakse astakud ri); kui X väärtuste seas on korduvaid, siis võetakse neile vastavateks astakuteks esialgsete astakute aritmeetiline keskmine 3) omistada teise tunnuse Y väärtustele astakud qi;

1) Spearmani korrelatsioonikordaja omadusi 2) Kui rs = 1, on tegemist range positiivse korrelatsiooniga : kui kasvab X, siis kasvab alati ka Y, kuid see kasv ei tarvitse olla lineaarne. 3) Kui rs = -1, on tegemist range negatiivse korrelatsiooniga (ühe tunnuse kasvamisele vastab teise tunnuse kahanemine) 4) Kui rs = 0, siis on tunnused Spearmani mõttes mittekorreleeruvad.

Näide (I)

Kuna , siis on alust võtta vastu sisukas hüpotees H1 (suurused X ja Y on Spearmani mõttes korreleeritud). Näide (II) Kontrollime korrelatsiooni olemasolu (analoogselt Pearsoni korrelatsiooniga) usaldusnivooga 95%. H0: rs = 0 (üldkogumis) H1: rs  0

Korrelatsioonanalüüs

Korrelatsioonanalüüs

Presentation Transcript