100 likes | 263 Views
Muuttujien riippuvuus. Korrelaatiokerroin. Positiivinen korrelaatio 0 < r < 1. Negatiivinen korrelaatio -1 < r < 0. Pienimmän neliösumman menetelmä eli regressioanalyysi. Keskiarvon laskeminen minimoimalla poikkeamien neliösumma. . x 1. x 2. x 2 - .
E N D
Korrelaatiokerroin Positiivinen korrelaatio 0 < r < 1 Negatiivinen korrelaatio -1 < r < 0
Keskiarvon laskeminen minimoimalla poikkeamien neliösumma x1 x2 x2 - • Haetaan lukua , josta havaintoarvojen x1, x2,…, xn etäisyyksien neliösumma r on mahdollisimman pieni. • Neliösummar = (x1-)2 + (x1-)2 +… + (xn-)2 • Sen minimiarvo löytyy kohdasta jossa derivaatta :n suhteen =0 • r`=-2(x1- ) -2(x2- )- … - -2(xn- ) = 0 • x1- + x2- + … + xn - = 0 • x1+x2+…+ xn = n • = (x1 + x2 + … + xn)/n
2 muuttujaa ja regressiosuora y poikkeama ri x Havaintopareja (x1,y1), (x1,y2),… pyritään selittämään lineaarisella mallilla y = a x + b * Poikkeamat ovat havaittujen y-arvojen ja mallista laskettujen y-arvojen erotuksia: r1 = y1 – (ax1+b) , r2 = y1 – (ax1+b),… * Poikkeamat muodostavat residuaalivektorin r = (r1,r2,…,rn) * Pienimmän neliösumman menetelmässä etsitään sellaiset arvot a ja b, joilla residuaalivektorin r pituus (r12 + r22 + … rn2) on minimissään. Minimi löytyy pisteestä jossa r:n pituuden neliön derivaatat sekä a:n suhteen, että b:n suhteen ovat nollia.
Regressiosuoran määritys käytännössä 1) Em. Ääriarvolaskulla voidaan johtaa ns. regressiokaavat, jotka löytyvät myös kaavakirjoista. 2) Excelissä valmisfunktiolla LINEST 3) Tilasto-ohjelmilla kuten SPSS 4) Mathematicalla valmisfunktioilla ”Fit” tai ”LinearRegression” 5) Voidaan muodostaa myös ns. neliösumma eli residuaalivektorin pituuden neliö ja määrittää sen minimikohta muuttujien a ja b suhteen.
3 tai useamman muuttujan regressioanalyysi Havainnot pistekolmikoita (xi, yi , zi). Malli z = ax + by + c poikkeama ri z y x Residuaalit ri = zi – (axi + byi + c) muodostavat residuaalivektorin r = (r1, r2, … , rn) kuten edellä. Pienimmän neliösumman menetelmässä etsitään vektorin r pituuden neliön pienintä arvoa vastaavat parametrien a, b ja c arvot. Ne löytyvät kohdasta, jossa derivaatat a:n , b:n ja c:n suhteen ovat nollia.
Lineaarinen regressio: Input = tilasto Output = malli y = m1 x1+ m2 x2 + m3 x3 +b Kulmakertoimille mi ja vakiolle b saadaan myös keskivirheet.
Monen muuttujan regressio käytännössä 1) Excelin LINEST 2) Mathematican LinearRegression 3) SPSS –tilasto-ohjelma 4) Voidaan myös muodostaa residuaalivektorin neliö ja ratkaista yhtälöryhmä, joka saadaan kun osittaisderivaatat merkitään nolliksi. Mallin hyvyyttä ja hajontaa kuvaa mm. residuaalien r1,r2,…, rn keskihajonta. Siitä käytetään nimitystä ”Standard Error” Toinen parametri on ns. ”selitysaste”: Esim. jos selitysaste on 0.85 sanotaan, että malli ”selittää 85 prosenttisesti selitettävän muuttujan z vaihtelut” , toisin päin sanottuna 15% z:n vaihteluista ilmeisesti johtuu joistain muista tekijöistä tai sattumasta.
Epälineaarinen regressio Lineaarisen mallin sijasta haetaan paraabelia y = ax2 + bx + c Periaate on sama kuin edellä: Minimoidaan neliösumma p =( y1 – ax12 + bx1+ c) + … + (y1 – ax12 + bx1+ c) Parhaat arvot kertoimille a, b ja c löytyvät derivaattojen nollakohdasta Mathematicassa epälineaarinen reggressio voidaan toteuttaa Fit ja NonLinearRegression – komennoilla.