290 likes | 489 Views
REGRESIJA IN KORELACIJA. Enostavna linearna regresija. O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti.
E N D
REGRESIJA IN KORELACIJA Enostavna linearna regresija O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji Naloga regresije je, poiskati tako funkcijo ki najbolje podaja medsebojno odvisnost pojavov.
Odvisnost je enostranska , kadar je veličina X vzrok, veličina Y pa posledica. Odvisnost je dvostranskaXY, kadar ni možno določiti, kaj je vzrok in kaj posledica. Količini X in Y slučajni spremenljivki, zato njunih vrednosti vnaprej natanko ne moremo predvideti Lahko zapišemo le zvezo: Predpostavljamo, da je normalna slučajna spremenljivka
Velja Slučajno spremenljivko imenujemo napaka modela Model je regresijski model. Če iščemo odvisnost v obliki linearne funkcije govorimo o linearni regresiji Parametra in imenujemo regresijska koeficienta Pri realnih problemih regresije je seveda vprašanje, kako oceniti parametra ain b
Naj bodo vrednosti statističnega znaka zaradi učinkov pojava X na enote slučajno izbranega vzorca velikosti n in vrednosti statisičnega znaka istih enot zaradi učinkov pojava Y. Na ta dva vzorca lahko gledamo tudi kot na množico urejenih parov Kako poiskati premico, ki se tem točkam najbolje prilega. Nalogo največkrat rešujemo z metodo najmanjših kvadratov S to metodo poiščemo oceni za regresijska parametra, ki ju bomo označili z in
Metoda najmanjših kvadratov izbere parametra da je vsota kvadratov napak modela najmanjša To zahtevo lahko zapišemo
S temi oznakami lahko zapišemo oceno Zaradi enakosti velja
Nepristransko oceno napake regresijskega modela imenujemo tudi standardna ocena napake modela in jo bomo označevali z ali v skrajšani obliki
Vrednost je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti Vrednost je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti. Na statistiki t je zasnovan tudi test hipoteze o regresijskih koeficientih a in b
Pri dani stopnji zaupanja je interval zaupanja za regresijska koeficienta ain b
interval zaupanja za vrednost ki jo ocenjujemo z regresijsko premico pri dani vrednosti je
Varianco količine Y imenujemo skupna ali začetna varianca Njena točkasta ocena, izračunana je pri izbranem vzorcu krajše zapisano
Varianco napake regresijskega modela ocenimo z izrazom kar lahko zapišemo tudi takole Varianci napake modela pravimo tudi nepojasnjena varianca, njen kvadratni koren pa smo imenovali standardna ocena napake modela
Razliko med začetno in nepojasnjeno varianco imenujemo pojasnjena varianca.
Koeficient določenosti Analiza linearne korelacije proučuje, kako dobro izbrana regresijska premica povezuje količini (pojava) X in Y. Koeficient določenosti (determinacijski koeficient) D, ki meri linearno povezavo med vzrokom X in posledico Y, določeno z regresijsko premico, je
1. D = 1: med količino X in količino Y obstaja popolna matematična povezava v obliki linearne funkcije (napaka v modelu je 0) 2. D = 0: med količinama X in Y ni nobene linearne odvisnosti 3. 0 < D <1: med X in Y obstaja verjetna linearna povezava.
Proučujemo dvostransko odvisna pojava Zanima nas, kako močno sta linearno odvisna Koeficient korelacije, pravimo mu tudi Pearsonov koeficient korelacije, meri linearno odvisnost med dvostransko odvisnima pojavoma Točkovno oceno r zapišemo tudi na naslednji način ali
Za cenilkoR koeficienta korelacije, velja, da je statistika približno normalna slučajna spremenljivka Njeno matematično upanje je in varianca
Tako je vrednost standardizirane normalne slučajne spremenljivke Z. Na tej statistiki lahko zgradimo tudi interval zaupanja za parametr
Statistiko Z uporabimo za test hipoteze pri ustrezni nasprotni hipotezi
Večkratna regresija Kadar nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji. Uporabljamo model v obliki linearne funkcije je napaka modela in je normalna slučajna spremenljivka z Zaradi tega velja
Vzemimo, da imamo za vsako od neodvisnih spremenljivk in odvisno spremenljivko podanih n vzorčnih podatkov
Ocene parametrov lahko dobimo z metodo najmanjših kvadratov Bolj enostavno pa jih dobimo, če uporabimo matrični račun. Vpeljimo oznake:
Matrika ocen koeficientov večkratne regresije je Nepristransko oceno napake modela, pravimo ji tudi standardna ocena napake modela, v matrični obliki izrazimo takole: nje velikost vzorca, k pa število ocenjenih parametrov
Če je napaka regresijskega modela normalna slučajna spremenljivka, potem je za i = 0,1,2,…,k vrednost t slučajne spremenljivke z n-k-1 stopnjami prostosti Pri tem je element v i-ti vrstici in i-tem stolpcu inverzne matrike S to statistiko testiramo tudi koeficiente linearne regresije, kjer se ničelna hipoteza nanaša na njihove predpostavljene vrednosti
interval zaupanja za koeficiente regresijske hiperravnine je za i = 0,1,2,…,k
Če je izbrana vrednost neodvisnih spremenljivk, napovedano vrednost dobimo Meji intervala zaupanja za napovedano vrednost odvisne spremenljivke sta
Začetna varianca je Nepojasnjena variancaje Koeficient določenosti pa je