REGRESNÁ A KORELAČNÁ ANALÝZA

REGRESNÁ A KORELAČNÁ ANALÝZA

PREDNÁŠKA 8 • analýza závislostí medzi kvantitatívnymi znakmi • regresná analýza • jednoduchá lineárna závislosť • regresný model • MNŠ • jednoduchá nelineárna závislosť • viacnásobná lineárna závislosť • korelačná analýza • miery tesnosti závislosti

Závislápremenná kvantitatívna RaKA Nezávislápremenná kvantitatívna kvantitatívna kvantitatívna Úvod

cm kg Úvod • Štatistická analýza závislostí • skúmanie vzájomných vzťahov a závislostí medzi jednotlivými hromadnými javmi • hromadné javy neexistujú oddelene • každý jav je výsledkom spolupôsobenia iných javov • charakter a významnosť pôsobenia môžu byť rôzne • predmetom skúmania sú príčinné (kauzálne) závislosti • jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)

Úvod • Typy závislostí • príčinné • ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok) • jednostranné - účinok nepôsobí spätne na príčinu • obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia • združené • nie sú to príčinné závislosti • určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota, obmena iného javu • dĺžka ramien – výška jednotlivca • zdanlivé • vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti • je výsledkom pôsobenia ďalšieho javu alebo javov • napr. výdavky na ovocie a výdavky na obuv

Opakom štatistickej závislosti je funkčná závislosť Y = f(X1 X2…...Xk ,Bo , B1 ,…., Bp) kedy je závisle premenná veličina jednoznačne určená funkčným vzťahom, príklady z fyziky, chémie - takýto druh vzťahov nie je predmetom štatistického skúmania

1 2 vzťah možno popísať polynómom vzťah možno popísať priamkou 4 3 medzi premennýmineexistuje jasný vzťah vzťah možno popísať krivkou Nástroje analýzy závislostí • Grafické - Bodový graf (XY graf) • Úvodné preskúmanie vzťahov medzi premennými pomocou bodového grafu Presnú odpoveď poskytne výpočet štatistík RaKA

Bodový graf Bodový graf slúži na: • úvodné preskúmanie vzťahov medzi dvomi premennými • určenie extrémnych alebo typických hodnôt • určenie možného tvaru závislosti • porovnanie a prezentáciu výsledkov analýzy Bodové grafy nám vždy slúžia na získanie základnej predstavy. Každý analytik však v grafe môže vidieť niečo iné. Presné potvrdenie našich domnienok nám poskytnú až exaktné štatistické nástroje.

A B Nástroje analýzy závislostí • Štatistické – regresná a korelačná analýza • sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi • rieši dve úlohy • regresnú úlohu • popísanie priebehu tejto závislosti • odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov • korelačnú úlohu • popísanie tesnosti závislostí • výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú variabilitu závisle premennej

Regresná analýza • umožňuje popísať vzťah medzi dvoma alebo viacerými premennými • cieľ regresnej analýzy • odhadnúť funkčný vzťah medzi premennými • odhadnúť parametre regresnej funkcie • typy premenných v regresnej analýze • závislé premenné • označenie:Y • sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť • tzv. vysvetľované premenné • nezávislé premenné • označenie:X • sú premenné, ktoré používame na vysvetlenie zmien v hodnotách závislej premennej • predpokladáme, že ich hodnoty sa nemenia • tzv. vysvetľujúce premenné

Regresná analýza • typy regresnej analýzy podľa počtu premenných • jednoduchá regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od jednej kvantitatívnej nezávisle premennej • viacnásobná regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od viacerých kvantitatívnych nezávislých premenných • typy regresnej analýzy podľa typu závislosti • lineárna regresia • ak popisujeme závislosť premenných pomocou priamky • nelineárna regresia • ak popisujeme závislosť premenných pomocou inej krivky ako priamka

0 + 1X Závisle premenná 1 jednotiek 1 jednotka 0 Nezávisle premenná Model jednoduchej lineárnej regresie • Popis závislosti v ZS • rovnica modelu Y = 0 + 1X + e • kde Y je závisle premenná X je nezávisle premenná 0 je parameter modelu tzv. lokujúca konštanta, ktorá vyjadruje akú hodnotu nadobudne premenná Y, ak premenná X bude mať hodnotu 0 1 je parameter modelu tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, 1> pozitívna závislosť, 1< negatívna závislosť

Výberový súbor Základný súbor závisle premenná závislá premenná Y´ = b0 + b1X nezávisle premenná nezávislá premenná Y = 0 + 1X +  Y = est (Y)b0 = est (0) b1 = est (1) Y = 0 + 1X Model jednoduchej lineárnej regresie • Odhad modelu

2 Závisle premenná Y – Y´  ( Y – Y´ ) = min Y´ = b0 + b1X Nezávisle premenná Model jednoduchej lineárnej regresie • Metóda najmenších štvorcov (MNŠ) • metóda odhadu parametrov regresnej modelu • odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok = rozdielov medzi skutočnou hodnotou a odhadnutou priamkou • priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa len dá

Metóda najmenších štvorcov • Predpoklady MNŠ • priemery Y pre jednotlivé hodnoty X možno spojiť priamkou • rozptyl premennej Y je konštantný - s2 pre všetky hodnoty X • premenná Y má normálne rozdelenie pre všetky hodnoty X • pozorovania Y sú navzájom nezávislé • pozorovania X sú nenáhodné, navzájom nezávislé a bez chýb v meraní

Metóda najmenších štvorcov • Možno dokázať, že koeficienty bo , b1 , …, bpurčené MNŠ sú “najlepšie odhady” parametrov b0 , b1 , …, bp ak súčasne o náhodných chybách platí: E (ej ) = 0, D (ej ) = E (ej2 ) = 2 , E(ej1 , ej2 ) = 0 , pre každéj1  j2 • slovne: • od náhodných chýb požadujeme nulovú strednú hodnotu, konštantný rozptyl a vzájomnú nezávislosť náhodných chýb

Vlastnosti MNŠ • súčet štvorcov reziduálnych odchýlok je minimálny • súčet reziduálnych odchýlok je nulový • regresná funkcia prechádza bodom o súradniciach x a y

Použitie MNŠ • MNŠ je možné použiť k odhadu parametrov regresnej funkcie, ak: • je regresná funkcia lineárna • resp. lineárna v parametroch • je možné regresnú funkciu pretransformovať na lineárnu v parametroch

Nelineárna regresná a korelačná analýza • v praxi nielen lineárne funkcie, ale veľmi často má priebeh nelineárny priebeh • nelineárne funkcie je možné použiť s dvoma alebo viacerými parametrami • niektoré nelineárne regresné funkcie je možné vhodnou transformáciou upraviť na lineárne v parametroch • k odhadu ich parametrov je potom možné použiť metódou najmenších štvorcov.

Nelineárna regresná a korelačná analýza • niektoré typy nelineárnych funkcií hyperbola logaritmická funkcia parabola exponenciálna funkcia mocninová funkcia

Funkcia HYPERBOLY substitúcia

LOGARITMICKÁ funkcia substitúcia

EXPONENCIÁLNA funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • ln b1 b0=EXP(lnb0) • VSTUP: • ln y • x

MOCNINOVÁ funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • b1 • VSTUP: • ln y • ln x

Korelačná analýza • overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí. • výpočet číselných charakteristík, ktoré v koncentrovanej forme popisujú kvalitu vypočítaných modelov. • požadujeme od nich, aby sa pohybovali v pevne ohraničenom intervale, • v rámci intervalu rástli s vyššou silou závislosti

y y x x Korelačná analýza • porovnanie dvoch prípadov závislosti • Ktorá závislosť bude tesnejšia?

Korelačná analýza • miery tesnosti štatistickej závislosti: • koeficient korelácie ryx • len pre lineárnu závislosť • koeficient determinácie ryx2 • len pre lineárnu závislosť • index korelácie iyx • index determinácie iyx2

Korelačná analýza • Index korelácie a index determinácie • princíp spočíva v rozklade variability závisle premennej Y Celková variabilita závisle premennej Variabilita nevysvetlená regresnou funkciou – reziduálna variabilita Variabilita závisle premennej vysvetlená regresnou funkciou

Korelačná analýza • index korelácie iyx • index determinácia iyx2

Korelačná analýza • index korelácie • hodnoty sa pohybujú v intervale od (0,1) • čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia a opačne • index determinácie • nadobúda hodnoty z intervalu 0 až 1 • čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej variability je modelom vysvetlená a naopak • ak sa index determinácie blíži k 0, tým menšia časť celkovej variability je vysvetlená modelom

Korelačná analýza • index determinácie • kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie • volíme ten model,ktorý má vyšší koeficient determinácie (vyššie % vysvetlenej variability) • ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť index determinácie do korigovanej podoby v tvare: • výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš veľa premenných

Korelačná analýza • koeficient korelácie - ryx • hodnoty sa pohybujú v intervale: –1, 1 • ryx=-1 – silná negatívna závislosť • ryx=0 – bez závislosti • ryx=1 – silná pozitívna závislosť • koeficient determinácie ryx2 • hodnoty sa pohybujú v intervale: 0,1 • udáva % vysvetlenej variability závisle premennej

Overenie kvality modelu • Testovanie významnosti modelu ako celku • na základe rozkladu variability • celková variabilita • na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového priemeru • vysvetlená variabilita • na koľko sa odchyľujú hodnoty na regresnej priamky od celkového priemeru • nevysvetlená variabilita • na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt odhadnutých regresnou priamkou • čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou variabilitou, tým lepšie odhadnutápriamka modeluje závislosť premenných

priemerná suma štvorcov modelu priemerná reziduálna sumaštvorcov = F Overenie kvality modelu • Testovanie významnosti modelu ako celku • Hypotézy: H0: model ako celok nie je významný H1: model ako celok je významný • Testovacia charakteristika • porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom • čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi závislou a nezávislou premennou vysvetlenávariabilita suma štvorcovmodelu reziduálna suma štvorcov nevysvetlenávariabilita celková suma štvorcov celková variabilita

Nevysvetlenávariabilita Závisle premenná Vysvetlenávariabilita Celkovávariabilita _ Y Y´ = b0 + b1X Nezávisle premenná Overenie kvality modelu • Testovanie významnosti modelu ako celku • pomocou rozkladu variability modelu

Overenie kvality modelu • ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu vypovedacej schopnosti modelu

Overenie kvality modelu • testovacie kritérium v tabuľke je možné využiť k súčasnému testovaniu významnosti celého regresného modelu, indexu determinácie aj indexu korelácie • vypočítanú hodnotu F testu porovnávame s tabuľkovou F hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov voľnosti • ak F < Ftab považujeme regresný model za nevýznamný, podobne aj index determinácie a index korelácie • ak F > Ftab považujeme regresný model za štatisticky významný, podobne aj index determinácie a index korelácie

Test významnosti parametrov RF • Testovanie významnosti parametrov modelu H0: parametre regresnej funkcie sú štatisticky nevýznamné b0 = 0b1 = 0 H1: parametre regresnej funkcie sú štatisticky významné b0 0b1 0 Záver: p hodnota >  platí H0parametre nie sú štatisticky významnép hodnota <  platí H!parametre sú štatisticky významné Testovacia charakteristika: t = b0/s(b0) t = b1/s(b1)

Intervaly spoľahlivosti pre parametre RF Intervalový odhad ľubovoľného parametra pre regresnú priamku vychádza z toho, že za predpokladov formulovaných klasickým lineárnym modelom má veličina trozdelenie s n – p stupňami voľnosti. Pri zvolenej spoľahlivosti 1 – a je obojstranný interval spoľahlivosti pre parameterb0 daný vzťahom

Intervaly spoľahlivosti pre parametre RF a pre parameterb1

Viacnásobná lineárna regresia • Model s dvoma nezávislými premennými • rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú • model lineárnej regresie s dvoma vysvetľujúcimi premennými Y = 0 + 1X1 + 2X2 + e kde Y je závislá premenná X1 a X2 sú nezávislé, vysvetľujúce premenné e je náhodná zložka 0, 1, a 2 sú neznáme parametre modelu

Viacnásobná lineárna regresia • Všeobecný model viacnásobnej regresie • modeluje závislosť vysvetľovanej premennej ako výsledok jej lineárnej závislosti od k nezávislých premenných • Y = 0 + 1X1 + … + kXk + e • model vyjadruje vzťah medzi k premennými • na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor • model má p=k+1 parametrov • k - regresných koeficientov • lokujúcu konštantu 0

Regresný výstup v EXCELI

ĎAKUJEM ZA POZORNOSŤ

REGRESNÁ A KORELAČNÁ ANALÝZA

REGRESNÁ A KORELAČNÁ ANALÝZA

Presentation Transcript

Anal??se de Erro como Recurso Did??tico COMO ES

Common Office Anorectal Problems

Imaging of Anal Fistula

The Anus and Rectum

Fistulotomy and Setons

Physical Examination of Patients with Suspected Sexual Abuse

Section 3 The perineum

Gastrointestinal Disorders

Pathologie proctologique

GASTROINTESTINAL RADIOLOGY

FISSURE ANALE

FISSURE ANALE

EUGLENA Flagellum Eye spot Contractile vacuole Mitochondrion Nucleus Chloroplast pellicle

Pelvic Floor Dysfunction

Anal Cancer

STI, PID, Genital Tb

Di yot Uygulamaları

Surface-Enhanced Raman Scattering (SERS)

Oceanic Nekton

Malformaciones Ano Rectales

Anorectal manometry and Biofeedback therapy

ANAL FISSURE