1 / 38

Regresszió és korreláció

Regresszió és korreláció. 2013. 03. 09. Lineáris regresszió Regressziós vizsgálatok Korrelációs együttható Korreláció és függetlenség. Bizonyos esetekben tudjuk/gyanítjuk, hogy az adatok ingadozásáért egy másik, ugyancsak változó tényező a felelős Pl.:

zarek
Download Presentation

Regresszió és korreláció

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regresszió és korreláció 2013. 03. 09 .

  2. Lineáris regresszió • Regressziós vizsgálatok • Korrelációs együttható • Korreláció és függetlenség

  3. Bizonyos esetekben tudjuk/gyanítjuk, hogy az adatok ingadozásáért egy másik, ugyancsak változó tényező a felelős • Pl.: • RR különböző életkorokban más értékek • Laboratóriumi mérést helyiség hőmérséklete befolyásol, növeli a szórást

  4. Kézenfekvő lenne ennek a külső változónak az ingadozását megszüntetni, értékét azonos szinten tartani – nem mindig lehetséges • Másik megoldás, hogy a zavaró változó hatását igyekszünk felderíteni, és számítással kiküszöbölni.

  5. Bizonyos esetekben ennek a hatásnak a természete jobban érdekel minket, mint magának a szórásnak a csökkentése • Pl.: Hogyan változik (és változik-e egyáltalán) • a korral a vérnyomás • a koncentrációval a törésmutató • Eredeti változónkat tehát mintegy a másik függvényében vizsgáljuk – regressziós vizsgálatok

  6. Adrenalin hatására vizsgáljuk az izomrángást • Adrenalin dózis növekedésével a rángásidőt vizsgáljuk • Próbáljuk egyenessel megközelíteni a hatás jellemzését

  7. x változó vizsgált értékeit mi választjuk ki, • yi adatok eltérését az egyenestől rögzített xi értéknél (tehát a függőlegesen vizsgáljuk) • Célunk, hogy a függőleges egyenesekből számolt szórás a lehető legkisebb legyen • y=a+bx ahol b a meredekség, a tengelymetszet

  8. Regressziós vizsgálatok • A regressziós összefügéseket nem mindig egyenes ábrázolja a legjobban • Sokszor görbe jellemzi: parabola, hiperbola vagy exponenciális görbe • Előfordul, hogy a dózis logaritmusa áll lineáris kapcsolatban a hatással

  9. Valóságos regressziós egyenlet: 1., x és y tengelyen ábrázolt adatokra rátekintve mondhatjuk meg, hogy milyen görbe jellemzi 2., Megmérjük az összefüggés szorosságát, ezt a célt szolgálja a korrelációs együttható

  10. Kovariancia (sxy): az együttes ingadozás mértékszáma • Korelációs együttható (r): a kovariancia a szórások szorzatával osztva

  11. Pozitív hajlásszögű egyenes: b>0, a korrelációs együttható (r) is pozitív lesz, ezt pozitív korrelációnak nevezzük. • Negatív hajlásszögű egyenes: a korrelációs együttható is negatív, negatív korrelációról beszélünk • r=0 korrelálatlanságról beszélünk, ilyenkor regressziós egyenes vízszintes (b=0) (ilyenkor y átlagos értéke ugyanaz marad, akárhogyan is változik x)

  12. A korrelációs együttható csak -1 és +1 közti értékeket vehet fel • A együttható abszolút értéke jellemzi a kapcsolat szorosságát (mennél jobban tömörülnek a pontok az egyenes körül annál nagyobb r abszolút értéke) • +1 vagy -1 értéket akkor és csak akkor éri el az együttható, ha a pontok valamennyien rajta fekszenek az egyenesen

  13. Két változó együttváltozása lehet, hogy csak egy harmadik változó hatásának eredménye: mindkettejük alakulását az szabályozza, maguk a vizsgált változók azonban semmiféle befolyással nincsenek egymásra • Pl.: gyulladásos folyamat lázat és fvs szám növekedést okoz. De sem a láztól a fvs, sem a fvs növekedéstől a testhőmérséklet nem változik

  14. Még ha ok-okozati összefüggés áll is fenn a két vizsgált változó között, pusztán korrelációs együttható segítségével akkor sem tudjuk eldönteni hogy melyik befolyásolja a másikat • Az ok megkeresése biológiai probléma nem pedig biometriai

  15. A korreláció hiánya, a korrelálatlanság (r=0) hasonlóképpen hibás következtetésekre indíthat – mivel a változók közötti kapcsolat hiánya miatt könnyen értelmezhetjük úgy, hogy az adatok függetlenek egymástól • Pl.: az életkor függvényében vizsgált összefüggések

  16. Erre a legjobban közelítő egyenes a vízszintes lesz • Erre az eredményt azonban a legjobban nem az egyenes reprezentálja hanem egy görbe.

  17. Nem minden görbevonalú kapcsolat esetén ennyire félrevezető az r együttható segítségével szerzett információ, de ajánlatos azzal mindig óvatosan bánnunk • A normális eloszlás fontos kivétel: elméletileg igazolható, hogy ilyenkor vagy lineáris kapcsolat van a változók között vagy semmilyen • Normális eloszlás esetén tehát a korrelálatlanság (lineáris kapcsolat hiánya) már biztosítja a függetlenséget.

  18. Fordított irányú következtetés viszont mindig helyes: a változók függetlensége esetén a korrelációs együttható mindenképp nulla

  19. Bizonyos esetekben az r becsaphat: korrelációt találhatunk ott is ahol valójában függetlenség van, máskor meg kétségkívül fennálló lineáris kapcsolatot „nem veszi észre” a mintából számított r együttható, a mintaelemek speciális elhelyezkedése miatt

  20. A körben elhelyezkedő végtelen sok érték közül választunk ki néhányat – a változóból a mintát -, és ezekből határozzuk meg a korrelációs együtthatót. Mivel a kiválasztott pontok véletlenül egy egyenes mentén helyezkednek el, a korrelációs együttható értéke közel lesz az 1-hez . Emiatt arra a következtetésre jutunk, hogy a változók közt szoros kapcsolat van.

  21. Más esetben a változók értékeit ábrázoló pontokból a köztük lévő lineáris összefüggés nyilvánvaló; a kiválasztott pontok – ismét csak véletlenül – azonban úgy helyezkednek el, hogy rajtuk vízszintes egyenest fektethetünk át. • Az így kapott r=0 alapján a változók korrelálatlanságára (sőt gyakran függetlenségére) következtethetünk

  22. A fenti ellentmondásokat az eddigi módszerekkel már nem tudjuk feloldani. • Statisztikai következtetés módszereinek helyes alkalmazása megvéd az utóbbi kettő tévedéstől.

  23. Az eloszlások paramétereire vonatkozó próbák • U próba • T (student) próba • F próba

  24. u-próba • He egy ismert σ szórású (normális eloszlású) alapsokaságból vett n elemszámú minta átlagára vonatkozó nullhipotézisünket akarjuk ellenőrizni

  25. Átlagsúly 1.985 kg • A súlyok szórása 0.060kg • Szignifikancia szint 5% (μp=0.05) • Ehhez tartozó kritikus érték: 1.96

  26. t-(student) próba • T-próbával ellenőrizhetjük két ismeretlen minta középértékeire vonatkozó hipotézisünket, a két mintaátlag különbségének szignifikanciáját. • A két mintaátlag különbözősége önmagában nem bizonyítja a két várható érték eltérését, erre a t-próba ad felvilágosítást

  27. t-(student) próba • A t-próba alkalmazásának előfeltétele, hogy a két valószínűségi változó követi a normális eloszlást, és szórása egyenlő

  28. F-próba • Mind az u-próbánál, mind a t-próbánál feltéteteleztünk valamit a sokaság szórásáról: • Az u-próbánál azt, hogy ismert, t-próbánál pedig azt, hogy az összehasonlított sokaságok szórása azonos. A szórással kapcsolatos ezen hipotéziseink ellenőrzésére alkalmas az F-próba

  29. F-próba A nullhipotézis itt azt jelenti, hogy két normális eloszlású ismeretlen várható értékű sokaság szórása azonos (σ1=σ2) A két sokaságból vett minta szórásnégyzeteinek hányadosa F-eloszlást követ

  30. KÖSZÖNÖM A FIGYELMET!

More Related