1 / 58

2. A következtetési statisztika alapfogalmai

2. A következtetési statisztika alapfogalmai. Tartalom. Statisztikai következtetések A véletlen minta fogalma Pontbecslés és hibája Intervallumbecslés A hipotézisvizsgálat alapfogalmai A legegyszerűbb statisztikai próbák Normalitásvizsgálat. A statisztikai következtetés két fő típusa.

jemima
Download Presentation

2. A következtetési statisztika alapfogalmai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2. A következtetésistatisztika alapfogalmai

  2. Tartalom • Statisztikai következtetések • A véletlen minta fogalma • Pontbecslés és hibája • Intervallumbecslés • A hipotézisvizsgálat alapfogalmai • A legegyszerűbb statisztikai próbák • Normalitásvizsgálat

  3. A statisztikai következtetéskét fő típusa • Statisztikai becslés • Statisztikai hipotézisvizsgálat

  4. Statisztikai hipotézisvizsgálat • Van-e különbség a teljesítményátlag tekintetében a magyar pszichológus hallgató fiúk és lányok között? • Nullhipotézis (H0): nincs különbség • Ellenhipotézis (HA): van különbség • a) A fiúk a jobbak • b) A lányok a jobbak

  5. Statisztikai becslés • Kb. mekkora egy egészséges felnőtt nő szisztolés vérnyomása? • Átlagosan hány próbálkozással tanul meg egy ivarérett patkány egy adott útvesztőt?

  6. Hogyan következtünk? • Mintát veszünk a populációból és abból következtetünk arra, hogy milyen lehet a populáció.

  7. Milyen legyen a minta? • Legyen olyan, mint a populáció. • Képviselje jól a populációt (legyen reprezentatív).

  8. Mivel lehet a minta reprezentativitását biztosítani? • Ha a kiválasztás véletlenszerű • Ezzel kizárjuk a szubjektivitást. • Ha a minta elég nagy • Ezzel lehetővé tesszük, hogy a populáció sokszínűsége a mintában is megjelenjen.

  9. Hogyan lehet valódi véletlen mintát venni a populációból? • Némi véletlenszerűséget könnyű alkalmazni, de a szubjektivitást nehéz kizárni. • Az önmagában nem elég, hogy a minta nagy: • USA elnökválasztás, 1936: Roosevelt versus Landon. • A Literary Digest folyóirat 2,4 millió kérdőív feldolgozása alapján Landon nagyarányú győzelmét jósolta. • Ezzel szemben Roosevelt 62%-ot kapott és nyert. • A Gallup kisebb, de jó minta alapján helyes becslést adott.

  10. Néhány jó tanács a megfelelő minta kiválasztásához • Minden olyan réteg arányosan képviselve legyen, amelyik a populációhoz tartozik. • Hólabda módszer (ismerős ismerősének az ismerőse). • A kényelmi és hozzáférhetőségi alapon összeállított minták (pl. egyetemisták) esetlegesek. • Az ideálistól eltérő mintaválasztást hibafaktorként számítsuk be a döntés bizonytalanságába. • Ha összeállt a minta, töprengjünk el azon, hogy az milyen populációt képvisel. (Pl. a jelen évfolyam?)

  11. A valószínűségi döntés véletlen jellege Az egyik urnából véletlenszerűen kiveszek egy golyót. Látjuk, hogy piros. Melyik urnából vettem ki?

  12. A valószínűségi döntés véletlen jellege • Bárhogyan is döntök, nem lehetek teljesen biztos abban, hogy a döntésem helyes, vagyis hogy nem követek el hibát. • Ha piros golyót húzva a bal oldali urnát valószínűsítem, 2/3 az esélye, hogy igazam van, de 1/3 az esélye, hogy tévedek. • Sárga húzás esetén?

  13. Példa: a depresszió két kezelési típusának összehasonlítása Melyik a jobb kezelés? • Placebo (napi 3x1, 3 hónapig) • Pszichoterápia (heti 3x1 óra, 3 hónapig) Gyógyulók %-a

  14. Következtetés Melyik esetben jelenthetjük ki legalább 95%-os megbízhatósággal, hogy a pszichoterápia hatásosabb a placebónál? Gyógyulók %-a

  15. A STATISZTIKA RENDSZERE STATISZTIKA LEÍRÓSTATISZTIKA KÖVETKEZTETÉSI STATISZTIKA HIPOTÉZIS- VIZSGÁLAT BECSLÉS PONT- BECSLÉS INTERVALLUM- BECSLÉS

  16. Szokásos jelölések • Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás) • Populációbeli (elméleti)átlag: μ(ejtsd: mű) • Mintabeli (tapasztalati) szórás: s • Populációbeli (elméleti)szórás: σ(ejtsd: szigma)

  17. Következtetési statisztika két fő típusa • Becslés (Mekkora? Milyen nagy?) • Pontbecslés (kb. 10,6  1,3) • Intervallumbecslés (95%-os megbízhatósággal 7,8 és 12,5 között) • Hipotézisvizsgálat (Igaz-e, hogy …?)

  18. Statisztikai becslés • Mi a teljesítményátlaga az iménti memóriajátékban az összes magyar pszichológus hallgatónak? • Ha azt mondjuk, hogy kb. 4,3, akkor pontbecslést adunk. • Ha azt mondjuk, hogy 3 és 6 között van, akkor intervallumbecslést adunk.

  19. Mit szoktak becsülni? • Populációátlag (elméleti átlag: μ, E(X)) • Populációmedián (elméleti medián: Med(X)) • Populációszórás (elméleti szórás: , D(X)) • Elméleti variancia (2, Var(X)) • Két elméleti átlag különbsége (μ1– μ2) • Általában a populációk különféle kvantitatív jellemzőit szokták becsülni

  20. Az elméleti átlag pontbecslése konkrét példával illusztrálva • Változó: félév végi statisztika vizsgajegy • Populáció: I. éves pszichológus hallgatók • Egy lehetséges véletlen minta (rendezve): {2, 3, 3, 4, 4, 5, 5, 5, 5, 5} • Néhány szóba jöhető pontbecslés az elméleti átlagra: • Módusz: Mo = 5 • Medián: M = 4,5 • Terjedelemközép: TK = (Min + Max)/2 = 3,5 • Átlag: x = 41/10 = 4,1

  21. Pontbecslés a μelméleti átlagra • Következtetés: mintából a populációra. • Mi van olyan a mintában, aminek köze van (lehet) a populációátlaghoz? • Becslés jelölése: a kalap (^) szimbólummal. • Az elméleti átlag egy pontbecslése a mintaátlag: μ = x

  22. A pontbecslésről • Amit becsülünk (pl. μ, s stb.), az egy konkrét szám. • Amivel becsülünk (mintaátlag, TK stb.), egy véletlen minta statisztikai mutatója, véletlen változó, melynek értéke a minta kiválasztása után lesz csak ismert.

  23. 10 véletlen minta átlaga: μ = ?

  24. Hogyan mérhető a pontbecslés jósága (pontatlansága)? • Standard hiba (SH): körülbelül ennyit tévedünk • μ ≈ x  SH • Példa: ROPstat, részletesebb statisztikák

  25. A pontbecslés hibája • Hibavariancia= átlagos négyzetes eltérés a valódi értéktől • Standard hiba (SH) = Hibavariancia négyzetgyöke • Egyfajta átlagos eltérés

  26. Mit várunk el egy jó pontbecsléstől? • Ne torzítson szisztematikusan se pozitív, se negatív irányban (torzítatlanság) • SH-ja legyen kisebb, mint a többi becslésé (hatékonyság) • SH-ja az elemszám növelésével csökkenjen és tartson 0-hoz (konzisztencia)

  27. A mintaátlag standard hibájának meghatározása • Elméleti SH = s/ • Mintabeli SH = s/ • Mi itt a „s” és mi az „s”? • Ha X = IQ, s = 15, n = 25, SH = ? • Mekkora elemszámnál lesz SH 1-nél kisebb? GYAK

  28. Miért jó becslése a mintaátlag a populációátlagnak? • A véletlen minta átlaga a populációátlag körül ingadozik (torzítatlanság) • A mintaátlag SH-ja az elemszám növelésével csökken (konzisztencia) • A mintaátlag SH-ja sok esetben (pl. normális eloszlású változók esetén) kisebb, mint más pontbecsléseké (mediáné, TK-é stb.)

  29. Intervallumbecslés Definíció: Olyan intervallum (szakasz, övezet), mely nagy megbízhatósággal tartalmazza a becsülni kívánt értéket.

  30. Intervallumbecslés az elméleti átlagra • Vegyünk alkalmas övezetet a mintaátlag körül! • Milyen övezet lesz jó? • Ha nagyon szűk, m könnyen kívül maradhat. • Ha nagyon tág (pl. 0-1000): semmitmondó állítás. X-skála x

  31. Szokásos kritérium • Olyan övezetet vegyünk a mintaátlag körül, amelyik nagy (90 vagy 95%-os) eséllyel tartalmazza az elméleti átlagot (azaz m-t). • Ennek az övezetnek (intervallumnak) a neve: 90, illetve 95%-os konfidencia-intervallum. • Jelölés: C0,90, illetve C0,95.

  32. A konfidencia-intervallum meghatározása 95%-os konfidencia-intervallum nagy minták esetén: X-skála 2SH 2SH x C0,95 2SH x GYAK

  33. Egy következmény Minél nagyobb az elemszám, annál keskenyebb lesz rögzített (pl. 90 vagy 95%-os) megbízhatósági szinten a konfidencia-intervallum, vagyis annál jobb lesz az intervallumbecslés. SH = s/

  34. Egy példa Tegyük fel, hogy a MAWI-IQ az egyetemi hallgatók populációjában közel normális eloszlású, szórása 15, de a populációátlagot nem ismerjük. • Egy véletlen 25 fős mintában az átlag 110. • Mekkora lehet a populációátlag? C0,95 110± 2·SE = 110 ± 2·± 2·15/5 = = 110 ± 6 = (104; 116) GYAK

  35. Statisztikai hipotézisvizsgálat

  36. Igen-nem segítségével megválaszolható kérdések 1. Egyetemi hallgatók IQ-ja nagyobb-e az átlagosnál? 2. Van-e különbség férfiak és nők verbális intelligenciaszintje között? 3. Összefügg-e a nyugalmi vérnyomásszint és a CPI személyiségteszt Tolerancia skálájának szintje?

  37. A hipotézisvizsgálat fő fogalmai az előző dia 2. kérdésével szemléltetve 1. Szakmai feltételezés:a nők verbális IQ-jának átlaga nagyobb a férfiakénál. 2. Szakmai hipotézis formulával: E(IQ_nő) > E(IQ_férfi). 3. Statisztikai nullhipotézis: E(IQ_nő) = E(IQ_férfi). 4. Indirekt gondolatmenet: szakmai hipotézis igazolása a nullhipotézis elutasításával történik.

  38. A hipotézisvizsgálat fő fogalmai az iménti dia 1. kérdésével szemléltetve 1. Szakmai feltételezés:az egyetemi hallgatók IQ-ja nagyobb az átlagosnál. 2. Szakmai hipotézis formulával: E(IQ) > 100. 3. Statisztikai nullhipotézis: E(IQ) = 100. 4. Indirekt gondolatmenet: szakmai hipotézis igazolása a nullhipotézis elutasításával történik.

  39. 10 véletlenszerűen kiválasztott egyetemi hallgató IQ-ja 117, 137, 152, 149, 110, 135, 108, 120, 127, 127 E(IQ) = 100 esetén mi a valószínűsége, hogy 10 véletlenszerűen kiválasztott hallgató mindegyikének 100-nál nagyobb lesz az IQ-ja? p = 1/210 = 1/1024 ≈ 0,001

  40. Vagyis: Ha igaz az a nullhipotézis, hogy az egyetemi hallgatók átlagos IQ-júak, akkor igen kicsi (p < 0,001) annak a valószínűsége, hogy ilyen nagy (csupa 100-nál nagyobb) adatokat kapjunk 10 megfigyelésből.

  41. A statisztikai hipotézisvizsgálat alapgondolata Ha a minta, illetve a mintából kiszámított valamely mutató értéke a nullhipotézis (H0) fennállása esetén igen kis valószínűségű, akkor a nullhipotézist elutasítjuk.

  42. A statisztikai próba p-értéke Mi a valószínűsége, hogy a nullhipotézis (H0) fennállása esetén ilyen, vagy ennél szélsőségesebb legyen a minta, illetve a mintából kiszámított valamely mutató értéke?

  43. A szélsőségesség kétirányú Mi is itt a nullhipotézis?

  44. A próba neve: előjelpróba • Nullhipotézis:H0: E(IQ) = 100 • Az IQ elméleti átlaga 100-zal egyenlő • Ekvivalens nullhipotézis normális eloszlású változók esetén: H0: P(IQ < 100) = P(IQ > 100) • A populációban ugyanolyan gyakran fordul elő 100-nál kisebb, mint 100-nál nagyobb IQ-érték • Ez az előjelpróba szokásos alakú nullhipotézise • Döntés az elemszám alapján statisztika táblázat segítségével (lásd tankönyv)

  45. A statisztikai döntés logikája • Miért érezzük úgy, hogy 10-0 vagy 0-10 esetén elutasítható a nullhipotézis (H0)? • Miért érezzük 10 egymás utáni fej dobás után azt, hogy a pénzérme szabályosságát állító H0 elutasítható? • Ha ilyen esetben H0-t elvetjük, mi az esélye annak, hogy hibásan döntünk? • Ha elméletileg lehetséges ilyen sorozat, akkor miért lepődünk meg, ha bekövetkezik?

  46. Eddig mit néztünka mintában? Azt, hogy hány 100-nál nagyobb és hány 100-nál kisebb IQ-érték van. Van más mutató is, ami mond valamit a nullhipotézis (H0) valószínűségéről?

  47. Egy másik lehetséges mutató: t-statisztika (100: a feltételezett elméleti átlag)

  48. Próbastatisztika A t-statisztikát és a statisztikai hipotézisvizsgálatokhoz használt hasonló – mintából kiszámított – mutatókat próbastatisztikáknak nevezzük.

  49. Ha H0: μ = 100 igaz, akkor t eloszlása n = 10 esetén t % ,5% ,% 0 -2,26 2,26

  50. Hogyan döntsünk különböző t-értékekre n = 10 esetén? t % t = 0,41 t = -2,50 t = 4,60 -2,26 0 2,26 GYAK

More Related