1 / 174

Cvičebnice statistiky

Projekt Zdravotnické studijní programy v inovaci na FZS Univerzity Pardubice CZ.1.07/2.2.00/15.0357. Cvičebnice statistiky Cíl: procvičit statistické zpracování dat na modelových příkladech, za použití statistického programu IBM SPSS Statistics (verze 19) Září 2012.

Download Presentation

Cvičebnice statistiky

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekt Zdravotnické studijní programy v inovaci na FZS Univerzity Pardubice CZ.1.07/2.2.00/15.0357 Cvičebnice statistiky Cíl: procvičit statistické zpracování dat na modelových příkladech, za použití statistického programu IBM SPSS Statistics (verze 19) Září 2012

  2. Předpokládá se, že student již rozumí základním principům statistického zpracování dat i používané terminologii. Student by měl již chápat, že základní otázkou statistické indukce je získání určitých závěrů o populaci na základě výsledků zjištěných na náhodném výběru z populace. Statistická indukce v sobě zahrnuje riziko omylu. Přitom se zabýváme testováním hypotéz (hypotézy nulové a alternativní). Student by již měl tomuto procesu rozumět, měl by chápat termíny jako je hladina významnosti, jednostranný / dvoustranný test atd. Je vhodné si výše zmíněné postupy a příslušnou terminologii zopakovat, protože tato cvičebnice se již zabývá pouze procvičováním testování statistických hypotéz na základě vybraných druhů testů (jejichž výběr je podmíněn popsanou situací, která je analyzována). V českém jazyce sice neexistují materiály specializující se na principy statistiky v ošetřovatelství, ale je možno vycházet z příbuzných disciplín (společenských věd, medicíny), např. z materiálu Škaloudové, viz www.pedf.cuni.cz/~www_kpsp/studentum/skaloudova/kurz.doc Zdroje použité k tvorbě této cvičebnice jsou uvedené na jejím konci. Cvičebnice obsahuje příklady k procvičování, ty doprovázejí i zdrojová data v programu Microsoft Excel – student je může snadno zkopírovat do SPSS.

  3. Obsah: Typy veličin………………………………………………………………………………………………………… slide 4 Příklad 1 (porovnání 2 typů intervence u 2 skupin, Mann Whitney U Test)…………. slide 5–46 Příklad 2 (porovnání 2 typů intervence u 2 skupin, Dvouvýběrový T-Test)………….. slide 47–60 Procvičování – příklad 1 („matky novorozenců“)…………………………………………...... slide 61–72 Procvičování – příklad 2 („analgesie sestrou versus analgesie řízená pacientem“) slide 73–82 Příklad 3 (porovnání skupiny před a po intervenci, WilcoxonSigned Rank Test)….. slide 83–94 Příklad 4 (porovnání skupiny před a po interenci, párový T-test)………………………… slide 95–108 Procvičování – příklad 3 („hmotnost před a po rehabilitačním programu“)…….. slide 109–121 Procvičování – příklad 4 („bolest po masáži versus po medikaci“)…………………….. slide 122–141 Příklad 5 – korelace škál (dichotomizovaných výsledků, korelační koeficient phi)… slide 142–152 Příklad 6 – korelace škál (skutečných skóre, Spearmanův korelační koeficient)……. slide 153–160 Procvičování – příklad 5 („výška“ versus „skok daleký“)………………………………………. slide 161–172 Použité zdroje…………………………………………………………………………………………………….. slide 173

  4. V tento moment si alespoň zopakujme typy veličin: Kvalitativní: a) Nominální – pohlaví, oddělení (číselné kódy pouze slouží k označení jednotlivých kategorií, např. 1 = muž; 2 = žena) b) Ordinální – např. školní klasifikace (výborně = 1, chvalitebně = 2 atd.), stupeň souhlasu…dají se seřadit, lze se ptát „nižší“, „vyšší“, ale ne, o kolik. Nominální a ordinální proměnné souhrnně označujeme za kvalitativní. Nemá smysl u nich zkoumat aritmetický průměr číselných kódů hodnot. Kvantitativní (kardinální): c) Intervalové (rozdílové) – mají vlastnost ordinálního měřítka (škály) a navíc lze stanovit vzdálenost mezi hodnotami určitou jednotkou měření. Přitom 0 neznamená „nic“ (nepřítomnost hodnoty). Příklad: teplota ve stupních Celsia. Lze se ptát „menší“, „větší“ a o kolik. Měření je relativní, ne absolutní. d) Poměrová (podílová) – má všechny znaky nominální, ordinální, intervalové, navíc existuje absolutní nula a lze vypočítat podíl mezi hodnotami. Neexistují záporné hodnoty. Příklad: Teplota ve stupních Kelvina; počet obyvatel města; počet dětí v rodině, kolik edukačních lekcí se pacient zúčastnil či kolik bodů získal v testu (1, 2, 3, ……..); tělesná hmotnost, atd. (počet obyvatel města je diskrétní proměnná a může nabývat jen celých čísel; tělesná hmotnost je příklad spojité proměnné). Nominální, ordinální a kvantitativní diskrétní proměnné = kategoriální. Zdroj: UK Praha, Pedagogická fakulta, http://it.pedf.cuni.cz/metodika/index.php?kap=6 SPSS nerozlišuje mezi intervalovými a poměrovými úrovněmi měření – v obou případech je označujeme jako „scale“ (škála). Nominální úroveň měření označujeme „nominal“ a ordinální „ordinal“.

  5. Příklad 1. Chceme zjistit, která metoda edukace je účinnější – zda: využití samostudijního materiálu nebo videa s procvičováním dovedností. Studenty rozdělíme do dvou skupin – jedna skupina bude edukována pouze metodou a) a druhá pouze metodou b). Po absolvování edukace budou všichni studenti testováni stejným typem testu (post-testu). Před statistickým zpracováním dat si stanovíme testovatelnou hypotézu. Např.: Ho: Mezi skupinami studentů nebude ve výkonu na post-testu statisticky významný rozdíl (tedy, obě metody edukace se jeví jako stejně efektivní). Ha: Mezi skupinami studentů bude ve výkonu na post-testu statisticky významný rozdíl (tedy, jedna metoda edukace se jeví jako více efektivní). Praktická významnost: Je důležité si předem stanovit, co je pro nás prakticky významné. Je možné, že např. nepatrný rozdíl ve výkonu na post-testu je statisticky významný. Nemusí to ale mít žádný praktický význam, pokud v jedné skupině studenti získají např. 80 % a ve skupině druhé 82 %. Tím pak i statisticky významný výsledek nemusí být příliš užitečný při rozhodování, kterou metodu edukace budeme aplikovat do praxe – je možné, že jiné faktory pro nás v ten moment budou důležitější (finanční náklady, „pracnost“ edukační metody, atd.).

  6. Výše stanovené hypotézy jsou spojeny s následující výzkumnou otázkou: Bude mezi skupinami studentů ve výkonu na post-testu statisticky významný rozdíl (tedy, bude se jedna z metod edukace jevit jako efektivnější)? Pro výpočet můžeme použít např. program Microsoft Excel, při výpočtu zjišťovat hodnotu testové statistiky za pomoci vzorců, tu pak porovnávat s kritickou hodnotou (nalezneme v tabulkách, často v přílohách knih pojednávajících o statistice). Velmi populární jsou ale i statistické programy. Jednak umožňují velmi rychlé zpracování dat (i grafické), dále např. poskytnou informace o konfidenčních intervalech (intervalech spolehlivosti). Následuje zpracování výše uvedeného Příkladu 1 ve statistickém programu IBM SPSS, verze 19.

  7. Otevřeme nový (prázdný) soubor. Pokud máme před sebou „Data view“, klikneme na „Variableview“ (bude oranžové). (pozn.: variable = proměnná; view = zobrazení)

  8. Začneme vpisovat informace týkající se jednotlivých proměnných, např. budeme chtít definovat sloupec „číslo respondenta“. (Name = jméno; musí začít písmenem, může obsahovat až 8 znaků, včetně písmen, čísel a _) Jedná se o tzv. „String“ typ proměnné, tzn., že sice může obsahovat čísla, ale nejsou u ní povoleny matematické operace, jako je výpočet aritmetického průměru, směrodatné odchylky, atd. Typ je defaultně nastaven na „Numeric“, je nutno jej změnit na „String“ (viz další 2 slidy) (pozn.: string = řada, série, řetězec)

  9. Klikneme na buňku, kde je napsáno „Numeric“, vpravo se objeví rámeček se třemi tečkami (…), na něj klikneme a rozbalí se nový rámeček pro změnu typu proměnné na „String“ (viz další slide)

  10. Po kliknutí na typu proměnné - „String“ – klikneme OK

  11. Dále definujeme, že úroveň měření bude ordinální

  12. Na druhý řádek vepíšeme „typ_edukace“, bude se jednat o stejný typ proměnné („String“), avšak budeme chtít označit, jakých hodnot typ edukace může nabývat, proto věnujeme pozornost sloupci „Values“ (hodnoty) – po kliknutí do buňky se objeví rámeček se třemi tečkami, po jeho zakliknutí se rozbalí další rámeček, nazvaný „Valuelabels“ - další postup viz další slide

  13. Zvolíme, že typ edukace bude nabývat hodnoty „1“ nebo „2“. Jedná se o dichotomickou proměnnou (nabývá pouze dvou hodnot). Po vyplnění pole „Value“ a „Label“ klikneme na „Add“ a do velkého rámečku vpravo naskočí „1 = samostudijní materiál“). (pozn.: value = hodnota; add = přidat)

  14. Postup zopakujeme pro hodnotu 2, nakonec klikneme „Ok“.

  15. Dokončíme řádek tak, že vybereme nominální úroveň měření.

  16. Vepíšeme další položku, pro kterou potřebujeme vložit data – znalosti v post-testu (skóre). Jedná se o numerický typ proměnné, i když je diskrétní. Věnujeme pozornost definování chybějících dat („Missingvalues“) – po rozbalení příslušného rámečku nadefinujeme, že „99“ má být pokládáno za chybějící data (ne u všech respondentů bylo vždy získáno skóre, někteří test nemuseli psát – např. odmítli či nebyli přítomni). Je možno vybrat jinou hodnotu než „99“ – důležité je, aby se nejednalo o skutečné skóre, kterého by respondenti mohli dosáhnout. Definujeme „Measure“ – úroveň měření je „Scale“ (změníme, defaultně je uvedeno „Unknown“ Po dokončení překlikneme z „Variableview“ na „Data view“. (Pozn.: unknown = neznámá) Dokončíme řádek tak, že vybereme nominální úroveň měření.

  17. Nyní můžeme překliknout na „Data view“

  18. Zde se nám zobrazí názvy sloupců, tak jak jsme je vepsali ve „Variableview“

  19. Pravděpodobně již máme data v tabulce v programu Microsoft Excel. Okopírujeme je a vložíme do jednotlivých sloupců. Vidíme, že pokud jsme u daného edukanta (respondenta) měření neprovedli (a data nám tedy chybí), jsou tato chybějící data vyjádřena tak, jak jsme je definovali (hodnotou „99“)

  20. Pro náš typ úlohy je vhodné použít dvouvýběrový t-test, ovšem za splnění následujících předpokladů: Nezávislá proměnná (NP) se týká dvou nezávislých skupin (ano – NP je typ edukace, ta je u každé skupiny edukantůjiná, skupiny jsou na sobě nezávislé) Závislá proměnná (ZP) je na intervalové nebo podílové škále (ano – ZP je skóre, jedná se o podílovou škálu, má intervaly mezi hodnotami a navíc má nulu stanovenou absolutně a všechny hodnoty jsou kladné, i když diskrétní ZP má přibližně normální rozdělení v každé skupině Splnění předpokladu a) a b) je jasné již z výzkumného designu (plánu), tedy ještě před sběrem dat můžeme prohlásit, že tyto dva předpoklady jsou splněny. Splnění předpokladu c) není jasné z výzkumného designu, ale zjistíme ho až po sběru dat a jejich statistickém zpracování (provedeme test normality). Existují dvě hlavní metody testu normality: numerická a grafická. Posouzení normality z grafů vyžaduje jistou zkušenost. Začátečník by se naopak mohl spolehnout spíše na numerickou metodu, i když ta má též svoje nevýhody.

  21. Zjistíme, zda ZP má přibližně normální rozdělení: klikneme na „Analyze“ – „DescriptiveStatistics“ – „Explore“ (pozn.: analyze = analyzovat; explore = prozkoumat)

  22. V levém poli se nám objeví nabídka všech sloupců z tabulky s daty. Vybereme z nich závislou proměnnou, tedy znalosti na post-testu (skóre), klikneme na šipce vedoucí k poli „DependentList“, tím se nám tato ZP přesune do tohoto pole. (Pozn. dependent list = seznam závislých proměnných)

  23. Z pole na levé straně dále vybereme nezávislou proměnnou (NP), tedy typ edukace, klikneme na šipce vedoucí k poli „FactorList“, tím se nám tato NP přesune do tohoto pole.

  24. Klikneme na „Plots“ a rozbalí se nám nové okno, kde můžeme zatrhnout „Normality plotswithtests“, klikneme na „Continue“ (pokračovat). To je důležité pro zjišťování normality. (pozn.: plot = graf)

  25. Klikneme „Ok“.

  26. Klikneme na „Statistics“ a rozbalí se nám nové okno, kde můžeme zatrhnout, že chceme získat popisnou statistiku („Descriptives“), klikneme na „Continue“ (pokračovat).

  27. Získáme výsledky…Získáme celou řadu výsledků vzhledem k tomu, že příkaz „Explore“ je používán nejen na test normality, ale i k dalším účelům. Např. první tabulka obsahuje absolutní a relativní četnosti (vidíme, že opravdu v dvou případech jsou chybějící data - byly vloženy hodnoty „99“) . V 2. tabulce se zobrazí popisná statistika, např. průměr, medián, směrodatná odchylka, atd. Protože se ale zabýváme testem normality, zajímá nás jednak tabulka označená „Testsof Normality“ (pro numerickou metodu) a dále „Normal Q-Q Plots(pro grafickou metodu) zjišťování normality.

  28. Detail výsledků: absolutní a relativní četnosti v každé skupině respondentů

  29. Detail výsledků pro každou skupinu respondentů (popisná statistika)

  30. Vraťme se nyní k testu normality. Zde je prezentován výsledek testu normality – numerickou metodou. Pro malý soubor je vhodné se zaměřit na test Shapiro-Wilk, i když je možné tento test použít i pro větší vzorky. Zaměříme se na hodnotu ve sloupci „Sig.“ (significance = významnost). Ho = data jsou normálně rozložena Ha = data nejsou normálně rozložena Pokud je hodnota Sig. > 0,05, pak je rozložení dat pro daný typ edukace (samostudijní materiál nebo video s procvičováním dovedností) normální. Pokud je hodnota < 0,05, pak se distribuce dat signifikantně liší od normální distribuce dat. Závěr testu normality: u obou typů edukace je Sig. < 0,05; distribuce dat se tedy signifikantně liší od normální distribuce. Proto není splněn předpoklad normality a testování rozdílů ve znalostech mezi dvěma skupinami bude muset proběhnout za použití neparametrické metody – Mann Whitney U Testu (ne za použití dvouvýběrového t-testu, jak jsme plánovali).

  31. Zde je prezentován výsledek testu normality i grafickou metodou (pro typ edukace = samostudijní materiál). Normálně rozložená data mají přímkový charakter. My jsme již numerickou metodou zjistili, že data nejsou normálně rozložena.

  32. Zde je prezentován výsledek testu normality i grafickou metodou (pro typ edukace = video s procvičováním dovedností). Normálně rozložená data mají přímkový charakter. My jsme již numerickou metodou zjistili, že data nejsou normálně rozložena. V dalších příkladech výsledky testu normality grafickou metodou pro jednoduchost zobrazovat nebudeme, i když tyto výsledky nám program SPSS poskytl.

  33. Testování rozdílů ve znalostech mezi dvěma skupinami za použití neparametrické metody – Mann Whitney U Testu Než se pustíme do neparametrického testu, vrátíme se k definici jednotlivých typů proměnných. U typu edukace jsme typ definovali jako „String“, jedná se o speciální, binární proměnnou (tedy může nabývat jen dvou možných hodnot), na kterou někdy pohlížíme jako na numerickou. Typ v tento moment potřebujeme rekódovat právě na numerický typ, aby mohl proběhnout již zmíněný Mann Whitney U Test.

  34. Nyní jsme připraveni provést Mann Whitney U Test. Klikneme na „Analyze“ – „NonparametricTests“ – „LegacyDialogues“ – „2 Independent Samples“

  35. Objeví se tento rámeček

  36. Závislou proměnnou – „znalosti_post_test“ – přesuneme do rámečku „Test Variable List“ a nezávislou proměnnou – „typ_edukace“ – do rámečku „GroupingVariable“ kliknutím na příslušnou šipku mezi rámečky.

  37. Závislou proměnnou – „znalosti_post_test“ – přesuneme do rámečku „Test Variable List“ a nezávislou proměnnou – „typ_edukace“ – do rámečku „GroupingVariable“ kliknutím na příslušné šipky mezi rámečky. Ujistíme se, že je zakliknut rámeček „Mann Whitney U“. Nyní klikneme na „DefineGroups“ (k tomu je potřeba, aby byla „GroupingVariable“ vyznačena oranžově jako na tomto snímku)

  38. Objeví se nový rámeček, kde pro „Group 1“ vepíšeme hodnotu 1 a pro „Group 2“ hodnotu 2 (takto jsme oba typy edukace již na samém počátku definovali). Důvod, proč tyto informace nyní znovu vpisujeme je ten, že můžeme mít víc různých typů edukace (např. 3) a mohli bychom chtít porovnávat různé kombinace typů edukace, např. typ 1 oproti typu 2, typ 1 oproti typu 3 atd.

  39. Klikneme „Continue“ (pokračovat).

  40. Pokud chceme získat i popisnou statistiku, klikneme na „Options“ (= možnosti), objeví se další rámeček a zaškrtneme „Descriptives“ a „Quartiles“, poté klikneme na „Continue“.

  41. Klikneme „Ok“, abychom získali výsledek Mann Whitney U Testu.

  42. Získáme tři tabulky

  43. První tabulka obsahuje popisnou statistiku, ale data nejsou příliš užitečná vzhledem k tomu, že není rozlišeno, o jakou skupinu edukantů se jedná (data obou skupin byla sloučena), navíc nevíme, zda tato sloučená skupina edukantů má či nemá normální distribuci dat a zda je pro nás relevantní aritmetický průměr se směrodatnou odchylkou (tak by tomu bylo v případě normální distribuce dat) či medián a 25. a 75. percentil….(v případě nenormální distribuce dat…) Proto je lepší tuto tabulku ignorovat.

  44. Druhá tabulka již obsahuje informace, která skupina respondentů měla vyšší znalosti: získáme „mean rank“ (průměrné pořadí) a „sum ofranks“ (sumu pořadí). Protože vyšší skóre znamená lepší znalosti, lze také říci, že znalosti byly lepší pro skupinu s typem edukace „video s procvičováním dovedností“ („mean rank“ = 21, 40). U skupiny edukované „samostudijním materiálem“ je „mean rank“ = 18, 53. Třetí tabulka nám pomůže určit, zda se jedná o statisticky významný rozdíl.

  45. Třetí tabulka ukazuje hodnotu testové statistiky U (162,000) a hodnotu p (Asymp. Sig. 2-tailed = dvoustranný test). Protože je hodnota > 0,05 (je = 0,411), jedná se o statisticky nevýznamný rozdíl v mediánech znalostí u skupiny edukované jedním typem edukace oproti skupině edukované druhým typem edukace. Kdyby byla hodnota < 0,05, jednalo by se o statistiky významný rozdíl ve znalostech u jedné skupiny oproti druhé skupině. Poznámka: hovoříme o mediánech. Kolik byl medián znalostí (skóre) pro každou skupinu? To již víme z tabulky s popisnou statistikou, kterou jsme získali při testu normality. Je patrno, že medián u obou skupin byl 5,00 – tedy, byl stejný. Proto není možné, aby byl zjištěn statisticky významný rozdíl ve znalostech. Rozdíl samozřejmě neexistuje ani z praktického hlediska. Z výsledků post-testu nemůžeme tvrdit, že „stojí za to“ provádět jeden typ edukace oproti druhému typu edukace.

  46. Příklad 2. Pokračujeme s novým příkladem. Jedná se stále o stejné edukanty a dva již definované typy edukace. Nyní však testujeme dovednosti (ne znalosti). Opět nás zajímá, zda bude existovat statisticky významný rozdíl v dovednostech v závislosti na tom, zda se jednalo o skupinu edukovanou samostudijním materiálem nebo videem s procvičováním dovedností. Vepíšeme novou proměnnou – „dovednosti_posttest“; tu definujeme podobně jako „znalosti_posttest“.

  47. Z dokumentu vytvořeném v programu Microsoft Excel obsahujícím data o edukantech vložíme skóre získaná na dovednostním post-testu. Pro chybějící data jsme vložili hodnotu „99“ (to bylo třeba definovat ve „Variableview“).

  48. Již známým způsobem zjistíme, zda ZP (skóre na dovednostním post-testu) má přibližně normální rozdělení: klikneme na „Analyze“ – „Descriptivestatistics“ – „Explore“. Pokud ne, opět bychom prováděli Mann Whitney U Test. Pokud bude rozdělení dat normální, budeme moci provést parametrický test – Dvouvýběrový T-test s nezávislými výběry.

  49. Do rámečku „Dependent List“ přesuneme závislou proměnnou, tedy „dovednosti_post-test“ a do rámečku „Factor List“ nezávislou proměnnou, tedy typ edukace.

More Related