1 / 13

Praktikum elementární analýzy dat Třídění 2. a 3. stupně 30.5.2012

Praktikum elementární analýzy dat Třídění 2. a 3. stupně 30.5.2012. UK FHS Řízení a supervize (LS 2012). Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 30. 5. 2012. Struktura – plán práce. Opakování třídění 1. stupně (průměr, směr.odchylka, procenta)

wolfe
Download Presentation

Praktikum elementární analýzy dat Třídění 2. a 3. stupně 30.5.2012

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Praktikum elementární analýzy datTřídění 2. a 3. stupně 30.5.2012 UK FHS Řízení a supervize (LS 2012) Jiří Šafrjiri.safr(zavináč)seznam.cz posledníaktualizace 30. 5. 2012

  2. Struktura – plán práce • Opakování třídění 1. stupně (průměr, směr.odchylka, procenta) • „Orientační mapa“ analýzy vztahu 2 proměnných: • Spojitá × spojitá • Spojitá (závislá) × kategoriální (nezávislá) • Kategoriální × kategoriální • Kontingenční tabulky • Třídění 3. stupně (dtto) • Procvičování na datech FHS Knihy&TV • Tvorba součtových indexů (data Práce se seniory) • Na co s dát pozor (výběrová data vs. census) • Jak to má vypadat – úprava tabulek a dalších výstupů

  3. „Orientační mapa“ analýzy 2 proměnných • Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. • (Jak) souvisí spolu hodnoty jedné a druhé proměnné? • Např. • Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

  4. „Orientační mapa“ analýzy dvou proměnných – přehled analytických nástrojů • Spojitá × spojitá, např. počet přečtených knih a věk → korelační koeficient (Pearsonův), bodový X-Y graf • Spojitá (závislá) × kategoriální (nezávislá)např. např. počet přečtených knih a obor studia → průměry v podskupinách, koeficient Eta, graf průměrů v podskupinách (Barchart pro mean, Line-multiple nebo Boxplot, Errorbar) • Kategoriální × kategoriální např. oblíbené literární žánry a obor studia → kontingenční tabulka, sloupcový graf (Barchart) pro % koeficient kontingence (CC), Phi, Gama …

  5. Spojitá × spojitá • Číselná proměnná → ideální situace: nejlepší způsob měření, nejsofistikovanější analýzy, možnost převodu na kategoriální • Korelace (a nebo) X-Y graf CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. R - korelační koeficient R2 - koeficient determinace R = √R2 a R2 = R × R zde √0,066 = 0,257 • ALE! Korelace měří lineární vztah (přímou úměru) a předpokládá „normální“ rozložení proměnných. • Závislosti mohou mít i jinou než lineární povahu, proto si raději udělejte i X-Y (Scatter plot) → souvislosti jsou vizuálně vidět • Pozor na Outliery – extrémní hodnoty znaků (a jejich kombinace)

  6. Spojitá (závislá) × kategoriální (nezávislá) • V principu porovnáváme průměry závislé - spojité v kategoriích nezávislé proměnné + kontrola rozptylu (směrodatné odchylky StD ve skupinách) missing values studium (5 6). MEANSknihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

  7. Kategoriální × kategoriální • Kontingenční tabulka: hledáme souvislosti pomocí spoluvýskytu v relativních četnostech (%) • Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) • Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. • Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t . CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA . Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie.

  8. Třídění 3. stupně

  9. Na co s dát pozor

  10. Výběrová data vs. census • Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek) , pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. http://metodykv.wz.cz/index.htm#analyza2) • A naopak máme-li kompletní populaci (census)statistické testy nedávají smysl.

  11. Pozor na … • Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) • Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

More Related