1 / 32

Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy

UK FHS Historická sociologie (LS 2013). Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy. Jiří Šafr jiri.safr(zavináč)seznam.cz. Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 6.4. 2014. 1. Kardinální – číselné proměnné.

zanthe
Download Presentation

Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie (LS 2013) Analýza kvantitativních dat II.Míry variability: variační koeficient a další indexy Jiří Šafrjiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve stadiu vývoje. posledníaktualizace 6.4. 2014

  2. 1. Kardinální – číselné proměnné

  3. VariačníRozpětí (Range) • Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech. • Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné). • Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.

  4. Variační koeficient • CV (coefficient of variation) je mírou relativního rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu) • Relative standard deviation (RSD) dtto v procentech. • Ukazuje podíl variability ve vztahu k průměru v %. • Výhodou je, že můžeme porovnávat znaky s odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci • Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.

  5. Data – dvě situace (např. v SPSS) pro výpočet míry variability 1.CV across a set of variables for each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci 2. CV for one variable across cases –v rámci jedné proměnné mezi případy = řádky Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2). COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3). CV = 0,41 Lze provést porovnání CV např. pro podskupiny dle pohlaví.

  6. Příklad 1. CV v rámci jedné proměnné mezi případy Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr) REPORT/FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON) ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLIST BRKSPACE(0)PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1) /TITLE=RIGHT 'Page )PAGE‚/VARIABLES spokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12) /BREAK (TOTAL) 'Grand Total' (SKIP(1)) /SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr' /SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚/SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) )(spokojenost1 (2) ) SKIP(1)DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) )(spokojenost2 (2) ) SKIP(1)DIVIDE ( STDDEV( spokojenost3)MEAN( spokojenost3) )(spokojenost3 (2) ) SKIP(1) 'Variační koeficient' . spokojenost1 spokojenost2 spokojenost3 ____________ ____________ ____________ Grand Total Průměr 3 2 4 StdDev 1 1 0 Variační koeficient ,41 ,41 ,00

  7. Příklad 2. CV v rámci jedné proměnné mezi případy: agregovaná data + v oddělených blocích na základě časových období Spotřeba potravin podle sociálních tříd v letech 1960-1980 (hypotetická data)

  8. Příklad 2. Spotřeba potravin podle sociálních tříd v letech 1960-1980 Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ) Uspořádána jsou jako agregované „události-roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg. Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce. Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.

  9. Příklad 2. CV pomocí RATIO v SPSS • Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami. • V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných. • Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat . • Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.

  10. Příprava a zadání výpočtu v syntaxu *Vytvoření konstanty 1. COMPUTEkonst1 =1. SORT CASES BY rok. SPLIT FILE LAYERED BY rok. RATIO STATISTICScitrony WITH konst1 BY trida (ASCENDING) /MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV. Zadání samotného CV, zde ve vztahu k průměru (lze i k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.

  11. Výsledek: Variační koeficient v % (RSD) CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %. V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).

  12. Další míry variability • Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR) → podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ) . Zdroj: [SPSS 17 Tutorial]

  13. 2. Kategoriální (nominální/ordinální) znaky Míry variability pro nominální proměnné

  14. Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

  15. Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků) Nominální proměnné: • Variační poměr – v • Nominální rozptyl – D (nomvar) (Giniho koeficient)→ relativní počet všech dvojic, které nejsou ve stejné kategorii • Normalizovaný nominální rozptyl(norm. nomvarneboIQV) • Entropie – H • normalizovaná entropie– H* Ordinální proměnné: • Ordinální rozptyl - dorvar Viz http://iastat.vse.cz/Nominalni.html

  16. Vlastnosti měr variability kategoriálních znaků • Čím vyšší hodnota tím vyšší heterogenita souboru • Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita • Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita • Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]

  17. Variační poměr – v • Nejjednodušší míra variability. • Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. • Výhodou v je jednoduchost výpočtu. • Nevýhodou vje, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]

  18. Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

  19. Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J(N = 1289) lze spočítat v Excelu: v = 1 – (56,028 / 116) = 0,517 V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně(podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %). Zdroj: [Řehák, Řeháková 1986: 68-69]

  20. Nominální variance (nomvar)Index diversity (D) • nomvarneboD • Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

  21. Normalizovaná nominální varianceIndex of Qualitative Variation (IQV) norm.normvar = IQV = = D/(1–1/K) kde K = počet kategorií a D = Index diversity (nom.var) • IQV = pozorované rozdíly /maximum možných rozdílů • Standardizovaná pravděpodobnost, že náhodný pár ve výběru nebude patřit do stejné kategorie. • Rozpětí 0 až 1: Když všechny hodnoty patří do jedné kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity) • Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny. • Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm

  22. Postup výpočtu IQV • Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny) • Podíl v každé kategorie umocněte • Sečtěte umocněné podíly • Pro D: odečtěte od 1 • Pro IQV: D vydělte (1-1/K) (k je max. počet kategorií)

  23. Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida Index diverzity D (nomvar)pro bělochy (white population) v roce 1870: D = 1 - 0.347 = 0.653 V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.

  24. Standardizace D na IQV • IQV = ((k- 1)*D)/k nebo D/(1–1/K) • 1–1/K = 1 – 1/6 = 0,833 → Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií) • IQV = 0,653 / 0,833 = 0,784

  25. Pokračování příklad D a IQV [Agresti, Agresti 1978] • Spočítejte D a IQV pro další kategorie: • Běloši 1870 • Běloši 1885 • Černoši 1870 • Černoši 1885

  26. Pokračování příklad D a IQV [Agresti, Agresti 1978] • V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní. • V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná.

  27. Míry variability nominální/ordinální proměnné v SPSS • SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES)Míry variability pro kategorizované proměnné • http://acrea.cz/cz/skripty/mira-variability • K dispozici jsou tyto míry: variační poměr, nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance. • Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.

  28. Míry variability pro kategorizované znaky v SPSS - skript Vstupní tabulka výsledek

  29. Pro porovnání podskupin → SPLIT FILE Muži Ženy Ženy mají heterogennější zastoupení vystudovaných oborů než muži(nomvar ženy=0,8 vs. muži=0,6).

  30. V SPSS: Syntax + Skript SORT CASESBY pohlavi. SPLIT FILE SEPARATEBY pohlavi. FREQ vzd_obor7. • A pak aplikovat skript mira-variability→ výsledek se spočte pro muže a ženy zvlášť

  31. A nebo spočítat ručně (v Excelu)

  32. Porovnání IQV v podskupinách/ populacích

More Related