1 / 18

AKD II. / III.

UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014). AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014. Informace o souboru: Data File Comments.

orde
Download Presentation

AKD II. / III.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014) AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014

  2. Informace o souboru: Data File Comments Příkaz v syntaxu k vypsání dříve vložené informace o datech: DISPLAY DOCUMENTS.

  3. Data File Comments: zápis v Syntaxu * Data File Comments. PRESERVE. SET PRINT OFF. DROP DOCUMENTS. ADD DOCUMENT 'Výzkum studentů FHS HiSo a KŘS, LS 2011, únor-březen 2011, subpopulace:' '1. HISO AKD I. - denní, n=17' '2. HISO AKD I. - kombi, n=1' '3. KŘS Praktikum - Elem. analýzy dat, n=7' 'Poslední úpravy 15/3/2011'. DISPLAY DOCUMENTS. RESTORE.

  4. DISPLAY: Informace o proměnných DISPLAY DICTIONARY /VARIABLES=vekpohlavi. DICTIONARY→ vypíše označení hodnot proměnné (Value Labels), názvy proměnných (Variable Labels), formáty a Missingové hodnoty LABELS→ vypíše označení názvu proměnných (Variable Labels) DISPLAY LABELS /VARIABLES=all.

  5. DATASETPráce s více datovými soubory otevřenými najednou (pouze v SPSS)

  6. DATASET - Práce s více datovými soubory otevřenými najednou(pouze v SPSS) • V SPSS od verze 14 lze pracovat s více soubory otevřenými najednou pomocí DATASET příkazů (DATASET NAME, DATASET ACTIVATE, DATASET DECLARE, DATASET COPY, DATASET CLOSE) • Umožňují mít otevřeno vícero souborů najednou a pomocí jejich relativních jmen je ovládat – postupně aktivovat. Můžeme tak spojovat data, kopírovat případy, proměnné nebo vlastnosti proměnných mezi soubory. • Pro ovládání v syntaxu nejprve definujeme jejich pracovní jméno: DATASET NAMEjméno souboru. • Takto můžeme otevřít a pojmenovat více souborů. • Ty pak můžeme vyvolávat pro určitou operaci pomocí: DATASET ACTIVATEjméno souboru. • A také je zavírat pomocí: DATASET CLOSEjméno souboru.

  7. DATASET v menu Po otevření souboru mu můžeme přiřadit pracovní jméno. Nebo v syntaxu: DATASET NAMEKnihy_FHS. Mezi více otevřenými soubory lze přepínat → na aktivním budou provedeny analýzy Nebo v syntaxu: DATASET ACTIVATE Knihy_FHS.

  8. Využití DATASETNAME přispojování souborů (MATCH FILES) GET FILE='data1.sav'. DATASET NAMESoubor1. SORT CASES BY ID. GET FILE 'data2.sav' SORT CASES BY ID. DATASET NAMESoubor2. GET DATA/TYPE=XLS /FILE='data3excel.xls'. /* varianta otevírání dat při exportu z Excelu. SORT CASES BY ID. MATCH FILES FILE=* /FILE=Soubor1 /FILE=Soubor2/BY ID. /* hvězdičkou (*) je označen aktivní soubor 3 do nějž se přihrávají soubory 1 a 2. SAVE OUTFILE='data123.sav'. Princip je, že postupně otevřeme a pojmenujeme více souborů, které pak přihrajeme-spojíme do jednoho aktivního (např. posledního otevřeného). Ale propojování souborů lze provádět i pomocí jejich načítání z adresáře, tj. odkazem přímo na soubor(y) a jeho cestu v adresářích.

  9. DATASET DECLARE • DATASET DECLARE vytvoří pracovní jméno pro nový datový soubor (dataset name) v součinnosti s příkazy, které vytváří jako output nové datové soubory (PASW Statistics data files) • Užitečné, tam kde nám stačí vytvoření pouze prozatímního (temporary) souboru dat (jenom v průběhu běhu programu), nejčastěji jako mezistupeň nějaké analýzy, např. matice distancí, s níž vstupujeme do MDS (tento soubor pak můžeme, ale nemusíme pojmenovat a uložit). DATASET DECLAREcorrmatrix. REGRESSION /DEPENDENT=var1 /METHOD=ENTER= var2 to var10 /OUTFILE=CORB(corrmatrix).

  10. DATASET COPY • DATASET COPY vytvoří - nový datový soubor, který zkopíruje data z aktivního (otevřeného) souboru. • Užitečné při vytváření vícenásobných podsouborů dat z jednoho základního - původního souboru. • Příklad: DATASET NAMEstudenti_AKD. /*všichni (denní i kombinované studium). DATASET COPYdenni. DATASET ACTIVATEdenni. /*denní studium = 1. SELECT IF studium=1. /*odmaže všechny případy mimo denní studium. DATASET ACTIVATEstudenti_AKD. DATASET COPYkombi. DATASET ACTIVATEkombi. /*kombinované studium = 2. SELECT IF studium=2. /*odmaže všechny případy mimo kombinované studium. • Pozor, neuložíte-li je, tak po zavření SPSS soubory zmizí.

  11. FILE LABEL • FILE LABEL uvádí jméno souboru v outputech. • Pokud jsou data v SPSS formátu (PASW Statistics format), tak se label uloží do Dictionary. • File label se bude objevovat v outputech v „Notes tables“.

  12. Postup pořízení dat v MS Excel s následným převodem do SPSS • Vytvořit názvy proměnných v prvním řádku (jméno začíná písmenem) • Vytvořit si kódový klíč → maximálně se vyvarovat záznamu pomocí slov, k čemuž Excel láká (např. místo „muž“ → 1), jinak bude v SPSS stringová proměnná (tu lze převést na numerický záznam, viz dále, ale je to obtížné) • Prohlédnout celou hotovou matici v Excelu, zda někde není prázdný řádek apod. Kurzor nesmí být na konci (jinak se pak v SPSS objeví prázdné řádky plné missingů). • Po uložení dat v XLS (musí být soubor XLS zavřený!), v SPSS dáme otevřít data a rozklikneme dolní roletku pro formát XLS. • V průvodci exportu dat vybereme, že v prvním řádku jsou názvy proměnných a zvolíme excelovskou záložku, kde data jsou. • Zkontrolujeme kraje datové matice: spodní část a pravou na konci, zda nejsou prázdné buňky pro proměnné či případy. Pokus ano, odstraníme. • Alternativně lze použít formát CSV. K jeho importu viz návod PSPP/SPSS na http://metodykv.wz.cz/PSPP_navod_1_uvod.pdf (str. 19-20) • Data nově uložíme ve formátu SPSS tj. *.SAV • Nyní můžeme labelovat jak názvy proměnných tak jejich hodnoty.

  13. V SPSS se tak lze setkat se 4 typy dat (připomenutí) • Mikrodata – individuální data, tj. případy v řádcích (nejčastěji respondenti, ale např. také novinové články, země nebo regiony) • Agregovaná data–analytické/strukturní proměnné = individuální údaje sumované za určitou jednotku (např. území jako regiony/ státy nebo časová období) Vznikají agregací mikrodat (sumování, průměrování). • Kombinovaná mikrodata s kontextuálními datybuď na agregované úrovni nebo jako kontext společný určité skupině individuí.Např. individuální mikrodata: žáci a informace o jejich rodičích, kontextuální data: informace o typu školy společná pro žáky ze stejných škol a případně také analytické/strukturní data na agregované úrovni: průměrný prospěch ve třídě (agregováno z individuálních dat žáků konkrétní třídy). • Tabelární data – agregovaná do tabulek (kontingenční tabulky) Např. dříve publikované výsledky mobilitní tabulky.

  14. Odlišný typ dat (úrovně měření) vyžaduje použití odlišných přístupů k analýze,ale také odlišný způsob interpretace výsledků (a její možnosti resp. limity)!

  15. Načtení dat ze syntaxu (pro menší datové soubory)& tabulární (agregovaná) data (pro data publikovaná například v nějakém textu)

  16. Načtení (mikro)dat ze syntaxu (vhodné pro menší datové soubory nebo tabulární data) *hypotetická data: hodnoty proměnných odděleny mezerou, stringové znaky v " ". DATA LIST LIST / okres (A15) progr domduch vek obyv. BEGIN DATA. "Benešov" 1 3 52 40990 "Kladno" 0 4 61 67490 "M. Boleslav" 1 6 50 6099 "Příbram" 0 2 45 4816 "Dobříš" 1 1 49 7827 END DATA. *Labely. VAR LAB progr "Program pro seniory". VAR LAB domduch "Domovy důchodců – počet". VAR LAB vek "Průměrný věk". VAR LAB obyv "Počet obyvatel". VAL LAB progr 0 "Ne" 1 "Ano". *formátčísel (bez desetinného místa) a typ proměnné. FORMATS progr domduch vek obyv (f8). VARIABLE LEVEL domduch vek obyv (scale).

  17. Načtení tabelárních dat z agregované existující kontingenční tabulky (→ vážení procenty) ****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007). DATA LIST LIST/vek vzdel volil freq. VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1"nevolil" 2 "volil". BEGIN DATA 1 1 1138 1 1 292 1 2 1106 1 2 2218 2 1 1143 2 1 2257 2 2 156 2 2 2175 END DATA. FORMATS vek vzdel volil freq (f8). WEIGHT by freq. CROSS vzdel by volil by vek. CROSS vzdel by volil. Viz syntax: crosstab_data_input.sps Pozice pole v tabulce např. 121 znamená: 1. panel, 2. řádek, 1. sloupec

  18. Pokračování někdy příště …

More Related