AKD II. / III.

UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014) AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014

Informace o souboru: Data File Comments Příkaz v syntaxu k vypsání dříve vložené informace o datech: DISPLAY DOCUMENTS.

Data File Comments: zápis v Syntaxu * Data File Comments. PRESERVE. SET PRINT OFF. DROP DOCUMENTS. ADD DOCUMENT 'Výzkum studentů FHS HiSo a KŘS, LS 2011, únor-březen 2011, subpopulace:' '1. HISO AKD I. - denní, n=17' '2. HISO AKD I. - kombi, n=1' '3. KŘS Praktikum - Elem. analýzy dat, n=7' 'Poslední úpravy 15/3/2011'. DISPLAY DOCUMENTS. RESTORE.

DISPLAY: Informace o proměnných DISPLAY DICTIONARY /VARIABLES=vekpohlavi. DICTIONARY→ vypíše označení hodnot proměnné (Value Labels), názvy proměnných (Variable Labels), formáty a Missingové hodnoty LABELS→ vypíše označení názvu proměnných (Variable Labels) DISPLAY LABELS /VARIABLES=all.

DATASETPráce s více datovými soubory otevřenými najednou (pouze v SPSS)

DATASET - Práce s více datovými soubory otevřenými najednou(pouze v SPSS) • V SPSS od verze 14 lze pracovat s více soubory otevřenými najednou pomocí DATASET příkazů (DATASET NAME, DATASET ACTIVATE, DATASET DECLARE, DATASET COPY, DATASET CLOSE) • Umožňují mít otevřeno vícero souborů najednou a pomocí jejich relativních jmen je ovládat – postupně aktivovat. Můžeme tak spojovat data, kopírovat případy, proměnné nebo vlastnosti proměnných mezi soubory. • Pro ovládání v syntaxu nejprve definujeme jejich pracovní jméno: DATASET NAMEjméno souboru. • Takto můžeme otevřít a pojmenovat více souborů. • Ty pak můžeme vyvolávat pro určitou operaci pomocí: DATASET ACTIVATEjméno souboru. • A také je zavírat pomocí: DATASET CLOSEjméno souboru.

DATASET v menu Po otevření souboru mu můžeme přiřadit pracovní jméno. Nebo v syntaxu: DATASET NAMEKnihy_FHS. Mezi více otevřenými soubory lze přepínat → na aktivním budou provedeny analýzy Nebo v syntaxu: DATASET ACTIVATE Knihy_FHS.

Využití DATASETNAME přispojování souborů (MATCH FILES) GET FILE='data1.sav'. DATASET NAMESoubor1. SORT CASES BY ID. GET FILE 'data2.sav' SORT CASES BY ID. DATASET NAMESoubor2. GET DATA/TYPE=XLS /FILE='data3excel.xls'. /* varianta otevírání dat při exportu z Excelu. SORT CASES BY ID. MATCH FILES FILE=* /FILE=Soubor1 /FILE=Soubor2/BY ID. /* hvězdičkou (*) je označen aktivní soubor 3 do nějž se přihrávají soubory 1 a 2. SAVE OUTFILE='data123.sav'. Princip je, že postupně otevřeme a pojmenujeme více souborů, které pak přihrajeme-spojíme do jednoho aktivního (např. posledního otevřeného). Ale propojování souborů lze provádět i pomocí jejich načítání z adresáře, tj. odkazem přímo na soubor(y) a jeho cestu v adresářích.

DATASET DECLARE • DATASET DECLARE vytvoří pracovní jméno pro nový datový soubor (dataset name) v součinnosti s příkazy, které vytváří jako output nové datové soubory (PASW Statistics data files) • Užitečné, tam kde nám stačí vytvoření pouze prozatímního (temporary) souboru dat (jenom v průběhu běhu programu), nejčastěji jako mezistupeň nějaké analýzy, např. matice distancí, s níž vstupujeme do MDS (tento soubor pak můžeme, ale nemusíme pojmenovat a uložit). DATASET DECLAREcorrmatrix. REGRESSION /DEPENDENT=var1 /METHOD=ENTER= var2 to var10 /OUTFILE=CORB(corrmatrix).

DATASET COPY • DATASET COPY vytvoří - nový datový soubor, který zkopíruje data z aktivního (otevřeného) souboru. • Užitečné při vytváření vícenásobných podsouborů dat z jednoho základního - původního souboru. • Příklad: DATASET NAMEstudenti_AKD. /*všichni (denní i kombinované studium). DATASET COPYdenni. DATASET ACTIVATEdenni. /*denní studium = 1. SELECT IF studium=1. /*odmaže všechny případy mimo denní studium. DATASET ACTIVATEstudenti_AKD. DATASET COPYkombi. DATASET ACTIVATEkombi. /*kombinované studium = 2. SELECT IF studium=2. /*odmaže všechny případy mimo kombinované studium. • Pozor, neuložíte-li je, tak po zavření SPSS soubory zmizí.

FILE LABEL • FILE LABEL uvádí jméno souboru v outputech. • Pokud jsou data v SPSS formátu (PASW Statistics format), tak se label uloží do Dictionary. • File label se bude objevovat v outputech v „Notes tables“.

Postup pořízení dat v MS Excel s následným převodem do SPSS • Vytvořit názvy proměnných v prvním řádku (jméno začíná písmenem) • Vytvořit si kódový klíč → maximálně se vyvarovat záznamu pomocí slov, k čemuž Excel láká (např. místo „muž“ → 1), jinak bude v SPSS stringová proměnná (tu lze převést na numerický záznam, viz dále, ale je to obtížné) • Prohlédnout celou hotovou matici v Excelu, zda někde není prázdný řádek apod. Kurzor nesmí být na konci (jinak se pak v SPSS objeví prázdné řádky plné missingů). • Po uložení dat v XLS (musí být soubor XLS zavřený!), v SPSS dáme otevřít data a rozklikneme dolní roletku pro formát XLS. • V průvodci exportu dat vybereme, že v prvním řádku jsou názvy proměnných a zvolíme excelovskou záložku, kde data jsou. • Zkontrolujeme kraje datové matice: spodní část a pravou na konci, zda nejsou prázdné buňky pro proměnné či případy. Pokus ano, odstraníme. • Alternativně lze použít formát CSV. K jeho importu viz návod PSPP/SPSS na http://metodykv.wz.cz/PSPP_navod_1_uvod.pdf (str. 19-20) • Data nově uložíme ve formátu SPSS tj. *.SAV • Nyní můžeme labelovat jak názvy proměnných tak jejich hodnoty.

V SPSS se tak lze setkat se 4 typy dat (připomenutí) • Mikrodata – individuální data, tj. případy v řádcích (nejčastěji respondenti, ale např. také novinové články, země nebo regiony) • Agregovaná data–analytické/strukturní proměnné = individuální údaje sumované za určitou jednotku (např. území jako regiony/ státy nebo časová období) Vznikají agregací mikrodat (sumování, průměrování). • Kombinovaná mikrodata s kontextuálními datybuď na agregované úrovni nebo jako kontext společný určité skupině individuí.Např. individuální mikrodata: žáci a informace o jejich rodičích, kontextuální data: informace o typu školy společná pro žáky ze stejných škol a případně také analytické/strukturní data na agregované úrovni: průměrný prospěch ve třídě (agregováno z individuálních dat žáků konkrétní třídy). • Tabelární data – agregovaná do tabulek (kontingenční tabulky) Např. dříve publikované výsledky mobilitní tabulky.

Odlišný typ dat (úrovně měření) vyžaduje použití odlišných přístupů k analýze,ale také odlišný způsob interpretace výsledků (a její možnosti resp. limity)!

Načtení dat ze syntaxu (pro menší datové soubory)& tabulární (agregovaná) data (pro data publikovaná například v nějakém textu)

Načtení (mikro)dat ze syntaxu (vhodné pro menší datové soubory nebo tabulární data) *hypotetická data: hodnoty proměnných odděleny mezerou, stringové znaky v " ". DATA LIST LIST / okres (A15) progr domduch vek obyv. BEGIN DATA. "Benešov" 1 3 52 40990 "Kladno" 0 4 61 67490 "M. Boleslav" 1 6 50 6099 "Příbram" 0 2 45 4816 "Dobříš" 1 1 49 7827 END DATA. *Labely. VAR LAB progr "Program pro seniory". VAR LAB domduch "Domovy důchodců – počet". VAR LAB vek "Průměrný věk". VAR LAB obyv "Počet obyvatel". VAL LAB progr 0 "Ne" 1 "Ano". *formátčísel (bez desetinného místa) a typ proměnné. FORMATS progr domduch vek obyv (f8). VARIABLE LEVEL domduch vek obyv (scale).

Načtení tabelárních dat z agregované existující kontingenční tabulky (→ vážení procenty) ****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007). DATA LIST LIST/vek vzdel volil freq. VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1"nevolil" 2 "volil". BEGIN DATA 1 1 1138 1 1 292 1 2 1106 1 2 2218 2 1 1143 2 1 2257 2 2 156 2 2 2175 END DATA. FORMATS vek vzdel volil freq (f8). WEIGHT by freq. CROSS vzdel by volil by vek. CROSS vzdel by volil. Viz syntax: crosstab_data_input.sps Pozice pole v tabulce např. 121 znamená: 1. panel, 2. řádek, 1. sloupec

Pokračování někdy příště …

AKD II. / III.

AKD II. / III.

Presentation Transcript