Multilevel Modeling for Social Sciences Research

Nové statistické techniky v kvantitativním výzkumu

Možné zdroje informací • Kaplan (ed.). 2004. The Sage of handbook of quantitative methodology for the social sciences. London : Sage. • Řada Quantitive applications in the social sciences. Sage (cca 180 sešitků) • Řada Advanced quantitative techniques in the social sciences. Sage (10 knih) • Řada Wiley probability and statistics. Wiley (cca 280 knih) • Řada Introducing statistical methods. Sage (cca 10 knih) • Další nakladatelství Erlbaum associates, Springer Verlag, Oxford university press, Cambridge university press, Harvard university press

3 části statistické analýzy • Popisná (deskripce) • Průzkumová (explorační) • Úsudková (Inferenční) • Na třetí je dáván největší důraz, méně se provádí generování smysluplných hypotéz a prozkoumání dat

Základní problémy (přibližování realitě) • Chybějící data • Chyby měření a nemožnost měření některých fenoménů • Lidé v dlouhodobých výzkumech přestávají spolupracovat • Lidé jsou ovlivněni kontexty (hierarchiemi), v nichž žijí • Normální rozdělení je v sociálních vědách nenormální • Lineární vztahy nepopisují věrně realitu • Hypotézy věcně vhodné nelze vždy pomocí statistiky zachytit a zkoumat

Základní oblasti rozvoje • Víceúrovňová analýza • Kategoriální data • Latentní proměnné • Oblast měření v sociálních vědách

Základní techniky řešící problémy 1. Od regrese k hierarchickým lineárním modelům 2. Od faktorové analýzy k analýze latentních tříd 3. Od chi-kvadrát testu k loglineárním (logitovým) modelům 4. Latentní proměnné a strukturní modelování 5. Problémy statistické významnosti 6. Oblast měření v sociálních vědách-mimo přednášku

1. hierarchické lineární modely

Možné zdroje informací • Kreft, I. G., J. de Leeuw. 1998. Introducing multilevel modeling. London : Sage. • Snijders, Tom A.B., Roel J.Bosker. 1999. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publisher. • Hox, J. 2002. Applied Multilevel Analysis: Techniques and Applications. Erlbaum associates. • Raudenbush, S. W., A.S. Bryk. 2002. Hierarchical Linear Models 2nd edition. London: Sage Publications.

!!!Regrese předpoklady!!! • Normalita reziduí resp. náhodné složky viz např procedura Explore v Analyze-Descriptives) • Nekorelovanost nezávislých proměnných (opak multikolinearita) • Nezávislost jednotlivých pozorování - tedy prostý náhodný výběr • Homoskedasticita a nekorelovanost náhodné složky

Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně • Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má v průměru o 3800 Kč více

Víceúrovňové modely-jazyk V angličtině se využívá několik ekvivalentů multilevel modeling (nejužívanější) ML, random-coefficient modeling, hierarchical modeling, mixed-effects modeling, covariance components models

Obrázek (Různé konstanty, různé směrnice)

Problém různého vztahu ve skupinách - pokračování • Velmi často (vždy?) se setkáváme s případem na obrázku. Co se stane, pokud v těchto případech ignorujeme různý vztah pro muže a ženy, naznačují opět slabší nepřerušované regresní přímky. • V realitě je běžně sledovaných skupin více a problém se jen komplikuje a volá po víceúrovňové analýze

Problém jednoúrovňové analýzy rozptylu • Skupiny, v nichž se vztahy liší, jsou náhodně vybrány ze základního souboru. Příkladem může být náhodný výběr několika škol, ve kterých jsou potom náhodně vybráni žáci • Chceme-li ale zobecnit závěry na všechny školy v ČR a hledat faktory které způsobují odlišnost škol, nevystačíme již s klasickou analýzou rozptylu. Opět nám úlohu může pomoci vyřešit víceúrovňové modelování, které se zaměřuje na modelování vztahů na úrovni jedinců (mikroúrovni) i na modelování rozdílů mezi jednotlivými skupinami

Ukázka – čten. gramotnost Závislá proměnná-čtenářská gramotnost, data PIRLS 2011, n=4800; Vysvětlení na úrovni tříd 76 %, na úrovni žáků 21 %

Další problémy řešitelné víceúrovňově Modely růstu (growth models) • U modelu růstu máme změřenou určitou vlastnost ve více časových okamžicích u různých jedinců. Měření v různých časových okamžicích můžeme považovat za první úroveň (stejně tak jako jednotlivé žáky ve škole) a jedince za druhou úroveň, tak jako školy. Výsledkem modelů růstu může být jednak zjištění, zda obecně dochází k nárůstu či poklesu sledované vlastnosti, zda se jedinci liší v růstových křivkách mezi sebou Metaanalýza (pozor v SPSS nelze nejsou-li data z původních studií) • 1. úroveň data z jednotlivých studií • 2. úroveň jednotlivé studie Cíle: • 1. najít společný („průměrný“) výsledek všech nalezených studií a • 2. odhalit příčiny rozdílů mezi studiemi Modely se smíšenými hierarchiemi (cross classified models) Obecné statistické pakety: • jedinec není zařazen jen do jedné skupiny která ho výrazněji ovlivňuje, ale do mnoha skupin a vlivy jednotlivých skupin se kříží

2. Analýza latentních tříd (LCA)

Možné zdroje informací • Lazarsfeld, Henry. 1968. Latent structure analysis. Boston • McCutcheon. 1987. Latent class analysis. Sage. • Hagenaars, McCutcheon (eds.). 2002. Applied latent class analysis. Cambridge university press.

Základní myšlenky LCA (obdoba FA) • FA – cíl najít několik málo faktorů (latentních proměnných), které nelze přímo měřit a nepřímo měříme jen jejich odraz v několika zachycených proměnných • Měřené proměnné kardinální, analýza založena na korelacích, původ v psychologii inteligence (Spearman, 1906) • LCA-vychází z Latent structure analysis (Lazarsfeld, Henry, 1968)-snaha najít latentní struktury, které se projevují v odpovědích na sadu dichotomických otázek

Základní myšlenky LCA (obdoba FA) • LCA-rozšíření Latent structure analysis na nominální proměnné s více kategoriemi a ordinální proměnné-snaha najít latentní třídy, které se projevují v odpovědích na sadu dichotomických otázek • Na rozdíl od FA se vychází z pravděpodobností (členství v příslušné třídě při určitých hodnotách odpovědí)

LCA výstupy /čeština • Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi

LCA výstupy / matika • Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi

3. Loglineární modely

Možné zdroje informací Agresti. 2002. Categorical data analysis. New York : Wiley-Interscience. Simonoff. 2003. Analyzing categorical data. New York : Springer. Knoke, Burke. 1980. Log-linear models . Newbury Park, California : SAGE Publications. DeMaris. 1992. Logit modeling: practical applications. Newbury Park : Sage Publications. Česky: Hebák a kol. 2005. Vícerozměrné stat. metody s aplikacemi, 3. díl, kapitola 1

Chí-kvadrát test o nezávislosti Připomínka: Řeší problém závislosti kategoriální (nominální či ordinální) proměnné v řádku a sloupci v kontingenční tabulce Postoje k náboženství a k gender otázkám (souvisí spolu?) Count GENDER Total tradiční střed liberální Náboženský postoj věřící 458 311 202 971 ani, ani 132 191 182 505 nevěřící 51 119 159 329 Total 641 621 543 1805 Χ2=160, P=1,14 e-33 Pouze dvourozměrný vztah

Omezení chí-kvadrát testu, důvod pro loglineární modely Řeší problém závislosti jen mezi dvěmi proměnnými. Co když je ale vztah klamný a způsobuje ho jiná proměnná (elaborace) – loglineární modely Zde například postoje k genderu i náboženské ovlivňuje rasa jedince To ale za pomoci chí-kvadrát testu současně nepoznáme. Loglineární model - není závislá a nezávislá proměnná a řeší vztahy mezi více kategoriálními proměnnými Matematicky: Modelování četností ve vícerozměrné kontingenční tabulce za pomoci kategorií jednotlivých proměnných Logitový model – jedna proměnná považována za závislou, mdoelují se podíly četností (tzv. šance) Poznámka: Matematicky je jeden model převoditelný na druhý, jedná se tedy o dvě různá vyjádření téhož

Loglineární modely Loglineární analýzy jsou přístupy konfirmatorní, umožňují nám testovat existenci závislosti, významnost zařazení nezávislých proměnných do modelu, celkovou kvalitu modelu atd. Složitější modely pracují s proměnnými jako s ordinálními, případně využívají jejich součiny (interakce) Obdobou loglineárních modelů jsou logistické regrese (binární, odinální a polytomická) Aplikace v ČR: Řeháková, B.2001.Změny hodnot v České republice a Inglehartova hodnotová typologie.Sociální studia ,6:47-71 resp. Řeháková, B.2001.Who are the Czech Materialists, Post-Materialists and Those Who Are "Mixed".Czech Sociological Review,1:35-52

Loglineární modely - ukázka Model-kromě vztahu náboženského postoje a genderu zavedena ještě proměnná měřící z jaké etnické skupiny je jedinec (kontrola) Ukázka koeficientů: Parameter Odhad SE Z-value CI- L CI – U Exp(b) Naboz*gender trad 1,9640 ,1855 10,59 1,60 2,33 7,1 naboz*genderstred ,7723 ,1543 5,01 ,47 1,07 2,2 nabozstred*gendertrad ,7915 ,1998 3,96 ,40 1,18 2,2 nabozstred*genderstred ,3532 ,1604 2,20 ,04 ,67 1,4 ……atd. Vyhodnocení modelu: Chi-Square DF Sig. Likelihood Ratio 9,8112 8 ,2785 Pearson 9,8791 8 ,2736 Model elaborace kontrola vlivu 3. proměnné, vztah odolal.

4. Latentní proměnné, strukturní modely (SEM)

Možné zdroje informací Bollen, K. A. 1989. Structural equations with latent variables. Wiley MacDonald, R.. 1991, Faktorová analýza a příbuzné metody v psychologii. Academia Urbánek, T. 2000. Strukturní modely. Brno : AV ČR. Psychologický ústav. Časopis Structural Equation Modeling

Podstata metody SEM 2 části modelů • Model měření • Strukturní model Celkem tzv. modely kovariančních struktur Latentní a manifestní proměnné, endo a exogenní proměnné

Podstata metody SEM • Cíl – zjistit zda navržený model a data se shodují resp. zda kovarianční matice generovaná modelem a napozorovaná jsou obdobné • Možnosti různých testů, ale i desítky statistických kritérií (AGFI, RMSEA, AIC, BIC atd.) • Většina algoritmů vhodných jen pro kardinální proměnné, teprve v poslední době i algoritmy pro ordinální proměnné – omezen aplikovatelnosti v sociálních vědách • V poslední době i víceúrovňové strukturní modely

Strukturní model – ukázka

Strukturní model – popis

Závěrem

Obecně o software Speciální pakety: • HLM, MLWin pro víceúrovňové modely • Mplus-víceúrovňové modely, analýza lat. tříd • LISREL, AMOS, EQS-strukturní modely • Latent gold, MLLSA, Lem - LCA • Atd. Obecné statistické pakety: • SAS- umí ML, SEM, LOGLIN • SPSS – umí ML, LOGLIN • STATA – umí ML, LOGLIN • STATISTICA – umí SEM, LOGLIN, ML

Stačí software? Problém: • Software je téměř na vše, ale ne na vše jsou data. • Ne vždy je třeba užívat novou techniku, mnohdy stačí jednoduchá běžná technika nebo není třeba statistiky vůbec :).

Multilevel Modeling for Social Sciences Research