Using SAS PROC MIXED to Fit Multilevel Model

Using SAS PROC MIXED to Fit Multilevel Model B4 KANEKIYO Michiwo

今日の論文 • Using SAS PROC MIXED to fit multilevel Models, Hierarchical Models, and Individual Growth Models • Singer, J.D. (1998) • Journal of Educational and Behavioral Statistics • 24, 323-355 • 青本編者あとがきで一読を勧められていた経時データ関連レビュー論文で一番うちに近いもの

For Multilevel Model… • ここ最近の統計パッケージ • HLM(Bryk, Raudenbush, & Congdon, 1996) • MLwiN(Prosser, Rasbash, & Goldstein, 1996) • SAS • PROC MIXED

SASは複雑？ • SAS • 農業や自然科学の分野から • 行動科学分野では見かけないシンタックス＆プログラミングロジック • 使いづらそう・・・・ • HLM, MLwiN • 社会科学や行動科学の分野から

目的 • SAS(PROC MIXED)のMultilevelな使い方を示す • 分析手順の基本をなぞる • パラメータの意味を考える • 以下2つのモデルについて • 学校効果モデル(school effects models) • クラスタデータ • 成長モデル(individual growth models) • 経時データ

ちなみに • Multilevel Modelの表現法 • レベル別に方程式(ex.) HLM(Bryk & Raudenbush 1992) • レベル別→一つの方程式に • 一つの方程式に(ex.)SAS, MLwiN(Goldstein 1995) • 今回は「２」を採用 • 特に以下４つが重要な点 • 固定効果と変量効果の違い • 階層という考え • 異なる誤差共分散構造 • 中心化による解釈のしやすいパラメータライズ

Two-Level School Effects Models • データ (Brk and Raudenbush(1992)) • 160校から合計7185名(14-67名/school) • 変数 • 生徒レベル：数学のテスト (MATHACH)，社会・経済的地位 (SES:Socio-Economic Status) • 学校レベル：公立(0)・カトリック(1) (SECTOR)，SESの学校単位平均 (MEANSES) • SESおよびMEANSESは一般平均で中心化されている • 全生徒の平均SESは0，および全学校の平均MEANSESは0 • 他にもいろいろ

流れ • unconditional means model • 数学テスト(MATHACH)の学校間のバラツキを見る • 予測子投入 • 学校レベル(MEANSES) • 生徒レベル(SES) • 学校・生徒レベル双方導入

一要因変量効果モデル的アプローチ μ：一般平均 τ00：学校間のバラツキ σ2：個人のバラツキ２レベルアプローチ step1（生徒レベル） step2（学校レベル）１つの方程式に・・・ Unconditional Means Model

その１ PROC MIXED; CLASS school; MODEL mathach = ; RANDOM school; RUN; その２ PROC MIXEDNOCLPRINT COVTEST; CLASS school; MODEL mathach = /solution; RANDOM intercept/SUB=school; RUN; 分散成分の検定固定効果の検定 SAS プログラム

分散成分 • 表のような結果（双方有意*） • 数学のテスト(MATHACH)は・・・ • 学校間でばらつくと考えられる • 学校間のバラツキよりも学校内における個人のバラツキの方が非常に大きい • 級内相関ρ • （学校間のバラツキ）／（全体のバラツキ）=.18 • 学校レベルで20％のバラツキを説明 • 階層を考慮しない普通の回帰分析では誤った結論を導く可能性有り • 学校レベルの共変量導入に意味があることを示唆 • 検定は可能？

その他 • 情報量基準 • AIC, SBC • SBCの方が複雑化に対するペナルティ大きい • 固定効果 • γ00=12.64(p<.001) • 平均的な学校の平均的な生徒の数学テストの得点は12.64

MEANSES導入 SAS プログラム PROC MIXEDNOCLPRINT COVTEST; CLASS school; MODEL mathach = meanses/solution ddfm=bw; RANDOM int / SUB=school; RUN; 学校レベル(level2)に予測子導入

結果 • 固定効果 • γ00：有意 • 平均的な学校の平均的な生徒の数学テストの点数 • γ01：有意 • 数学のテストと社会・経済的地位の学校平均に関係がある • MeanSESが1大きくなると，数学テストの点数は5.86上がる

結果 • 分散成分 • 学校間バラツキ8.61→2.64 • MEANSESという予測子は学校間バラツキを大いに説明 • (8.61-2.64)/8.61≒69% ：ただしR2みたいなものではない • 有意*→説明されるべきバラツキがまだある • 残差級内相関≒偏相関←級内偏相関？ • 2.64/[2.64+39.16]≒6% • SESの学校平均(MEANSES)の影響を取り除いた上で，同じ学校内における生徒の数学のテストの相関は0.06 • 同じ学校内で生徒に相関が生じるのはSESの学校平均(MEANSES)の影響が大きい（兼清コメント）

SESを導入 レベル1の予測子傾きへの固定＆変量効果変量効果間の構造パラメータの解釈・・・ β0jは，全サンプルに渡りSESが平均の生徒の数学テストの点を表す ↑学校ごと(j=1,2,….)においてはそうならない β0jはどの学校においてもSESが真ん中の生徒の数学テストの点を表すものであって欲しいその上で他の要因の影響を見たい 新たな中心化個人レベル(level1)に予測子導入

CSES=SES-MEANSES こうすることでより解釈がしやすくなる SAS プログラム PROC MIXED NOCLPRINT COVTEST NOITPRINT; CLASS school; MODEL mathach = cses/solution ddfm=bw notest; RANDOM int cses/SUB=school TYPE=UN; RUN; 新たな中心化

結果 • 固定効果 • γ00：有意 • 生徒のSESを考慮した上での学校の平均 • γ01：有意 • 数学のテストと生徒のSESには何らかの関係あり • 分散成分 • τ00：有意* • SESの影響を考慮した上で，なお，学校間に数学テストのバラツキあり • τ11：有意* • 傾きについても同様 • τ10：非有意 • 各学校におけるSESの効果は（傾きは），その学校の平均的な数学のテストに（切片に）依存しているわけではない

結果 • 生徒レベルのSESはどれくらい生徒間の（学校内の）バラツキを説明しているか？ • (39.15 – 36.70)/39.15≒6% • 相対的にみれば，学校レベルのSESの方がそのレベルのバラツキを多く説明している • 「説明された」バラツキ • Snijders and Bosker(1994)でより深い議論

SES(level1),MEANSES,SECTOR(level2)導入 SAS プログラム PROC MIXED NOCLPRINT COVTEST NOITPRINT; CLASS school; MODEL mathach = meanses sector cses meanses*cses sector*cses/solution ddfm=bw notest; RANDOM int cses/TYPE=un SUB=school; RUN; 両レベルの予測子導入

結果 • 固定効果（すべて有意） • Public:MATHACH = 12.11 + 5.34 MEANSES + 2.94 CSES + 1.03 MEANSES*CSES • Catholic:MATHACH = 13.33 + 5.34 MEANSES + 1.30 CSES + 1.03 MEANSES*CSES • PとCで，数学のテストの平均（切片）が有意に異なる • PとCで，数学のテストと生徒のSESとの間の関係（傾き）が有意に異なり，Pの方が強い関係（傾き大） • 学校のSESも数学のテストに関係がある • 学校のSESと生徒のSESに交互作用があり，学校のSESが高いほど，数学のテストと生徒のSESには強い関係がある（傾き大）

結果 • 固定効果（すべて有意） • Public:MATHACH = 12.11 + 5.34 MEANSES + 2.94 CSES + 1.03 MEANSES*CSES • Catholic:MATHACH = 13.33 + 5.34 MEANSES + 1.30 CSES + 1.03 MEANSES*CSES • 学校のSES(MEANSES)が負に大きいと，生徒のSESと数学テストに負の相関が現れる！！(MEANSES≦-1.26) • SESが高い子ほど数学テストが悪くなる？ • 実際のデータのMEANSES最小値は-1.188よりそういうことは無い • 外挿問題（？）もある．

結果 • 分散成分 • τ00：有意 • SECTORなどの要因を考慮した上でばらつく • 他の学校レベルの意味ある共変量の存在を示唆 • τ10やτ11：非有意(p=.35とp.64) • よりシンプルなモデルと情報量基準で比較 • 生徒レベルのSESに対する変量効果(u1j)無しモデル χ22(0.05)=5.99χ21(0.05)=3.84

Individual Growth Models • データ (Willett 1988) • opposite naming skillの向上 • opposite naming task：対義語音読課題 • 得点(Y) • 35名4時点(TIME=0,1,2,3) • 最初を0ととった→切片は初期値を表す • c.f.) 最後を0と取ったり（最終値），平均を0と取ったり（平均値） • 時間依存しない共変量(COVAR)

モデルの構造式 πを使用している深い意味は多分無い結果平均的な人は初期値が164(=β00)で一回ごとに27(=β10)ずつ上昇していく τ00，τ11はしっかり大きい各々1198.78,132.40 個人間共変量(level2)で説明されるバラツキであろう UnconditionalLinear Growth Model

COVARの中心化 CCOVARとする β00：平均的な共変量を持つ人の平均初期値・共変量を考慮した平均初期値構造式 SAS プログラム PROC MIXEDNOCLPRINT COVTEST; CLASS id; MODEL y = time ccovar time*ccovar/s ddfm=bw notest; RANDOM int time /TYPE=un SUB=id gcorr; RUN; 個人レベル(level2)に共変量導入

結果 • 固定効果より • 共変量は変化率（傾き）に効いている • 初期値と共変量は関係が無い • 分散成分より • 変化率（傾き）における分散成分が減少 • (132.40-107.25)/132.40≒19% • 変化率（傾き）におけるバラツキの19%が共変量によって説明された

変量切片→CS 変量傾き→異分散モデルの構造式 Σに構造を入れる TIMEの効果を除いたものにおける相関を表す SAS プログラム PROC MIXED NOCLPRINT COVTEST NOITPRINT; CLASS id wave; MODEL y = time/s notest; REPEATED wave/TYPE=cs SUB=id r; RUN; 個人内相関に構造導入 waveはtimeの分類変数版

結果 • 情報量基準より • AR(1)が妥当に見える • 尤度比検定(UN v.s. AR(1))：χ2=10.05(8), p=.26

SAS プログラム PROC MIXED NOCLPRINT COVTEST NOITPRINT; CLASS id wave; MODEL y = timeccovar time*ccovar/s ddfm=bw notest; RANDOM int time/TYPE=un SUB=id g; REPEATED wave/TYPE=ar(1) SUB=id r; RUN; 結果を共変量の時と比較パラメータについてはほとんど変わらない固定効果，変量効果で充分相関を表している AR(1)のパラメータ非有意情報量基準での評価つまり「やりすぎ」合作(共変量＋AR(1))

まとめ・雑記（兼清コメント） • パラメータの意味を知るという観点ではいい論文だと思う • 共変量を中心化することでパラメータを明瞭にすることは意義深い • 級内相関や級内偏相関の算出が可能 • 検定が出来れば，なおいい • 分散成分の値の変化に注目して，固定効果の説明率もどき（どれくらいの割合を説明出来ているか）を考えることが可能 • そのレベルにおける分散が全体に対してどれくらいかは考慮すること • ワルド検定は悪い（かなり保守的）ながらも使用されている • 有意であれば，修正尤度比検定でも有意 • Multilevel Modelではddfm=bwが良いのか？ • サタースウェイトの方が適切と言えるだろう

その２ • 続きの分析としてCONTRASTやESTIMATEを使用 • 何年後から群に差があるのか？ • SESがこれくらいの人の数学のテストの点数は？ • 鳥居さん修論でもおなじみの方法で • 回帰分析と比較して • 外れ値対策の指標・多重共線性の指標・標準偏回帰係数 • これらはどうなのだろう？黄色本 chpa11 • v.s. LCA • 探索的分析＆検証的分析 • 欠測

PROC MIXED; CLASS teacher school; MODEL mathach = /s; RANDOM int /SUB=school; RANDOM int /SUB=teacher(school); RUN; 学校-先生-生徒 PROC MIXED; CLASS student teacher; MODEL mathach = time /s ddfm=bw; RANDOM int time /TYPE=un SUB=teacher; RANDOM int time /TYPE=un SUB=student(teacher); RUN; 先生-生徒-生徒内結句に変えて三段モデル

参考HP • http://www.ats.ucla.edu/stat/sas/seminars/sas_mlm/mlm_sas_seminar.htm • 実データ(sas7bdatファイル)もプログラムも入手出来ます • 今日述べた一通りの分析が体験可能 • さらにSPSSやS-Plusについてもありっ☆ • UCLA Academic Technology Services 万歳 • 追記：英語ではそれはもうたくさんのHPがある • 適用例山ほど（理論についてはHPより文献だろう） • 「日本語HP」は少ない • 日本であまり使われていない • （使用している人は）英語で理解しているので日本語にする必要がない

Using SAS PROC MIXED to Fit Multilevel Model

Using SAS PROC MIXED to Fit Multilevel Model

Presentation Transcript

Introduction to the SAS ® System’s PROC FORMAT

Clinical Trial Data Validation Using SAS PROC SQL

SAS: Proc GPLOT

Doing HLM using SAS PROC MIXED

Use of Proc Mixed to Analyze Experimental Data

PROC MIXED

Using Proc IML

SAS Enterprise Guide Old Proc – New Tricks?

A Gentle Introduction to Linear Mixed Modeling and PROC MIXED Richard Charnigo

Using SAS PROC FCMP

Using SAS To find

Appendix D: SAS PROC IML

Investigating Faking Using a Multilevel Logistic Regression Approach to Measuring Person Fit

SAS PROC REPORT PROC TABULATE

Using SAS to find Percentile

Computing normal probabilities in SAS PROC CORR PROC PLOT or PROC GPLOT

Efficient SAS Coding with Proc SQL

Introduction to Multilevel Modeling Using SPSS

Use of Proc Mixed to Analyze Experimental Data

PROC GLIMMIX Generalized Mixed Linear Models

Examples from Singer’s Using SAS Proc Mixed to Fit Multilevel Models…

How to start using SAS