790 likes | 1.84k Vues
統計手法アラカルト Mixed Model ~混合モデル~. 行動計量学研究分野 学部三回 兼清道雄. 内容. GLM とは Mixed Model とは SAS での使用例 SPSS では ver.11 からサポート. GLM とは. General Linear Model の略 一般線型モデル y を目的変数(従属変数)とし、p個の説明変数(独立変数) x 1 ,…,x p との線型結合で表される式(↓)のこと. 行列表現しますと・・・. GLM による解析. 回帰分析 (単回帰、重回帰)、 分散分析 (多変量分散分析)、共分散分析など
E N D
統計手法アラカルトMixed Model~混合モデル~ 行動計量学研究分野 学部三回 兼清道雄
内容 • GLMとは • Mixed Modelとは • SASでの使用例 • SPSSではver.11からサポート まぜまぜもでる
GLMとは • General Linear Modelの略 • 一般線型モデル • y を目的変数(従属変数)とし、p個の説明変数(独立変数)x1,…,xpとの線型結合で表される式(↓)のこと まぜまぜもでる
行列表現しますと・・・ まぜまぜもでる
GLMによる解析 • 回帰分析(単回帰、重回帰)、分散分析(多変量分散分析)、共分散分析など • SASのGLMプロシージャでは上記の分析が可能 まぜまぜもでる
GLM風:分散分析 • 1要因(3水準(i=1,2,3))分散分析 • 各水準に2データ(j=1,2)、計6個のデータ • データの構造式 全部書くと 被験者1 被験者2 まぜまぜもでる
GLMの欠点 • 誤差共分散の構造を柔軟に指定出来ない • 誤差共分散:ε(誤差)同士の分散共分散行列 • 測定値間に何らかの関係があると考えて分析できない • ちゃんとした計画法を用いれば、まあ、それなりにはできるけれども・・・(分散分析) • 反復測定や経時観察のデータでは致命的 まぜまぜもでる
そこで・・・ • GLMでは満足に解析できない反復測定データや経時観察データに対して・・・ • Mixed Modelの出番ってなわけです • Mixed Modelって?? まぜまぜもでる
Mixed Model • General Linear Mixed Model • 一般線型混合モデル • 線型混合モデル、混合モデルともいう • GLMの拡張 まぜまぜもでる
どこが拡張?? • 変量効果の導入 • (対義語)固定効果 • GLMは固定効果しか扱えなかった • 変量効果も固定効果として扱った • 誤差共分散への様々な指定 • 後ほど(SASのところ)、詳しく説明 まぜまぜもでる
固定効果? • 固定効果(fixed-effect) • ある要因を固定効果として解釈 • その要因に対して有限個の水準を想定 • 研究では、評価したい全ての水準を含んでいると考えることになる • 解釈例 • 性別 • トレーニング有無 まぜまぜもでる
変量効果? • 変量効果(random-effect)=ランダム効果 • ある要因を変量効果として解釈 • その要因に対して無限個の水準(水準の母集団)を想定 • 研究では、実際に検討する水準は母集団からの標本であると考えることになる • 解釈例 • 大学(実験や調査の場所として)や被験者 まぜまぜもでる
固定?変量?具体例1 • 質問紙調査(複数の大学で) • 因子分析後、尺度得点を使って分散分析 • コンピュータ不安の尺度得点とか • 『大学』を1つの要因とする • 他は性別とか • つまり、大学や性別という要因でコンピュータに対する不安を説明しようとする まぜまぜもでる
固定?変量?具体例2 • 『大学』を・・・ • 固定効果と解釈 • 特定の大学の効果を考える(ex.阪大、神大、京大) • 変量効果と解釈 • 大学間の全体的なばらつきを考える • 次スライドを参照 まぜまぜもでる
阪大は・・ 神大は・・ !図! 固定効果だと 変量効果だと このばらつきに興味 コンピュータ不安尺度得点 まぜまぜもでる
本当はね(変量効果として解釈) このばらつきに興味 コンピュータ不安尺度得点 まぜまぜもでる
つまり • 固定効果では個々の水準における効果に注目 ex.) ○阪大、神大、京大間に差はあるか? ○阪大と京大どちらがコンピュータ不安が高いか? • 変量効果では全体的なばらつきに注目 ex.) ○大学間で効果はどれだけばらつくか? まぜまぜもでる
変量効果? • データの構造式ではよく「b」で表されます • 固定効果の「β」に対して • 実験毎に違うもの=変量効果 • 被験者(回答者)が毎回同じではない=変量効果 • つまり、確率変数です • (誤差も確率変数です) • 正規分布に従います(と仮定) • あ まぜまぜもでる
モデルの構造式 • Mixed Model • ちなみにGLMは まぜまぜもでる
モデル構造式(実際は) • Mixed Model • GLM というわけで、パラメータの数は同じ(βG=β+b) まぜまぜもでる
具体例対応のある1要因分散分析 • 1要因3水準(i=1,2,3)の分散分析 • 被験者を変量効果と解釈する(j=1,2) • データの構造式は 全部書くと まぜまぜもでる
平均、分散 • Mixed Model • ちなみにGLMは まぜまぜもでる
以上より • 測定値間の何らかの関係を、変量効果の導入や誤差共分散の指定により、的確に捉えることが出来る • また、欠測値があっても解析可能 • ただし、MAR(Missing At Random)の場合 まぜまぜもでる
Q.どうやってMixedを使うの? A.話はSASに飛びます
SAS • PROC MIXEDで分析が可能 • 表1のデータをもとに、被験者効果を変量効果とし、1要因分散分析を行う • 要因Aは3水準 • 練習前、1週間練習、2週間練習 • データの構造式 まぜまぜもでる
rとlとwの弁別実験(行動計量学講義資料より抜粋)rとlとwの弁別実験(行動計量学講義資料より抜粋) 表1
DATA rlw; DO sub = 1 to 8; DO a = 1 to 3; INPUT y @@; OUTPUT; END;END; CARDS; .40 .43 .43 .42 .45 .44 .42 .42 .43 .42 .43 .42 .47 .49 .50 .38 .37 .39 .44 .47 .46 .40 .41 .42 ; RUN; SASプログラム1 データステップ編 PRINTプロシージャで確認 PROC PRINT DATA=rlw; RUN;
SASプログラム2 PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM intercept/subject=sub; RUN; PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM sub; RUN; どちらでも同じデータの構造になります まぜまぜもでる
OUTPUT(付録OUT1参照) • CLASSステートメントで指定した要因の水準を表示 • Class Level Information • 推定の為の反復計算の過程 • REML Estimation Iteration History • 推定する分散成分が小さい場合、収束しないこともある • 今回は収束(convergence criteria met.) まぜまぜもでる
OUTPUT(付録OUT1参照) • 分散成分とその推定値 • Covariance Parameter Estimates(REML) • 測定誤差によるばらつきは被験者によるばらつきよりかなり小さい • つまりばらつきのほとんどが被験者によるもの • オプション‘COVTEST’を使えば、標準誤差や検定等計量が表示される(後述) Cov Parm Estimate SUB 0.00098155 Residual 0.00007857 まぜまぜもでる
OUTPUT(付録OUT1参照) • モデルの当てはまりに対する情報 • Model Fitting Information for Y • おもにモデルを比較する時に使用 • 詳細は割愛 Description Value Observations 24.0000 Res Log Likelihood 53.5487 Akaike's Information Criterion 51.5487 Schwarz's Bayesian Criterion 50.5041 -2 Res Log Likelihood -107.097 まぜまぜもでる
OUTPUT(付録OUT1参照) • 固定効果の検定 • Tests of Fixed Effects • 要因Aの効果あり • 練習前と1週間練習した後と2週間練習した後では、正答率が違う • どことどこに有意な差? • LSMEANSステートメントで多重比較可能(次スライド) Source NDF DDF Type III F Pr > F A 2 14 9.12 0.0029 まぜまぜもでる
PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM intercept/subject=sub; LSMEANS a/adjust=tukey; RUN; PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM sub; LSMEANS a/adjust=tukey; RUN; Least Squares Means Effect A LSMEAN Std Error DF t Pr > |t| A 1 0.41875000 0.01151151 7.74 36.38 0.0001 A 2 0.43375000 0.01151151 7.74 37.68 0.0001 A 3 0.43625000 0.01151151 7.74 37.90 0.0001 Differences of Least Squares Means Effect A _A Difference Std Error DF t Pr > |t| Adjustment Adj P A 1 2 -0.01500000 0.00443203 14 -3.38 0.0044 Tukey-Kramer 0.0170 A 1 3 -0.01750000 0.00443203 14 -3.95 0.0015 Tukey-Kramer 0.0068 A 2 3 -0.00250000 0.00443203 14 -0.56 0.5816 Tukey-Kramer 0.8417 • 練習することにより正答率は上がるが、練習の期 間によって正答率が変化するとはいえない
PROC MIXED • DATA=~ • 分析するデータ名を指定 • COVTEST • 分散成分の標準誤差および検定統計量出力 • ただし、検定に関しては微妙 • METHOD=~ • 推定方法を指定 ex.METHOD=ML (最尤法) • デフォルトはREML(制限付最尤法) まぜまぜもでる
PROC MIXED • NOCLPRINT • Class Level Informationを非表示 • NOITPRINT • Estimation Iteration Historyを非表示 PROC MIXED DATA=rlw METHOD=ML COVTEST NOCLPRINT NOITPRINT; ……… RUN; まぜまぜもでる
CLASSステートメント • 因子として考えるべき変数を指定 • 文字変数でも数値変数でもよい まぜまぜもでる
MODELステートメント • 反応変数(1変数のみ)と固定効果を指定 • y = a とか y = a b a*b とか • 切片は自動的に含まれる • nointオプションで切片なしを指定出来る • sまたは solution • 固定効果の推定を表示 • 点推定、標準誤差、t統計量、p値 • ddfm=~ • 自由度の求め方を指定:デフォルトは以下 • ddfm=betwithin(REPEATEDステートメントのみ) • ddfm=contain(RANDOMステートメント含む) まぜまぜもでる
MODELステートメント Solution for Fixed Effects Effect A Estimate Std Error DF t Pr > |t| INTERCEPT 0.43625000 0.01151151 7 37.90 0.0001 A 1 -0.01750000 0.00443203 14 -3.95 0.0015 A 2 -0.00250000 0.00443203 14 -0.56 0.5816 A 3 0.00000000 . . . . • 前例:MODEL y=a/sの場合のアウトプット • A3水準=切片となっている まぜまぜもでる
RANDOMステートメント • 変量効果を指定 • 切片を入れるためにはinterceptを変数に • subject= • データセットにおける対象者を識別 • type= • 変量効果の共分散行列の構造を指定 • 実用的にはUNかVC(UN、VCについては後述) • g • 変量効果の共分散行列の推定値を出力 • gcorr • 変量効果の相関行列の推定値を出力 まぜまぜもでる
RANDOMステートメント • データの構造式 PROC MIXED DATA=rlw; ・・・・・・ RANDOM intercept/SUBJECT=sub; RUN; PROC MIXED DATA=rlw; ・・・・・・ RANDOM sub; RUN;
REPEATEDステートメント • 誤差共分散行列(共分散の構造)を指定 • type= • 詳しくは次スライド • subject= • データセットにおける対象者を識別 • 反復効果を示す変数は名義変数 • 入れなくてもよい まぜまぜもでる
type= • type=AR(1) • 一次自己回帰 • 近いものには強い関係 • 遠いものには弱い関係 • 経時データ向き まぜまぜもでる
type= • type=CS • 複合対称性(Compound Symmetry) • 測定値のばらつきが一定(定数分散) • 測定値間の関係も一定(定数共分散) まぜまぜもでる
type= • type=SIMPLE • type=VC • Variance Components • 測定値のばらつきが一定(定数分散) • 測定値間の関係なし(無相関) まぜまぜもでる
変量効果が複数個 • RANDOMステートメントに‘type=SIMPLE(VC)’で指定 • つまり変量効果同士の共分散構造をtypeで指定した場合 • 変量効果ごとのばらつきが一定ではない (不定数分散) • 変量効果間の関係なし (無相関) まぜまぜもでる
type= • type=UN • 無構造 • Unstructured まぜまぜもでる
その他にも • たくさんの構造が指定できます • 誤差についても • 系列相関成分 • 測定誤差成分 • と分けることも出来ます • 今回は割愛します まぜまぜもでる