600 likes | 1.21k Vues
実験実習 統計手法マスター 欠測値データの分析. 行動計量学研究分野 B3 松田淑美. 今日の流れ. 欠測値? 分析方法? SPSS? SAS!. 欠測(値). データがない ‐ missing、 欠損 実験や調査では欠測はつきもの 未回答 トランケーション 打ち切り … etc. 欠測のメカニズム. Missing Completely At Random (MCAR) どの値が欠測するかは完全にランダム Missing At Random (MAR) どの値が欠測するかはデータに依存してもよいが 、 欠測値には依存しない
E N D
実験実習統計手法マスター欠測値データの分析実験実習統計手法マスター欠測値データの分析 行動計量学研究分野 B3 松田淑美
今日の流れ • 欠測値? • 分析方法? • SPSS? • SAS! 統計手法マスター(欠測値データの分析)
欠測(値) • データがない‐missing、欠損 • 実験や調査では欠測はつきもの • 未回答 • トランケーション • 打ち切り…etc 統計手法マスター(欠測値データの分析)
欠測のメカニズム • Missing Completely At Random(MCAR) • どの値が欠測するかは完全にランダム • Missing At Random(MAR) • どの値が欠測するかはデータに依存してもよいが、欠測値には依存しない • Nonignorable Missing • どの値が欠測するかは欠測した値に依存 統計手法マスター(欠測値データの分析)
2変量データで考えると… 2変量データ(x1、x2)で、x1はすべて観測され、欠測はx2のみに生じる場合 • MCAR:x1およびx2の両方の値に依存しな い • MAR:x1の値のみに依存し、.x2の値には 依存しない • Nonignorable:x2 ( およびx1)の値に依存 (*一変量データではMCARとMARの区別はない) 統計手法マスター(欠測値データの分析)
「無視可能」? • 欠測値データの分析では、欠測が分析において無視できるか無視できないかの区別が重要(分析方法が異なる) 欠測データを欠測ではなく始めからなかったものとして分析しても結論に違いがないとき 欠測は「無視可能」(MCARは無視可能) 統計手法マスター(欠測値データの分析)
Test of MCAR • Little&Rubin(1987) ①欠測のない個体の第j変量の値Yjの周辺分布 ②欠測のある個体のYjの周辺分布 を比較. ⇒2つに有意差があれば、MCARの仮定は棄却さ れる. • カイ二乗検定 • 欠測のある個体が少ないときには使えない(使いにくい) • MARの確認はできない 統計手法マスター(欠測値データの分析)
分析方法 • 欠測があるデータは取り除き完全データとして分析(Complete-Case Analysis) • 得られたデータを使って分析(Available-Case Analysis) • 欠測に値を代入して完全データの手法を適用(Imputation or Fill-in) • 欠測はそのままモデル化して分析(Direct) • それぞれに長所・短所がある 統計手法マスター(欠測値データの分析)
Complete-Case Analysis① • 一箇所でも欠測のあるケース(個体)は無視 胸囲、肺活量、身長の全てが観測されているケースをつかう. ‐Listwisedeletion(リストごと) 統計手法マスター(欠測値データの分析)
Complete-Case Analysis② • 最も簡単で説得力がある • 分析に使えるデータが減る(もったいない!) • 欠測のメカニズムがMCARでないと結論に偏りが生じる • SAS、SPSSは基本的にこの方法 統計手法マスター(欠測値データの分析)
Available-Case Analysis① • 利用できる最大限の情報をつかう 各変量ごとの平均などを求める際には得られているデータすべてを使う. 2変量間の関係を調べるとき、その2変量がともに得られているケースのデータを使う. ‐Pairwise deletion(ペアごと) 統計手法マスター(欠測値データの分析)
Available-Case Analysis② • 欠測のメカニズムがMCARでないと結論に偏りが生じる • 相関係数の問題 • 相関係数の推定に平均や分散を計算しなおす必要 • 相関行列が正定値でなくなる可能性 • n×nの実対称行列Aとx0である任意のn×1実ベクトルに対し となるとき,Aは正定値であるという.(全ての実固有値が正) 統計手法マスター(欠測値データの分析)
Imputation • 欠測箇所に値を代入 ・単一値代入法 • 一つの値を代入 ・多重代入法 • 複数個の値を代入し、擬似的な完全データセットを複数個作成 • SPSSではできない。(こともない?) • SASVersion8からPROC MI、PROC MIANALYZEで実行可能.(ただしVersion8では試験的な提供) 統計手法マスター(欠測値データの分析)
単一値代入法①(single imputation) • 平均値 • 欠測がMCARでないと平均値は偏りをもつ • 平均、分散を過小評価 • Hot Deck法 • 背景データの似ている個体を同じデータセット内から探し、対応する値を用いる • 欠測のメカニズムはどうでもいい • 似たデータを探すのは難しい 統計手法マスター(欠測値データの分析)
単一値代入法② • 回帰による推定値 • 観測データから重回帰式を求め欠測値を回帰予測 • 欠測のメカニズムはMARでよい • 分散を過小評価 • EMによる推定値 • EMアルゴリズムにより最尤推定値をもとめる • 欠測のメカニズムはMARでよい 統計手法マスター(欠測値データの分析)
EMアルゴリズム① • 不完全データの尤度関数を直接最大化する代わりにEステップ(Expectation step)とMステップ(Maximization step)とよばれる各ステップの反復により最尤推定値をもとめる方法. • 各ステップを収束するまで交互に繰り返す. 統計手法マスター(欠測値データの分析)
EMアルゴリズム② [手続き] • パラメータの初期値 を適当に定める. • 初期値はComplete,Availableなど簡便な方法を用いて決定すればよい • Eステップ(Expectation step) • アルゴリズムをt回繰り返して得られたパラメータベクトル を与えたもとで、完全なデータの対数尤度関数の期待値を計算 統計手法マスター(欠測値データの分析)
EMアルゴリズム③ • Mステップ(Maximization step) • Eステップで得られた完全なデータに対する対数尤度関数 を最大にする をもとめる • 形式的には全ての に対して が成立 • ただし、 • 一般に収束が遅く、精度に関する推定量を直接得ることができない. 統計手法マスター(欠測値データの分析)
単一値代入法→多重代入法 • 推定量のバラツキを過小評価 • 代入された値を実際に観測された値であるとみなして分析 • ある一つの欠測値に対して複数回の補完を行うことにより、この不確実性を考慮 単一値代入法 多重代入法 統計手法マスター(欠測値データの分析)
多重代入法(multiple imputation=MI) • 3段階から成る • 欠測箇所にM個の異なる値を代入し、M個の擬似的なデータセットを生成 • M個の擬似的な完全データセットそれぞれに、完全データセット用の手法を適用して分析 • M種類の分析結果を一つに統合 統計手法マスター(欠測値データの分析)
Combining Inference① • M個の擬似的な完全データセットを作成し、各データセットから推測対象であるパラメータ の推定値 およびそれらの標本分散 が得られたとする.このとき の点推定値は算術平均 で与えらる. 統計手法マスター(欠測値データの分析)
Combining Inference② このとき、 標本分散Tは代入内分散(within-imputation variance) および代入間分散(between-imputation variance) を用いて と計算される. 統計手法マスター(欠測値データの分析)
Direct • 欠測値は欠測のまま扱い、モデル化により分析する • 欠測が無視可能でない場合にはそうせざるを得ないことが多い • MIXED MODEL? 統計手法マスター(欠測値データの分析)
SPSS • Missing Value Analysis(MVA)というオプションで欠測データの分析が可能 • 何ができるの??‐大きくわけて次の3つ • 欠測パターンの要約、記述統計 • 欠測の下での基本統計量の算出 • 欠測箇所への代入 • 他・・・ユーザ欠損値の定義 統計手法マスター(欠測値データの分析)
例:中古車価格のデータ • を欠測値として分析 統計手法マスター(欠測値データの分析)
[欠損値分析] ダイアログボックス • [分析]から[欠損値分析]を選択 ・変数の選択 ・推定方法の選択 ・EM、回帰による推定方法の細かな指定 統計手法マスター(欠測値データの分析)
欠測パターンの要約① ① ③ ② 欠損値分析ダイアログボックスの[パターン]をクリック 統計手法マスター(欠測値データの分析)
欠測パターンの要約② ① 集計されたパターン データパターン(すべてのケース) ③ ② 欠損値パターン(欠損値をもつケース) 統計手法マスター(欠測値データの分析)
記述統計① 欠損値分析ダイアログボックスの[記述統計]をクリック ① ② ③ 統計手法マスター(欠測値データの分析)
記述統計② 非欠損値数 ① 一変量の統計量 ② 指示変数の不一致のパーセント 一方の変数では欠損値、一方の変数では非欠損値というケースのパーセント 統計手法マスター(欠測値データの分析)
記述統計③ ③ 個別分散のt検定 「車検と価格がともに観測されているときの車検の平均値」と、「車検は観測されているが価格が観測されていないときの車検の平均値」のt検定 統計手法マスター(欠測値データの分析)
基本統計量の算出① • [欠損値分析]ダイアログボックスで推定方法を選択. • リストごと(Complete)、ペアごと(Available)、EM、回帰. • 選択された手法で基本統計量を推定 • 平均,共分散,相関係数 • ペアごと→+度数,標準偏差 • EM→+LittleのMCAR検定の結果 統計手法マスター(欠測値データの分析)
基本統計量の算出② • 仮定 • この仮定が成立しないときには推定結果が偏ることがある. ・リストごと、ペアごとの推定 →欠測のメカニズムはMCAR ・回帰、EMによる推定 →欠測のメカニズムはMAR 統計手法マスター(欠測値データの分析)
基本統計量の算出③‐EM‐ データ分布についての仮定を指定 指定した回数に達すると収束していなくても終了 統計手法マスター(欠測値データの分析)
基本統計量の算出④‐回帰 回帰法により、回帰推定にランダムな成分を追加 推定過程で使用する独立変数の最大数を設定 統計手法マスター(欠測値データの分析)
基本統計量の算出⑤ -EMの場合- EM 平均値 データ分布の仮定→正規 LittleのMCAR検定の結果 EM相関係数 EM共分散 統計手法マスター(欠測値データの分析)
欠測箇所への代入① • 欠測値を回帰、EMの各手法による推定値に置き換える. →新規データファイルに保存[完了データの保存] →今後の分析に使用 統計手法マスター(欠測値データの分析)
欠測箇所への代入② 回帰による推定(推定調整-残差) 統計手法マスター(欠測値データの分析)
欠測箇所への代入③ EMによる推定(データ分布-正規) 統計手法マスター(欠測値データの分析)
ついでに…多重代入法 by SAS • proc mi; • 複数個の完全データセットを生成 • 仮定→欠測メカニズムはMAR • proc mianalyze; • proc miで生成された擬似的な完全データセットで通常の分析(今回は回帰分析)を行った結果をもとに、妥当な統計的推測結果を出力 • 欠測値にはピリオドを入力 • オプションいっぱい 統計手法マスター(欠測値データの分析)
PROC MI‐代入値の計算法 • MCMC method(マルコフチェーン・モンテカルロ法) • マルコフチェーン+モンテカルロ法 • マルコフチェーンを利用して目的とする確率分布からの乱数を生成する一般的な方法論 • Regression method • Propensity method • ロジスティック回帰+propensity score+近似的ベイズ・ブートストラップ法 欠測のパターンが単調なときに使用 統計手法マスター(欠測値データの分析)
欠測のパターン • 単調(monotone)なパターンの欠測 • 各個体において、第j変量 が観測されていれば、第k変量 も観測されている.(k<j) • 非単調(non-monotone) • 欠測のパターンが単調だと、いろいろと便利. ⇒ 統計手法マスター(欠測値データの分析)
こ~んな感じ。 DATA missing; INFILE “sample.txt”; INPUT x1 x2 x3 x4; RUN; PROC MI DATA=missing OUT=miout; VAR x1 x2 x3 x4; RUN; PROC PRINT DATA=miout; RUN; PROC REG DATA=miout OUTEST=outreg; MODEL x1=x2 x3 x4; BY _IMPUTATION_; RUN; PROC MIANALYZE DATA=outreg; VAR INTERCEPT x2 x3 x4; RUN; X1=価格 X2=走行距離 X3=乗車年数 X4=車検 統計手法マスター(欠測値データの分析)
Model Information 統計手法マスター(欠測値データの分析)
結果の比較① 完全データでの分析結果 • 各手法による(擬似的)完全データを回帰分析 Complete-case Analysis 統計手法マスター(欠測値データの分析)
結果の比較② 多重代入法 by SAS SPSSでの回帰による推定値を分析 統計手法マスター(欠測値データの分析)
結果の比較③ SPSSのEMによる推定値を分析 結論 多重代入法とEM推定値(SPSS)が頑張ってる(?) 統計手法マスター(欠測値データの分析)
全体をとうして... • 欠測はないのが一番 • できる限りでないように。 • 発生すれば、その原因を追究し、取り除く努力(欠測が発生する理由を分析することが必要) 統計手法マスター(欠測値データの分析)
感想 • 欠損値分析に関しては、 • SPSSは「敵を知る」ための道具 • どろどろ分析するためのものではない • SAS? • データと語らいたい人はこっち. • 統計レベルあがっちゃった。かも。 • 統計はしばらくお休み。 統計手法マスター(欠測値データの分析)
参考文献 • G.Verbeke,G.Molenberghs編 2001 松山裕・山口拓洋編訳 医学統計のための線形混合モデル-SASによるアプローチ- • 岩崎学 不完全データの解析-基礎と実際- 応用統計学会チュートリアルセミナー用資料 • 岩崎学 2002 不完全データの統計解析 エコノミスト社 • 狩野裕 因子分析と共分散構造分析における理論と応用について 科学研究費シンポジウム用資料 • Roderick J.A.Little&Donald B.Rubin STATISTICAL ANALYSIS WITH MISSING DATA 1987 John Wiley&Sons,Inc. • SAS OnlineDoc、Version8(Chapter8,9) • SPSS Missing Value Analysis 7.5 と 7.5J 1997 SPSS Inc. 統計手法マスター(欠測値データの分析)