130 likes | 268 Vues
PCAを用いた2群の有意差検定. 中央大学理工学部物理学科田口善弘. 1. 2群(X群vsY群)の差の検定の問題点. X群4サンプル. Y群4サンプル. X群 vs Y群 ×. XA-XB + vs ○ YA-YB ー. 観測量 8 種. すべての実験条件の組み合わせを考えると数が発散 ↓ 多重比較の補正を考えなくてはならなくなり. A群 vs B群 ×. 変数選択. 評価軸の構成. 2群の平均の差 [判別 X ]. (XA + XB) – (YA + YB). Q9,Q10 Q11,Q12, .....
E N D
PCAを用いた2群の有意差検定 中央大学理工学部物理学科田口善弘
1. 2群(X群vsY群)の差の検定の問題点 X群4サンプル Y群4サンプル X群 vs Y群 × XA-XB + vs ○ YA-YB ー 観測量 8 種 すべての実験条件の組み合わせを考えると数が発散 ↓ 多重比較の補正を考えなくてはならなくなり... A群 vs B群 ×
変数選択 評価軸の構成 2群の平均の差 [判別 X] (XA+ XB)– (YA+ YB) Q9,Q10 Q11,Q12, ..... QN Q1,Q2 Q3,Q4 Q5,Q6 Q7,Q8 0 2(群内部分群間差)の差 [判別 ○] 0 (XA –XB) –(YA-YB)
機械学習でできるか? 線形判別 × multiplicative (Q1,Q2,...,Q7,Q8) × (A,B) additive 変数選択 カーネルトリック+SVM × (Q1,Q2,...,QN,[A,B]) → f(Q1,Q2,...,QN,[A,B]) 変数選択ができない
多分、できないわけじゃない。 なんらかの尤度を導入し、 誤差(判別ミス)を最小にする 最小限の変数選択(AIC的に) ができるはず。僕にはわかりません。 → もっとシンプルな事を考える
発想を変える → PCA YN サンプル(X,Y)の組み合わせとして主成分だけしか考えない 心:X群とY群に「差」があるならそれは特徴量として現れるはず PC1 Q1,Q2,..,QN X2 PC2 X1
具体例: SLE:全身性エリテマトーデス RA:関節リウマチ DM:皮膚筋炎 → 遺伝子のプロモーター領域のメチル化(=Q) に有意の差があるか?(Javierre 2010) サンプル:(X:発症、Y:非発症) [発症(X)/非発症(Y)双子+非発症(Y)同年齢・同性コントロール2=4]×5=20 結果: SLE でしか有意の差が見つからなかった。 部分群[A , B]
DMの場合 Q=プロモーターのメチル化 PC3 PC2
PC2 発症vs非発症 X 男性vs女性 ○ 非発症コントロール1 非発症コントロール2 発症双子 非発症双子 同年齢 同性 グループ
PC3 発症vs非発症 ○ (but only within twins) 男女でメチル化が逆転 発症双子 非発症双子 非発症コントロール1 非発症コントロール2
発症双子vs非発症双子 男性 発症↑ 男女でメチル化が逆転 P=3×10-13 P=3×10-13 P=2×10-11 非発症双子 P=2<10-16 P=2×10-7 P=2×10-7 P=4×10-10 女性 発症↓ 発症双子
SLE,RA,DMの三種はいずれも自己免疫疾患で共通の遺伝子に異常が生じていることが期待されるSLE,RA,DMの三種はいずれも自己免疫疾患で共通の遺伝子に異常が生じていることが期待される ↓ まさにそうなっている! またSLEの場合は原著と共通の遺伝子が選ばれていた。
まとめ 2群の差の検定を行う場合、各群がサブグループに別れている場合に、教師無し学習(PCA)を用いて差が検出できる変数の選択、及び、変数の線形結合による差を検定する新たな合成指数を構成する事を提案した。 SLE,RA,DMの3種の自己免疫疾患において共通の遺伝子がプロモーター領域のメチル化に異常を引き起こしていることを検出した。