170 likes | 301 Vues
位置依存スコア行列の 例からの推定について. 阿久津 達也 takutsu@kuicr.kyoto-u.ac.jp 京都大学 化学研究所 バイオインフォマティクスセンター. 位置依存スコア行列. スコア関数推定問題の定義. 入力 正例 : X1,X2,X3, … 負例 : Y1,Y2,Y3, … 出力: 以下を満たす スコア関数 X1,X2,X3, … は最適 ( もしくは、しきい値以上 ) Y1,Y2,Y3, … は非最適 ( しきい値以下 ). スコア関数推定に関する理論的結果. 位置依存スコア行列の推定. 入力:
E N D
位置依存スコア行列の例からの推定について 阿久津 達也 takutsu@kuicr.kyoto-u.ac.jp 京都大学 化学研究所 バイオインフォマティクスセンター
スコア関数推定問題の定義 • 入力 • 正例: X1,X2,X3,… • 負例: Y1,Y2,Y3,… • 出力: 以下を満たす スコア関数 • X1,X2,X3, …は最適 (もしくは、しきい値以上) • Y1,Y2,Y3,…は非最適(しきい値以下)
位置依存スコア行列の推定 • 入力: • POS (Σ上の文字列集合、正例) • NEG (Σ上の文字列集合、負例) • L (モチーフ領域の長さ) • 出力: PSSM fとしきい値Θ s.t. • For all S in POS, there is a substringS’ of S for which f(S’) >= Θ • For all S in NEG, for all substring S’ of S, f(S’) < Θ
PSSM, Score, Linear Inequality • PSSM: f (S) • f (S) = Σ fi (S[i]) • whereS=S[1]…S[m] • Xi,a=fi (a),S=TGCとすると f (S) >=Θ は X1,T+X2,G+X3,C >= Θ ⇒モチーフ領域が既知なら線形判別により簡単
NP-困難さの証明 • NP-hard if L is not bounded (|Σ|=2) • Reduction from 3SAT • 3SAT: C = { c1,c2,…,cn } over X = { x1,…,xn } • S (i,j,…) : string of length 4n • S[i]=1,S[j]=1,…■S[k]=0 for the other position h • NEG ={S(),S(4n),S(i,j),S(i),S(2i-1,2i,4n)} • POS ={ S(g(i1),4n)•S()•S(g(i2),4n)•S()•S(g(i3),4n) } for clause c=li1 or li2 or li3 where g(ik)=2ik-1 if li1 is positive literal, otherwise g(ik)=2ik
Lを固定した場合の多項式時間アルゴリズム • Construct an arrangement of hyperplanes in (|Σ|L+1)-dimensional Euclidean space for the hyperplanes: • Θ= f(S’) for each substring S’ of length L of each sequence in POS U NEG • Check each cell in the arrangement • Applicable to derivation of hydropathic indices because f1=f2=…=fL.
Arrangement of Hyperplanes • Combinatorial and Computational Comexities: O(nd ) for n planes in d-dimensions • The sign of y-fi (x) does not change within each cell
Lを固定した場合の補足 • Σ、Lを固定した場合、考慮すべき文字列の個数は定数個 ⇒ 多項式時間はtrivial • 位置に依存しないスコア行列(例えば、疎水性指標)の場合は、文字列の個数は定数個では無い(スコア行列のサイズはΣ) • 疎水性指標の学習:通常は膜貫通領域などのモチーフ領域が既知 • 今回の結果はモチーフ領域が既知で無くても推定可能を示唆
PSSMのMixtureの学習 • 入力: POS, NEG, N (#PSSM) ただし全ての配列は同じ長さ • 出力: 以下を満たすN個のPSSMの組 (f 1, …, f N) と Θ • POS中の全ての配列Sについて、あるPSSM f k が存在し、f k(S )>= Θ • NEG中の全ての配列S, 全てのPSSMf kについて、f k(S ) < Θ
PSSMのMixture学習についての結果 • N=1, および N=|POS|の時は多項式時間アルゴリズムが存在 • N=1の時は、以下の線形計画問題に帰着 • f(S)>=Θ for each S in POS • f(S)<Θ for each S in NEG • Nが(2以上の)定数の時は、NP困難
アラインメントスコアの学習 • 入力 • 正例: 同一ファミリー内の配列ペア (Xi,Xi’) • 不例: 異なるファミリー内の配列ペア (Yi,Yi’) • 出力: 以下を満たすスコア行列および閾値Θ • score(Xi,Xi’) >= Θ、score(Yi,Yi’)< Θ • 既存手法 • 頻度に基づく(PAM、BLOSUM) • 最適化に基づく手法(Goldstein, 蓬来) • 問題点: シードとなるアラインメントが必要 • 結果 • 文字数(残基数)に制約が無い場合は、NP困難
PSSMに関するまとめ • PSSMのサイズが固定⇒多項式時間 • 固定でない⇒NP困難 • 2個のPSSMのMixture ⇒ NP困難 • 課題 • 実用的なスコア行列推定法の開発 • 学習データに対する分類エラーの最小化 ←実際には「実行可能解無し」がほとんど