位置依存スコア行列の例からの推定について

位置依存スコア行列の例からの推定について 阿久津　達也 takutsu@kuicr.kyoto-u.ac.jp 京都大学　化学研究所バイオインフォマティクスセンター

位置依存スコア行列

スコア関数推定問題の定義 • 入力 • 正例: X1,X2,X3,… • 負例: Y1,Y2,Y3,… • 出力：　以下を満たすスコア関数 • X1,X2,X3, …は最適 (もしくは、しきい値以上) • Y1,Y2,Y3,…は非最適(しきい値以下)

スコア関数推定に関する理論的結果

位置依存スコア行列の推定 • 入力: • POS (Σ上の文字列集合、正例) • NEG (Σ上の文字列集合、負例) • L (モチーフ領域の長さ) • 出力: PSSM fとしきい値Θ s.t. • For all S in POS, there is a substringS’ of S for which f(S’) >= Θ • For all S in NEG, for all substring S’ of S, f(S’) < Θ

位置依存スコア行列

PSSM, Score, Linear Inequality • PSSM: f (S) • f (S) = Σ fi (S[i]) • whereS=S[1]…S[m] • Xi,a=fi (a),S=TGCとすると f (S) >=Θ は X1,T+X2,G+X3,C >= Θ ⇒モチーフ領域が既知なら線形判別により簡単

NP-困難さの証明 • NP-hard if L is not bounded (|Σ|=2) • Reduction from 3SAT • 3SAT: C = { c1,c2,…,cn } over X = { x1,…,xn } • S (i,j,…) : string of length 4n • S[i]=1,S[j]=1,…￭S[k]=0 for the other position h • NEG ={S(),S(4n),S(i,j),S(i),S(2i-1,2i,4n)} • POS ={ S(g(i1),4n)•S()•S(g(i2),4n)•S()•S(g(i3),4n) } for clause c=li1 or li2 or li3 where g(ik)=2ik-1 if li1 is positive literal, otherwise g(ik)=2ik

Lを固定した場合の多項式時間アルゴリズム • Construct an arrangement of hyperplanes in (|Σ|L+1)-dimensional Euclidean space for the hyperplanes: • Θ= f(S’) for each substring S’ of length L of each sequence in POS U NEG • Check each cell in the arrangement • Applicable to derivation of hydropathic indices because f1=f2=…=fL.

Arrangement of Hyperplanes • Combinatorial and Computational Comexities: O(nd ) for n planes in d-dimensions • The sign of y-fi (x) does not change within each cell

Lを固定した場合の補足 • Σ、Lを固定した場合、考慮すべき文字列の個数は定数個　⇒　多項式時間はtrivial • 位置に依存しないスコア行列（例えば、疎水性指標）の場合は、文字列の個数は定数個では無い（スコア行列のサイズはΣ） • 疎水性指標の学習：通常は膜貫通領域などのモチーフ領域が既知 • 今回の結果はモチーフ領域が既知で無くても推定可能を示唆

PSSMのMixtureの学習 • 入力: POS, NEG, N (#PSSM) ただし全ての配列は同じ長さ • 出力: 以下を満たすN個のPSSMの組　　　　　　　　(f 1, …, f N) と Θ • POS中の全ての配列Sについて、あるPSSM f k が存在し、f k(S )>= Θ • NEG中の全ての配列S, 全てのPSSMf kについて、f k(S ) < Θ

PSSMの混合分布の幾何的解釈

PSSMのMixture学習についての結果 • N=1, および N=|POS|の時は多項式時間アルゴリズムが存在 • N=１の時は、以下の線形計画問題に帰着 • f(S)>=Θ for each S in POS • f(S)<Θ for each S in NEG • Nが（２以上の）定数の時は、NP困難

アラインメントスコアの学習 • 入力 • 正例: 同一ファミリー内の配列ペア (Xi,Xi’) • 不例: 異なるファミリー内の配列ペア (Yi,Yi’) • 出力：以下を満たすスコア行列および閾値Θ • score(Xi,Xi’) >= Θ、score(Yi,Yi’)< Θ • 既存手法 • 頻度に基づく(PAM、BLOSUM) • 最適化に基づく手法(Goldstein, 蓬来) • 問題点：　シードとなるアラインメントが必要 • 結果 • 文字数（残基数）に制約が無い場合は、NP困難

PSSMに関するまとめ • PSSMのサイズが固定⇒多項式時間 • 固定でない⇒NP困難 • 2個のPSSMのMixture ⇒ NP困難 • 課題 • 実用的なスコア行列推定法の開発 • 学習データに対する分類エラーの最小化　←実際には「実行可能解無し」がほとんど

位置依存スコア行列の例からの推定について