1 / 17

位置依存スコア行列の 例からの推定について

位置依存スコア行列の 例からの推定について. 阿久津 達也 takutsu@kuicr.kyoto-u.ac.jp 京都大学 化学研究所 バイオインフォマティクスセンター. 位置依存スコア行列. スコア関数推定問題の定義. 入力 正例 : X1,X2,X3, … 負例 : Y1,Y2,Y3, … 出力: 以下を満たす スコア関数 X1,X2,X3, … は最適 ( もしくは、しきい値以上 ) Y1,Y2,Y3, … は非最適 ( しきい値以下 ). スコア関数推定に関する理論的結果. 位置依存スコア行列の推定. 入力:

ryo
Télécharger la présentation

位置依存スコア行列の 例からの推定について

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 位置依存スコア行列の例からの推定について 阿久津 達也 takutsu@kuicr.kyoto-u.ac.jp 京都大学 化学研究所 バイオインフォマティクスセンター

  2. 位置依存スコア行列

  3. スコア関数推定問題の定義 • 入力 • 正例: X1,X2,X3,… • 負例: Y1,Y2,Y3,… • 出力: 以下を満たす スコア関数 • X1,X2,X3, …は最適 (もしくは、しきい値以上) • Y1,Y2,Y3,…は非最適(しきい値以下)

  4. スコア関数推定に関する理論的結果

  5. 位置依存スコア行列の推定 • 入力: • POS (Σ上の文字列集合、正例) • NEG (Σ上の文字列集合、負例) • L (モチーフ領域の長さ) • 出力: PSSM fとしきい値Θ s.t. • For all S in POS, there is a substringS’ of S for which f(S’) >= Θ • For all S in NEG, for all substring S’ of S, f(S’) < Θ

  6. 位置依存スコア行列

  7. PSSM, Score, Linear Inequality • PSSM: f (S) • f (S) = Σ fi (S[i]) • whereS=S[1]…S[m] • Xi,a=fi (a),S=TGCとすると f (S) >=Θ は X1,T+X2,G+X3,C >= Θ ⇒モチーフ領域が既知なら線形判別により簡単

  8. NP-困難さの証明 • NP-hard if L is not bounded (|Σ|=2) • Reduction from 3SAT • 3SAT: C = { c1,c2,…,cn } over X = { x1,…,xn } • S (i,j,…) : string of length 4n • S[i]=1,S[j]=1,…■S[k]=0 for the other position h • NEG ={S(),S(4n),S(i,j),S(i),S(2i-1,2i,4n)} • POS ={ S(g(i1),4n)•S()•S(g(i2),4n)•S()•S(g(i3),4n) } for clause c=li1 or li2 or li3 where g(ik)=2ik-1 if li1 is positive literal, otherwise g(ik)=2ik

  9. Lを固定した場合の多項式時間アルゴリズム • Construct an arrangement of hyperplanes in (|Σ|L+1)-dimensional Euclidean space for the hyperplanes: • Θ= f(S’) for each substring S’ of length L of each sequence in POS U NEG • Check each cell in the arrangement • Applicable to derivation of hydropathic indices because f1=f2=…=fL.

  10. Arrangement of Hyperplanes • Combinatorial and Computational Comexities: O(nd ) for n planes in d-dimensions • The sign of y-fi (x) does not change within each cell

  11. Lを固定した場合の補足 • Σ、Lを固定した場合、考慮すべき文字列の個数は定数個 ⇒ 多項式時間はtrivial • 位置に依存しないスコア行列(例えば、疎水性指標)の場合は、文字列の個数は定数個では無い(スコア行列のサイズはΣ) • 疎水性指標の学習:通常は膜貫通領域などのモチーフ領域が既知 • 今回の結果はモチーフ領域が既知で無くても推定可能を示唆

  12. PSSMのMixtureの学習 • 入力: POS, NEG, N (#PSSM) ただし全ての配列は同じ長さ • 出力: 以下を満たすN個のPSSMの組         (f 1, …, f N) と Θ • POS中の全ての配列Sについて、あるPSSM f k が存在し、f k(S )>= Θ • NEG中の全ての配列S, 全てのPSSMf kについて、f k(S ) < Θ

  13. PSSMの混合分布の幾何的解釈

  14. PSSMのMixture学習についての結果 • N=1, および N=|POS|の時は多項式時間アルゴリズムが存在 • N=1の時は、以下の線形計画問題に帰着 • f(S)>=Θ for each S in POS • f(S)<Θ for each S in NEG • Nが(2以上の)定数の時は、NP困難

  15. アラインメントスコアの学習 • 入力 • 正例: 同一ファミリー内の配列ペア (Xi,Xi’) • 不例: 異なるファミリー内の配列ペア (Yi,Yi’) • 出力: 以下を満たすスコア行列および閾値Θ • score(Xi,Xi’) >= Θ、score(Yi,Yi’)< Θ • 既存手法 • 頻度に基づく(PAM、BLOSUM) • 最適化に基づく手法(Goldstein, 蓬来) • 問題点: シードとなるアラインメントが必要 • 結果 • 文字数(残基数)に制約が無い場合は、NP困難

  16. PSSMに関するまとめ • PSSMのサイズが固定⇒多項式時間 • 固定でない⇒NP困難 • 2個のPSSMのMixture ⇒ NP困難 • 課題 • 実用的なスコア行列推定法の開発 • 学習データに対する分類エラーの最小化  ←実際には「実行可能解無し」がほとんど

More Related