1 / 23

生命情報学入門 配列のつなぎ合わせと再編成

生命情報学入門 配列のつなぎ合わせと再編成. 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター. 講義予定. 5 月 24 日 : タンパク質立体構造予測法 5 月 31 日 : タンパク質立体構造予測演習 6 月 7 日 : 機械学習を用いたタンパク質の分類法 6 月 14 日 : タンパク質の分類法演習 6 月 21 日 : 配列のつなぎ合わせと再編成. 講義の内容. 配列のつなぎ合わせ 等長断片からの配列決定 最短共通拡大文字列 ゲノム再編成 逆位によるソーティング(符号なしの場合) 逆位によるソーティング(符号ありの場合).

fancy
Télécharger la présentation

生命情報学入門 配列のつなぎ合わせと再編成

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生命情報学入門配列のつなぎ合わせと再編成 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

  2. 講義予定 • 5月24日:タンパク質立体構造予測法 • 5月31日:タンパク質立体構造予測演習 • 6月7日:機械学習を用いたタンパク質の分類法 • 6月14日:タンパク質の分類法演習 • 6月21日:配列のつなぎ合わせと再編成

  3. 講義の内容 • 配列のつなぎ合わせ • 等長断片からの配列決定 • 最短共通拡大文字列 • ゲノム再編成 • 逆位によるソーティング(符号なしの場合) • 逆位によるソーティング(符号ありの場合)

  4. 配列のつなぎ合わせ

  5. 配列のつなぎあわせ • ゲノム配列の決定 • 32億文字を一度に決めるのは無理 • (制限酵素を使って)短く切って、つなぎ合わせる CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA 元の配列 酵素を使って切断 CTCACTCAAAGGCGGTAA GGTAATACGGTTATCCAC TATCCACAGAATCAGGGGATAA つなぎあわせ CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA

  6. 等長断片からの配列決定

  7. 問題の定式化 データ: 同じ長さの配列断片 問題:  それぞれの配列断片のみがちょうど1回づつ       出てくるような配列はあるか? ACA ACA ACT ACT ACACTG CAC CAC CTG CAG なし

  8. 一筆書きとオイラー • オイラーの定理(有向グラフ版) • 次のどちらかの条件を満たす時、一筆書きができる • (a) どの点についても • 入って来る矢印の数 = 出て行く矢印の数 • (b) 2点以外は上と同じで、残りの点は、それぞれ以下を満たす • 入って来る矢印の数 = 出て行く矢印の数-1 • 入って来る矢印の数-1 = 出て行く矢印の数 (a) (b)

  9. オイラーパス問題への変換 • 最初の2文字に対応する点から、最後の2文字に対応する点に矢印を引く。 一筆書きできれば解あり、できなければ解なし AAC データ AAA, AAC, ACC, CAA, CAC, CCA, CCC AAA A A A C CAC ACC CAA C A C C CCC CCA CAAACCCAC

  10. 例題の解答 AC CA CT TG ACA ACA ACT ACT CAC CAC CAG CTG AC CA CT AG ただし、実際には誤りがあったり、断片の長さが同じではないので、 このままでは使えない。様々な工学的な工夫が必要

  11. 最短共通拡大文字列問題

  12. 問題の定式化 データ: 配列断片 問題:  それぞれの配列断片を(重なりありで)つなぎわせてできる一番短い文字列を見つけよ ACGTACAGTCAG 12文字 ACGT GTAC GTCAG CAGT 10文字で 最短 GTACGTCAGT

  13. 問題の解き方(1) 着目点:断片の並べ方を決めると(その順番での)最短拡大文字列が一意に決まる(なるべく左につめるようにつなげていく) ⇒ 並び方をみつければ良い pref(a,b): 断片 aの後に断片 bをつなげた時のaの中で bと重ならない部分の長さ ovlp(a,b):断片 aの後に断片 b をつなげた時の aと bの重なっている部分の長さ b = GTCAG a = CAGTC CAGTC ovlp(a,b)=3 GTCAG pref(a,b)=2

  14. 問題の解き方(2) 断片の並べ方(s1,s2,s3,…,sn)を決めた後の 最短拡大文字列の長さ = prefの総和 +ovlp(sn,s1) GTAC s1 pref(si,si+1) s2 ACGT ovlp(sn,s1) s3 GTCAG s4 CAGT GTAC s1 GTACGTCAGT

  15. 巡回セールスマン問題への変換 s2 ACGT 2 5 (=pref(GTCAG, ACGT)) 2 2 4 s1 GTAC GTCAG s3 4 4 4 2 2 3 4 (=pref(GTAC, CAGT)) CAGT s4 2+2+2+2+ovlp(CAGT,GTAC)=10 GTACGTCAGT

  16. 等長断片の場合との比較 等長断片の場合 ・オイラーパス(一筆書き)問題へ変換 ・すべての辺をちょうど1回通る ・効率良く計算可能 拡大最短共通文字列の場合 ・巡回セールスマン問題へ変換 ・すべての頂点をちょうど1回通る ・効率の良い計算は難しい(NP困難)

  17. ゲノム再編成

  18. ゲノム再編成 • ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化 • 二種類の生物を比較して進化の過程を復元

  19. 逆位によるソーティング

  20. 逆位によるソーティング(符号なしの場合) • ゲノム構造: 1からnまでの数字の順列 • 逆位:連続した部分列を反転 • 問題:与えられた順列を (1,2,3,4,…,n) にするための最短の逆位系列を計算 2 3 6 4 1 5 5 5 6 6 1 1 4 2 3 3 2 4 2 3 1 4 6 5

  21. 逆位によるソーティング(符号ありの場合) • ゲノム構造: 1からnまでの数字の順列。ただし、各数字は符号(遺伝子の方向)がつく • 逆位:反転した場合、符号も反転 1 -5 4 -3 2 キャベツ 5 2 1 4 3 1 -5 4 -3 -2 1 -5 -4 -3 -2 カブ

  22. 逆位によるソーティング • 符号ありの場合 • 高速に計算可能 • でも、アルゴリズムはかなり複雑 • 符号なしの場合 • 高速な計算は難しい(NP困難) • 転座、重複などを許した様々なパターンの問題が研究されている

  23. まとめ • 等長断片のつなぎ合わせ •  ⇒ 一筆書きへの変換 • 拡大最短共通文字列 •  ⇒ 巡回セールスマン問題への変換 • ゲノム再編成 •  ⇒ 最小回数の逆位による順列の •     並び換え(ソーティング)

More Related