バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07

バイオインフォマティクス研修会ゲノム配列解析および機能解析2014.08.07バイオインフォマティクス研修会ゲノム配列解析および機能解析2014.08.07

全体の流れ サンプルDNA ↓　シーケンシングシーケンスリード (fastqファイル) ↓　アセンブルコンティグ/スキャフォルド ↓　遺伝子予測遺伝子塩基配列 ↓　翻訳遺伝子アミノ酸配列 ↓　類似配列データベース検索機能予測本日の演習はここから見つかった遺伝子をタンパク質立体構造データベース(PDB)から探して立体構造を表示させる。

ショットガンシーケンシング 染色体DNA ↓　水流などでランダムに断片化 ↓　特定の長さの断片のみを回収断片化DNA ↓　断片の末端を250塩基ずつだけ解読ショートリード

ゲノムアセンブリ ショートリード ↓　同じ部分配列をのりしろとしてリードを繋ぎ合わせるコンティグ ↓　間の配列が読まれていなくても橋渡しされていれば並べるスキャフォルド理想的には元のゲノム配列全長を復元できる　　　　　（いつもそううまくいくとは限らない？）

作業の準備.1 必要なファイルはここにあります https://archive.iii.kyushu-u.ac.jp/public/LXTkAARII05AftUBucxHdxakaWn1UpLzfLejV5-Tb9p7 ブラウザにURLを貼り付けて、各自ファイルをダウンロードしてください。ショートリードのfastqファイル。P1 と P2 がペアになっている。 } contigから遺伝子配列を切り出すためのプログラムタブレット（アセンブル結果表示ソフト） } velvet (アセンブラ)。 velvet.cmdはなくてもよい。

基本的なUNIXコマンド 画面下の「ターミナル」をクリックするとコマンドラインが現れる。 Mac ではほとんどの UNIX コマンドを実行可能。コマンドの例: lsファイルやディレクトリ(フォルダ)のリストを表示。 pwdカレントディレクトリ(今注目しているディレクトリ)の絶対パス(住所)を表示。 cdカレントディレクトリを変更。 cd Desktop “Desktop”というディレクトリに移動 cd ..親ディレクトリ(ひとつ上の階層のディレクトリ)に移動 cd ~自分のホームディレクトリに移動(= cd) lessテキストファイルの内容を表示。less P1_10k.fq等とファイルを指定する。実行後は、[enter]で1行送り、[B]で1行戻し、[space]で1画面送り、[Q]で終了。コマンドの打ち間違い等で反応しなくなっても、[control]+[C]で強制終了できる。

作業の準備.2 タブレット「tablet_macos_1_14_04_10.dmg」はインストールが必要です。ダブルクリックして進めて行き、インストール先には /Applications ではなく自分のホームディレクトリを指定してください。ホームディレクトリはコマンドラインで cd pwd と打てば表示されます。それをcopy&pasteしてください。その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ移します。 mv Downloads/* . とコマンドを打つ（警告は無視）か、マウス操作で移動させてください。 extract, velvetg, velvethはプログラムですので予め実行可能の印を付けておきます。 chmodu+x extract velvetgvelveth この時点でメッセージは出ませんが、 ./extract等と打って使用方法の英文が出てくれば成功です。

ショートリード(fastqファイル) コマンドless P1_10k.fq やless P2_10k.fq で中身を見ることができる。リードID 塩基配列 @M01347:38:000000000-A55N6:1:1101:12076:6805 1:N:0:1 TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAA + CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHGGHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH @M01347:38:000000000-A55N6:1:1101:8798:6836 1:N:0:1 TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTA + FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHGHEHFHDGDCGHHHGHGHHHHFGHHH @M01347:38:000000000-A55N6:1:1101:10079:6918 1:N:0:1 ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTT + CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHHHHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH クォリティクォリティ QV = -10 log (エラー率p)　　　　数字が大きいほどエラー率が低い(=正確) • PCの文字コード • 33 59 64 73 104 126 • | | | | | | • !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ • LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... • | | | | • 0.2......................26...31........41 • クォリティ(QV) • L - Illumina 1.8+ Phred+33, raw reads typically (0, 41) 例) ある塩基のQVが「H」なら、H→39なので、　エラー率p = 10^(-3.9) ≒1/8000 その塩基は8000個に1個の確率で　誤りであるということを表している。

ゲノムアセンブリ Velvet アセンブラ（無償ソフトウェア）を用いる。 Velvet はvelvethとvelvetgの２つのプログラムから成っている。 velveth : リードを細分化して「のりしろ」のリストを準備する。 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。 ./velveth asm201 201 -fastq -shortPaired–separate P1_10k.fq P2_10k.fq ./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るにはcd asm201と打つ。戻るにはcd .. 。 lsコマンドでファイルの一覧が表示される。ここで重要なファイルは、 contigs.fa : コンティグ配列 velvet_asm.afg:　リードアライメント (コンティグの構成リードを1本1本重ね合わせたもの) リード結果の保存先のりしろの長さ

アライメントビューワ tablet を用いてアライメント(リードの重なり)を確認する。これをダブルクリックまたはコマンドopen ~/Tablet.appで実行読み込むファイルは、 asm201 内のvelvet_asm.afg ソフトウェアにバグがあり、最初の部分だけデタラメに見える（アライメントされなかった仲間外れのリードが表示されてしまう）見たいcontigを選択。今回は１つしかない。

リードアライメント コンティグは多数のリードから成っているズームの調整やVariants(エラー)の強調概要表示から見たい部分を押せばフォーカスが移動する欠失エラー置換エラースクロールバーよく見ると所々に誤りが… コンティグ構築の際には、多数決で塩基が決定される。

コンティグ配列 less contigs.faと打てば表示される。コンティグ番号カバレッジ(平均して何本のリードが重なっているか) 配列の長さ >NODE_1_length_5386_cov_122.646118 CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAG AACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGC AGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCG ATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAA AATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAG GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTT GAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATT CGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAG GTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACT TCGTga >から始まる行(ヘッダ)に配列の情報が書かれている。今回は長さ 5,386 bpのコンティグ1本にまで全長が繋がった。小文字はクォリティが低い塩基。

遺伝子予測 Glimmer 3.02（無償ソフトウェア）のウェブ版を用いて、コンティグ配列上から遺伝子を探す。 http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi contigs.faファイルを指定。またはcontigs.fa内の塩基配列をここにcopy&pasteしてもよい。ここを押して実行

遺伝子配列の切り出し orfから始まるすべての行をテキストエディットにcopy&pasteする。 GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score -------- ----- ----- -- ----- >NODE_1_length_5386_cov_122.646118 orf00001 5583 200 +3 5.68 orf00002 311 838 +2 11.73 orf00004 847 1833 +1 9.11 orf00007 1870 3438 +1 6.85 orf00009 3692 4150 +2 3.82 orf00010 4150 4266 +1 5.41 orf00011 4303 5586 +1 11.84 見つかった遺伝子の位置と方向だけが書かれている。それを元にコンティグから切り出す必要がある。フォーマットを標準テキストに変更してから、 [command] + [S] で保存する。保存場所はホームディレクトリに。([command] + [shift] + [H]) ファイル名はorf.txtとする。 contigs.faから遺伝子領域を切り出すには、 ~/extract ~/asm201/contigs.fa ~/orf.txt> ~/nuc.txt とコマンドを打つ。 nuc.txtに各遺伝子の塩基配列が保存される。 nuc.txtの内容を見るにはless nuc.txt >orf00001 5583 200 len=204 GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTG CAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTG TTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACT CGCGATTCAATCATGACTTCGTGA >orf00002 311 838 len=528 ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTC ACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCA ACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATT

塩基配列からアミノ酸配列への翻訳 European Bioinformatics Institute (EBI) のサービスを用いる。 http://www.ebi.ac.uk/Tools/st/emboss_transeq コドン表 nuc.txtを指定する。または遺伝子の塩基配列をcopy&paste。今回は Bacterial が望ましいが、 Standard のままでも問題ない。結果のアミノ酸配列はテキストエディットに貼り付けて、 protein.txtとして保存。 >orf00001_1 5583 200 len=204 VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQVKFNVTVYRNLPTT RDSIMTS* >orf00002_1 311 838 len=528 MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLTVNAGNGGFLHCI QMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAYDVYPLDGRHDGGY YTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKEIICLQPLK* >orf00004_1 847 1833 len=987 MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVGMGDAGIKSAIQGSN VPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLGGKSAADKGKDTRDY ここを押して実行

配列相同性検索(機能予測) NCBI の BLAST (ウェブ版) を用いる http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome アミノ酸配列の一つを貼り付ける。まずはlen=987 の配列を選んだ。 (987 とは塩基配列の長さであり、アミノ酸配列長としては1/3の329 残基である) nr は報告されている全生物種全タンパク質の配列を集めたデータベース。ここを押して実行。しばらく時間がかかる。

検索結果.1 Microvir_Hという機能ドメインに似ている。既知配列と似ている領域が図示されている。ほぼ全長にわたって高い類似性を持つ配列が、データベース内に多数あるということを示している。スクロールしていくと詳細の記述がある。

検索結果.2 データベースから見つかった類似配列が、似ている順に並べられている。 minor spike protein H ファージがバクテリアに感染するときに突き刺す注射針の役目 [] 内に生物種が書かれている。ここに挙がっているのはほとんどがバクテリア今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174。ファージはバクテリアにだけ感染するウィルスの一種なので、それ以外の様々なバクテリアからもファージ由来の遺伝子が検出される。

検索結果.3 アライメント 入力配列データベース上の配列に全長が完全一致! 「Minor spike protein」であることに間違いなさそう。今回は完全一致だったが、 30% 程度以上合っていれば同じ機能を持つことが多い。データベースから見つかった配列

配列相同性検索(機能予測) NCBI の BLAST (ウェブ版) を用いる http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome アミノ酸配列の一つを貼り付ける。 len=1284 の配列を選んだ。 (アミノ酸配列としては1/3の 426 残基に相当) ここを押して実行。 capsid というファージやウイルスの殻となるタンパク質がヒットする。

タンパク質立体構造データベース Protein Data Bank (PDB) http://www.rcsb.org/pdb/home/home.do capsid phix174 と入力。全部で9個が登録されている。最も古い1991年の構造(2BPA)を見てみる。タンパク質を結晶化してX線回折によって解かれた構造である。

ファージ phiX174 の構造 概観のサムネイル。 capsid が60個組み合わさって、正20面体を構成している。 12個の頂点から突き出た角は、 Gタンパク質およびHタンパク質からできている。ここを押すとより詳細に見ることができる。（少し時間がかかる）

ファージ phiX174 の構造 Asymmetric Unit を選べば個々の部品だけを見ることができる。正20面体マウス操作で拡大・縮小・回転ができる。

ファージ phiX174 の構造 βシート αヘリックス大きい方のβシートがcapsid。小さい方は major spike。ヘリックスや細い白線の大部分は橋渡しタンパク質。

ファージが感染する瞬間の電顕写真 Nature 505, 432–435 (16 January 2014) 実際にスパイクを突き刺している様子が観察されている

バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07