演繹データベースと相関ルール発見－ゲノム情報処理への応用－

演繹データベースと相関ルール発見 －ゲノム情報処理への応用－北陸先端科学技術大学院大学知識科学研究科佐藤賢二

自己紹介 略歴：九州大学～東京大学（医科研HGC）～JAIST 研究：知識ベースや知識発見の技術を応用したゲノム情報処理（特にタンパク質関係）宣伝：人工知能学会第二種研究会・分子生物情報研究会（SIGーMBI） http://www.hgc.ims.u-tokyo.ac.jp/sigmbi/ 宣伝： JAIST知識科学研究科（４月にスタートした新学科） http://www.jaist.ac.jp/ks/ 紹介用のCD-ROMあります

講演内容 ゲノムデータベースの概要（GenomeNet) タンパク質立体構造解析のための演繹データベースシステムPACADE 相関ルール発見を用いたゲノム情報処理統合システムWebPACADE

ゲノムデータベース 主に分子生物学の実験の結果得られるデータを世界各国で集積・配付している • 核酸配列情報　　GATC… • タンパク質配列情報　　SER ALA PRO … • タンパク質立体構造情報 • 遺伝病などの疾病に関する情報 • 文献情報 … 実験技術の進歩とともにデータの産出速度が加速

指数的に増え続けるゲノムデータ

ゲノムネット（GenomeNet) JAISTでもミラーサーバ立ち上げ中京大化研スパコンラボ東大医科研ヒトゲノム解析センター

ゲノムネットがサポートするデータベース タンパク質の構造データタンパク質の配列データ

β-strand coil α-helix 二次構造超二次構造タンパク質に関するデータの階層一次構造 …MSTPARKRLMRDFKRLQQDPPAGISGAPQDNN… 立体構造

PDB（Protein Data Bank） X線結晶回折やNMRなどの手法で測定したタンパク質の構造データを格納したもの。現在8000個ほどのエントリを持つ（個々のエントリが１分子に対応する）。テキストファイルの形で配布されている。立体構造の可視化や、新しい分子を設計する時の下敷きとしてよく使われる。キーワードなどの情報で検索することは容易だが、実際には構造に基づいた検索がしたい（例えば特定の条件を満たす部分構造がどのタンパク質のどこにあるかなど）。演繹データベースを使ってみてはどうか？

論理プログラミングシステム＋関係データベース論理プログラミングシステム＋関係データベースファクト par(a,b). par(b,c). par(c,d). ルール anc(X,Y) :- par(X,Y). anc(X,Y) :- anc(X,Z), par(Z,Y). 質問 :- anc(a,Y). 解 anc(a,b). anc(a,c). anc(a,d). フリーウェアの処理系：CORAL（Wisconsin Univ.） ftp://ftp.cs.wisc.edu/coral/coral-1.5（オリジナル） ftp://ftp.jaist.ac.jp/pub/dbms/coral/coral-1.5（ミラー）書籍森下真一著「知識と推論」共立出版演繹データベースとは

演繹データベースの特徴 関係データベースに比べると、再帰検索や否定の記述が容易な分、検索能力が高い。検索に用いるルールは宣言的に記述されるため、モジュール性が高い。 Prologのような論理プログラミングシステムに比べると、ユーザが推論を制御しなくてもすべての解を探索し停止する分、扱いやすい。大量データ処理に向いているため、データベース検索向き。応用がちょっと少ない？タンパク質立体構造解析のための演繹データベースシステムPACADEの開発

PACADE 二次構造のジオメトリ情報をPDBから抽出し、ファクトデータとして演繹データベースに格納 DBMSとしてウィスコンシン大学で開発されたフリーウェア (CoralおよびEXODUS)に少し手を加えたものを用いている

PACADEを使った超二次構造の検索例（Greek Key） 5-stranded Greek Key ２種類の4-stranded Greek Key ２種類の6-stranded Greek Key(jerry roll) 相互再帰的に定義できる構造

Greek Key の検索ルール ルール集合(一部) greek_even_r(A,L,D,4,P) :- hairpin(B,C,P), hairpin(C,D,P), not_coils(A,B,P), neighbour(A,D,P), double_anti_parallel(A,D,P), L=[B,C]. greek_even_r(A,L,D,Num1,P) :- greek_odd(B,L1,D,Num,P), not_coils(A,B,P), neighbour(A,D,P), double_anti_parallel(A,D,P), append([B],L1,L), Num1=Num+1. greek_even_l(A,L,D,4,P) :- hairpin(A,B,P), hairpin(B,C,P), not_coils(C,D,P), neighbour(A,D,P), double_anti_parallel(A,D,P), L=[B,C]. greek_even_l(A,L,D,Num1,P) :- greek_odd(A,L1,C,Num,P), not_coils(C,D,P), neighbour(A,D,P), double_anti_parallel(A,D,P), append(L1,[C],L), Num1=Num+1. greek_odd(A,L,D,Num1,P) :- greek_even_r(A,L1,B,Num,P), greek_even_l(C,L2,D,Num,P), append(L1,[B],L), append([C],L2,L3), L=L3, Num1=Num+1. … 質問(6個の二次構造から成る Greek key の場合) :- greek_even_r (A,L,D,6,P).

検索結果：γ2-cristarin(1gcr)内のjerry roll 8 4 14 12 10 6 greek_even_r(4,[6,8,10,12],14,6,”1gcr”). 解

類似構造検索 特定の部分構造に似た部分構造を探す

類似構造検索のメカニズム ユーザの入力：類似元（タンパク名、チェイン名、領域）許容誤差範囲（角度、距離、etc.）探索空間（全エントリ、一部のエントリ）システムの動作：１）類似元自身を検索し、推論中に使用した束縛値を記憶する（類似元の特徴抽出）２）記憶した束縛値に基づいて、±αの誤差を許容しながら、指定された探索空間内で類似部分構造を探すようなルールと質問を自動的に生成３）生成したルールと質問を使って検索システムの出力：類似部分構造を解として返す

コマンド similar -p 5tnc -s 131 -e 159 -a 30 -d 6 -sp pacade_nr 類似元許容誤差範囲探索空間経過時間 16.00 sec. for the 1st search, 26.00 sec. for the 2nd search. 一次検索二次検索解集合解集合 131 159 _ 5tnc 2.51000 40 64 _ 1rro 131 159 _ 5tnc 3.30035 40 64 _ 5pal 131 159 _ 5tnc 3.30971 40 64 _ 1rtp 131 159 _ 5tnc 3.50223 40 64 _ 1cdp 131 159 _ 5tnc 4.61469 130 159 a 2scp 131 159 _ 5tnc 2.51000 40 64 _ 1rro 131 159 _ 5tnc 3.30035 40 64 _ 5pal 131 159 _ 5tnc 3.30971 40 64 _ 1rtp 131 159 _ 5tnc 3.50223 40 64 _ 1cdp 131 159 _ 5tnc 4.61469 130 159 a 2scp 類似度類似元類似部分構造類似構造検索の例

グラフィック表示 類似元類似部分構造 TROPONIN-*C (5tnc) 131～159 RAT ONCOMODULIN (1rro) 40～64

PACADE 演繹推論による検索 fact par(1,2). par(2,3).… rule anc(X,Y) :- par(X,Y). anc(X,Y) :- anc(X,Z), par(Z,Y). query :- anc(1,Y). answer anc(1,2). anc(1,3).… 大量かつ多様なゲノムデータ CCGCAT AGTCGA TCGG… 有用な知識 (e.g. 相関ルール) 自動的な知識発見検索から発見へ

相関ルール発見 ・IBMのAgrawalらが1993年に提案。商品の販売記録を分析し、商品間の相関関係を把握するために使用された。・１回の商品購入で一緒に買われる頻度が高い商品集　合を検索し、ルール化する。・ルールの価値はサポートおよび確信度という２つのパラメータで定量的に評価される。・サポートがある値以下の組合せは計算途中で捨てる。　同様に確信度がある値以下の相関ルールは生成しない。２段階処理

アイテム 顧客の購買データ相関ルール発見（Apriori）最小サポート= 1 最小確信度= 60% パン, バター => ミルクサポート= 2 確信度= 66.6% コンビニエンスストアの例

ゲノムデータからの相関ルール発見の例 配列構造機能特徴的な部分構造 leu-pro-glu-ser-… …-pro-ile-lys-asn 折れ畳み機能発現 protease 機能上の分類配列モチーフこれらの情報にまたがる相関ルール

タンパク質に関する種々のゲノムデータ 相関ルール発見（Apriori）最小サポート= 1 最小確信度= 60% モチーフ１, 部分構造１=>機能２サポート= 2 確信度= 66.6% 異種ゲノムデータを関連付ける

データの準備（使用する特徴） 配列の特徴 PROSITEモチーフ構造の特徴類似部分構造 PACADEの類似構造検索機能を用いる機能の特徴 SWISS-PROTのキーワード 4桁のEC番号(酵素の機能分類)

データの準備（ビットベクターの表） 部分構造のID EC番号による分類 (第1～第3レベル) EC番号による分類 (第1～第2レベル) PROSITE のモチーフ SWISS-PROT キーワード類似部分構造の集合

実験結果 実験条件ルールはマルチヘッド可とする最小サポート=4, 最大サポート=30, 最小確信度=65% ヘッドのサポート＞ボディのサポートであるようなルールは生成しない（ヘッドのほんの一部分しか説明しないようなルールを抑制するため）以下のような背景知識から自明なルールは生成しない EC3=1.2.3 => EC2=1.2 相関ルールの例構造の特徴構造の特徴配列の特徴 {596,…,9965}, {1361,…,9459}, SPPR=ASP_PROTEASE => SPKW=ASPARTYL PROTEASE, EC3=3.4.23 機能の特徴機能の特徴

見つかった相関ルール（一部） ASPARTYL PROTEASE関連 {596,…,9965}, {1361,…,9459}, SPPR=ASP_PROTEASE => SPKW=ASPARTYL PROTEASE, EC3=3.4.23 カルシウム結合タンパク関連 {186,…,9310}, SPPR=EF_HAND => SPKW=CALCIUM-BINDING, {1994,…,7532} 構造の共起のみ {1477,…,9811}, {1718,…,9998} => {6714,…,7062}, {6874,…,7206}

ASPARTYL PROTEASEに共通かつ特有な部分構造

カルシウム結合タンパクに共通かつ特有な部分構造カルシウム結合タンパクに共通かつ特有な部分構造

機能が異なるタンパクで共通かつ特有な部分構造機能が異なるタンパクで共通かつ特有な部分構造

PACADEに可視化機能を付けて、ゲノムネットが 提供するサービスともリンクし、ついでに簡易データマイニング機能を付けて、Webブラウザからアクセスできるようにしてはどうか？２つの事例に共通する問題どちらも記号処理ベースなので可視化システムと連動しないと使いにくい（特に立体構造の可視化）相互に関連があるようでないできればネットワーク経由でサービスしたい

これらのサービスは相互呼び出しを行っておりこれらのサービスは相互呼び出しを行っておりゲノムネット上でサービスされている（可視化機能を提供する PDB highlight から入れる）統合システム WebPACADE 類似部分構造検索機能（PACADE) http://pacade.genome.ad.jp/pacade.html 可視化機能（PDB highlight） http://pacade.genome.ad.jp/pdb_highlight.html 簡易データマイニング機能 http://pacade.genome.ad.jp/cgi-bin/mining_form.pl

システムの構成と動作 WebPACADE PACADE PDB highlight data mining module assoc. rule discovery structural sim. search visualization links to foreign services links to foreign services input forms result of sim. search visual window result of mining user

WebPACADE がサポートするデータ PACADE PDB rel.80 から選んだ4842エントリのタンパク質の二次構造に関するジオメトリ情報をファクトとして格納している（約１７０万ファクト） PDB highlight ゲノムネットでの最新PDB（rel.84）を全てサポート（7688エントリ）簡易データマイニングゲノムネットが提供する LinkDB（異なるゲノムデータベースのエントリ間の参照関係）を用いている参照関係の総数は約６００万件

PACADE による類似部分構造検索 可視化で使うプラグイン（フリーウェア）類似元を可視化類似部分構造を可視化簡易データマイニング

PDB highlight による可視化 他のデータベースの参照一次構造他の解析サービスの呼び出し立体構造プラグインを操作することにより拡大縮小／回転／平行移動などが可能二次構造

WebPACADE における簡易データマイニング機能 ユーザが指定したPDBエントリ集合に対してビットが立っているような特殊なアイテムを動的に生成し、そのアイテムに関する相関ルールだけを効率よく求める。他のアイテムは LinkDB から供給される参照関係データのサブセット（ユーザが別途指定したゲノムデータベースに関するアイテムだけを使用）。結局、ユーザは「指定したPDBエントリ集合と他のデータベースエントリとの相関」を求めることができる。

簡易データマイニングの模様 対象のゲノムデータベースを指定 PDBのエントリ集合簡易データマイニング見つかった相関ルール

タンパクの設計や創薬などの役に立つ機能があれタンパクの設計や創薬などの役に立つ機能があれば積極的に追加して行きたいので、興味がある方はぜひ御相談くださいおわりに PACADE の類似検索は並列処理による高速化が必要 PDB highlight はさらに高機能化が必要簡易データマイニングはまだプロトタイプレベル各種精練手法の実装や発見した相関ルールの再利用（e.g.相関ルールを使った推論）などを行い、ゲノムデータベースからの実用的データマイニングサービスに発展させたい

演繹データベースと相関ルール発見 －ゲノム情報処理への応用－