Protein Tertiary Structure Prediction

Protein Tertiary Structure Prediction Jingfen Zhang Digital Biology Laboratory Computer Science Department University of Missouri 2012-11- 15

Outline • 基本概念与基础知识 • 方法论，主要问题 • 问题的描述及研究里程碑 • CASP

基本概念与基础知识 1D sequence 3D structure 2D structure Cα 主链Backbone 侧链Sidechain 三维非线性局部结构稳定的氢键和van der Waals相互作用

三维结构的表示法 2 4 5.9 8.1 3.8 3.8 3.8 • 欧式空间 • 原子坐标 Coordinates (x, y, z) • Cα坐标确定后backbone的自由度很小 • 侧链排放有一定的自由度 • 距离矩阵 • 坐标距离矩阵, 距离矩阵坐标 • 镜像问题，丢失了手性 • 相邻的Cα距离为3.8 A 左右（特例：cis-proline 2.8A） • k*L个Cα-Cα距离便可恢复出L个Cα的坐标 • 角空间 • 扭转角(Torsion angle) • phi-angle (φ): N-Cα bond • psi-angle (ψ): Cα-C bond • 键长 • 欧式空间的表示法可以与角空间的表示法互相转换 3 6.0 1 3.8

蛋白质折叠过程 • 朝自由能E最低的构造（conformation）折叠，形成稳定的氢键，静电以及范德华相互作用，产生二级结构平行/反平行螺旋

蛋白质结构预测问题 • 问题：寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射 • 必要性 • 结构与功能关系密切，应用面广 • 但受实验手段限制，实测的蛋白质序列数目＞＞结构数目 • 可行性 • thermodynamic hypothesis(Anfinsen‘s dogma, Christian Boehmer Anfinsen, 1972年诺贝尔化学奖):蛋白质链会以自由能最低的方式形成三维结构，至少对于小的球蛋白，其三维结构由其氨基酸序列决定的 • 结构保守性＞＞序列保守性 • 难度 • 蛋白质折叠的机理不明确 • 对某些序列，可能的序列到结构的映射数是天文数字

方法论共同问题 Template-based 同源建模 Homology Modeling 序列足够相似，属同源蛋白，则整体结构会很相似 • 串线法 • Threading • 识别与目标序列有关的结构片段组合片段，搜索自由能最低 Template-free 从头计算 Ab Initio，Denovo 在Ramachandran plot 指导下旋转, ，搜索自由能最低

方法论共同问题 Template-based • 序列、结构数据的组织 • 数据(库) • 度量衡 • 分类知识 • 比对（alignment） • 建立数据间的联系 • 建模（modeling） • 数据间的联系结构 • 质量评估（QA） • 能量函数 • 统计规律 • 几何关系同源建模 Homology Modeling 序列足够相似，属同源蛋白，则整体结构会很相似 • 串线法 • Threading • 识别与目标序列有关的结构片段组合片段，搜索自由能最低 Template-free 从头计算 Ab Initio，Denovo 在Ramachandran plot 指导下旋转, ，搜索自由能最低

数据库 Sequence DB: NR Uniprot 分类序列相似性 Sequence alignment pFam

数据库 Sequence DB: Structure DB PDB Protein Data Bank NR 分类结构相似性 structure alignment Uniprot FSSP CATH Scop 分类人工人工＋自动全自动进化信息几何信息序列相似性 Sequence alignment 层次聚类 2/3的结构分类是重合的 pFam

数据库 Structure prediction Sequence DB: Structure DB Seq-Stru PDB Protein Data Bank NR alignment 分类结构相似性 structure alignment Uniprot FSSP CATH Scop 分类人工人工＋自动全自动进化信息几何信息序列相似性 Sequence alignment 层次聚类 2/3的结构分类是重合的 pFam

PDB/Class/Fold/Architecture/Domain/Motif/Superfamily/Family • 分类： • Class: 二级结构分类(all , all , +, /, etc) • Fold (architecture) : 二级结构的形状走向(barrel, sandwich, etc) • domain: 结构中有功能的部分比如 binding, cleaving, spanning sites • motif : 小的或者特定的二级结构比如一个-- loop • Family：考虑拓扑结构＋实验的或者生物特性 • Superfamily：在family基础上，还考虑进化关系 • Protein Data Bank (PDB, 1971) • 试验方法得到的结构 • NMR, X-ray All αAll β α+βα/β Sandwich TIM barrel PDB ID: 2FOX CLASS: / FOLD: Flavodoxin-like sandwich Superfamily: Flavoproteins FAMILY: Flavodoxin-related

结构比对－度量衡 • 如何衡量结构的关系：差距及相似性 • 意义直观 • 好的数学性质 • 一个score可能不能满足所有需求

广泛应用的度量衡 • RMSD (root mean square deviation) • GDT_TS • TM-score • DALI-score • The largest set of ‘equivalent’ residues under some cutoff distances • GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4Å+ GDT_P8Å)/4

广泛应用的度量衡 • RMSD (root mean square deviation) • GDT_TS • TM-score • DALI-score • Dscores • The largest set of ‘equivalent’ residues under some cutoff distances • GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4Å+ GDT_P8Å)/4

广泛应用的度量衡 • RMSD (root mean square deviation) • GDT_TS • TM-score • DALI-score • Dscores • The largest set of ‘equivalent’ residues under some cutoff distances • GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4Å+ GDT_P8Å)/4 RMSD最小化差异性 TM-score, GDT_TS最大化相似性 RMSD, TM-score, GDT_TS: 涉及L*3的坐标转换，优化过程 DALI-score， Dscores直接比较L*L的距离矩阵 DALI-score, Dscore2描述相似性， Dscore1描述差异性

结构比对－方法 • 多目标优化: 尽可能多地匹配residues, 同时还优化比对的距离/相似性 • CE (combinatorial extension structure alignment)，优化RMSD • LGA (Local-Global Alignment)优化 GDT_TS • LCS (longest continuous segments) + GDT (global distance test) • TMAlign - 优化TM-score • 二级结构比对+ 最好的gapless比对+ 考虑gap-opening罚分的比对 • 启发式的迭代扩展比对，记录最好的比对 • DALI - 优化DALI-score • 比较6-肽子结构，记录所有相似的片断 • Monte Carlo 拼接上述相似的子结构扩展成更长的比对

序列比对: Sequence – Sequence seq1 ...NCGE… target ...SCGD… 1）独立性假设: 一个sequence里的residue之间是独立的 2）score = ∑sa,b, sa,b single score for residues a, b: 3）P(a|b): 固定进化距离可以统计得到20x20的score matrix（也称为替代矩阵），比如BLOSUM, PAM等；给定已知的数据库则可以估计f(a) P(a | b) 从b的同源性导出 sa,b = log f(a) a 随机出现的频率 4）gap open cost α，gap extend cost β Smith–Waterman algorithm: DP optimal BLAST: (Basic Local Alignment Search Tool) seeding + heuristic extension FASTA: (FAST-All), seeding + banded Smith-Waterman

序列比对: Sequence – Sequence seq1 ...NCGE… target ...SCGD… 1）独立性假设: 一个sequence里的residue之间是独立的 2）score = ∑sa,b, sa,b single score for residues a, b: 3）P(a|b): 固定进化距离可以统计得到20x20的score matrix（也称为替代矩阵），比如BLOSUM, PAM等；给定已知的数据库则可以估计f(a) P(a | b) 从b的同源性导出 sa,b = log f(a) a 随机出现的频率 4）gap open cost α，gap extend cost β Smith–Waterman algorithm: DP optimal BLAST: (Basic Local Alignment Search Tool) seeding + heuristic extension FASTA: (FAST-All), seeding + banded Smith-Waterman Comments: 1）序列的比较实际上是对residues匹配与失配进行评分 2）序列相似度足够高时性能最好

序列比对: Profile1 - Position Specific Score Matrix(PSSM) MSA: Temp1 ...NCGFD… target ...SCGYD… P(a | column k) 从第ｋ列的同源性导出 sk(a) = log 独立性假设: 1) column 是独立的 (每次对一个residue进行评分) 2) 序列是独立的(不考虑进化关系) f(a) a 随机出现的频率用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列，两个序列的比较仍然是对匹配与失配进行评分，不过，是比较一个20维的vector与一个字母 PsiBlast： 1)用seq-seq的方法获取MSA 2)MSA PSSM profile 3)比较profile与序列 4)通过迭代的方式改善PSSM

序列比对: Profile1 - Position Specific Score Matrix(PSSM) MSA: Temp1 ...NCGFD… target ...SCGYD… P(a | column k) 从第ｋ列的同源性导出 sk(a) = log 独立性假设: 1) column 是独立的 (每次对一个residue进行评分) 2) 序列是独立的(不考虑进化关系) f(a) a 随机出现的频率用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列，两个序列的比较仍然是对匹配与失配进行评分，不过，是比较一个20维的vector与一个字母 PsiBlast 1)用seq-seq的方法获取MSA 2)MSA PSSM profile 3)比较profile与序列 4)通过迭代的方式改善PSSM Comments: 1）考虑位置信息 2）profile的表达能力 > residue的进化关系 3）适用于序列相似度 > 30%

序列比对: Profile2 - Hidden Markov Model MSA: 独立性假设: 1)序列是独立的(不考虑进化关系) 2)仅相邻的两个位置间有关联用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列 HAMMER: seq–profile / profile-seq HHSearch: Profile - Profile

序列比对: Profile2 - Hidden Markov Model MSA: 独立性假设: 1)序列是独立的(不考虑进化关系) 2)仅相邻的两个位置间有关联用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列 HAMMER: seq–profile / profile-seq Comments: 路径序列 1） Viterbi最佳路径 2） Forward所有路径(更稳定) 3）后验概率 confidence estimates 可以探测到序列相似度 > 10%的远同源关系 HHSearch: Profile - Profile

序列比对:CRF, CNF model 独立性假设: 1)序列是独立的(不考虑进化关系) 2)任意两个位置间都有关联随机场有向无环图序列s 与模板t之间的一个比对条件概率 • RaptorX • Z(s,t): 归一化因子 • F: 描述状态转移的可能性 • 综合考虑序列与结构的features • 处理feature之间的关系 • 不同的区域（ disorder, loop, SS) 采用不同的features

序列比对:CRF, CNF model 独立性假设: 1)序列是独立的(不考虑进化关系) 2)任意两个位置间都有关联随机场有向无环图序列s 与模板t之间的一个比对条件概率 • RaptorX • Z(s,t): 归一化因子 • F: 描述状态转移的可能性 • 综合考虑序列与结构的features • 处理feature之间的关系 • 不同的区域（ disorder, loop, SS) 采用不同的features Comments: 1）独立性假设更接近实际 2）可以引入更多features，更灵活可以探测到更远的远同源关系参数多，模型复杂

性能比较

Potential future work • 松弛独立性假设序列不独立 • 研究进化关系 • 比较sequenceDB规范的进化关系与structureDB规范的进化关系 • 新的组织结构统一序列结构的进化 • 建立含进化关系的Profile • New Model • HMM, CRF, CNF, … ? • New search Method • Sensitivity,尤其是local alignment • Accuracy: 假定fold或者template正确了，如何提高比对的正确性

建模 Modeling • Template-based modeling • 普遍认为模板库已经趋于完整 • 关键：选择正确模板，提高比对准确度 • Homology Modeling，序列足够相似，充分使用整个模板的信息 • Threading，组合片段，搜索自由能最低 • 难点：远同源关系 • Template-free modeling • 当前算法找不到合适的模板 • 与数据库中匹配的片段不足以确定拓扑结构 • 适合小蛋白，loop modeling等 • 难点：beta proteins

S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global

S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global Modeller F(R) = Ppi (fi /I)

S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global Modeller F(R) = Ppi (fi /I) Comments: 1）Key: pdf 的估计 2）MSA帮助最大 3）能量函数粗糙

S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global MUFOLD Modeller Contact Map Conserved restraints Sampling Unconserved restraints F(R) = Ppi (fi /I) Comments: 1）Key: pdf 的估计 2）MSA帮助最大 3）能量函数粗糙

S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global MUFOLD Modeller Contact Map Conserved restraints Sampling Unconserved restraints F(R) = Ppi (fi /I) Comments: 1）Key: sampling 2）deep and narrow search 3）无能量函数 4）global error危害很大 Comments: 1）Key: pdf 的估计 2）MSA帮助最大 3）能量函数粗糙

Template-free modeling Seqence 1）每列寻找200个片段 2）统计局部的二面角的分布 3）sampling，能量最低 Predicted SS 3,9-mer DB search

Template-free modeling Seqence 1）每列寻找200个片段 2）统计局部的二面角的分布 3）sampling，能量最低 Predicted SS 3,9-mer DB search Rosetta 相邻的k-mer的二面角之间是独立的

Template-free modeling Seqence 1）每列寻找200个片段 2）统计局部的二面角的分布 3）sampling，能量最低 Predicted SS 3,9-mer DB search Rosetta FALCON 相邻的k-mer的二面角有关联两面角的HMM 迭代改进HMM 相邻的k-mer的二面角之间是独立的

Template-free modeling Seqence 1）每列寻找200个片段 2）统计局部的二面角的分布 3）sampling，能量最低 Predicted SS 3,9-mer DB search Rosetta RaptorX FALCON CRF模型相邻的k-mer的二面角有关联两面角的HMM 迭代改进HMM 相邻的k-mer的二面角之间是独立的

Template-free modeling Seqence 1）每列寻找200个片段 2）统计局部的二面角的分布 3）sampling，能量最低 Predicted SS 3,9-mer DB search Rosetta RaptorX FALCON CRF模型相邻的k-mer的二面角有关联两面角的HMM 迭代改进HMM 相邻的k-mer的二面角之间是独立的 • Comments: • 1）K-mer离散化的表达不能cover所有情况 • 2）二面角的微小变化可能导致完全不同的fold • 3） key：k-mer之间的关系 + 能量函数

Template-based modeling: assembly • TASSER Structure assembly 1）固定部分 + denovo 部分 2）初始解： random walk方式连接所有的片段 3） Monte Carlo sampling：平移旋转片段+自由能下降

Quality Assessment • Single-model QA：评估单个model，不需要辅助信息 • Force field (计算量太大） • Energy function • static function(能够区分near-native和非native，都是非native区分不开） • DFIRE: Distance-scaled, finite ideal-gas reference state • DOPE: residue-specific distance-dependent pairwise statistical potential • KMBhbond: Baker’s hydrogen bonding energy for beta-sheet forming … • Molecular Dynamics • Hypothesis: during simulated heating, near native structures are more stable than poor-quality structures • Machine learning • Features: Environmental Fitness, Contact Capacity, SS and SA Similarity… • Models: SVM, NN,… black – 2.7 Å red – 3.9 Å blue – 12.3 Å orange – 12.6 Å magenta – 12.9Å black – 3.3 Å red – 4.5 Å blue – 5.4 Å orange – 6.3 Å magenta – 6.7 Å black – 3.1 Å red – 3.2 Å blue – 3.3 Å orange – 9.9 Å magenta – 9.9Å

Quality Assessment • Consensus QA :根据model与其它model之间的关系来评估其质量 • 每一个model都有某些部分是正确的, model与其他model的平均相似度越高越好 • Near-native structures are often located in a large free-energy basin in the free energy landscape • Clustering + Representative，cluster越大，其Representative质量可能会越好 • The consensus QA consistently outperformed single-model QA in CASPs N: number of decoys L: number of amino acids

CASP: Critical Assessment of Structure Prediction • 1994-至今，每两年一次 • 由structure prediction community组织，第三方评估 • Blind:　待预测的结构在赛季不公开 Targets Predicted Ranking Human Prediction Server QA Server Prediction Best of the pool Refinement Predicted models

Our CASP History CASP8: invited to give a talk at the meeting Server Prediction: #1 in Free modeling category QA: No significant result CASP9: invited to give a talk at the meeting and publish a paper in the special issue Server Prediction : #10 in Template-based modeling category (#1 in trivial cases) #7 in Free modeling category Human Prediction: (We did by our server not by human in fact) #1 in Human prediction QA: #1 in correlation #2 in top-1 selection CASP10: Should have better performance than CASP9

Team (MUFOLD development) Dong Xu (Computer Science) Jingfen Zhang Zhiquan He Yi Shang (Computer Science) Qingguo Wang Ioan Kosztin (Physics) Jiong Zhang Funding Sources University of Missouri Research Board Grant NIH: R21/R33 GM078601 Acknowledgements

Thanks for your patience!

Protein Tertiary Structure Prediction