Introduction to Genetic Information Processing Part 2

《理论与系统生物学夏令营讲座》 Introduction to Genetic Information Processing Part 2 朱怀球北京大学理论生物学中心北京大学工学院生物医学工程系

§2 基因组注释方法

§2.1 基因组计算注释概述 • 基因组计算注释：通过统计分析、数学建模、预测分类等方法，数量化地提取基因组的结构、功能单元的信息特征，并应用于对基因组结构、功能单元的预测，以及对基因具体功能的推断和分类。 • 基因组计算注释是大规模基因组注释的第一步，起到“前锋”的作用； • 基因组计算注释也是各种基因组计划的重要问题之一，对基因组计划的完成起到了重要的作用； • 基因预测(Gene prediction)是基因组计算注释的源头问题。

基因组计算注释 生物信息数据序列结构功能预测：结构单元功能单元基因组计算注释计算生物学方法统计分析数学建模预测分类基因功能分类基因功能推断

基因组的结构、功能单元 • 原核基因组 • 编码蛋白质区域（连续基因） • 编码RNA基因区域 • 转录单元－操纵子 • 与基因结构相关的信号及位点（转录因子结合位点、启动子、终止子、翻译起始位点、……） • PAI(致病岛)、HTG(水平转移基因)…… • 假基因 • 重复序列的区域及其特征 • 真核基因组 • 编码蛋白质区域（exon/intron） • mRNA的非翻译区(UTR exon) • 编码RNA基因区域(exon/intron) • 与基因结构相关的信号及位点（CpG岛、转录因子结合位点、启动子、终止子、翻译起始位点、intron/exon剪接位点、剪接相关的调控信号……） • 假基因 • 重复序列的区域及其特征

基因结构预测方法简介 基于内容检测的方法（Search by content）基于信号检测的方法（Search by signal）从头预测方法（Ab initio prediction）基于相似性比较的方法（Search by similarity comparison）

基于内容检测的方法 原理：DNA序列中的编码蛋白质区域的字符的上下文特征与非编码的区域是有区别的（建立编码潜能（Coding potential）的参数模型）。由于蛋白质产物对氨基酸和同义密码子的选择的偏倚性，因此也决定了编码区序列的核苷酸组成的特性，如周期性（periodicities）、短程相关性（short-range correlations）、寡核苷酸（oligonucleatide）使用的偏倚性等。基于信号检测的方法信号检测的方法就是根据目前对基因组结构的一些相关的位点信号的认识来识别基因。这些信号包括转录启动子信号、转录终止信号、起始位点信号、剪接位点信号、剪接enhancer和silencer信号、分支点（branch point）等。基于相似性比较的方法序列相似性数据库搜寻（sequence similarity searches）技术，即对已知序列数据库的相似性比较。

§2.2 真核基因结构预测

真核基因结构预测的主要内容： • 启动子、终止子的识别 • 翻译起始位点的识别 • 剪接位点（intron/exon结构）的识别 • 多腺苷化信号的识别 • 蛋白编码区（ intron/exon结构）的识别

真核转录启动子的识别 • 通常综合以下结构特征： • 特定信号（TATA-box, GC-box, CAAT-box） • 转录因子（TF）结合位点的位置分布特征 • TF结合位点的聚类结构 • DNA词汇特征 • CpG岛 • 模式识别算法预测

近年来发展的启动子预测软件：

剪接位点(splicing site)的识别 剪接位点识别是真核基因结构结构预测的关键，首先要依靠剪接位点来确定可能的外显子-内含子结构

剪接位点附近存在较强的序列特征。一般首先依靠这些特征信息、再结合外显子-内含子整体结构的特征来设计剪接位点的预测算法。剪接位点附近存在较强的序列特征。一般首先依靠这些特征信息、再结合外显子-内含子整体结构的特征来设计剪接位点的预测算法。 • GeneSplicer (Pertea et al., 2001): 基于最大相关分解(MDD) 算法与Markov 模型，以其良好的效果成为了后来剪接位点预测软件的评测标准. • DGSplicer (Chen et al., 2005): 基于关联图(Dependency Graph)模型和Bayes 网络对剪接位点附近序列的相关性进行建模. • SpliceMachine (Degroveve et al., 2005): 采用线性支持向量机和高维局部上下文表示的方法来对剪接位点进行分类.

考虑剪接调节信号的预测算法 • 可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制，蛋白质组的多样性与多细胞高等生物的复杂性相适应。 • 参与可变剪接调节的RNA元件包括ESE、ISE、ESS、ISS • ESE: exon splicing enhancer 外显子剪接增强子； • ISE: intron splicing enhancer 内含子剪接增强子； • ESS: exon splicing silencer 外显子剪接沉默子； • ISS: intron splicing silencer 内含子剪接沉默子。

例：ISE motif (Churbanov et al., 2006)

当前剪接位点预测算法的预测水平 (Zhu et al., 2008) GT for whole dataset AG for whole dataset GT for AT-rich dataset AG for AT-rich dataset

基因结构预测的常用算法 （1）词汇统计算法对核苷酸序列中词汇（Nucleotide Words）选用频率的统计研究。由于序列中的编码部分与非编码部分在核苷酸、密码子的选用、周期特性等存在差异性，因此可以用来区别编码区和非编码区；（Claverie & Bougueleret，1986；Bechmann， 1986 （2）同源比较算法将未知序列通过对已知EST （Expressed Sequence Tag，表达序列标签）数据库的相似性比较，也可以比较有效地找到基因。许多有名的基因预测软件（如GRAIL Ⅱ）都已结合了同源比较算法；（Claverie，1993；Green，1993）

（3）HMM（Hidden Markov Model）算法 将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov模型的统计规律是未知的，而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列，HMM必须学习不同的基因结构的信号。 • 典型的基于HMM的基因预测系统 • VEIL (John Hopkins University) • HMMgene (Technical University of Denmark) • GeneMark.hmm (Georgia Institute of Tech) • Genie (UC Santa Cruz & UC Berkeley) • GENSCAN (Stanford)

基因结构的一种HMM模型

（4）动态规划算法（Dynamic Programming） 将预测出的各个可能的外显子和内含子进行拼接，组成完整的基因。并对各种可能的拼接进行计分，从而得出最可能的基因结构；（Gelfang & Roytberg，1993）（5）法则系统（Rule-based System）算法（Guigo，1992）（6）语言学方法（Linguistic）（Dong & Searls，1994）；（7）人工神经网络方法（ANN）（8）LDA方法（Linear Discriminate Analysis）（Fickett & Tung，1992）；（9）决策树（Decision Tree）算法（Salzberg，1995）；（10）Fourier分析（Tiwari，1997）。

常用软件的基因预测结果评估（Rogic等，2001）

算法的挑战与风险 墨非定律：“如果一件事情有可能被弄糟，那它就一定会被弄糟。”

真核基因结构预测方法的发展 随着各种基因组计划的推进，真核基因结构预测方法体现三大趋势：（1）综合运用ab initio预测与相似性比较两类方法（2）越来越多地结合多个基因组进行比较的方法和结果（3）结合基因功能相关信息进行基因结构预测

§2.3 原核基因组结构功能单元的计算预测 • 原核基因组 • 编码蛋白质区域（连续基因） • 编码RNA基因区域 • 转录单元－操纵子 • 与基因结构相关的信号及位点（转录因子结合位点、启动子、终止子、翻译起始位点、……） • PAI(致病岛)、HTG(水平转移基因)…… • 假基因 • 重复序列的区域及其特征基于内容检测的方法 search by content 基于信号检测的方法 search by signal 从头预测方法 Ab initio method 基于相似性比较的方法 search by similarity comparison

原核基因组计算预测的基本方法 1、Markov模型方法: 用非均匀Markov模型刻画DNA序列 give an estimate of the probability for a local segment (such as a k-tuples) to belong to the class of protein coding sequences 如：GeneMark、Glimmer 2、其它方法，如Z-curve方法、MED方法如：ZCURVE 1.0、MED 2.0 3、结合HMM方法与蛋白质相似比较的方法如：EasyGene (Larsen and Krogh, 2003) 原核基因预测方法被广泛应用于原核基因组研究，提供了许多物种的基因组GenBank注释——基因位点的计算预测。

当前原核基因预测存在的主要问题 1. GenBank数据库提供的原核基因注释信息（基因位点、功能等）只有部分经过实验确认，其它部分只有计算预测或未实验证实的注释信息。 2. GenBank数据库的注释信息存在系统性的错误，处于不断的修正之中。 ——Pseudo short genes ——Gene starts ——功能信息的错误 ——注释众说纷纭（如H. inf, 148 amendments by different authors）

3. 基因翻译起始位点的精确预测 －原核基因转录和翻译起始机制的认识－多样性、复杂性 4. 高GC、高AT含量基因组的基因预测－背景DNA噪声－基因组组分与生物进化的联系 5. 原核基因结构的数学模型－缺乏综合的理解－缺乏良好的模型

与真核生物基因预测的研究相比，原核生物基因预测的研究走在更前面与真核生物基因预测的研究相比，原核生物基因预测的研究走在更前面 • 原核生物基因预测的方法和结果为人类基因组计划和模式生物基因组计划做出了很大的贡献，但也带来一定误差的后果 • 原核基因的复杂结构还没有真正被了解 • 原核基因的预测还有很多没有解决的问题

编码蛋白基因的预测 • 编码潜能(coding potential)的模型 • 编码潜能(coding potential)：一段DNA序列编码蛋白的可能性的量度 Two segments of DNA sequence taken from E.coli (Escherichia coli K-12 MG1655 complete genome) ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA [190~255] gene=“thrL” (Amino acid biosynthesis : Threonine) ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA [30~98] noncoding ORF

最简单的模型是建立六联体或双密码子（bi-codon, 6-tuple）的统计模型－6-tuple在编码区和非编码区具有不同的相对出现频率－Markov模型常用于6-tuple的序列模式

高阶Markov模型、复杂Markov模型、HMM等 －理论上具有更高的预测精度－参数太多，导致参数空间的涨落－数据数量的局限 • 其它模型：ZCurve（Zhang）、EDP（She & Zhu）

原核基因结构预测系统 • 有效的基因结构预测方法通常要综合各种基因结构的信息，完成两个步骤：－确定编码的ORF －确定编码ORF的起始位点 • 基因结构信息：－DNA序列的编码潜能－TIS起始密码子的序列特征（pattern）－TIS附近的序列特征，包括翻译起始调控信号－基因长度分布－基因间距分布－基因组GC含量 • 神经网络、决策树、Markov模型、判别分析、支持向量机等算法常用于综合上述信息进行最终的预测

EasyGene (Larsen & Krogh, BMC Bioinformatics, 2003) 运用HMM模型综合各种信息进行预测

MED 2.0 (Zhu et al., BMC Bioinformatics, 2007)的多迭代自学习基因预测系统

几种主要的原核基因预测软件 GeneMark系列软件（1993~2001） Besemer J, Lomsadze A & Borodovsky M. GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 2001, 29: 2607-2618. Glimmer系列（1999~2007） Delcher AL, Bratke KA, Powers EC & Salzberg SL. Identifying bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007, 23: 673 - 679. EasyGene（2003） Larsen TS, Krogh A. EasyGene - a prokaryotic gene finder that ranks ORFs by statistical significance. BMC Bioinformatics, 2003, 4:21. ZCurve（1991～2003） Guo FB, Y OH, Zhang CT. ZCURVE: a new system for recognizing protein-coding genes in bacterial and archaeal genomes. Nucleic Acids Res., 2003, 31:1780-1789. MED（2004~2007） Zhu HQ, Hu GQ, Yang YF, Wang J & She ZS. MED: a new non-supervised gene prediction algorithm for bacterial and archaeal genomes. BMC Bioinformatics, 2007, 8: 97.

原核基因的自动预测系统MED 1. EDP模型——刻画ORF序列整体编码性与相似性发展了对高GC含量基因组的EDP模型 2. TIS模型——刻画基因上游区域的复杂序列特征是基于RBS模型的发展定义基因翻译起始的三种机制刻画基因翻译起始信号的复杂性考虑结构基因群的特征考虑高GC含量物种基因组的序列特征 3. 综合运用EDP模型、TIS模型，发展了无监督自学习的基因预测系统MED 2.0

转录调控信号 古细菌真核生物转录调控信号翻译调控信号 Naneq 细菌翻译调控信号翻译调控信号 MED模型参数揭示基因组转录、翻译调控机制随生物进化复杂程度的演化

功能RNA基因的预测 • 功能RNA：转运RNA（tRNA）, 核糖体RNA（ rRNA）, 小RNA（sRNA）, 信号识别颗粒RNA（srpRNS）, … • 传统上RNA基因的鉴定是通过BLAST程序的相似性搜寻得到（同一类功能的RNA基因在不同物种间具有保守性） • 更通用的方法是基于序列信号设计，如motif，RNA二级结构 • 代表性方法： • tRNAscan (Fichant & Burks, 1991) • Carter的工作（2001） • RNA基因预测方法尚未得到较好的发展，尤其是sRNA基因的预测工作是新的热点

启动子(promoter)和操纵子(operon)结构的预测 转录启动子的预测 • 启动子通常由一系列的转录因子(transcription factor, TF)结合位点构成，TF蛋白通过结合这些位点来调控相关基因转录水平的表达 • 通过序列特征(pattern)来识别启动子，最常用的方法是HMM方法、motif方法 • 启动子以及转录起始位点的识别方法的发展仍然受限于数据数量，也没有通用的预测软件

操纵子结构的预测 • 操纵子是原核基因组的基本组织结构，主要实现转录水平的有效调控。一个操纵子由一到多个基因前后排列（存在少量的重迭），都受控于同一转录调控区域 • The operon structure was found in 1960 by 2 French biologists. Jacob,F. and Monod,J. Genetic regulatory mechanisms in the synthesis of proteins. J. Mol. Biol., 1961, 3: 318–356.

原核生物在基因组较小的条件下，需要更高的基因表达调控效率原核生物在基因组较小的条件下，需要更高的基因表达调控效率 • An operon is a group of genes that encodes functionally linked proteins. Its components are : －Adjacent (200-300 nt) －On the same strand (+ or -) －Co-expressed by one promoter.

操纵子识别的主要信息： －一个预测的转录启动子和终止子－在同一条链上前后排列的若干基因－相关基因的功能信息－操纵子内基因间距离的分布（存在部分重迭）－一个操纵子含有基因的数目 • 目前的操纵子预测方法在2000年后有较大的发展，但还不成熟，并不实用－缺少足够的训练数据集－难以建立有效的数学模型，一般都依赖于特定的基因组－Dam P, Olman V, Harris K, Su Z, Xu Y. Operon prediction using both genome-specific and general genomic information. Nucleic Acids Res. 2007, 35(1): 288-98 －Price MN, Huang KH, Alm EJ, Arkin AP. A novel method for accurate operon predictions in all sequenced prokaryotes. Nucleic Acids Res. 2005, 33(3): 880-92 －Ermolaeva,M.D., White,O. and Salzberg,S.L. Prediction of operons in microbial genomes. Nucleic Acids Res., 2001, 29, 1216–1221.

基因组的其它特性参数 GC含量 • 细菌基因组GC含量与物种系统分类有关 • GC含量在DNA序列水平与基因结构的诸多因素有关，如基因在基因组的分布密度、ORF的长度分布。 • 全基因组GC含量对设计转录结合位点、翻译起始结合位点等信号识别的算法带来背景噪声

CpG岛（CpG island） • CpG岛：与整个基因组相比含有高频率的CpG双核苷酸的一段DNA片段（Bird, 1987） • CpG岛被认为倾向于出现在原核与真核基因的转录起始位置。 • 由于CpG岛与转录起始的显著相关性，通常将CpG岛作为预测启动子、转录起始位点、操纵子的证据之一 • 频率阈值：一般取0.6；人基因组注释时取0.8

重复序列 重复序列普遍存在于原核与真核基因组中，其中一些具有已知的生物功能，如转座子的功能是使移动因子在基因组内转移，但是绝大多数的重复序列功能还不清楚。重复单元的鉴定是基因组注释的一个重要组成部分。基因密度特定长度基因组中基因的数目，是整个基因组尺度的一个性质，往往与基因组的GC含量相关。

§2.4 基于序列分析的基因功能推断 基因功能的类别 • 对于基因功能解析，目前尚无一套标准的基因功能分类标准 • KEGG (Kyoto Encyclopedia of Genes and Genomes)功能分类标准：（以基因组Escherichia coli B ATCC 11303 为例） (http://genome.ornl.gov/microbial/ecol_b/) 1. MetabolismCarbohydrateEnergyLipidNucleotideAmino acidOther amino acidGlycanPK/NRPCofactor/vitaminSecondary metaboliteXenobiotics2. Genetic Information Processing3. Environmental Information Processing4. Cellular Processes5. Human Diseasesand also on the structure relationships (KEGG drug structure maps) in: 6. Drug Development

http://www.genome.jp/kegg/

酶分类（EC） ENZYME是SWISS-Prot中一个酶的分类数据库(http://www.expasy.ch/enzyme/)，所有酶被分为6类：氧化还原酶，转移酶、水解酶，裂解酶，异构酶，连接酶

Introduction to Genetic Information Processing Part 2

Introduction to Genetic Information Processing Part 2

Presentation Transcript

Introduction to Quantum Information Processing

Introduction to Genetic Information Processing Part 1

Introduction to Information Retrieval (Part 2)

Information Processing: Part I

Information Processing: Part I

Introduction to Programming Part 2

Introduction to Business information processing

Genetic Algorithms, Part 2

Genetic Algorithms, Part 2

Part 3 Genetic Information Transfer

Genetic Analysis, Part 2

Introduction to Prescribing - Part 2

Introduction to Wavelets -part 2

2 Information Processing

Part 3 Genetic Information Transfer

Introduction to File Processing with PHP - Part 2 Indexed Files

Introduction to OpenGL (part 2)

2 Information Processing

Introduction to Canada - Part 2

Introduction to OSHA (Part 2)

Introduction to Processing Digital Sounds part 2

Introduction to PHP Part #2