核酸序列分析及结构预测主讲张军细胞生物学及遗传学教研室

核酸序列分析及结构预测 主讲张军细胞生物学及遗传学教研室

第一节核酸序列的数据形式 1. 串（string）符号或字符的有序排列，符号或字符来自有限集合{A, T, G, C}。序列（sequence）与串是同一概念。 s=ATTGCATATG；串的长度|s|; 串s某个位置的字符表示为si ，1≤i≤|s|。特别的，长度为0的串称为空串（empty string），用符号ε表示。

2. 子串（substring）和子序列（subsequence），二者不是相同的概念。子串和超串 s=ATGCGGTA; t=TGCGG; s是t的超串子序列和超序列 s=ATGCGGTA; t=TGTA； s是t的超序列区间（interval） s=ATGCGGTACGTATACG; u=CG, s[i, i+1]

3. 串u和w的拼接(concatenation),表示为uw。 例如 s = ATGCGGTA; t=TGCGG st = ATGCGGTATGCGG ts = TGCGGATGCGGTA 串的冥 s = AT；sss= AT AT AT=s3 串的前缀（prefix） s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = ε 存在且只存在s的另1个子串u, 使得s=tu, t是u的前缀。

串的后缀（suffix） s = ATGCGGTAGC suffix(s,3) =AGC； suffix(s,2) =GC ；suffix(s,0) = ε 存在且只存在s的另1个子串u, 使得s=ut, t是u的后缀。杀手因子(killer agent)，假定存在1个特别的串κ |κ|＝-1 在与其它串拼接的时候，起到删除相邻字符的作用

例如, s = ATGCGGTAGC κ s= TGCGGTAGC s κ= ATGCGGTAG ATGC κ GGTAG ? 无意义 (ATGC κ) GGTAG≠ ATGC (κ GGTAG ) stu=(st)u=s(tu); |s| ≠-1, |t| ≠-1, |u| ≠-1 |st| = |s| + |t| ,s和t可以是任何串

利用杀手因子可以表示1个串的子串，前缀和后缀利用杀手因子可以表示1个串的子串，前缀和后缀 s[i…j]= κi-1 s κ |s| -j prefix(s, k) = s κ |s| -k Suffic(s, k) = κ |s| -k s

第二节序列比较 序列比较的根本任务：发现序列之间的相似性辨别序列之间的差异序列比较的目的：相似序列  相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系

序列的相似性 同源（homology）- 具有共同的祖先直向同源（Orthologous ）共生同源（paralogous ）相似（similarity）同源序列一般是相似的相似序列不一定是同源的进化趋同（同功能）

直向同源（a1 in species I, a1 in species II) 共生同源（a1 and a2 in species I）基因复制进化趋同水平转移

序列相似性的描述 • 定性的描述 • 定量的数值 • 相似性 • 距离

序列比较的基本操作是比对（Alignment） • 两个序列的比对是指这两个序列中各个字符的一种一一对应关系，或字符的对比排列。例如，设有两个序列： s=GACGGATTAG，t=GATCGGAATAG • Alignment1: • GACGGATTAG • GATCGGAATAG • Alignment2: • GA-CGGATTAG GATCGGAATAG

字母表和序列 字母表(字符或符号集合) • 4字符DNA字母表：{A, C, G, T} • 扩展的遗传学字母表或IUPAC编码 • 单字母氨基酸编码

扩展的遗传学字母表或IUPAC编码

序列比对的生物学背景 分子生物学实验技术和大规模测序方法的发展，使复杂序列之间的比较成为实验室的常规数据分析。基因组学的发展，物理图谱的构建，DNA的拼接求。一个或一些序列与其它数据序列的比较。两个序列之间是否存在相同的子串。个序列与数据库中序列是否存在相似的子串。

序列比较可以分为五种基本情况：（1）两条长度相近序列相似性分析，找出序列的差别（2）判断一条序列的前缀与另一条序列的后缀相似（3）判断一条序列是否是另一条序列的子序列（4）判断两条序列中是否有非常相似的子序列（5）对多个序列进行上述4种分析序列比较可以分为五种基本情况：（1）两条长度相近序列相似性分析，找出序列的差别（2）判断一条序列的前缀与另一条序列的后缀相似（3）判断一条序列是否是另一条序列的子序列（4）判断两条序列中是否有非常相似的子序列（5）对多个序列进行上述4种分析

第三节两个序列的比较 • 全局比较——基本算法 • 通过全局比对(global alignment)，了解序列的相似性 • 例如， • s=ATTGCATATG；t=ATTGATATC • s=ATTGCATATG • t=ATTG – ATATC

记分系统的引入与比对打分 匹配＝1 空配＝－2 错配＝－1 对s, t进行相似性比较，得到的最大记分值，称为2序列的相似性，表示为sim(s, t)=max{score i} s=ATTGCATATG； s=ATTGCATATG t=ATTG – ATATC; t=ATTG ATATC－ 8＋(-2)＋(-1)=5 4+ (-2) + (-1) × 5 =-1

2. 局部比较 序列s和t的局部比较是通过局部比对(local alignment)实现的，是s和t子串之间的比对。例如， s=AATTGCATATG；t=ATTGT，对它们进行局部相似性比较，表示 s(2,3,4,5)=t(1,2,3,4)

3. 半全局部比较 序列s和t的比对，序列长度相差较大例如， s=AATTGCATATG；t=ATTGT，对它们进行全局相似性比较，表示 s=AATTGCATATG； s=AATTGCATATG t= - ATTGT - - - - - ； t= A- TTG - - T - - - 半全局比对的核心是2个序列前缀与后缀

第四节相似性和距离 • 相似性 • 相似性的度量是基于比对，2个序列的相似性可以由sim(s, t)＝max{score i} • 距离 • 对任何的一个串实施一系列的变换后，可以转化为另一个串 • s→ t; t=AGCTT; s=TTA • TTA → - - TTA → AGTTA→ AGCTA→AGCTT

变换的操作： 1 字符的替换 2 空格插入和删除给予每个变换特定的开销(cost) dist(s,t)=min{cost i}

扩展的编辑操作 ACCGACAATATGCATA  ACTGACAATATGGATA ACCGACAATATGCATA  ATAGGTATAACAGTCA 第二条序列头尾颠倒可以通过基本操作实现

反向互补序列 RNA发夹式二级结构

第五节 通过点矩阵进行序列比较“矩阵作图法” 或 “对角线作图”

→ 序列1 → 实例 →序列2 →

→ 序列1 → 自我比较 →序列1 →

滑动窗口技术 • 两条序列中有很多匹配的字符对，因而在点矩阵中会形成很多点标记。

滑动窗口技术 • 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 • 假设窗口大小为10，相似度阈值为8，则每次比较取10个连续的字符，如相同的字符超过8个，则标记 • 基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声，并且明确无误的指示出了两条序列间具有显著相似性的区域。

(a) (b) （a）对人类（Homo sapiens）与黑猩猩（Pongo pygmaeus）的β球蛋白基因序列进行比较的完整点阵图。（b）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为10个核苷酸，相似度阈值为8。

具有连续相似区域的两条DNA序列的简单点阵图

第六节 DNA片断的组装 • 生物学背景 • DNA测序技术的发展 • 片断的组装(fragment assembly) • 片断（fragment）的产生

理想情况 例如 ATTGGGCA; CGATT; TGGGCAGA 组装 - - ATTGGGCA - - CGATT - - - - - - - - - - - TGGGCAGA CGATTGGGCAGA 表决序列

复杂情况 碱基识别错误序列方向未知重复序列缺乏覆盖序列污染

复杂情况的组装模型 最短公共超串(shortest common superstring) 重构(reconstruction) 多连叠(multicontig)

第七节 DNA序列分析 DNA序列分析 ——基因序列 ——基因表达调控信息寻找基因牵涉到两个方面的工作： • 识别与基因相关的特殊序列信号 • 预测基因的编码区域 • 结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因上游区域，在组成上具有一定的特征，可以通过序列分析识别这些特征。

Ⅰ DNA序列分析步骤和分析结果评价 • 在DNA序列中，除了基因之外，还包含许多其它信息，这些信息大部分与核酸的结构特征相关联，通常决定了DNA与蛋白质或者DNA与RNA的相互作用。 • 存放这些信息的DNA片段称为功能位点 • 如启动子（Promoter）、基因终止序列（Terminator sequence）、剪切位点（Splice site）等。

一个基本的DNA序列分析方案 发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析

功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 • 两个集合：训练集（training set） • 用于建立完成识别任务的数学模型。测试集或控制集（control set） • 用于检验所建模型的正确性。 • 用训练集中实例对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。然后，用模型对测试集中的实例进行“功能”与“非功能”的判断，根据判断结果计算模识别的准确性。

收集已知的功能序列和非功能序列实例 （这些序列之间是非相关的）训练集（training set）测试集或控制集（control set）建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。 • 进行“功能”与“非功能”的 • 判断，根据判断结果计算 • 模识别的准确性。识别“功能序列”和“非功能序列”的过程

Sn ——敏感性 • Sp ——特异性 • Tp是正确识别的功能序列数， • Tn为正确识别的非功能序列数， • Fn是被错误识别为非功能序列的功能序列数， • Fp是被错误识别为功能序列的非功能序列数。

敏感性和特异性的权衡 • 对于一个实用程序，既要求有较高的敏感性，也要求有较高的特异性。 • 如果敏感性很高，但特异性比较低，则在实际应用中会产生高比率的假阳性； • 相反，如果特异性很高，而敏感性比较低，则会产生高比率的假阴性。 • 对于敏感性和特异性需要进行权衡，给出综合评价指标。

功能位点分析 • 功能位点（functional site） • 与特定功能相关的位点，是生物分子序列上的一个功能单元，或者是生物分子序列上一个较短的片段。 • 功能位点又称为功能序列（functional sequence）、序列模式（motif）、信号（signal）等。 • 核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。 • 在蛋白质序列分析中，常使用序列模式这个名词，蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。

功能位点示意

基因组序列中若干个相邻的功能位点组合形成功能区域（functional region）。 • 功能位点分析的任务 • 发现功能位点特征 • 识别功能位点

A 利用共有序列搜索功能位点 • 共有序列（common consensus）又称一致性片段 • 共有序列是关于功能位点特征的描述，它描述了功能位点每个位置上核苷酸进化的保守性例如: NTATN • 利用共有序列进行功能位点分析牵涉到两个方面的问题， • 如何构造共有序列 • 如何利用共有序列在给定的核酸序列上搜索寻找功能位点，并计算所找到的功能位点的可靠性

共有序列具有以下几个方面的特征： （1）共有序列中既有保守的位置，也有可变的位置；（2）任何位置上的核苷酸可以用15种类型之一来表示：

核苷酸表示符号

核酸序列分析及结构预测 主 讲 张 军 细胞生物学及遗传学教研室