中国地方鸡种核酸数据库建设与功能设计

中国地方鸡种核酸数据库建设与功能设计 汇报人：白云峰副研究员单位：江苏省农业科学院

汇报内容 • 研究意义与目的 • 中国地方鸡种核酸序列数据库初步建设 • 数据获取 • 数据库构成 • 数据分析 • 系统功能设计 • 核酸序列特征一般分析 • 核酸序列相似性搜索 • 系统发生分析 • 系统演示 • 未来展望

研究意义 • 中国是世界上生物多样性最丰富国家之一，地方鸡种是我国具有战略意义的独特资源。亟需构建该领域拥有自身特色和自主知识产权的，与国际主流生物信息数据库接轨的专业二级数据库。 • 当前，农业生物信息数据库主要集中在英、美、日等发达国家。我国大多生物学数据库只能提供镜像和索引服务，无自主知识产权，独立开发并能提供丰富资源和工具的生物信息数据库平台仍很缺乏。 • 目前国内关于医疗和制药领域的生物信息数据库较多，而高质量的农业生物信息数据库数量较少，尚无我国专门化的地方鸡种生物信息数据库系统。 • 生物信息数据库分布分散且格式不统一，将独立的、分散的农业生物信息数据库信息整合，使农业生物信息数据库集成化和标准化。

中国地方鸡种核酸序列数据库初步建设 • 数据获取方面 • 基于Agent智能代理本地化数据获取程序； • 863合作单位数据提供与数据校验； • 数据分析 • 数据完整性分析 • 数据特征特征值扫描 • 地方鸡种数据筛选

中国地方鸡种核酸序列数据库初步建设 • 数据标准化 • 基于XML中国地方鸡种核酸序列元数据模型； • 自定义中国地方鸡种数据结构； • 数据转导 • 与国际主流数据文件格式的兼容 • 完成中国地方鸡种核酸序列数据库结构设计

系统功能设计 • 目标序列分析（以白银耳鸡1条序列AF128321作为本系统分析处理结果示例） • 功能设计3个层次： • 序列组成统计特征分析； • 本地化序列相似性搜索 • 系统发生分析

核酸序列组成统计特征分析 • 密码子计数 • 核苷酸统计 • 转换成互补序列 • 互补统计 • 核苷酸组成统计作图 • 二聚体统计 • 密码子使用偏性 • CpG岛 • 短序列匹配 • 绘制热红外分布图 • 识别开发阅读框ORFs • 翻译成对应氨基酸序列

待分析序列 • ttgttctcaactacgggaacaattttattttttaacctaactcccctactaagtgtaccccccctttcccccccagggggggtatactatgcataatcgtgcatacatttatataccacatatattatggtaccggtaatatatactatatatgtactaaacccattatatgtatacgggcattaatctatattccacatttctcccaatgtccattctatgcatgatccaagacatactcattcaccctccccatagacagttctaaaccactatcaagccacctaactatgaatggttacaggacataaatctcactctcatgctctccccctaacaagtcacctaactatgaatggttacaggacatacatttaactaccatgttctaacccatttggttatgctcgccgtatcagatggatttattgatcgtccacctcacgagagatcagcaacccctgcctgtaatgtacttcatgaccagtctcaggcccattctttccccctacacccctcgccctacttgccttccaccg

密码子计数结果 • AAA: 1AAC: 5AAG: 0AAT: 2ACA: 7ACC: 3ACG: 1ACT: 6AGA: 2AGC: 1AGG: 1AGT: 2ATA: 4ATC: 2ATG: 4ATT: 5CAA: 1CAC: 5CAG: 0CAT: 8CCA: 8CCC: 10CCG: 1CCT: 1CGA: 1CGC: 1CGG: 0CGT: 1CTA: 10CTC: 2CTG: 1CTT: 2GAA: 0GAC: 0GAG: 1GAT: 1GCA: 1GCC: 3GCG: 0GCT: 2GGA: 2GGC: 1GGG: 3GGT: 2GTA: 6GTC: 2GTG: 0GTT: 2TAA: 5TAC: 4TAG: 1TAT: 9TCA: 5TCC: 3TCG: 2TCT: 6TGA: 3TGC: 2TGG: 1TGT: 2TTA: 3TTC: 4TTG: 1TTT: 4

密码子使用偏性 由于密码子的简并性，每个氨基酸至少对应1种密码子，最多有6种对应的密码子。不同物种、不同生物体的基因密码子使用存在着很大的差异。各种生物体似乎更偏爱使用某些同义三联密码子（即编码相同氨基酸的密码子）。高表达的基因密码子的使用偏性一般比较大。这些偏好可能与两个原因有关：一是避免使用类似终止密码子的密码子；二是这些偏好能够有效地翻译密码子，因为这些密码子对应于生物体中非常丰富的tRNA。真实的外显子一般能反映出这些偏好，而随机选择的三联体序列却不能。

密码子使用偏性 研究结果表明，基因密码子的使用也与基因编码的蛋白的结构和功能有关。mRNA中的稀有密码子的使用与蛋白质结构域的连接区和规则二级结构单元的连接区有关，翻译速率在连接区会降低，说明蛋白质折叠方式与mRNA序列之间存在一定的相关性。研究结果还表明，蛋白质的三级结构与密码子使用概率有密切的关系，通过对密码子的聚类分析，可以将具有不同三级结构蛋白质的编码基因分成不同的类，而具有相似三级结构蛋白的编码基因则大致聚在同一类中。进一步的研究发现，在不同物种中，类型相同的基因具有相近的同义密码子使用偏性，对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小。

绘制热红外分布图

CpG岛分析 • 在人类基因组中有一半左右的CpG island 与已知管家基因（housekeeping gene）有关联； • CpG island很少出现在不含基因的区域和那些发生多次突变的基因中； • CpG与一种重要的化学修饰——甲基化密切相关。

短序列匹配 • 在待分析序列中查找特征短片段，如TATA Box • TATA Box，CAAT Box，终止子等

识别开放阅读框ORFs • 开放阅读框(Open Reading Frame: ORF)是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。 • 开读框架的预测常与第一个ATG和终止密码子的确定相关。 • 系统以原核生物和真核生物两种模式识别待分析序列的ORFs

中国地方鸡种基因序列比对与相似性搜索 • 意义与目的： • 通过搜索序列数据库，找到与新序列同源的已知序列，并根据同源性推测未知序列的生物学功能； • 对于DNA序列，同源搜索还有助于确定编码区域，确定基因； • 实现方法： • 中国地方鸡种核酸序列库+家禽基因组序列库的比对搜索； • 设定全局最优比对算法+局部最优比对算法2种策略 Smith-Waterman Needleman-Wunsch

中国地方鸡种系统发生分析（开发中） • 由于国内学者对国内地方鸡种mtDNA研究较多，数据库收集到数据较丰富特点。构建地方鸡种mtDNA系统发生专门化分析组件。 • 线粒体DNA非常适合于系统发生分析，因为线粒体DNA从母体完全传到子代，不与父代DNA重组。线粒体DNA具有易分离、进化速度快、母系遗传、缺乏重组和无内含子等特点。使线粒体DNA成为分子系统发育学研究的一类重要的分子标记。 • mtDNA的控制区即D-loop区为非编码区，不编码蛋白质线粒体DNA中，受到选择压力较小，因此积累了较多的突变，如碱基替换、插入、缺失，以及众多的串联重复序列等。 • 系统采用非加权分组平均法（UPGMA，unweighted pair group method with arithmetic means)构建进化树

系统功能实现的关键技术 • Matlab Bioinformatic Toolbox 引用 • Imports System • Imports System.Reflection • Imports MathWorks.MATLAB.NET.Utility • Imports MathWorks.MATLAB.NET.Arrays • Imports ComponentName • M文件编写与调试 • MATLAB与.NET数据类型转换

M文件编程示例 function HeatMap(mitochondria) for frame = 1:3 figure('color',[1 1 1]) subplot(2,1,1); codoncount(mitochondria,'frame',frame,'figure',true); title(sprintf('阅读框%d密码子',frame)); subplot(2,1,2); codoncount(mitochondria,'reverse',true,'frame',frame,'figure',true); title(sprintf('阅读框%d反义密码子', frame)); end

调用MATLAB生物信息学函数

Matlab与.NET数据类型转换 引自苏金明等《Matlab高级编程》北京，电子工业出版社，2008

数据类型转换实例 %利用MatLab构建不同地方鸡种亲缘关系进化树； %定义数组二维data，存储鸡种名称和mtDNA序列； function phylogenyanalysis(data,m) %data = {'白银耳鸡' 'AF128320'; '灵昆鸡' 'AF128330'; '寿光鸡' 'AF512058'; '丝羽乌骨鸡' 'AF512060'; '茶花鸡' 'AF512078';}; %for ind = 1:5 % seqs(ind).Header = data{ind,1}; % seqs(ind).Sequence = getgenbank(data{ind,2}, 'sequenceonly', true); %end %进化距离运算；UPGMA，非加权分组平均法（unweighted pair group method with arithmetic means）Jukes-Cantor， for ind = 1:m seqs(ind).Header = data{ind,1}; seqs(ind).Sequence = data{ind,2}; end distances = seqpdist(seqs,'Method','Jukes-Cantor','Alphabet','DNA'); tree = seqlinkage(distances,'UPGMA',seqs); %画出进化树； h = plot(tree,'orient','bottom'); set(findobj(gca,'Type','line','Color',[0 10 1]),'Color','red','LineWidth',2); ylabel('进化距离') title('中国地方鸡种进化关系树') set(h.terminalNodeLabels,'Rotation',-45) saveas(gca,'C:\PhylogenyTree.jpg') %close('all','hidden')

讨论 • 在Windows操作系统下运行具有更广泛的适应性； • 采用组件技术开发，具有更强适应性、可移植性和复用性； • 根据中国地方鸡种定制分析组件库，针对性强； • 构建了中国地方鸡种分子数据存储、共享和分析平台，先进性和创新性强。

展望

敬请批评指正！

中国地方鸡种核酸数据库建设与功能设计

中国地方鸡种核酸数据库建设与功能设计

Presentation Transcript