710 likes | 810 Vues
牛全基因组预测转录因子 数据库构建及分析. 导 师: 张勤教授 研究生: 王志鹏. August, 2008. 概要. 研究背景. 材料与方法. 数据库构建与网页. 结果与讨论. 转录因子. 定义 : 能够结合在某基因上游特异核苷酸序列上从而调控其基因转录的一类蛋白质。 结构特点 : 存在结构域和功能域 结构域 (DBD) :与 DNA 结合的具有特异性 结构模式:锌指,亮氨酸拉链, 螺旋-转角-螺旋,
E N D
牛全基因组预测转录因子数据库构建及分析 导 师: 张勤教授 研究生: 王志鹏 August, 2008
概要 • 研究背景 • 材料与方法 • 数据库构建与网页 • 结果与讨论
转录因子 • 定义: 能够结合在某基因上游特异核苷酸序列上从而调控其基因转录的一类蛋白质。 • 结构特点: 存在结构域和功能域 结构域(DBD) :与DNA结合的具有特异性 结构模式:锌指,亮氨酸拉链, 螺旋-转角-螺旋, 螺旋-环-螺旋 …… • 顺式作用元件与反式作用因子
真核生物转录因子 物种 #转录因子 物种 #转录因子 人 1790 拟南芥 1953 猩猩 242 水稻 400 鼠 1305 小麦 97 鸭嘴兽 139 玉米 37 鸡 585 番茄 29 斑马鱼 874 绿藻 90 果蝇 586 红藻 10 线虫 635 酵母 322 --收集于NCBI
古细菌物种 #转录因子 细菌物种 #转录因子 暖枝菌 8紫色光合细菌20 热变形菌 9具核梭杆菌2 常温泉古菌 15乳酸球菌 1 嗜热菌7发光杆菌7 超嗜熱菌 6双叉杆菌7 嗜盐杆菌39抗辐射细菌 17 古细菌 503细菌332 原核生物转录因子 --收集于NCBI
转录因子所占比例 --J. L. Riechmann 2000 science.
生物进化历史 --J. L. Riechmann 2000 science.
转录因子存在的特性 1. 转录因子存在的普适性2. 物种间的差异性3. 与进化历史有一定关系
转录因子的作用 • 基因调控特别针对真核生物的多级调控结构 • 基因调控网络 • 辅助基因网络的推断
http://www.gene-regulation.com/cgi-bin/pub/databases/transfac/search.cgihttp://www.gene-regulation.com/cgi-bin/pub/databases/transfac/search.cgi
物种 #转录因子 猪 94 马 156 牛 634 羊 17 鸡 585 狗 215 猫 5 水稻 400 小麦 97 玉米 37 农场生物转录因子 --收集于NCBI
牛转录因子 • 关注于模式生物 • NCBI~634 编码转录因子的基因 • TRANSFAC ~10 编码转录因子的基因 ~ 16 转录因子调控的基因 • DBD ~ 2333 预测转录因子 (无注释)
目 的 全基因组范围完整注释的 牛转录因子库
概要 • 背景知识 • 材料与方法 • 数据库构建与网页 • 结果与讨论
实现步骤 • 数据的收集 • 转录因子的识别 • 预测转录因子的注释 • 预测转录因子的展示
基因组,蛋白质组数据 蛋白质二级结构 模型集 ( Pfam &SuperFamily) HMMER 程序 预测转录因子集 已知转录因子集合 本地BLAST 信息整合 基因注释 注 释 转录因子功能注释 转录因子物理位置注释 生物功能信息 基本信息 QTL区域信息 技术路线
数据收集 • 牛全基因组序列3.1版本 。( ENSEMBLE ) • 收集牛已知蛋白质序列2.7万条。(ENSEMBLE) • 获得由GENESCAN 预测蛋白质5.6万条。 • 与转录因子相关的基因信息4357条, 转录信息4933条。 (NCBI) • PDB数据3.6万条 。 (SWISS-MODEL) • 收集涉及91个性状的QTL共846条。(QTLdb)
转录因子识别 • 识别蛋白质是否含有DBD结构 • 与DNA结合的结构域(DBD)具有特异性 • HMMER程序 (hmmpscan,hmmsearch) • 66个家族231个HMM模型(SCOP) • 参数为默认值,取E-value=0.01
预测转录因子的注释 • 转录因子基本信息物理位置 • 转录因子家族信息 • DBD信息 • 基因与转录本信息 • 基因结构与3D结构信息 • GO信息 • 表型性状与QTL信息 • 序列信息
概要 • 背景知识 • 材料与方法 • 数据库构建与网页 • 结果与讨论
预测转录因子的展示 • C \S构架 动态网站 • 数据存储 ~ Mysql (5.0.18) • 服务 ~ Apache (2.2.4) • 界面 ~ Perl (5.8.7) perl :: DBI 、perl :: CGI perl :: GD
TF_family 信息 PDB 信息 注释信息 TF 基本信息 Motif 信息 QTL 信息 转录和外显子信息 基因信息 序列信息 数据表结构
概要 • 背景知识 • 材料与方法 • 数据库构建与网页 • 结果与讨论
结 果 (I) • 共计 5479个转录因子,4357个基因 由已知蛋白集合预测 3810个基因4932个转录因子 由预测蛋白集合预测 4260个基因5487个转录因子
已知蛋白集合 预测蛋白集合 4357个基因~5479个转录因子 3810~4932 547~547 占全基因组~14% 结 果 (I)
转录因子的可变剪切 • 有886个基因产生2个或2个以上的转录蛋白 1 个基因产生 7个不同的转录因子 3 个基因每个产生 6个转录因子 9 个基因每个产生 5个转录因子 712 个基因每个产生 2个转录因子
可变剪切的影响 • 可变剪切不影响转录因子绑定形式 ENSBTAG00000005251产生了7个转录因子 每个转录因子只包含RING/U-box结构。 • 可变剪切影响转录因子绑定形式 ENSBTAG00000000054产生了4个转录因子 3个含Homeodomain-like和 DEATH domain 1个只含有Homeodomain-like结构 这4个因子的Homeodomain-like均为四联体重复
结 果 (II) • 在各条染色体上的分布不均 chr. 19 18 5 3 7 .. 1(146Mb) 367 333 307 287 279 .. 242
结 果 (II) • 每条染色体上分布呈非随机性 Chromosome 1
结 果 (III) • 3174转录因子分到47个性状中 MY PP PY FP FY SCS SCC 187 274 253 184 180 384 122 合计:1584