290 likes | 685 Vues
MicroRNA 预测 分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授. 目录. 1 选题背景及意义. 2 miRNA 特性 及研究预测算法介绍. 本文目录结构. 3 家族分类及其 生物医学应用. 4 不平衡分类策略及在 miRNA 上的应用. 什么 是 microRNA ( miRNA )?. microRNA 前体. 包含. 成熟体 microRNA. AUCGUGCAGAGACUAGACUGAC. ~22nt. 4. 研究意义及现状. 生物研究 miRNA. 生物验证. 主要工作.
E N D
MicroRNA预测分类及其特性研究胡玲玲指导老师:邹权 副教授王其聪 副教授
目录 1 选题背景及意义 2miRNA特性及研究预测算法介绍 本文目录结构 3家族分类及其生物医学应用 4不平衡分类策略及在miRNA上的应用
什么是microRNA(miRNA)? microRNA前体 包含 成熟体microRNA AUCGUGCAGAGACUAGACUGAC ~22nt 4
研究意义及现状 生物研究miRNA 生物验证
主要工作 • miRNA预测挖掘方法总结对比 • miRNA家族预测及生物医学应用 • 提出一种不平衡分类算法
一致的二级结构 family 类似的生物学功能 other Family:let-7 m2 m1 目的:让miRNA正确的找到所属家族 m3
miRBase18.0中家族分布图 top19(20类) top99(100类) all(1314类) 大家族包含 大部分的miRNA 未知序列更有可能 属于大家族
图1 执行流程 first layer 使用20类模型预测序列(图1) 结果类标<=19 否则 second layer 使用100类模型预测序列(图1) 否则 结果类标<=99 全类标预测(图1) third layer 从PubMed查询预测结果家族相关的疾病信息
实验设计 miRClassify 输入 [sequence] 输出 [family] 20类文件 训练集大小的影响 [50%,66%,80%,90%] <RF> 10-fold-CV 评价标准 100类文件 不同n-gram的影响 • [3-gram,4-gram,5-gram,6gram] <RF> 1314类文件 每层的预测准确度 • [1st layer,2nd layer,3rd layer] <RF> 不同分类算法的影响 • [RT,RF, Decision Tree,SVM,NN,Boost+RF,Boost+SVM]
不平衡分类现状和意义 • 金融欺诈检测 • 医疗诊断 • 网络入侵检测 • 反垃圾邮件 • 生物信息学等领域
改进算法 过拟合 • 基于采样 • 过抽样 • 欠抽样 • 基于集成分类器 • 基于单个基分类器 Bagging算法 • 基于多个基分类器 Vote算法 易丢失重要信息
单一基分类器与集成分类器 2 1 2 1 2
不平衡分类算法imDC 不平衡数据集 分类 样本 小类样本集 大类样本集 大类样本集(权重) 按权重抽样 按权重抽样 数据集Dn …… 数据集D1 错分样本 错分样本 N- / N+决定基分类器个数n 基分类算法:n%5 C[5] …… 基分类器n 基分类器1 加权投票 加权投票 集成分类器
实验设计 表1 uci数据 表2miRNA数据
总结 主要创新点 • 提出了一种分层级联的家族分类预测的方法 • 引入了一种不平衡分类策略:ImDC • 对比分析主流的miRNA挖掘预测方法 展望 • 相关理论研究 • 不平衡分类时间性能,参数调优
研究成果 Quan Zou*, Yaozong Mao,Lingling Hu, Yunfeng Wu, ZhiliangJi*. miRClassify: An advanced web server for miRNA family classification and annotation. Computers in Biology and Medicine. 2014, 45:157-160. (SCI 3区, IF2011=1.089) Chunyu Wang, Lingling Hu, MaozuGuo, QuanZou. An ensemble learning method for identifying imbalanced miRNA data. Genetics and Molecular Research. Accepted (SCI, IF2010=1.013) Lingling Hu, Yong Huang, QicongWang,QuanZou, Yi Jiang. Benchmark comparison of ab initio microRNA identification methods and software. Genetics and Molecular Research. 2012, 11(4):4525-4538. (SCI, IF2010=1.013)