1 / 19

生物信息学中的不确定性和分类问题

生物信息学中的不确定性和分类问题. 邹 权 ( 博士、副教授 ) 厦门大学数据挖掘实验室 http://datamining.xmu.edu.cn/~zq. 提纲. 生物信息学和机器学习的关系 一些生物信息学中的分类问题 microRNA 识别 蛋白质功能预测 基因表达数据分析 全基因组关联分析 总结. 生物信息学. 人类基因组计划 数据存储 --- 数据库 数据分析 --- 数据挖掘

Télécharger la présentation

生物信息学中的不确定性和分类问题

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生物信息学中的不确定性和分类问题 邹 权 (博士、副教授) 厦门大学数据挖掘实验室 http://datamining.xmu.edu.cn/~zq

  2. 提纲 • 生物信息学和机器学习的关系 • 一些生物信息学中的分类问题 • microRNA识别 • 蛋白质功能预测 • 基因表达数据分析 • 全基因组关联分析 • 总结

  3. 生物信息学 • 人类基因组计划 • 数据存储---数据库 • 数据分析---数据挖掘 Olson M V. Human genetics: Dr Watson's base pairs[J]. Nature, 2008, 452(7189): 819-820. • HapMap计划 /1000 Genome计划 • 大数据

  4. 生物信息学中的我国计算机学者 • 算法阶段(1990-2000) • 朱大铭、姜涛、卜东波 • 标注阶段(2000-2008) • 王晓龙、朱小燕等 • 系统分析阶段(2008-2013) • 李衍达、张学工等 • 大规模数据处理阶段(2010-now) • 华大基因

  5. 一些生物信息学中的分类问题 • microRNA识别 • 蛋白质功能预测 • 基因表达数据分析 • 全基因组关联分析

  6. microRNA识别 • 2006年诺贝尔奖---RNA干扰机制 • CCCCUCUAUUCACAAUUGUUUGGAACUCAGUUUUGUGAUUAUUCUAUCAUUGCCAGGGAGUUUGUGUGGUUGCAUCAGGGG

  7. microRNA分类相关论文 • Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, Xuegong Zhang. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics. 2005.6:310 (google scholar引用271次,截至2014.8.2) • Peng Jiang, Haonan Wu, Wenkai Wang, Wei Ma, Xiao Sun, Zuhong Lu. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research. 2007,35:W339-W344 (google scholar引用239次,截至2014.8.2) • Leyi Wei, Minghong Liao, Yue Gao, Rongrong Ji, Zengyou He, Quan Zou. Improved and promising identification of human microRNAs by incorporating a high-quality negative Set. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2014, 11(1):192-201

  8. microRNA与疾病的关系 • 图挖掘 • 相似度度量、不确定性 参考文献 • Jiang Q, Hao Y, Wang G, et al. Prioritization of disease microRNAs through a human phenome-microRNAome network[J]. BMC Systems Biology, 2010, 4(Suppl 1): S2. • Xuan P, Han K, Guo M, et al. Prediction of microRNAs associated with human diseases based on weighted k most similar neighbors[J]. PloS one, 2013, 8(8): e70204.

  9. 一些生物信息学中的分类问题 • microRNA识别 • 蛋白质功能预测 • 基因表达数据分析 • 全基因组关联分析

  10. 蛋白质功能预测 • 问题 • 输入:蛋白质序列,进行聚类、分类 • 特殊蛋白识别---不平衡分类 • 亚细胞定位-----多类分类 • 酶和多功能酶---多类,少量多标记 • 功能预测------多示例、多标记 • 二级结构、结构域-----标注、HMM • 难点 • 特征提取 • 分类器

  11. 一些生物信息学中的分类问题 • microRNA识别 • 蛋白质功能预测 • 基因表达数据分析 • 全基因组关联分析

  12. 基因表达数据分析 分类 双聚类 聚类 14/57

  13. 一些生物信息学中的分类问题 • microRNA识别 • 蛋白质功能预测 • 基因表达数据分析 • 全基因组关联分析

  14. 全基因组关联分析(GWAS)

  15. GWAS • 难点 • 高维小样本 • SNP-SNP相互作用 • 结果的可解释性 • 前景 • 疾病的遗传机理 • 遗传育种(作物、养殖)

  16. 总结 • 机器学习在寻找生物信息学 • 应用---分类、聚类、降维、不确定性 • 结果的解释和验证 • 生物实验验证 • 文献验证 • 生物信息学在寻找机器学习 • 数据量在增大 • 统计学无法满足精度需要

  17. 敬请指正! 邹权,Email:zouquan@xmu.edu.cn http://datamining.xmu.edu.cn

More Related