生物医学文本挖掘目前研究工作综述

生物医学文本挖掘目前研究工作综述 A survey of current work in biomedical text mining

AaronM. Cohen, MD is a postdoctoral fellow in the medical informatics programme at OHSU. Dr Cohen works in the area of text mining, focusing on issues and applications important to biomedical researchers. He was chairman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Integration Language (SMIL 2.0). • William Hersh, MD is Professor and Chair of the Department of Medical Informatics & Clinical Epidemiology in the School of Medicine at Oregon Health &Science University (OHSU) in Portland, Oregon. Dr Hersh’s research focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers. • HENRY STEWART PUBLICATIONS 1467-5463. BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57–71. MARCH 2005

作者简介，文章来源 • AaronM. Cohen，医学博士，俄勒冈卫生科学大学医学信息学项目的博士后研究员，研究方向是文本挖掘，主要集中在文本挖掘的应用及存在的问题，他是W3C工作组的主席，创建了同步多媒体整合语言版本2 (SMIL 2.0). • William Hersh ，医学博士，是俄勒冈州波特兰市俄勒冈卫生科学大学医学院，医学信息学和临床流行病学专业的教授和主席，研究方向是信息检索系统的开发和评价。 • BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57–71. MARCH 2005

背景和目的 • 公开发表的生物医学研究成果以及由此带来的潜在的生物医学知识正以越来越快的速度增长,几个世纪以来科技信息通常都是以指数增长 • 2004年MEDLINE数据库含有1250多万条记录，目前仍以每年50万条记录的速度增长。

背景和目的 • 生物医学研究的目标是发现知识并以诊断、预防和治疗的方式把知识应用到实践。 • 人们很可能没有发现生物医学知识各个要素之间的重要联系，因为没有人建立必要的联系。 • 必须建立一些方法来帮助研究者和内科医生高效地利用现有的研究成果，并把这些研究成果应用到实践

背景和目的 • 文本挖掘和知识抽取是帮助研究者处理信息过载的方法 • 文本挖掘不同于信息检索(IR)和文本摘要(TS) • 文本挖掘也不同于自然语言处理(NLP) • 文本挖掘和知识提取主要集中在解决特定领域的具体问题 • 例如：寻找与偏头痛的生物学过程有关的药理学物质来确定偏头痛可能的新的治疗方法

背景和目的 • 生物医学文本挖掘的目的是帮助研究者更加有效地识别所需要的信息以及发现被大量的可获得信息掩盖的关系 • 就是通过对文献中及生物医学数据库自由文本中的大量生物医学知识应用算法、统计方法和数据处理方法，把信息过载的压力从研究者转嫁给计算机。

目前研究的活跃领域 • 命名实体识别 • 文本分类 • 关系抽取 • 同义词缩写词提取 • 假说形成 • 集成框架

命名实体识别(NER) • 目的是在文本集合中识别出特定类型事物的所有名称，例如在期刊论文集中识别出所有药物的名称，在medline摘要中识别出所有基因名称及符号

命名实体识别具有挑战性 • 不存在一个完整的包含各种类型的生物医学命名实体的字典 • 相同的词或短语由于上下文不同表达的是不同的事物 • 许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题 • 可能是由多个词构成的词组例如：颈动脉 carotid artery 因此需要判断实体名称的边界

方法 • 基于字典的方法：将自然语言文本与事先存在的包括大量生物医学命名实体名称的字典词条进行比对，根据匹配的结果进行实体识别。精确、模糊匹配 • 基于规则的方法: 通过规则的定义将实体与其他文本划分为不同的类，进而识别出来,大写字母+符号+数字 • 基于统计的方法: 将命名实体识别问题转化为分类问题。通过使用分类工具，对训练文本进行机器学习，进而区分出各种命名实体类型，最终识别出测试文本中的命名实体。 • 混合方法

系统评价指标 • 准确率（预测正确的命名实体数除以预测命名实体总数） • 召回率（预测正确的命名实体数除以文本中的命名实体总数） • 召回率和准确率的调和均值 F-measure=2PR/[P+R] • 召回率和准确率的平衡点

NER系统 • Tanabe和Wilbur开发的AbGene系统是比较成功的基于规则 • 曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。 • AbGene系统把Brill的词性标注扩展到包括基因和蛋白质名称作为标记类型 • 使用生物医学文本的7000个手工标注的句子作为训练语料 • 之后AbGene使用手工生成的基于语言统计特性的后处理规则进一步识别基因名称的上下文以及消除假阳性假阴性 • 系统达到了85.7%的准确率和66.7%的召回率。

NER系统 • Chang创建了GAPSCORE系统 • 根据词的外观、形态和上下文对句子中的每个词打分，然后采用分类器训练这些特征。分数较高的词更可能是基因或蛋白质名称或符号。 • 利用Yapex语料库进行训练，根据精确匹配和模糊匹配分别计算召回率、准确率和F值 • 模糊匹配（召回率81%、准确率74%、F值77%）的系统性能好于精确匹配（召回率50%、准确率59%、F值54%）。

NER • Hanisch等人利用基因与蛋白质名称的大型词典语义分类可能在蛋白质名称附近出现的词特异度为95%，敏感度为90% • Zhou等人使用基于丰富特征集合的方法训练了隐马尔可夫模型，【构词特征（大写）、形态特征（前缀、后缀）、词性特征、语义触发（核心名词和动词）、别名特征】 • 在GENIA语料库上获得了66.5%的准确率， 66.6%的召回率。 • 其他的系统包括Narayanaswamy等人的、 Settles的以及Mika和Rost的

NER • Chen和Friedman采用MEDLEE系统识别与生物医学文本中表现型信息对应的短语 • 利用自然语言方法识别期刊论文摘要中的表现型短语以及在文本中由分散的词组成的表现型短语。 • 由于研究较少，可获得的表现型相关的术语知识库较小 • 自动引入成千上万的与语义类型有关的UMLS术语以及来自哺乳动物本体的上千个术语，并且还手工加入了其他术语 • 对300篇文档进行可行性研究，系统的准确率为64%，召回率为77.1%。性能低于基因和蛋白质命名实体识别系统

NER • 总之，目前基因和蛋白质NER系统的性能指标F值大约在75%-85%之间。 • 这个值与2002年Hirschman等人研究的结果和2004年BioCreative专题讨论会任务1A的结果一致。 • 虽然性能最好的系统也没有超过前几年的，但是研究者对不同数据集采用不同的方法都得到了一致的结果。

NER • 为了解决性能平台，Tanabe和Wilbur利用AbGene生成大型的高质量的词典，包括在生物医学文本中出现的基因和蛋白质名称 • 把AbGene应用到MEDLINE数据库产生了一个包含200多万个预测基因和蛋白质名称的初始集。 • 利用主题分析提纯这些名称列表 • 利用归纳逻辑编程学习规则在主题内区分基因名称和非基因名称 • 利用假阳性过滤器去除明显不正确的名称，例如含有“http”或是以“tion”结尾的名称。 • 最终产生了含有1，145，913个基因名称的集合。 • 随机样本评估得到的准确率约为82%。 • 利用语料库进行评价，精确匹配的准确率为61%，部分匹配的准确率为88%

NER • 目前讨论的主题是NER性能多好才能有助于文本挖掘。 • 如果假设关系提取需要识别三个生物医学术语（两个实体和一个关系），那么关系提取的性能应该近似等于NER性能的立方。 • 对于提取新闻文章，这个独立性假设看起来是对的。但这个假设并不适用于生物学关系 • 我们还没有为生物医学文本挖掘获得标准的NER系统构建方法或者是更新词典的方法，所以这一领域的研究工作还要继续。

文本分类 • 文本分类试图自动测定文档或文档的某部分是否含有感兴趣的特征，通常是根据文档是否讨论某一特定的主题或者是含有特定类型的信息。 • 感兴趣的信息并不是被用户明确指定的，而是提供阳性训练集（已经发现含有感兴趣特征的文档集)和阴性训练集 • 文本分类系统应该能够自动提取可以区分阳性和阴性的特征并把这些特征应用到候选文档进行决策

文本分类 • 精确的文本分类系统对数据库管理者尤其有用，数据库管理者可能不得不浏览数据库中的大量文献来寻找含有某种信息的少量文献 • 越来越多的生物医学信息都是以文本形式创建，数据库管理者需要把这些信息转换编码数据 • 因此强烈的需要一种有效的方式把文本分类方法应用到生物医学文本。

文本分类 • Yeh等人组织了文本挖掘竞赛，是2002年KDD国际竞赛的一部分。任务是要评价FlyBase数据集的论文并根据有没有果蝇基因产物来确定是否应该管理那篇论文 • 性能最好的条目是利用一套手工创建的规则生成的，这些规则是基于词性标注、词典和语义限制创建的，语义限制是通过检测训练文档形成的 • 得到的F值为78%

文本分类 • 另一个有效的方法是根据文中有没有基因产物对生物医学论文进行分类，进行特征提取后利用朴素贝叶斯分类器分类 • 有两个性能不错的系统，利用规则的表达式（interact+gene name+bind）去寻找词的模式，然后利用支持向量机（SVM）对论文分类

文本分类 • Donaldson等人使用支持向量机作为分类器，对文献摘要进行分类，提取出与蛋白质相互作用相关的文献摘要，同时还用来判断句子是否涉及具体的蛋白 • 对100个摘要进行评价得到的准确率为96%，召回率为84%。他们估计这个分类系统能减少约三分之二管理者需要阅读的摘要数目。

文本分类 • 为了管理Swiss-Prot数据库的信息，有研究利用概率潜在分类(Probabilistic LatentCategoriser，PLC)和KL（Kullback–Leibler）分歧重新排序PubMed返回的文档 • 评价显示准确率召回率平衡点大约为70%，相对于原来的40%而言，准确率改善了25-45% • Liu等人把文本分类独特的应用到图像说明。在试验研究中，他们分类图像库中的文本来寻找含有表示蛋白质相互作用和信号事件的图像

文本分类 • 把文本分类应用到生物医学管理者和标引者的实际工作过程中的研究才刚刚开始。2004年TRECGenomics Track中的任务之一就是文本分类问题 • 这个任务试图模仿手工标注者为了寻找含有基因实验证据信息的文档而在小鼠基因组信息学（MGI）系统中浏览过程 • 最后建成标准通用标记语言（SGML）格式的全文集合 • 利用效用测量来评价任务的性能 • 为了将来能够满足管理者和其他用户的需求，改进生物医学文本分类的研究工作必须继续

同义词、缩写词提取 • 生物医学文献增长的同时生物医学术语也在增长。生物医学实体有多个名称和缩写，如果有一种自动的搜集同义词和缩写词的方法来帮助研究者进行文献研究将是非常有益的。此外，如果实体的所有的同义词和缩写词都映射到表示概念的一个术语上，其他的文本挖掘任务也能更加有效地完成。 • 同义词、缩写词提取的大多数研究都是集中在揭示基因名称的同义词和生物医学术语的缩写词。

同义词提取 • 许多研究者利用在线数据库生成基因名称同义词列表 • 这些基因数据库多数为基因的正式名称，相对于文献中实际出现的基因名称是不完全的 • 为了创建在文献中出现的有代表的基因和蛋白质名称的同义词列表，需要从生物医学自由文本中自动提取基因名称同义词

同义词提取 • Yu和Agichtein结合了AbGene 基因命名实体识别系统，采用统计方法、基于SVM的分类器、基于自动模式提取以及手工生成规则等算法对全文期刊论文进行同义词提取 • 系统的召回率约为80%，准确率约为9%，总的F-measure值约为30%

同义词提取 • Cohen采用自动模式抽取方法对MEDLINE摘要进行同义词提取，通过分析同义词共现网络结构选取最佳的同义词模式 • 由于并没有使用成熟的基因NER系统，系统评价的召回率为21%，准确率为23%，F-measure值为22%。 • 该系统可以根据文本中出现的词之间的逻辑关系推断是否为同义词，与没有类似推断功能的系统相比，召回率提高了大约百分之十。

缩写词提取 • 其他的研究者利用文本挖掘方法提取生物医学命名实体缩写词及其全称形式 • 方法主要依赖于全称与缩写词的接近程度，一般而言，全称或者缩写词通常在括号里，因此，识别缩写词被简化为寻找最佳的缩写词和对应全称的对齐过程。 • 这个步骤还应用了许多排列和评分方法

缩写词提取 • Liu和Friedman在大量MEDL1NE文本中统计缩写词和全称的搭配，以此作为规则来检测缩写词与全称的配对，取得了 96.3 %的准确率，88.5%的召回率。 • Yu等人采用手工创建的模式匹配规则集合识别缩写词及其全称，获得了的95%准确率和70%的召回率 • Schwartz 和Hearst在1000篇MEDLINE摘要集合中识别与酵母有关的缩写词，获得96%的准确率和82%的召回率。 • Chang等人用缩写词特征训练逻辑回归模型，并用这些特征评价候选全称形式，在Medstract语料库上获得了80%的准确率和83%的召回率。

同义词、缩写词提取 • 在单篇文章中自动识别生物医学缩写词和相应全称的问题已经基本解决，上述识别系统都取得了较高的准确率和召回率。今后的研究将把缩写词识别与其他文本挖掘任务结合，并应用到实际的生物医学文本挖掘系统当中 • 例如，在线的医学缩写词词典可以整合到PubMed来扩大检索 • 提取特定期刊论文中未定义的公共领域缩写词是更困难的问题，这需要特定领域专家的知识以及文本附近的上下文。

同义词、缩写词提取 • 基因和蛋白质名称的同义词抽取研究结果的精度普遍还较低，因此更具挑战性。虽然，自动更新同义词列表对提高文献检索和文本挖掘系统的性能是很有价值的，但是自动提取系统的准确率太低可能引起令人无法接受的噪音。然而，目前正在进行的工作是要标准化正式基因蛋白质名称及其符号的使用，所以将来由于准确率低而引起噪音的问题可能减少。另一方面，仍有一些文献使用非正式的名称。

关系抽取 • 关系抽取的目标是检测特定类型的一对实体如基因、蛋白质和药物名称等之间是否存在预先指定类型的关系，如蛋白质之间的抑制关系．实体之间的从属关系等。 • 实体的类型通常都是特定的（基因、蛋白质或药物），关系的类型可能是泛泛的（如任何生物医学关系），也可能是特指的（一种调节关系）。

关系抽取方法 • 基于规则的方法是对于与已知有关系的实体相邻近的文本进行模式的抽象，再利用生成的模式对测试语料集的文本进行模式匹配，最终得到关系抽取的结果 • 基于统计的方法是通过查找彼此经常同时出现而不是随机出现的实体进而鉴别出关系 • 基于自然语言处理的方法是是通过对句子从词法(lexical)、句法(syntactic)和语义(semantic)上进行解析，把自然语言文本分解为可以从中提取出关系的结构

关系抽取 • 在基因组时代，大多数关系提取的研究都是围绕着基因和蛋白质之间的关系 • 基因可以根据包含他们名称的文本中共有词的多少进行分组或聚类。 • Raychaudhuri等人利用邻近分歧变量来衡量一组基因的“功能一致性 ” • 对1900随机组合的成群酵母菌基因，鉴别出19个正确的基因分组，得到的敏感度为79%，特异度为100%。 • 后来他们将研究扩展到包括小鼠基因、苍蝇基因、蠕虫基因和酵母菌基因，获得的功能基因分组的敏感度分别为96%，92%，82%和45%，特异度均为99.9%5

关系抽取 • Glenisson等人利用向量空间方法和k-中心点算法研究了基于文本的基因聚类 • Wren和Garner通过分析图的凝聚性和特异性识别相关基因，图是根据MEDLINE记录中基因与基因共现情况产生的 • 结果类似于Raychaudhuri等人的结果，特异度约为97%，敏感度为85%。

关系抽取 • 其他的研究集中在提取基因、蛋白质以及其他生物实体之间特定类型的关系。 • Gaizauskas等人的PASTA系统使用类型和词性标注、手工创建的模板以及从生物学数据库集成的词典提取氨基酸残基之间的关系以及它们在蛋白质中的功能 • 应用手工标注的MEDLINE摘要语料库作为金标准，系统的平衡召回率和准确率约为82%。

关系抽取 • Albert等人利用蛋白质和相互作用术语词典识别两个蛋白质和一个相互作用术语三者同时在一个句子中出现的情况 • 把这个方法应用到MEDLINE数据库寻找蛋白质和核受体之间的相互作用关系，最后发现3308个正相关的关系 • 准确率为22%

关系抽取 • McDonald等人在单一的句子解析过程中结合句法/语义语法提取了各种各样的基因通道关系 • 利用生物学家评论的100条摘要进行评价，系统准确率为61%，召回率为35%

关系抽取 • 提取基因、蛋白质或基因本体（GO）编码之间的关系具有直接的实际意义，因而受到很大关注 • Chiang和Yu的MeKE系统 • 利用基因本体（GO）编码作为功能名称的词典，将其与LocusLink的基因与基因产物名称词典结合 • 同时利用句子排列系统确定与基因功能相关的模式 • 随后将模式与朴素贝叶斯分类器结合提取含有有关基因产物功能信息的句子

关系抽取 • Raychaudhuri等人通过训练文本分类器将基因本体（GO）编码分配给带有摘要的相关基因 • 把熵值最大的相关基因本体（GO）编码分配给基因 • 利用酵母菌基因子集和基因本体（GO）编码进行评价，72%的基因本体（GO）编码预测都是准确的 • 2004年BioCreative任务2也是从自由文本中为基因提取相关的基因本体（GO）编码

关系抽取 • Pan等人的Dragon TF关联挖掘系统 • 对术语和神经网络进行线性判别分析创建模型来识别含有转录因子（TFs）与基因本体（GO）编码和疾病相关联的信息的摘要 • 得到的平衡敏感度和特异度大约是80%

关系抽取 • 有许多研究者应用文本挖掘提取新的、感兴趣的关系。 • Eskin和Agichtein将文本和序列挖掘与支持向量机（SVM）结合来预测蛋白质亚细胞的定位，其中SVM结合了文本与基因组序列核 • 预测蛋白质在胞浆中的位置，系统性能达到87%的准确率和71%的召回率 • 预测蛋白质在过氧化物酶体中的位置，其准确率为44%，召回率为21%

关系抽取 • Srinivasan和Wedemeyer研究了疾病发生率和所研究国家的关系 • Kostoff利用简单的MEDLINE查询去计算器官癌症的不对称性，得到了与国际癌症研究所SEER数据库一致的结果 • Xu等人利用MEDLEE将文本形式的病理报告转换成编码数据以促进乳腺癌研究

关系抽取 • 从前面的研究我们发现：通常，提取非特定的关系看起来更容易，而提取特定的关系仍然具有挑战性，因为特定的关系必须有精确的支持文本证实（例如GO编码分配）。 • 识别带有相应支持文本的特定关系的代价很高，因此特定关系提取的研究必须继续得到关注。

假说形成 • 关系提取主要是提取在文本中可以明确找到的实体之间的关系，而假说形成试图揭示不存在于文本中而是通过其他更明确的关系推断出来的关系。目的就是揭示之前未发现的值得进一步研究的关系

假说形成 • 实际上，假说形成的所有研究都是利用20世纪80年代Swanson提出的“非相关文献的互补结构”(CSD)的想法 • ABC模型：A影响B，并且B影响C，那么A可能影响C • 在1980s和1990s早期Swanson给出了许多利用ABC模型挖掘新假设的例子，如：鱼油治疗雷诺氏病；镁缺失和头痛的关系

假说形成 • Swanson是手工应用他的模型，许多研究者试图把这个过程自动化。 • 自动假说形成系统可能产生许多潜在的假说，因而需要一些方法来评价这些系统

生物医学文本挖掘目前研究工作综述

生物医学文本挖掘目前研究工作综述

Presentation Transcript