640 likes | 782 Vues
第 十 章 信息分析与信息利用. 1. 学习本章的意义. 如何分析和管理文献信息? 如何按照你自己的兴趣对大量文献信息做进一步的分类和统计? 如何在短时间内抽取出大量文章的主要内容并加以分析? 如何用计算机软件管理你检索到的论文?. 本 章 目 录. 第一节 医学文献信息分析 文献信息分析的相关概念、理论和技术 第二节 文献信息管理 重要的文献管理软件 第三节 项目申报与科技查新 申请科技查新的基本要求. 第一节目录. 文献信息分析的目的和意义 文献信息分析的指标及其含义 发表论文的期刊与核心期刊 论文的作者与核心作者
E N D
学习本章的意义 • 如何分析和管理文献信息? • 如何按照你自己的兴趣对大量文献信息做进一步的分类和统计? • 如何在短时间内抽取出大量文章的主要内容并加以分析? • 如何用计算机软件管理你检索到的论文?
本 章 目 录 • 第一节 医学文献信息分析 • 文献信息分析的相关概念、理论和技术 • 第二节 文献信息管理 • 重要的文献管理软件 • 第三节 项目申报与科技查新 • 申请科技查新的基本要求
第一节目录 • 文献信息分析的目的和意义 • 文献信息分析的指标及其含义 • 发表论文的期刊与核心期刊 • 论文的作者与核心作者 • 引文分析指标与科学评价 • 文献内容指标与热点分析 • 文献信息分析的专门方法 • 频次排序 • 共现分析 • 聚类分析 • 基于文献的知识发现 • 基于文献的知识发现工具 • 展现研究领域的结构 • 发现潜在的联系
一.文献信息的目的和意义 • 文献信息分析的概念 • 文献信息分析主要是指以对大量已知文献信息的内容进行整理和科学抽象为主要特征的信息深加工活动。 • 在此过程中,要对文献信息的价值进行评估,然后选取可靠的、先进的、实用的信息进行信息的整序甚至统计,提取信息中隐含的知识,从而获得增值的信息产品。
一.文献信息的目的和意义 2. 文献信息分析的意义 • 信息快速增长的现状要求 • 生物医学专业人员的整体素质要求 信息素质的提出
二、文献信息分析的指标及其含义 • 文献的特征 • 外表特征 • 内容特征 • 两种特征可以用于文献信息分析的对象 • 书目数据库中提供文献信息分析的功能 • CNKI • Web of Science
二、文献信息分析的指标及其含义 • 文献的特征 • 外部特征: • 题目、作者、作者工作单位、出版者、出版地、版次、期刊名称、引文,专利和科技报告还有专利号或报告号等。 • 内容特征: • 在文献数据库中,每一条文献记录中一般有分类号和主题词、关键词的字段,用以表示文献的内容。
二、文献信息分析的指标及其含义 • 文献特征的分析及其意义 • 发表论文的期刊与核心期刊 • 论文的作者与核心作者 • 引文及引文分析指标与科研评价 • 分类号、主题词和关键词与研究热点
二、文献信息分析的指标及其含义 • 发表论文的期刊与核心期刊 • 布拉德福定律 • 如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成 1:a:a 2 …… 的关系( a>1 )。 • 核心期刊的含义
二、文献信息分析的指标及其含义 • 论文的作者与核心作者 • 洛特卡的平方反比定律 • 检验发现,生产2篇文章的作者大约是生产一篇文章作者数的1/4,生产3篇文章的作者数是生产1篇文章作者数的1/9……,写1篇文章的作者数是全体作者的60%左右。 • 核心作者
二、文献信息分析的指标及其含义 • 引文及引文分析指标与科研评价 • 引文的定义和作用 • 基本科学指标(Essential Science Indicators,ESI) • ESI的主要模块 • 引文排位(Citation Rankings) • 高被引论文(Most Cited Paper) • 引文分析(Citation Analysis) • 影响因子(Impact Factor,IF) • 即时指标(Immediacy Index,II)
二、文献信息分析的指标及其含义 • 分类号、主题词和关键词与研究热点 • 分类号、主题词和关键词的概念 • 主题词和关键词的统计分析可以直接反映出研究的结构和趋势 • 频次排序方法的使用
三、文献信息分析的专门方法 • 基于共现的文献信息分析的基本步骤: • 获取数据:确定研究主题的范围,检索相关文献的记录,下载相关文献记录。 • 抽取字段:抽取相关指标(如期刊、作者、引文等)进行频次统计。 • 统计条目:将统计指标按照出现频次由高到低排列,截取其中高于某个阈值的部分,如高频主题词、高频期刊、高产作者等等,作为进一步分析的样本。 • 共现分析:统计这些高频指标在同一个文献记录中共同出现的频次,形成共现矩阵。 • 聚类分析:利用统计分析软件,根据共现矩阵,采用聚类分析、社会网络分析等方法对相关指标进行分类。 • 结果判读:对形成的类别进行内容分析,以此说明该领域的科学研究活动的基本状况,如研究热点、核心期刊等等。
三、文献信息分析的专门方法 频次排序 共现分析 聚类分析 基于文献的知识发现
3.2 共现分析 共现分析的含义 共现分析的作用 主题词共现分析的例子
3.3 聚类分析 聚类分析的含义 SPSS中聚类分析的操作 SPSS中聚类分析结果的解释
3.4 基于文献的知识发现 基于文献发现的含义 基于文献发现出现的原因 Swanson知识发现的过程 开放式与闭合式的发现
四、基于文献的知识发现工具 • 展现研究领域的结构的工具 • CiteSpace • HistCite • Bibexcel • 发现潜在的联系的工具 • Arrowsmith • BITOLA • MedlineR • GenClip
4.1 Citespace • 研究领域 • 研究前沿:Research Fronts,某个研究课题及其基础研究问题的概念组合 • 知识基础:Intellective Base,研究前沿的概念和问题在科学文献中的引文及其同被引的轨迹。一组被研究前沿所引用的科学出版物的演进网络。 • 使用步骤: • 从Web of Science中检索并以固定格式下载某一主题的文献记录,包括作者、题目、摘要和文献的引文。 • 将检索到的记录输入系统,系统会生成对文章标题、文摘、表述词汇的频率统计,根据这些词汇频率的增长率确定研究前沿的热点词汇。 • 设置总时间段范围以及每一个时间片段,获得该研究领域研究前沿的术语和知识基础的文章的对应的网络。 • 研究前沿术语的共现 • 知识基础文章的同被引 • 研究前沿术语引用知识基础文章
4.1 Citespace • 禽流感研究前沿术语的共现网络图
4.1 HistCite • 引文分析可视化系统,尤金·加菲尔德(E. Garfield)于2001年推出。网址为www.histcite.com,可下载30天免费试用版。 • 主要功能 • 将某个领域的高被引论文按照发表时间先后顺序自动生成引文时序网络图。 • 主要步骤 • 从ISI Web of Science(WOS)上检索并下载的某一专题方面的文献记录(包括其引文信息) • 将高于一定阈值的引文列出,按照被引论文发表年份顺序,绘制出网络图。 • 意义 • 引文时序网络图展示某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,迅速对某一专题研究历史进行回顾,指导自己的研究工作。 • 此外,该软件可以把检索到的来源文献按照期刊名称、著者、年份分别进行排序。对于被引文献,还按照被引频次的高低进行排序,同时,点击引文时序网络图中的结点,可以看到引用该文献的所有文献以及被该文献引用的所有文献。 • 加菲尔德等人应用这一软件已经先后对有关数字图书馆、情报科学、信息计量学、共焦显微镜、实验胚胎学、基因组测序等专题研究以及某一段时期有关某一专题研究的杂志的发文情况进行了引文时序分析,分别生成了引文编年图。
4.1 HistCite • PBL的引文时序列网络
4.1 Bibexcel • 由瑞典的于默奥大学(Umeå University)社会学系的Olle Persson开发,可以在www.umu.se/inforsk网站上免费下载。 • 主要功能 • 抽取文件中的字段,统计其出现的频次并生成共现矩阵。 • 主要步骤 • 从Web of Science等书目数据库中下载记录 • 从下载的文件中抽取用户指定字段,如标题中的词、作者、期刊、引文、被引作者、被引期刊等等 • 统计其出现的频次,进行共现统计,最后生成共现矩阵。 • 特点 • 其结果可以输入到其他软件(如Pajek,Excel,SPSS等)做进一步分析 • 用户还可以自定义输入记录的字段标识和分隔符,具有更大的灵活性。
4.1 Bibexcel • Bibexcel用户界面
4.2 Arrowsmith • 由D. Swanson等开发的可以在网上免费运行的软件, 网址为kiwi.Uchicago.edu。 • 主要功能 • 反映两个表面上无联系的事件或者联系微弱的事件之间的潜在的联系。 • 主要步骤 • 分别用A和C两个词进行MEDLINE的标题词检索,将检索到的文献标题分别存储 • 到ARROWSMITH的网页,将得到的两个文件上传 • 系统会产生一个列表(B—LIST),表中列出了这两个文件所存储的标题中同时出现的重要单词或者词组。用户根据自己的经验把一些没有意义的、含糊的单词去掉 • 点击B—LIST中任何一个单词x都会显示出相应的同时包含A和x的标题,下面一行会显示出同时含有x和c的标题。从这些标题中,用户结合自己的专业知识就可以从中发现主题之间的潜在的联系。 • 意义 • 帮助生物医学者发现新的、有用的联系,可以把它当作一种扩展MEDLINE搜索能力的软件,但不能替代传统的文献检索,因为它还必须在传统的文献检索的基础上开展工作。
4.2 BITOLA • 由斯洛文尼亚的生物统计与医学信息研究所的Dimitar Hristovski与Borut Peterlin研制开发。网址为www.mf.uni-lj.si/bitola。 • 主要功能 • 帮助生物医学研究人员发现生物医学概念之间的潜在联系。 • 特点 • 采用MeSH表中的主题词来表达概念,同时还包括了来自人类基因组组织(Human Genome Organisation,HUGO)的人类基因名称 • 采用闭合式和开放式两种发现模式。
4.2 MedlineR • 由Simon M. Lin等人开发,在R编程环境下运行,可从网上免费获得源代码(dbsr.duke.edu/pub/medlineR),并可以根据需要修改源代码。 • 主要原理 • 依据词共现分析原理寻找与某特定基因有生物学关系的其他基因,两两统计一组基因、基因—关键词对在同一篇文献中出现的次数,并以此为基础对这些基因、关键词建立共词矩阵,最后以Pajek可识别形式(.net格式)输出 • 意义 • 用户通过该系统可以获得与某一疾病相关联的基因关系网络图 • 对于生物信息学家和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘应用的基础,是对实验方法的一个重要的补充 • 可以帮助医学科研人员所感兴趣的论题形成假设,得到相关因素的可视化图谱,其研究结果要在相关领域专家的指导下进行解释与评估并需要在实践中予以验证。
4.2 GenCLiP • 主要功能 • 用于发现基因之间的关联及构建基因关系网络图。 • 主要特点 • 所挖掘出来的疾病机理永远是最新的 • 所挖掘出来的信号通路(网络)是基于待分析基因和指定关键词的。 • 主要步骤 • 从PubMed下载与基因有关的文摘,并提取出超过设定滤过阈值的关键词。 • 对这些基因、关键词建立共词矩阵,通过平均连锁等级聚类算法进行聚类分析,并得到聚类分析点阵图。 • 利用GenCLiP的搜索功能,可以得到一个基于特定关键词的与某一基因相关联的基因关系网络图,还可以查阅到该基因涉及的相关文献。
第二节目录 • 文献信息管理概述 • 文献信息管理软件 • EndNote • RefViz • Quosa • 医学文献王
一.文献信息管理概述 • 科研工作者对收集到个人专题文献予以阅读、标记、做笔记并加以科学的卡片编排以便查找,一直是科学研究和个人文献组织和管理的最经典方法。 • 现代的文献积累、组织和管理的方法是在继承传统的文献积累、组织和管理的基础上,与计算机技术、电子文献和网络技术相结合发展而来,其收集、积累、组织和管理文献的手段更加丰富多样。
一.文献信息管理概述 • 现代文献信息管理主要体现在电子全文阅览器和个人文献管理软件二种软件上,功能表现在以下几个方面。 • (一)电子阅览器的功能 • (二)文献收集高效化 • (三)文献管理智能化 • (四)引文写作一体化 • (五)资源中心化、交流、共享网络化
二.文献管理软件 (一)EndNote EndNote(http://www.endnote.com/enhome.asp)是美国Thomson ResearchSoft公司开发的文献管理软件,现为Thomson Reuters集团旗下产品。该软件为收费软件,有个人版和大客户版。在其主页有30天全功能试用版下载。它与Reference Manager和ProCite被认为是当今世界上最优秀的三个文献管理软件。
二.文献管理软件 (一)EndNote 主要功能 : (1)建立个人专题数据库 ①直接联网检索并下载相关信息 ②网上数据库检索结果导入 ③格式转换 ④手工录入
二.文献管理软件 (一)EndNote 主要功能 : (2)文献附件的管理 一条文献可通过其他途径获得了PDF全文,或者相关图表、网络链接等等。文献可能有读者自己的笔记,这些内容EndNote可以用来作为文献条目的附件进行管理。
二.文献管理软件 (一)EndNote 主要功能 : (3)个人数据库的管理 1)群组管理(Using Groups) 2)排序(Sorting the Library) 3)去重(Finding and Deleting Duplicate Reference) 4)检索(Search for References) 5)压缩(Compress) 6)与 EndNote Web协同工作
二.文献管理软件 (一)EndNote 主要功能 : (4)个人数据库的应用 1)与Word整合利用数据库撰写论文 2)利用论文模板撰写论文 3)统计分析
二.文献管理软件 (二)RefViz RefViz 是由Thomson公司和Ominiviz 公司合作开发用于文献信息分析的收费软件。 安装此工具后,就可以借助EndNote菜单的Tools→Data Visualization调用它提供可视化文本分析。 RefViz 会根据用户建立的数据库资源自动创建Galaxy视图和Matrix视图,提供可视化文本分析。
二.文献管理软件 (二)RefViz (1)Galaxy视图 Galaxy 是相似性视图,文献或文献组越相似在图中分布的位置越靠近。视图的布局仅由分析结果决定,同一篇文献,与不同的文献在一起分析,结果会不同。通过对Galaxy 视图的形状、分布等整体布局分析,可以快速大致了解文献的主体信息。