270 likes | 409 Vues
因特网信息资源检索. 孟祥娟 邮箱: MXJCHCH@163.COM. 因特网信息资源检索. 因特网是一个信息的海洋,如何在这个浩瀚的海洋中迅速而准确地找到你想要的信息呢?. 搜索引擎 (Search Engine). 因特网信息资源检索. § 什么是搜索引擎?. 它以一定的策略在因特网中搜集、发现信息;. 它对信息进行理解、提取、组织和处理;. 它为用户提供检索服务,从而起到信息导航的目的。. 因特网中的信息检索. § 常用信息检索方式. 目录索引. ( 分类搜索 ). 全文搜索. ( 关键字搜索 ). 因特网中的信息检索. § 特色信息检索方式.
E N D
因特网信息资源检索 孟祥娟 邮箱:MXJCHCH@163.COM
因特网信息资源检索 因特网是一个信息的海洋,如何在这个浩瀚的海洋中迅速而准确地找到你想要的信息呢? 搜索引擎(Search Engine)
因特网信息资源检索 §什么是搜索引擎? • 它以一定的策略在因特网中搜集、发现信息; • 它对信息进行理解、提取、组织和处理; • 它为用户提供检索服务,从而起到信息导航的目的。
因特网中的信息检索 §常用信息检索方式 目录索引 (分类搜索) 全文搜索 (关键字搜索)
因特网中的信息检索 §特色信息检索方式 我们经常使用的一般是综合信息检索工具,而当我们要查找图片、音 频资料、个人电话、地图等信息时,使用综合搜索引擎会找到很多无用的 信息,而且搜索的效率和有效性都不高。 如何解决这个问题呢? 特色搜索引擎(有时是综合检索工具其中的一个功能)。 专门收集某一类的 信息资源,内容丰富,数据量大,能帮助我们迅速找到一些有用的信息。
因特网中的信息检索 §特色信息检索方式
因特网中的信息检索 §专业搜索引擎 专业性质的搜索引擎,如 SOSIG 是社会科学信息的专门 的信息检索工具Fhttp://www.sosig.ac.ukG,涉及经济学、哲学、教育、政治、 环境科学、心理学、人类学、社会福利、政府、管理和妇女研究等信息资源。
因特网中的信息检索 §其他信息检索工具 FTP搜索引擎 FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。 由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。
因特网中的信息检索 §其他信息检索工具 Archie程序 Archie是第一个自动索引因特网上匿名FTP 网站文件的程序,当时因特网还未出现,但网络中文件传输相当频繁,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便, 因此,1990 年McGill University的学生Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
因特网中的信息检索 §元搜索引擎 是一种调用其他多个独立搜索引擎的引擎,是对多个独立搜索引擎的整合、调用、控制和优化,能方便地检索多个搜索引擎,扩大搜索范围,提高检索的全面性。 为了借用尽可能多的搜索引擎,元搜索通常只使用简单、直接的搜索策略,一般只支持AND、OR、NOT等比较低级的通用搜索操作,并且检索速度也慢。
因特网中的信息检索 §因特网信息检索发展趋势 多媒体信息检索 因特网上激增的多媒体数据除了包括传统的文本和数字外,还包括图形、图像、视频、音频、动画。每一种多媒体数据中都有一些特殊的数据,这些数据难以用字符来描述。 另外,由于多媒体形式的多元化和特征的多维性,不同的人因知识、经验不同而有不同的理解,在很多情况下,多媒体信息也无法直接用几个关键字加以描述。
因特网中的信息检索 §因特网信息检索发展趋势 专业垂直搜索引擎 综合性的搜索引擎收录各方面、各学科、各行业的信息,对用户来说,不相关的信息太多。 垂直类搜索引擎是只面向某一特定领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。
信息检索工具的工作原理 §全文搜索引擎的工作原理 我们先来看一个生活中的小例子。。。 你去买笔,通常会有以下这段对话: 你对老板说:“我要买支笔。” 老板问:“什么笔?” 你对老板说:“圆珠笔。” 老板问:“什么颜色?” 你第老板说:“蓝色。” 老板从柜台拿出一支蓝色的圆珠笔。 购物流程 检索流程
信息检索工具的工作原理 §全文搜索引擎的工作原理 搜索引擎是如何搜索信息的呢?
信息检索工具的工作原理 §全文搜索引擎的工作原理 搜索引擎的工作包括三个过程: Step1: 搜索器在因特网中发现、搜索网页信息; Step2: 索引器对所搜集的信息进行提取和组织,并建立索引库; Step3: 由检索器根据用户输入的查询关键词,在索引库中快速检索出相关的文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。
信息检索工具的工作原理 §全文搜索引擎的工作原理 实例分析:你在“百度”搜索引擎中输入“北京概况”进行检索,结果出来后,有上万条信息,查看其中一项,就看到了相应的网页。(中国西部投资网http://www.cwinvest.com/tzhj.asp?dq=11) 三个过程 : Step1 “百度”的“蜘蛛”程序“爬”到了“中国西部投资网”上,抓到了“http://www.cwinvest.com/tzhj.asp?dq=11”页面; Step2 从页面全文中抽取一系列关键字,包括“北京”、“概况”等等,并把网页网址与这些关键字关联,利用“索引器”建立网页索引数据库; Step3 当用户向“百度”提交了关键字,“百度”就利用“检索器”从索引数据库中搜索,并将搜索到的结果展示在页面上。
信息检索工具的工作原理 §全文搜索引擎的工作原理 “百度”的“蜘蛛”是如何知道有(中国西部投资网http://www.cwinvest.com/tzhj.asp?dq=11)这个网页的呢? 1、“北京国际投资促进网”在“百度”的网站目录中注册过,“蜘蛛”顺着注册的地址找到其首页,并顺着首页找到“北京概况”这个特定页面。 两个可能 : 2、“蜘蛛”顺着其他网站上的“中国西部投资网”链接爬到了其首页上,并顺藤摸瓜,抓到了“北京概况”这个页面。
信息检索工具的工作原理 §目录索引类搜索引擎的工作原理 目录索引类搜索引擎一般采用人工方式采集和存储网络信息,依靠手工为每个网站确定一个标题,并给出大概的描述,建立关键字索引,将其放入相应的类目体系中。
信息检索工具的工作原理 §目录索引类搜索引擎的工作原理 如何进行目录分类呢? 网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然 后再细分为各科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目录-专题目录-链接-网站。
信息检索工具的工作原理 §目录索引类搜索引擎的特点 从使用的角度讲,目录索引类搜索引擎最大的特点就是在查询信息时,事先可以没有特定的信息检索目标(关键词),通过浏览主题了解某一主题的相关资源。 1 而且,目录索引类搜索引擎的网页由人工精选,网页内容丰富,学术性较强。 2
信息检索工具的工作原理 §目录索引类搜索引擎的不足 因特网上的信息量大,信息资源不断增加、复杂多变,人工分类具有一定的主观性; 同时,由于人工编制和维护要花费大量的人力和时间, 因此,更新速度慢。 1 部分网络目录并不全是人工方式采集和组织信息,而是利用自动功能或者由用户递交的方式来丰富和补充资源。 2 由于目录索引类搜索引擎与全文搜索引擎检索有各自的优点和缺点,目前它们谁也无法完全取代谁,于是很多搜索网站都同时提供这两种类型的服务,例如 Yahoo、Sina 等。
信息检索工具的工作原理 §因特网信息资源检索的一般策略
常用医学网站 • 国外生物医学网站 美国国家医学图书馆 (http://www.nlm.nih.gov) 美国国家卫生研究院( http://www.nih.gov ) 世界卫生组织 WHO ( http://www.who.int) 美国疾病控制预防中心( http://www.cdc.gov ) MerckMedicus ( http://www.merckmedicus.com )
常用医学网站 • 国内生物医学网站 中国医学生物信息网 (http://cmbi.bjmu.cn) 中华人民共和国卫生部( http://www.moh.gov) 中国疾病控制预防中心( http://www.chinacdc.net.cn ) 中华医学会(http://www.cma.iorg.cn ) 丁香园生物医学科技网 ( http://www.dxy.cn )
因特网信息资源检索 课堂实践