1 / 36

计算机科学前沿技术 Frontier Technologies in Computer Science

通识卓越课程 http://en.tjcities.com/index.php/works. 计算机科学前沿技术 Frontier Technologies in Computer Science. 课程网站: http://en.tjcities.com/index.php/works 联系方式: FrontiersCS@gmail.com 微博: http://weibo.com/willtongji. 课程内容. 第 9 章 人工智能前沿 第 10 章 机器学习的研究 第 11 章 搜索引擎技术 第 12 章 集体智慧与 Web 2.0 第 13 章 云计算

Télécharger la présentation

计算机科学前沿技术 Frontier Technologies in Computer Science

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 通识卓越课程 http://en.tjcities.com/index.php/works • 计算机科学前沿技术 • Frontier Technologies in Computer Science 课程网站:http://en.tjcities.com/index.php/works 联系方式:FrontiersCS@gmail.com 微博:http://weibo.com/willtongji

  2. 课程内容 • 第9章人工智能前沿 • 第10章机器学习的研究 • 第11章搜索引擎技术 • 第12章集体智慧与Web 2.0 • 第13章云计算 • 第14章物联网技术 • 第15章服务科学与服务计算 • 第16章智慧地球 第1章概述 第2章计算机硬件的发展 第3章高性能计算 第4章现代操作系统 第5章计算机网络新技术 第6章可信系统和可信软件 第7章数据库技术的发展 第8章数据挖掘及其应用

  3. 第12章 集体智慧与Web 2.0

  4. 本质上,Web 2.0可以被分为两个不同的部分:其一是大量丰富的交互体验,这使得网页摆脱了静态页面,而看起来更像是一个应用。其二则是它的社会化属性,这使得将集体智慧汇集在一起成为可能。 ——Daniel Nations, webtrends.about.com

  5. 本章内容 • 集体智慧导言 • 什么是集体智慧 • 集体智慧与Web 2.0 • 集体智慧在Web领域的应用 • 集体智慧与机器学习 • 搜索排名 • 搜索引擎与信息检索 • 基于内容的度量方法 • 基于链接的度量方法

  6. 本章内容(续) • 推荐系统 • 推荐系统的诞生和现状 • 推荐系统的经典案例──Netflix • 设计推荐系统的基本方法 • 集体智慧中的常用算法 • 贝叶斯分类器 • 决策树分类器 • 神经网络 • k-最近邻 • 优化技术

  7. 集体智慧导言 • 人们使用集体智慧(Collective Intelligence)这一术语已经有十多年之久,随着新型通信技术的出现,尤其是进入Web时代以后,这一术语也变得日趋的流行和重要。

  8. 什么是集体智慧 • 纵观当今的Web领域,当我们讨论集体智慧这一概念的应用时,通常是指把一部分人的行为、偏好或思想数据搜集起来并加以分析,从而寻找新的发现。 • 在维基百科(Wikipedia)上,集体智慧被定义成为是一种共享的或者群体的智能,它是从许多个体的合作与竞争中涌现出来的。

  9. 什么是集体智慧 对于集体智慧的研究,实际上可以被认为是一个属于生物学、社会学、商业、计算机科学、大众传媒和大众行为的多学科课题,其研究的领域从夸克到细菌、植物、动物,直至人类社会各个层次中出现的群体行为。

  10. 集体智慧与Web 2.0 Web 2.0是由计算机领域著名的出版公司O’Reilly的首席执行官Tim O’Reilly在2003年提出的一个概念。 Web 2.0指的是基于Web的下一代社区和托管服务,比如社会化网络、维基百科、大众分类等等,它能够帮助互联网用户更好的协作和分享。

  11. 集体智慧与Web 2.0 Web 2.0预示着技术人员与最终用户使用互联网平台方式的变化 大量的互联网用户需要更好用、更个性化、更多样的内容、服务和应用,这就是互联网发展的推动力 围绕着如何利用这样大规模的用户群体自己来创造、贡献和共享价值,人们又开始思考和探索如何激活网络效应,利用大规模群体智慧的参与架构与社会计算模式 在这一过程中,集体智慧的相关理论与技术扮演了十分重要的角色

  12. 集体智慧在Web领域的应用 维基百科 Google搜索引擎 其他应用

  13. 集体智慧与机器学习 集体智慧的相关理论与技术涉及到了大量的机器学习理论 将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息 借助这些信息,算法就能够预测出未来有可能会出现的其他数据

  14. 搜索引擎与信息检索 搜索引擎技术是集体智慧在Web领域里的一个重要应用,主要包含搜集文档 、建立索引 、结果排序等 全文搜索算法是最重要的集体智慧算法之一,事实证明,人们在这一领域里所产生的新想法已经创造出了大量的财富 信息检索是研究对大规模信息进行快速、准确而全面地获取、组织、挖掘和提供访问的一门学科,其目标是要从大规模文档集合中返回满足用户需求的文档子集 信息检索涉及自然语言处理、机器学习、数据挖掘、并行分布式处理等多个领域的相关理论和技术

  15. 基于内容的度量方法 单词频度 文档位置 单词距离

  16. 基于链接的度量方法 到目前为止,我们对评价度量的讨论都是基于网页内容本身 对搜索结果加以改善,我们可以考查外界就该网页所提供的信息——尤其是谁链向了该网页 基于网页链接的度量方法,最为简单的做法,是针对每个网页统计其链接的数目,并将链接总数作为针对该网页的度量 基于链接的度量方法中 最著名的算法是PageRank算法

  17. 基于链接的度量方法 通过一个具体的例子来看一看PageRank的计算方法 图中,网页B、C和D均指向A,它们的PageRank值已经计算得出。B还指向另外三个网页,而C则指向其他三个网页,D只指向A。为了得到A的PageRank值,我们将指向A的每个网页的PageRank值除以这些网页中的链接总数,然后乘以阻尼因子0.85,再加上一个0.15的最小值 PR(A) = 0.15 + 0.85 * ( PR(B)/links(B) + PR(C)/links(C) + PR(D)/links(D) ) = 0.15 + 0.85 * (0.5/4 + 0.7/5 + 0.2/1) = 0.54525

  18. 推荐系统 全球的网络化、信息化进程深刻地改变了人类的生存方式,Internet 技术的应用给人们生活和工作的各个层面带来了深刻的影响 网络上的“信息过载”和“信息迷航”问题日益严重 解决这些问题的关键在于将Internet 从被动接受浏览者的请求转化为主动感知浏览者的信息需求

  19. 推荐系统 推荐系统中的推荐技术主要分为三类 基于内容的推荐技术 协作型过滤推荐技术 混合推荐技术 几乎所有的大型电子商务系统,如Amazon.com、eBay、China-pub等,都不同程度地使用了各种形式的推荐系统 各类图书馆的联机数据检索、网络信息检索、社交网络、在线信息共享社区等各种信息服务都开始应用相关的推荐算法

  20. 推荐系统 协作型过滤通常的做法是对一大群人进行搜索,并从中找出与当前人品味相近的一小群人 算法会对这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表

  21. 推荐系统的经典案例──Netflix Netflix是美国最著名的流媒体影视播放服务商,它为全球上千万顾客提供DVD电影租赁服务和影视剧在线观看服务 Netflix拥有一个自行研发的推荐系统──Cinemath

  22. 设计推荐系统的基本方法 建立模型 寻找相近用户 欧几里德距离(Euclidean distance)评价 皮尔逊(Pearson)相关度评价 其他相关度评价方法 为用户寻找最佳匹配 为用户推荐商品

  23. 集体智慧中的常用算法 贝叶斯分类器 决策树分类器 神经网络 k-最近邻 优化技术

  24. 贝叶斯分类器 贝叶斯分类器常用于文档处理,比如垃圾邮件过滤,基于关键字的文档分类等 贝叶斯分类器需要利用样本数据进行训练 ,每个样本包含了一个特征列表和对应的分类 以文档分类为例,所谓的特征也就是文档中出现的单词 一篇包含单词“java”的文档究竟是关于编程语言的,还是关于咖啡的。那么“编程语言”和“咖啡”就是两个分类

  25. 优缺点 朴素贝叶斯分类器与其他方法相比最大的优势在于,它在接受大数据量训练和查询时所具备的高速度 尤其当训练量逐渐递增时更是如此——在不借助任何旧的训练数据的前提下,每一组新的训练数据都有可能引起概率的变化 朴素贝叶斯分类器的最大缺陷是它无法处理组合特征的情况 “在线”和“药店” VS “在线药店”

  26. 决策树分类器 利用决策树进行分类非常简单,只要从树的根结点开始,对每个结点的判断条件进行检查 ,如果结点的判断条件满足,就走某个分支,否则,就走另一个分支

  27. 优缺点 决策树最为显著的优点在于,利用它来解释一个受训模型是非常容易的,而且算法将最为重要的判断因素都很好地安排在了靠近树的根部位置 与贝叶斯分类器相比,其主要优点是它能够很容易地处理变量之间的相互影响,却不支持增量式的训练 结点的数量非常庞大时,导致分类效率的降低

  28. 神经网络 神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型

  29. 优缺点 神经网络的主要优点是它能够处理复杂的非线性问题,并且能发现不同输入间的依赖关系 允许增量式训练 神经网络的主要缺点在于它是一种黑盒方法

  30. k-最近邻 利用k-最近邻算法可以进行数值预测,比如针对一组给定的样本来构造价格预测模型 工作原理是接受一个用以进行数值预测的数据项,然后将其与一组已经赋过值的数据项进行比较,从中找出与待预测数据项最为接近的若干项,并对其求均值以得到最终的预测结果

  31. 优缺点 能够利用复杂函数进行数值预测 简单易懂 k-最近邻主要的缺点在于,要求所有的训练数据都必须缺一不可

  32. 优化技术 优化不是要处理数据集,而是要尝试找到能够使成本函数的输出结果达到最小化的值 优化的关键是设计成本函数 成本函数接受一个经推测得到的题解,并返回一个数值结果,该值越大就表示题解的表现越差,该值越小就表示题解的表现越好 优化算法利用该函数对各种题解进行检验,并从中找出最优解

  33. 考虑包含一个变量的函数,可定义为:y = 1/x * sin(x) 因为该函数仅有一个变量,所以从图中我们很容易就可以找到函数的最低点 当面对一个带有多个变量的复杂函数时,寄希望于将其简单绘制出来以寻找最低点这样的做法是行不通的

  34. 模拟退火 模拟退火,是受物理学领域中合金冷却的启发而提出的,它以一个随机推测的题解开始,然后以此为基准,随机选择一个方向,并就近找到另一个近似解,判断其成本值

  35. 遗传算法 遗传算法是受进化理论启发而提出的 它以一组被称为种群的随机题解开始 种群中表现最为优异的成员──即成本最低者──会被选中并通过变异或特征组合(即交叉或配对)的方式加以修改 我们会得到一个新的种群,称之为下一代。经过连续数代之后,题解最终将会得到相应的改善

  36. Thanks! 通识卓越课程 http://en.tjcities.com/index.php/works

More Related