Download
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
高级人工智能 PowerPoint Presentation
Download Presentation
高级人工智能

高级人工智能

328 Vues Download Presentation
Télécharger la présentation

高级人工智能

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. 高级人工智能 第十三章 知识发现(二) 史忠植 中国科学院计算技术所 史忠植 高级人工智能

  2. 主要内容 • 研究背景 • MSMiner体系结构 • 元数据 • 数据仓库平台 • 数据采掘集成工具 史忠植 高级人工智能

  3. 典型的知识发现系统 • SAS公司的SAS Enterprise Miner • IBM公司的Intelligent Miner • Solution公司的Clementine • 加拿大Simon Fraser Univ.的DBMiner • 中科院计算技术研究所的MSMiner • 等 史忠植 高级人工智能

  4. 知识发现工具SAS SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。 史忠植 高级人工智能

  5. 知识发现工具SAS • SAS Enterprise Miner提供"抽样-探索-转换-建模-评估"(SEMMA)的处理流程。数据挖掘算法有: • ·聚类分析,SOM/KOHONEN神经网络分类算法 • ·关联模式/序列模式分析 • ·多元回归模型 • ·决策树模型(C45, CHAID, CART) • ·神经网络模型(MLP, RBF) • ·SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。 史忠植 高级人工智能

  6. 知识发现工具Intelligent Miner IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 史忠植 高级人工智能

  7. 知识发现工具Clementine Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。 史忠植 高级人工智能

  8. 数据挖掘工具: 公用系统 • MLC++ • Matlab • Weka 史忠植 高级人工智能

  9. 知识发现工具MSMiner 中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。 MSMiner具有下列特点: .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。 .数据的抽取、转换、装载等预处理方便,支持OLAP查询。 史忠植 高级人工智能

  10. MSMiner的特点 • 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。 • 实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。 • 可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。 • 容易进行二次开发。 史忠植 高级人工智能

  11. 数据仓库: 特征 • 面向主题 • 集成性 • 稳定性 • 随时间变化 史忠植 高级人工智能

  12. 数据仓库: OLAP • ROLAP: Relational OLAP • MOLAP: Multidimensional OLAP • HOLAP: Hybrid OLAP 史忠植 高级人工智能

  13. 数据挖掘和数据仓库的结合 • 数据仓库为数据挖掘提供经良好处理的数据源 • 数据挖掘为数据仓库提供深层数据分析手段 史忠植 高级人工智能

  14. MSMiner体系结构 设计目标: 提供快捷有效的数据挖掘解决方案。 设计要求: • 开放性 • 可扩展性 • 效率 • 易用性 史忠植 高级人工智能

  15. MSMiner体系结构 元数据模块 数据采掘集成工具 执行数据采掘任务 编辑数据采掘任务 数据仓库 OLE DB for ODBC 主题组织 数据抽取和集成 数据仓库管理器 客户端 服务器端 MSMiner体系结构示意图 OLAP 可视化 史忠植 高级人工智能

  16. 元数据的内容 • 关于外部数据源的 • 关于内部数据的(包括数据库、表、字段的信息) • 关于数据仓库的(包括事实表、维表、立方以及其它的中间表) • 关于用户信息的 • 数据采掘算法(包括算法的参数信息) • 关于采掘任务的(包括采掘步骤、每个步骤的所用的参数) 史忠植 高级人工智能

  17. 元数据:元数据库 史忠植 高级人工智能

  18. 元数据:元数据对象模型 设计思路 • 一致性 • 完备性 • 易维护性 史忠植 高级人工智能

  19. 元数据的结构 元数据是 • 层次的 • 嵌套的 • 封装的 • 互相联系的 • 采用面向对象的方法 共有60多个类 史忠植 高级人工智能

  20. 数据仓库平台:结构 数据采掘集成工具 元 数 据 OLAP及可视化工具 数据仓库 主题1 主题2 主题n ... 数据抽取、清洗、聚集、转换 外部数据 MSMiner数据仓库结构示意图 史忠植 高级人工智能

  21. 数据仓库平台:数据抽取和集成 • 数据的简单抽取和集成 • 数据的复杂处理 • 面向数据挖掘的数据预处理 史忠植 高级人工智能

  22. 数据抽取和集成: MSETL • MSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库 史忠植 高级人工智能

  23. 数据抽取和集成: MSETL 用户界面 (ETL转换函数和ETL任务)逻辑处理 元数据管理 数据库服务器 史忠植 高级人工智能

  24. 数据抽取和集成: MSETL • 支持多种数据源和目的数据库 • 良好的可扩充性 • 高效率的调度执行功能 • 增量更新功能 史忠植 高级人工智能

  25. 数据抽取和集成: MSETL 史忠植 高级人工智能

  26. 数据抽取和集成: MSETL 史忠植 高级人工智能

  27. 数据仓库平台:数据仓库建模 产品维表 产品号 产品名称 产品目录 客户维表 事实表 客户号 客户名称 客户地址 产品号 客户号 订单号 时间标识 地区名称 产品数量 总价 订货维表 订单号 订货日期 时间维表 时间标识 月 季度 年 地区维表 地区名称 省别 星型模型 史忠植 高级人工智能

  28. OLAP • MOLAP, ROLAP, HOLAP • OLAP 的操作 • Slice (切片) • Dice (切块) • Roll up (上卷) • Drill down (下钻) • Pivot (旋转) • OLAP方案采用了自主开发的 OLAP Server 史忠植 高级人工智能

  29. 数据立方体 史忠植 高级人工智能

  30. 数据仓库平台:OLAP的实现 史忠植 高级人工智能

  31. 数据挖掘集成工具:结构 算法管理 元数据 任务模型库、算法描述 任务编辑 任务规划 和执行 算法库 数据仓库平台 数据挖掘集成工具结构示意图 史忠植 高级人工智能

  32. 数据挖掘集成工具:数据挖掘任务模型 DMTask = (V, R) V = {x | x ∈StepObjects} R = {<x, y> | P(x, y) ∧ x, y∈V} Step3 Step1 Step2 Step5 Step4 史忠植 高级人工智能

  33. 数据挖掘集成工具:数据挖掘任务模型 步骤对象BNF语法定义: <StepObject> ::= <Attribute_List>;<Method_List> <Attribute_List> ::= [<Attribute>|<Attribute>;<Attribute_List>] <Attribute> ::= <Name>,<Value> <Method_List> ::= [<Method>|<Method>;<Method_List>] <Method> ::= <Name>,<Script> <Name> ::= [<char>|<string>] <Value> ::= [<char>|<string>|<integer>|<float>] <Script> ::= <DML_Sentence>* 史忠植 高级人工智能

  34. 数据挖掘集成工具:编辑任务模型 • 任务向导 史忠植 高级人工智能

  35. 数据挖掘集成工具:编辑任务模型 • 任务编辑图板 史忠植 高级人工智能

  36. 数据挖掘集成工具:处理任务模型 人机界面 规划器 主控模块 解释器 缓存 函数库 黑板 任务模型库 数据采掘任务处理引擎的结构 史忠植 高级人工智能

  37. 数据挖掘集成工具:处理任务模型 S3 S1 S5 S2 S4 任务规划和解释执行 S1 - S2 - S3 - S4 - S5 史忠植 高级人工智能

  38. 数据挖掘集成工具:DML语言 DML函数 • 人机交互和控制台输入/输出 • 数值计算 • 字符串处理 • 图形、图表展示 • 文件操作 • 数据库访问 • 网络通讯 • 对象访问 • 消息处理和流程控制 • 黑板操作 • 外部功能调用 • 其它辅助功能 史忠植 高级人工智能

  39. 数据挖掘集成工具:内嵌 • 决策树 • SOM神经网络 • 粗糙集 • 关联规则 史忠植 高级人工智能

  40. 决策树 史忠植 高级人工智能

  41. 知识约简 • 知识约简——在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识 • 冗余知识——资源的浪费;干扰人们作出正确而简洁的决策 • Rough Set——把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak ) • 知识约简是粗糙集的核心内容之一 史忠植 高级人工智能

  42. Rough Set约简 史忠植 高级人工智能

  43. 数据挖掘集成工具:外联 • BP神经网络 • 统计分析 • 模糊聚类 • 超曲面分类 • SVM • 贝叶斯网络 • 基于范例推理(CBR) • 隐马尔科夫模型(HMM) 史忠植 高级人工智能

  44. BP用于预测 史忠植 高级人工智能

  45. 统计工具 • 线性回归模型——一元线性回归、多元线性回归、逐步回归 • 非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 • 确定型时间序列模型——指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法 • 随机型时间序列模型(自回归-移动平均模型ARMA) • 相关分析 史忠植 高级人工智能

  46. 自回归移动平均( ARMA) 史忠植 高级人工智能

  47. 模糊聚类 • 基于传递闭包的模糊聚类——计算模糊相似矩阵的传递闭包,从而获得传递闭包法的模糊聚类 • 基于摄动的模糊聚类——参数系相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类 史忠植 高级人工智能

  48. 数据挖掘集成工具:可扩展算法库 • 算法注册 史忠植 高级人工智能

  49. MSMiner的应用:计算机选案 决策树选案 数据汇总表 定义样本模板 执行选案 样本数据表 选案规则 训练样本数据 选案结果分析 税务稽查计算机选案系统功能结构 史忠植 高级人工智能

  50. MSMiner的应用:计算机选案 挖 掘 结 果: 史忠植 高级人工智能