1 / 18

数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著

数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社. 数据挖掘的对象 选择建模数据 构造建模数据集. 第 4 章 数据选择. 双击添加主标题. 4.1 数据挖掘的对象. 4.1.1 数据库 一个数据库系统也称为数据库管理系统( DBMS ),由一些相关数据组成,并通过软件程序管理和存储这些数据。

Télécharger la présentation

数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社

  2. 数据挖掘的对象 • 选择建模数据 • 构造建模数据集 第4章 数据选择 双击添加主标题

  3. 4.1 数据挖掘的对象 4.1.1 数据库 • 一个数据库系统也称为数据库管理系统(DBMS),由一些相关数据组成,并通过软件程序管理和存储这些数据。 • DBMS提供数据库结构定义,数据检索语言(SQL等),数据存储,并发、共享和分布式机制,数据访问授权等功能。 • 关系数据库由表组成,每个表有一个唯一的表名,属性(列或域)集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通过键值加以区别。关系表中的一些属性域描述了表间的联系,这种语义模型就是实体关系(ER)模型。 • 关系数据库是当前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。

  4. 4.1.1 数据库 目前研究的主要问题有: • 超大数据量。 • 动态变化的数据。 • 噪声。 • 数据不完整。 • 冗余信息。 • 数据稀疏。

  5. 联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。 4.1.2 数据仓库 数据仓库(Data Warehouse)的一个综合性的定义是:它是一个集成的,面向主题的、设计用语决策支持功能(DSF)的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。

  6. 4.1.2 数据仓库 • OLTP处理一个行业或组织的日常操作所必须的数据。事务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的部分原因是由于OLTP环境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变(只读)。 • 粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客户的需要以及所采集数据的数量。

  7. 依赖数据 数据仓库 外部数据 提取/汇总数据 ETL例程 (提取/变换/加载) 决策支持系统 操作型数据库 独立数据集市 报告 4.1.2 数据仓库 • 数据仓库同时也可以看作是一个采集、存储、管理和分析数据的过程(Gardner,1998)。数据仓库最有效的数据挖掘工具是多维分析方法(Multidimensional Data Analysis),也称为联机分析处理(OLAP,Online Analytical Processing)。下图显示了仓储过程的关键组件。 数据仓库过程模型

  8. 4.1.3 文本 • 文本数据一般存放在文本数据库中。文本数据库中存放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的(如,题录数据加全文、HTML、Email邮件等)。Web网页也是文本信息,把众多的Web网页组成数据库就是最大的文本数据库。

  9. 4.1.3 文本 针对文本数据库的数据挖掘,内容包括: • 文本的主题特征提取 • 文本分类 • 文本聚类

  10. 4.1.4 Web信息 Web数据挖掘是指从众多Web网站、网页上挖掘出有用数据和知识的过程。 Web上的信息完全可以视为一个异构的数据库环境。对这些数据进行挖掘,首先解决站点之间异构数据的集成问题,为用户提供一个统一的视角来看待Web资源。其次,对于集成的Web数据至少应提供两个方面的挖掘功能:网络信息与数据的查询;Web数据的分析处理和知识发现。

  11. 4.1.4 Web信息 • 由于Web数据除了相互间异构外,大量的数据还是半结构、无结构的文本和多媒体信息,所以面向Web的数据挖掘远比关系数据库或数据仓库的数据挖掘复杂得多。目前迫切要解决的是构造一个模型(标准)来清晰地描述Web资源,开发适合Web资源的数据挖掘功能。

  12. 4.1.5 空间数据 • 所谓空间数据挖掘就是指抽取空间关系知识,或其他没有在空间数据库明确存放的有意义的模式。 • 空间数据库存放着大量与空间相关的数据,例如地图、遥感数据或医疗图像数据、大规模集成电路设计数据等。空间数据包含空间属性和非空间属性,尽管有的空间属性经过处理可以转化为一般的属性要素参与分析。

  13. 4.1.5 空间数据 空间数据挖掘可以帮助理解空间数据、发现空间关系和空间与非空间数据间关系、构造空间知识库、重组空间数据库,以及优化空间查询等。目前广泛应用与地理信息系统、地理市场、遥感、图像数据库探索、医疗成像、导航、交通控制、环保等许多其他利用空间数据的领域。

  14. 4.2 选择建模数据 • 根据所构建模型类型的不同,需要的数据也不相同。选择建模数据,就要在相关领域和专家知识的指导下,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据,亦即辨别出需要进行分析的数据集合,缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量。

  15. 4.2 选择建模数据 以下是构建发现潜在用户模型的数据选择: • 户外运动用品商向运动爱好者销售服装。为了发现潜在的用户,户外运动用品商从Power列表公司购买了潜在用户列表。列表包含了姓名、地址和35个人口统计学和心理学属性。户外运动用品商使用选择策略后仅选择了30~55岁的男性,给他们寄去了可跟踪的用品目录。经过三个月的运作,响应和销售额与原始记录一起生成一个建模数据集。

  16. 4.2 选择建模数据 • 提示:列表销售商出售的是列表。根据业务类型,它们通常收集和销售姓名、地址和电话号码、以及人口统计学数据、行为数据和/或心理数据。 • 提示:人口统计学数据包括性别、年龄、婚姻状况、收入、住房所有权、居住类型、教育水平、种族、子女等数据。人口统计学数据具有许多优点,这类数据非常稳定,这使其可以在预测建模上获得应用。

  17. 4.2 选择建模数据 从各种数据源中选择建模数据

  18. 谢谢观赏 谢谢观赏

More Related