数据挖掘算法的几何思想

数据挖掘算法的几何思想 李保坤老师西南财经大学统计学院

一　数据挖掘介绍 什么是数据挖掘数据挖掘的主要任务数据挖掘简单步骤二　数据挖掘算法及其几何思想分类：分类树、简单贝页斯、Logistic回归、神经网络、判别分析、k-最近邻点预测：多元线性回归、神经网络数据精简：主成分分析探索性分析：聚类关联分析：关联法则三　西南数据挖掘系统内容概要

　　　　一　数据挖掘介绍1.1 什么是数据挖掘 • 是近来创造的名词，是把统计学、计算机科学的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法。 • 数据挖掘是建立在规模、速度、和简单化上的统计学； • “是用统计学和计算机科学的方法为大型数据建模的一种综合工具。”－我的想法

　　　　一　数据挖掘介绍1.1 什么是数据挖掘 • “会数据挖掘找工作时工资要高一些”！ -研究生同学的反馈信息

数据挖掘概念及商务应用 客户关系管理金融电子商务和互联网

客户关系管理 直销（Target Marketing）客户流失预测/跳槽分析（Attrition Prediction/Churn Analysis）欺诈探测（Fraud Detection）信用评分（Credit Scoring）

金融商业问题：公司债券的定价取决于几种因素，公司的风险特征（risk profile）、债务资历（seniority of debt）、公司历史等等解决方案：通过数据挖掘建立预测价格的更为精确的模型

电子商务和互联网 推荐系统把点击鼠标者变成客户

　　　　一　数据挖掘介绍1.2 任务 1.2.1 分类数据挖掘的一项基本任务就是用类别已知的数据找出规则，然后把这些规则用在未进行分类的数据上。分类或许是数据挖掘应用最广泛的任务。

　　　　一　数据挖掘介绍 1.2 任务 1.2.1 分类举例一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款发放给了数千客户，其中的许多接收者（大约20%）有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息等变量建立一个模型预测一个申请人将来会不会欺诈。该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值，欺诈概率超过阈值的那些申请人将建议不批准。

　　　　一　数据挖掘介绍 1.2 任务 1.2.2 预测预测和分类相似，差别在于我们是预测一个变量的数值，而不是一个类别。当然，在分类时我们试图去预测一个类别，而“预测”这个术语在数据挖掘里通常指的是预测一个连续变量的数值。（另外，预测和估计也经常被混用）

　　　　一　数据挖掘介绍 1.2 任务 1.2.3 关联分析有了储存客户交易信息的大型数据库自然就产生了对购买物品进行的关联分析（哪种物品和哪种物品是搭配着买的）。通过关联分析得到的“关联法则”然后以多种方式被利用。例如，百货商店可以利用关联法则在扫描了一个顾客的采购单后印制优惠券，优惠卷上打折扣的商品是由通过分析大量顾客的采购单得到的关联法则决定的。

　　　　一　数据挖掘介绍1.2 任务 1.2.4 数据精简数据分析经常需要把复杂的数据进行精简。分析人员不是处理成千上万种商品，而是希望把数据压缩成几个小组。这种把大量的变量（或者记录）合并而得到一个较小数据集合的过程就叫数据精简。

　　　　一　数据挖掘介绍 1.2 任务 1.2.5 探索性分析审查和检验数据以了解它包含什么信息。例如为全面了解数据需要减少数据集合的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量（即提供类似信息的变量）可以合并到一个变量。类似地，聚类分析可把所有记录划分到由相似记录构成的几个组里。

　　　　一　数据挖掘介绍 1.2 任务 1.2.6 数据显示了解数据包含信息的另一个技术是图形分析。例如，两个变量之间的散布图可以让我们迅速地看到变量之间的关系。

数据挖掘任务以及工具 －分类： k－最近邻点，简单贝叶斯（Naïve Bayes），分类树，判别分析，Logistic回归，神经网络，支持向量机－预测：回归，神经网络，时间序列－关联法则：　关联分析－数据精简：　主成分分析、相关分析、粗糙集－探索性分析　聚类分析

　　　　一　数据挖掘介绍1.3 数据挖掘步骤 把数据划分为训练数据和验证数据两个部分只用训练数据训练模型得到结果，看一下结果是否令人满意检查在验证数据上的结果是否也令人满意研究在验证数据上的各种输出结果尝试几种备择模型选择和部署最佳模型

二　数据挖掘算法思想和应用2.1.1 决策树 • 几何思想：把预测变量空间划分为多个多维空间的“长方形”，每一个“长方形”对应一个类别。

二　数据挖掘算法思想和应用2.1.1 决策树

Iris花

　二　数据挖掘算法思想和应用2.1.2 简单贝叶斯分类思想 • 例如：输入变量有X1,X2,…,Xk, 输出变量y有３个类别y1,y2,y3. • 假定所有的输入变量和输出变量都是随机变量。假定在每一个输出类别上输入变量相互独立。 • 针对每一个观测记录，计算给定输入变量值时输出变量等于每一个类别的条件概率。在某一个类别上的条件概率最大，该观测记录就划为某一类。 • 　对每一个观测记录计算： P(Y=y1|X1=x1,X2=x2,…,Xk=xk) P(Y=y2|X1=x1,X2=x2,…,Xk=xk) P(Y=y3|X1=x1,X2=x2,…,Xk=xk)

　二　数据挖掘算法思想和应用2.1.2 简单贝叶斯

　二　数据挖掘算法思想和应用2.1.3 Logistic回归 • 输出变量只有２个类别，即：１和０ • 对每一个观测记录的输入变量，计算其输出变量等于１的概率。该概率是输入变量某线性组合的单调函数。 • 当该概率大于某个值时划分到一个类；否则划分到另一个类。

　二　数据挖掘算法思想和应用2.1.3 Logistic回归 Logistic 回归模型拟和的Ｐ

　二　数据挖掘算法思想和应用2.1.4 判别分析 • 贝叶斯判别 • fisher判别函数分类思想：　在输入变量空间中找一条直线，使得几个输出类别在这条直线上的投影尽可能地分开。

　二　数据挖掘算法思想和应用2.1.4 判别分析

　二　数据挖掘算法思想和应用2.1.5 k最近邻点 • 假定K=3 • 对数据集合中的每一个点，检查它在预测变量空间中最邻近的３个点，如果这３个邻居中的大多数都属于某一个类别，那么该点就属于此类别。 • －这是“民主投票方式”的分类法

　二　数据挖掘算法思想和应用2.1.5 k最近邻点

　二　数据挖掘算法思想和应用2.1.6 神经网络 • 人类的大脑估计有一百亿个神经元，每一个神经元平均和其它10,000个神经元相连接。神经元通过神经突触接收信号，神经突触控制着信号的反应。这些神经突触的网络连接被认为在大脑活动中起着关键作用。 • 人工神经网络的灵感来源于科学家对大脑行为研究的生理发现。

　二　数据挖掘算法思想和应用2.1.6 神经网络

　二　数据挖掘算法思想和应用2.2.1 多元线性回归思想：找到一条直线（或者多维空间的超平面），使得数据集合的点到该直线的竖直距离平方和最小

　二　数据挖掘算法思想和应用2.3.1 主成分分析 • 思想：在保证数据信息丢失不多的情况下，把高维空间的数据投影到低维空间。目的是除掉变量之间包含信息的冗余、并降低数据的维数。

　二　数据挖掘算法思想和应用2.3.1 主成分分析

　二　数据挖掘算法思想和应用2.3.2 聚类分析 • 聚类分析的目的是根据对象几种属性的测量值组成相似对象的几个集合。关键的思想是把数据以一种有利于进行分析的方式归类。

k1 Y k3 X 　二　数据挖掘算法思想和应用2.3.2 聚类分析

Y 　二　数据挖掘算法思想和应用2.3.2 聚类分析

　二　数据挖掘算法思想和应用2.3.3 关联分析 • 关联分析研究的是“什么跟什么在一起”。例如，一家书店的经理可能很关心客户买书的习惯以便卖出更多的书。这些方法又称为购物篮分析(Market basketanalysis)，因为他们起源于确定购买活动关系的客户交易数据库研究。

谢谢观赏！ 李保坤西南财经大学统计学院副教授美国新墨西哥州立大学博士

数据挖掘算法的几何思想

数据挖掘算法的几何思想

Presentation Transcript