计算机辅助医学医学数据挖掘（上）

计算机辅助医学医学数据挖掘（上） 刘雷上海生物信息技术研究中心 2013.3.15

提纲基本概念 1 关键技术相关工具 2 4 应用实例 3

背景需求是发明之母 • 数据挖掘引起了信息产业的极大关注，主要原因是存在大量的数据，并且迫切需要将这些数据转换成有用的信息和知识。什么激发了数据挖掘？

背景数据收集和数据库创建（20世纪60年代和更早） --原始文件处理数据库管理系统（70年代） • 层次和网状数据库系统 • 关系数据库系统 • 数据建模工具：实体-联系模型 • 索引和数据组织技术：b+树 • 查询语言：SQL等 • 联机事务处理（OLTP）高级数据库系统（80年代中期-现在）基于Web的数据库系统（90年代中期-现在） --高级数据模型 --面向应用 --基于XML的数据库系统 --Web挖掘数据仓库和数据挖掘（80年代后期-现在） --数据仓库和OLAP --数据挖掘和知识发现数据库技术的演化 Jiawei Han， Data Mining 数据挖掘是信息技术自然演化的结果新一代综合信息系统（2000-。。。）

背景 Databases are too big 数据的丰富带来了对强有力的数据分析工具的需求

数据挖掘—概念 数据挖掘是从大量数据中提取或“挖掘”知识。 --Jiawei Han，MichelineKamber， Data Mining： Concepts and Techniques 大规模和快速的统计学。 --Darryl Pregibon 数据挖掘是用模式识别、统计学、数学等方法过滤存储在数据库中大量的数据来发现新的、有意义的关系、模式和趋势的过程。 --Gartner小组数据挖掘正处在变动和发展过程中，有很多数据挖掘的定义，也有很多关于数据挖掘是什么和不是什么的讨论。

数据挖掘—概念 • 相关概念 a scientific discipline concerned with the design and development of algorithms that allow computers to evolve behaviors based on empirical data, such as from sensor data or databases. 机器学习（machine learning）人工智能（machine learning） the intelligence of machines and the branch of computer science that aims to create it. In machine learning, pattern recognition is the assignment of some sort of output value (or label) to a given input value (or instance), according to some specific algorithm. 模式识别（ pattern recognition ）

数据挖掘– 概念 数据库技术机器学习数据挖掘信息科学统计学可视化其他科学数据挖掘是一个交叉学科

数据挖掘– 任务分类 分类（classification）聚类（clustering）预测（prediction）估值（estimation）数据挖掘描述和可视化（description and visualization）关联分析（association）

背景 • 计算机信息管理系统的应用 • 电子病历和病案的大量应用 • 医疗设备和仪器的数字化 • 分子生物学方法在医学上的应用 • 什么激发了医学数据挖掘？数据数据需求是发明之母数据数据数据数据数据数据

背景 • 如何利用海量数据的信息资源 • 为疾病的诊断和治疗提供科学的决策 • 为医学基础、临床研究提供知识 • 更好的为远程医疗及社区医疗提供保证

背景 • 常用医学数据分析方法 • 统计方法 • 常用统计软件 • SPSS • SAS • S-Plus

医学数据 模型知识数据挖掘的方法背景 • 常用方法的局限性 • 量 – 大数据量 • 维 -- 高维度 Data Mining

医学数据挖掘 • 医学数据 • 记录内容多 • 病人基本信息 • 手术记录 • 出院小结 • 免疫组化结果 • 影像学检测结果

医学数据挖掘 • 医学数据 • 记录的形式多样 • 纸质vs电子 • Excel vs 自然语言 • 图像 • …… 电子病历 EXCEL表格

医学数据挖掘 • 医学数据 • 不完整性 • 病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映, 表现为医学信息的不完全性。 • 时间性。 • 医学检测的波形、图像都是时间的函数。 • 冗余性。 • 医学数据库是一个庞大的数据资源, 每天都会有大量相同的或部分相同的信息存储在其中。

医学数据挖掘 • 高通量生物医学数据特点 • 纬度高 • 数据量大

医学数据挖掘 • 数据挖掘技术在生物医学方面面临的挑战 • 医学数据存储 • 大规模、高通量、高维度数据的处理 • 高效、准确、稳定的分析方法

医学数据挖掘的关键技术 • 数据预处理 • 医学数据库中含有海量的、不同来源的原始信息, 其中包括大量模糊的、不完整的、带有噪声和冗余的信息。 • 在数据挖掘之前, 必须对这些信息进行清理

医学数据挖掘的关键技术 • 信息融合技术 • 医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成。 • 对这些不同物理属性的医学数据, 应采用不同的技术和措施进行处理

医学数据挖掘的关键技术 • 快速的、鲁棒的挖掘算法 • 医学数据数据量大，必须考虑医学数据挖掘的效率问题 • 研究快速挖掘算法对于远程医疗和社区医疗具有更深远的意义, 将直接影响其响应速度和医疗成本。

医学数据挖掘的关键技术 • 提供知识的准确性和可靠性 • 医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策 • 如何降低医学数据挖掘过程中的风险, 提高挖掘结果的准确性和科学性, 是医学数据挖掘能否得到实际应用的关键所在。

数据挖掘的一般过程 挖掘出的知识结果解释和评估数据挖掘算法执行数据收集数据预处理问题定义数据挖掘的过程

数据挖掘的关键步骤 早期预处理 • Learning the application domain学习领域知识 • relevant prior knowledge and goalsof application • 相关知识和目标 • Creating a target data set: data selection选择数据 • Data cleaningand preprocessing: (may take 60% of effort!) 数据清理 • Data reduction and transformation数据转换 • Find useful features, dimensionality/variable reduction, invariant representation 提取特征数据预处理

数据挖掘的关键步骤 • Choosing functions of data mining 选挖掘功能，如： • summarization, classification, regression, association, clustering • Choosing the mining algorithm(s) 选算法 • Data mining: search for patterns of interest 挖掘模式 • Pattern evaluation and knowledge presentation 评价结果，知识表达 • visualization, transformation, removing redundant patterns, etc. 可视化，转换 • Use of discovered knowledge 挖掘后期处理

数据挖掘金字塔 不同层次的用户 End User Increasing potential to support business decisions 向上—更宏观决策 DecisionMaking 决策 Business Analyst Data Presentation表达 Visualization Techniques Data Mining 挖掘 Data Analyst Information Discovery Data Exploration 统计等等 Statistical Summary, Querying, and Reporting 预处理/集成, 数据仓库 DBA Data Sources 数据源 Paper, Files, Web documents, Scientific experiments, Database Systems

数据预处理 挑战不同试验点不同时间段不同记录格式不同的数据集合度不同的错误形式数据关联数据仓库整合程度数据整合

数据预处理 填补残缺值残缺值出现的原因舍去残缺值不良属性及属性值数据的有效期 • 残缺值 • 通常指超出正常范围，或者在一个正常情况下不可能出现0值的位置出现0. • 不正确的值

变量选择 • The more , the better? • Yes and No 维度增高，对数据的描述全面，信息量增大有些数据维度可能带有噪声维度过大增加了计算量数据量数据维度

降低特征空间的维数 • 降低计算复杂度 • 提高分类的准确率变量选择 • 特征选择 • 从一组特征中选出一部分最有代表性的特征。 • 从原来的特征空间里面选出一个真子集 • 特征抽提 • 采用变换的方式将原来的高维空间映射到一个低维空间 • 可以看作从测量空间到特征空间的一种映射(Mapping) 或变换( Transform)

特征选择 • 涉及的领域越来越广 • 电子、工业、医学 • 数据类型越来越多 • 高通量数据 • 文本 • 图像 • ……

特征选择 • 特征选择的数学定义：所谓特征选择，就是从 L 个度量值集合{x1,x2,…,xL}中，按某一准则 J 选择出供分类用的子集，作为降维(m 维,m<L)的分类特征

特征选择 • 特征选择是模式识别的重要组成部分，它主要有两方面应用： • 从特征空间中选择一个维数更小的特征子空间以最好的表达某个类自身； • 从特征空间中选择一个维数更小的特征子空间用于最好的区分不同类别。

特征选择 • 特征选择可以有效的降低维数 • 不相关的变量（irrelevant features） • 冗余的变量（redundant features）计算此圆的面积在知道半径r的情况下，直径d为冗余变量颜色（）为不相关的变量 S=π*r*r

特征选择 • 两种途径 • 排序（rank） • 子集（subset） —————— ————— ————— ———— ———— ———— ——— —— —— S1 S2 S3

特征选择 • 相关概念 • Models • Search strategies • Feature quality measures • Evaluation

特征选择 • models • Filter Methods • Select the best features according to a reasonable criterion • The criterion is independent of the real problem • Wrapper Methods • Select the best features according to the final criterion • For each subset of features, try to solve the problem

特征选择 • Search strategies • 完全搜索策略 • 穷举法 • 分支定界法 • 非完全搜索策略 • 启发式搜索策略 P • 前向 • 后向 • 随机 Q F F F F F F F F F 前向：最优P F F F F 后向：最优Q

特征选择 • Feature quality measures • 欧几里德距离（Euclidean distance） • 特征熵 • 信息增益

特征选择 • Evaluation • 特征选择前后的比较 • 不同特征选取方法的比较

特征选择 • 有指导 • 数据集有分类标签 • 例如：信息熵增益 • 无指导 • 数据集无分类标签 • 例如：聚类--k-means • 半指导 • 小部分数据有分类标签 • 大部分数据没有分类标签

数据挖掘—方法 • 数据挖掘方法 • 统计方法 • 机器学习 • 神经计算 • 可视化

医学数据挖掘—方法 • 数据挖掘方法 • 常用的数据挖掘方法一般都可用于医学数据 • 分类方法 • SVM • Logistic回归 • 决策树 • 聚类方法 • K-近邻 • SOM

数据挖掘 – 方法 关联规则强关联规则满足最小支持度和最小置信度找频繁项集候选项集合 Support 置信度表示了这条规则有多大程度上值得可信频繁项集产生关联规则 Confidence(A==>B)=P(B|A)=support(A∪B)/spuuort(A) 有效规则 Apriori Algorithm

数据挖掘– 方法 分类因变量可以是二分类、多分类自变量可以为类别变量、连续属性流行病学和医学最常用的分析方法 • 寻找危险因素 • 预测 • 判别 Logistic回归富士康跳楼事件

数据挖掘 – 方法 AdaBoost 分类将分类性能较差的弱分类器串联起来，通过加权投票机制有效提升弱分类器的分类性能 • AdaBoost的每一轮训练都会为样本重新分配权值：对上一次训练时被错误分类的样本给出更大的权值，以便在本次训练时着重对错分的样本进行分类。 • 同时AdaBoost会给分类正确率高的弱分类器更高的权值，以提升总体模型的分类准确率。 • AdaBoost对噪声数据和离群值敏感

数据挖掘– 方法 分类通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试，并且该节点的每一个后继分支对应于该属性的一个可能值 CEA 阳性阴性 AFP 预后好阳性阴性预后差预后好 • 实例是由属性-值对表示的 • 目标函数具有离散的输出值 • 可能需要析取的描述 • 训练数据可以包含错误 • 训练数据可以包含缺少属性值的实例决策树

数据挖掘– 方法 AD Tree 分类 Alternative Decision Tree（ADTree）是一种结合决策树（Decision Tree）和Boosting的分类方法一棵ADTree由若干决策节点（decision node）和预测节点（prediction node）组成，其中决策节点表示一个预测状态，预测节点包含一个数字。ADTree以预测节点为根节点，同时以预测节点为叶子节点。 ADTree方法优于AdaBoost之处在于，ADTree方法假定当前的弱分类器是建立在之前迭代结果的基础上的，并能以树（Tree）的形式将各弱分类器展示出来，

数据挖掘 – 方法 聚类如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 K近邻中的k一般为奇数，避免因两种票数相等而无法决定。基因芯片分析癌细胞聚类分析 K近邻

计算机辅助医学医学数据挖掘（上）