半监督学习

半监督学习 谢思发 2013-10-30

内容纲要 背景介绍半监督学习特点、假设半监督学习算法软件、参考资料

背景监督学习(ID3决策树)：需标记样例，泛化性能高无监督学习(K-均值聚类)：无标记样例，模型不够精确

利用未标记样例的主流学习技术： 半监督学习（semi-supervisedlearning）直推式学习（transductive learning）主动学习（active learning）背景

结合标记样例和无标记样例 自行利用未标记样例，无需人工干预在整个数据分布上学习模型半监督学习特点：

聚类假设： 相同聚类中的示例有较大的可能拥有相同的标记。因此，决策边界应尽量通过数据稀疏的地方，避免把稠密的聚类中的数据点分到边界两边。半监督学习两大假设：

半监督学习两大假设： 流形假设：处于一个很小局部领域内的示例具有相似的性质，因此其标记也应该相似。

生成式模型(Generative Model) • 将未标记样本属于每个类别的概率看成一组缺失参数 • 采用EM算法对生成式模型的参数进行极大似然估计

自训练方法(self-training) • 用标记示例训练分类器 • 用训练得到的分类器分类未标记示例 • 将得到的置信度高的数据加到训练集 • 重新训练分类器，整个过程重复进行

协同训练(co-training) • 将属性集分为两个子集 • 两个子集对于给定的类别条件独立 • 每个子集都足够多，以训练得到好的分类器 • 每个子集基于已标记数据训练得到分类器 • 用两个分类器分别标记未标记数据 • 每个分类器将自己置信度最高的数据用来改进另外一个分类器

3协同训练(tri-training) • 用三个不同的分类器分别在标记数据上做训练 • 用训练后的分类器预测未标记数据 • 如果其中有两个分类器在某个未标记数据上取得一致预测，该数据及预测值将用来改进第三个分类器

直推式支持向量机(TSVM)

基于图的算法(Graph-Based) • 利用有标记和未标记数据构建数据图,并且基于图上的邻接关系将标记从有标记的数据点向未标记数据点传播

SVM-Light 数据格式： target feature:value feature:value ... feature:value #info target: -1 | 1 | 0 | float feature: integer value: float info: string 运行：在svmlight文件下建立.bat文件 +1 -1 0 0 train： test： +1-1

相关资料 周志华教授： http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/publication_toc.htm#Semi-Supervised and Active Learning 英文综述： http://pages.cs.wisc.edu/~jerryzhu/research/ssl/semireview.html 中文综述： http://caai.cn/contents/421/3585.html

半监督学习

半监督学习

Presentation Transcript