Generative Model for Image Categoration

Generative Model for Image Categoration 用于图像分类的产生式模型

基本问题 • 图像分类问题：根据图像中包含的主要内容对图像分类； • 图像聚类问题：根据图像内容划分图像类； • 图像分割问题：在一组图像中分割出共有的目标。

基本思想 • 借鉴文本信息检索的方法：文档  主题  词图像  目标  局部描述

视觉词的产生 • 网格法： • 特征点： • 过分割：局部描述  矢量量化  视觉词

Latent Dirichlet Allocation 离散狄利赫莱分配及其应用

LDA vs. pLSA pLSA LDA

LDA vs. pLSA • pLSA： • 每一个文档包含的主题是确定的，固定比例； • 不同文档中同一个主题产生某个词的概率不同，因此需要估计的参数多； • 只能分析出学习语料中文档包含的主题，无法计算语料之外文档的主题； • LDA： • 主题产生词的概率是相同的，需要估计的参数较少； • 文档包含不同主题的比例是随机的；

符号约定 • Word，词表： • Document：，每一个文档看作由N个word构成的词序列 • Corpus：，M个文档构成的样本集 • Topic：共有K个主题，主题序列产生文档w（词序列）

文档的产生过程 • 产生文档长度（词的数量）：； • 产生Topic的分布参数：； • 产生每一个词wn： • 产生一个主题： • 由主题zn产生词：模型参数：{α,β}，α是K维矢量，与每个主题的先验有关， β是K×V的矩阵， βij是第i个主题产生第j个词的先验概率。

模型推理 – 方式1 • 已知模型参数{α,β}，文档w： • 无法直接计算，采用变分方法近似。

模型推理 – 方式1 • 用近似 • 是Dirichlet分布，是多项式分布

模型推理 – 方式1 • γ和Ф表征了文档w某些特性 • 对γ的理解：γk可以看作是文档w中第k个主题的概率或显著性；γ或γ-α可以看作文档w在Topic空间的投影； • 对Ф的理解：Фnk表示文档中第n个词由第k个主题产生的概率。 • 非监督方式，用所有图像学习LDA参数；用γ对图像聚类或分类。 Ф可以表示出哪一个局部特征来自于哪一个目标。

模型推理 – 方式2 • 模型扩展：

模型推理 – 方式2 • 已知模型参数{α,β}，计算文档w产生的概率： • 计算：采用MCMC方法，Gibbs抽样计算积分和求和。 • 有监督方式，用一类图像学习LDA，计算测试图像有LDA产生的概率，实现图像分类。 • 也可以计算出P(z, w|α,β)，实现图像分割和目标检测。

模型学习 • 极大似然估计的对数似然函数： • EM算法： • E步：对每一个文档wd用推理过程的迭代算法计算； • M步：用计算{α,β} 使用Newton-Raphson方法寻优：

Generative Model for Image Categoration