150 likes | 319 Views
Generative Model for Image Categoration. 用于图像分类的产生式模型. 基本问题. 图像分类问题 :根据图像中包含的主要内容对图像分类; 图像聚类问题 :根据图像内容划分图像类; 图像分割问题 :在一组图像中分割出共有的目标。. 基本思想. 借鉴文本信息检索的方法: 文档 主题 词 图像 目标 局部描述. 视觉词的产生. 网格法: 特征点: 过分割: 局部描述 矢量量化 视觉词. Latent Dirichlet Allocation.
E N D
Generative Model for Image Categoration 用于图像分类的产生式模型
基本问题 • 图像分类问题:根据图像中包含的主要内容对图像分类; • 图像聚类问题:根据图像内容划分图像类; • 图像分割问题:在一组图像中分割出共有的目标。
基本思想 • 借鉴文本信息检索的方法: 文档 主题 词 图像 目标 局部描述
视觉词的产生 • 网格法: • 特征点: • 过分割: 局部描述 矢量量化 视觉词
Latent Dirichlet Allocation 离散狄利赫莱分配及其应用
LDA vs. pLSA pLSA LDA
LDA vs. pLSA • pLSA: • 每一个文档包含的主题是确定的,固定比例; • 不同文档中同一个主题产生某个词的概率不同,因此需要估计的参数多; • 只能分析出学习语料中文档包含的主题,无法计算语料之外文档的主题; • LDA: • 主题产生词的概率是相同的,需要估计的参数较少; • 文档包含不同主题的比例是随机的;
符号约定 • Word,词表: • Document: ,每一个文档看作由N个word构成的词序列 • Corpus: ,M个文档构成的样本集 • Topic:共有K个主题, 主题序列产生文档w(词序列)
文档的产生过程 • 产生文档长度(词的数量): ; • 产生Topic的分布参数: ; • 产生每一个词wn: • 产生一个主题: • 由主题zn产生词: 模型参数:{α,β},α是K维矢量,与每个主题的先验有 关, β是K×V的矩阵, βij是第i个主题产生第j个词的先验概率。
模型推理 – 方式1 • 已知模型参数{α,β},文档w: • 无法直接计算,采用变分方法近似。
模型推理 – 方式1 • 用 近似 • 是Dirichlet分布, 是多项式分布
模型推理 – 方式1 • γ和Ф表征了文档w某些特性 • 对γ的理解:γk可以看作是文档w中第k个主题的概率或显著性;γ或γ-α可以看作文档w在Topic空间的投影; • 对Ф的理解:Фnk表示文档中第n个词由第k个主题产生的概率。 • 非监督方式,用所有图像学习LDA参数; 用γ对图像聚类或分类。 Ф可以表示出哪一个局部特征来自于哪一个目标。
模型推理 – 方式2 • 模型扩展:
模型推理 – 方式2 • 已知模型参数{α,β},计算文档w产生的概率: • 计算:采用MCMC方法,Gibbs抽样计算积分和求和。 • 有监督方式,用一类图像学习LDA,计算测试图像有LDA产生的概率,实现图像分类。 • 也可以计算出P(z, w|α,β),实现图像分割和目标检测。
模型学习 • 极大似然估计的对数似然函数: • EM算法: • E步:对每一个文档wd用推理过程的迭代算法计算 ; • M步:用 计算{α,β} 使用Newton-Raphson方法寻优: