860 likes | 950 Views
图象检索中的相关反馈机制. 基于内容的图像检索 的早期工作. 找到所谓的“最佳”特征或特征组合; 基于“最佳”特征或特征组合提高图像检索精确度 ;. 假设已经有了最佳特征. 用户来选择他所关心的一种或多种图像视觉特征;如果用户选择了多个特征,则还需要用户来指定各特征之间的权重; 根据用户所选定的特征和指定的权重,以及相应特征的 “ 最佳 ” 表示,由检索系统找出与用户提交的作为查询范例( query example ) 的图像相似的其他图像。. Review of Multimedia Information Retrieval Model.
E N D
基于内容的图像检索的早期工作 • 找到所谓的“最佳”特征或特征组合; • 基于“最佳”特征或特征组合提高图像检索精确度 ; 假设已经有了最佳特征 • 用户来选择他所关心的一种或多种图像视觉特征;如果用户选择了多个特征,则还需要用户来指定各特征之间的权重; • 根据用户所选定的特征和指定的权重,以及相应特征的“最佳”表示,由检索系统找出与用户提交的作为查询范例(query example)的图像相似的其他图像。
Review of Multimedia Information Retrieval Model • Object Representation: a collection of features • Query Model: query-by-example • Retrieval Model: matches a query to an object • matches each feature individually in each feature space • combines answers from each feature to determine the overall similarity • Issues: • initial query representation may not capture the user’s information need. • the weights (i.e., relative importance) of individual features may not be known a priori.
Distance是检索系统定义的距离; • Queryi和Imagei分别是例子图象和被检索图象对应的特征; • Wi是用户指定的特征权值,它反映了用户的偏好。
早期检索系统本身还有如下工作可以深入 • 特征提取; • 相似度度量函数; • 检索响应时间提高;
根据加州大学伯克利分校Peter Lyman和Hal Varian最近的报告,全球每年产生的信息量约1到2EB字节(exabyte,100亿亿),这些信息的绝大多数以图像、声音和数据的形态存在,印刷文档只占总量的0.003%。越来越多新出现的信息以数字形式创建、存储、检索,超过90%的信息采用数字方式存储。
假设按照旧有方法计算相似度 • 对一年产生的图象信息检索,查询一张图片,按照目前G级CPU计算速度,29天后返回结果。
总之,传统检索系统称为以计算机为中心的图像检索系统。尽管这种方法奠定了CBIR(Content-Based Image Retrieval)的基础,但是它的检索性能并不令人满意
为什么要引入相关反馈机制 • 高层语义概念同底层特征之间的差距; • 人类感知的主观性; 旗子 苹果 红色 房屋 More
相关反馈技术分类 • 查询向量优化(逐步改变目标) ; • 特征权重调整(逐步限制目标)
查询向量优化 根据用户反馈信息来调整查询点,使之更加接近理想查询点,再用调整后的查询点去重新计算检索结果。在每次相关反馈中,用户都会提交一些他所认为的与查询相关或者不相关的例子(文本或图像),称为反馈正例和反馈负例。查询向量优化算法的具体做法是移动查询点,使之更加靠近反馈正例在特征空间中所对应的点,同时远离反馈负例所对应的点,通过这种方式来接近理想查询点。大量实验结果表明,采用优化后的查询点重新计算的检索结果明显优于前一次的查询结果。
特征权重调整 以图像检索为例,每幅图像都对应着特征空间中一个N维特征向量,而检索开始时特征空间每一维度上的权重都是相等的。在相关反馈中,检查所有反馈正例和负例的特征向量:假设所有反馈正例在某个维度上的值相差很大,则说明这个维度和用户查询的关系并不密切,因此可以降低该维度上的权重;反之,如果所有正例在某个维度上的值非常接近,则说明该维度很好地反映了查询中的某个特点,因此应该提高该维度的权重。
1st iteration Display UserFeedback Feedbackto system Estimation & Display selection 2nd iteration Display UserFeedback
Relevance Feedback: Audio Feature Level Audio Feature Weights Retrieval result is updated according to features’ weight
Relevance Feedback: Audio Clip Level User’ Preference Preferred Preferred User could choose preference audio clip for relevance feedback
Relevance Feedback Results Retrieval result is updated according to user’s preference
向量优化改变的是Query; • 特征权重调整改变的是W; • 因此,每次反馈后,与前次检索结果对比,总会发生改变 • 一般而言,Distance函数保持不变;
基于查询向量的相关反馈 • 来源于文本检索; 文本检索模型 文本信息检索模型包括一个文档模型(怎样表示文档)、一个查询模型(如何进行查询)和一个计算文档和查询之间相似度的模型(如何计算相似度)
三个模型的解释 • 文档模型(一般是提取关键字,组成向量); • 检索模型(基于关键字进行检索,图象是基于图象例子的); • 相似度匹配模型(计算关键字或特征之间的欧拉距离)
与相关反馈密切的技术 • 文本关键字权重计算 • 文本检索相关反馈模型 所谓权重,就是给不同的关键字赋予不同的重要性
文本关键字权重计算 • 在文本检索模型中,每个文档都是由关键字的集合来表示的,而每个关键字的权重是根据关键字对文档的相对重要程度来确定的; • 假设tk (k=1,…,N) 代表字典里的关键字(N为字典中关键字的数量),而ωik为文档Di中关键字tk的权重。 一篇文档就可以如上表示
文本关键字权重计算 需要考虑两个因素 • 如果某个关键字tk 在文档Di中的出现频率非常高,则该关键字的权重ωik也应该很高。引入关键字频率tf(term frequency)来反映这种变化关系; • 同时,仅仅依赖出现频率tf不足以正确估计关键字的权重。比如,某个关键字在几乎所有的文档中都是反复地出现,即使它的出现频率很高,也不能给它以很高的权重,因为它不具有将一个文档区别于另一个的分辨能力; • 引入了逆文档频率因子idf(inverse document frequency)来体现这种关系
文本关键字权重计算 计算权重的两个因素 关键字k在某个文章的重要性 dfk 是包含关键字tk的文档数目,而M是所有文档的数目,表示了区别度 关键字k在文档中的最终权重,这就是广泛采用的tf×idf模型
基于权重的文档相似度比较 查询文本(可以看成权重相等的关键字) 被检索文本 相似度
基于查询向量的相关反馈 理论阐述 在向量模型中,查询Q中的关键字权重ωqk是非常重要的,因为D和Q的相似度是以它为基础的。但是,由用户根据他的查询需求来主观地确定关键字权重是比较困难的。初始查询时的查询向量Q一般是通过比较简单的方式确定的,比如认为所有关键字的权重都是相同的。因此,初始的查询向量Q无法精确地反映用户的查询需求。为了克服这个困难,人们使用了相关性反馈的技术。相关性反馈是在查询过程中,根据用户对以前返回的查询结果的反馈意见来自动调整当前的查询向量,使之更加接近用户真实的信息需求。
基于查询向量的相关反馈 本质 • 本质是改变关键字的权重; • 由于文档就是使用关键字权重来表示的,因此也就是改变了查询目标
具体实现手段 假设在所有被检索文档中,已经知道与查询相关的文档集合DR,以及与查询不相关的文档集合DN,则可以通过以下的公式来计算最优的查询向量Qopt • 问题有二个: • 一是如何知道相关文档和不相关文档 • 二是被检索信息很大时,相关与不相关文档难以全部获取
简化的实现手段 • 在实际中DR和DN都无法事先知道。但是,可以从用户的反馈中得到DR和DN的近似值。 • 假设用户在上一次返回的查询结果中,选取了一些他认为的相关文档D’R和无关文档D’N,即所谓的反馈正例(positive example)和负例(negative example)。将D’R和D’N分别作为DR和DN的近似值。因此,可以根据这些反馈对初始查询Q进行调整,具体做法是提高相关关键字(正例的关键字)的权重,降低无关关键字(负例的关键字)的权重。 根据新的查询向量,继续开始查询,直到满意结果得到
向量优化算法改变的查询向量! 根据新的查询向量,继续开始查询,直到满意结果得到
向量优化在图象相关反馈中应用 难点 • 图象中不存在关键字; • 如何将视觉特征表示关键字权重形式 • 基于这个权重来表示整幅图象 图像的特征向量表达
表示图象有N类特征; • 同一个特征向量的不同分量fik的物理含义可能不同,比如常见的表现图像纹理的特征向量中,有的分量可能代表图像对比度,有的则代表粗糙度等; • 不同分量的值域范围因此可能是千差万别的
如下定义两个人之间的相似度 • 年纪+毛细孔数目+体重+身高,以这些性质的总和来比较两个人之间的相似性; • 25+1000000000+100+171=毛细孔数目 • 值域的不同使得某些分量完全可以不需要了; • 统计学中,一般要对所有分量做归一化处理
将视觉特征表示为权重形式 • Rui和Huang针对图像检索领域提出了分量重要性因子ci(component importance)和逆集合重要性因子ici(inverse collection importance)的概念 • ci因子反映了某个分量在一个特征向量中的相对重要程度,而ici因子体现了某个分量将一个特征向量区别于集合中其他图像的特征向量的分辨能力
如何计算分量重要性因子 • 为了估计ci因子,就必须注意到ci和分量值fik具有非常相近的含义,前者表现的是某个分量在向量中的相对重要性,后者则表现了某种特征在图像中出现的显著程度大小 • 为了消除分量之间因值域不同所带来的不可比较性,采用如下归一化方法来从fik值计算ci: 其中meank表示分量fik在所有图像的特征向量中的平均值
如何计算逆集合重要性因子 其中σik为所有图像的ci向量的第k个分量值的标准方差。从该公式中可以看到,如果某个分量值在所有图像中都十分接近,则它的标准方差就比较小;相反,如果某个分量值在不同图像之间差别很大,则它的标准方差也很大。标准方差具有的这种规律使ici因子倾向于那些具有分辨不同图像能力的分量,而减弱了那些没有分辨能力的分量的影响。由此可见,标准方差是衡量ici因子的一个很好的尺度。
图象1 图象2 图象3 图象4 ci因子表示图像中同类特征的重要性,而ici表示这个特征将自己所属图象与其他图象区别开来的能力
图象特征的权重表示 在将特征向量Fi转化为权重向量Wi后,就可以采用基于文本关键字方式所描述的相关反馈模型来对图像检索结果进行反馈和优化
基于特征权重改变的相关反馈 • 向量优化方法是根据用户反馈来优化查询向量Q,而不是调整特征权重。事实上,图像特征所有分量的权重在检索开始前就已经计算好了,在相关反馈的过程中并不随之改变 • 调整特征权重为途径的相关反馈方法则则通过动态地调整图像特征的权重来达到改进检索结果的目的
特征权重相关反馈结构 定义图像的三元组 • D是原始图像数据,例如JPEG格式的图像 • F={fi}是此图像底层特征的集合,这些特征包括颜色、纹理和形状特征等 • R={rij}是某种给定特征fi的表达形式,如颜色直方图和颜色矩都是颜色特征的表达方式。每一种特征表达rij本身可能就是由许多分量组成的向量,可以写成如下形式:
模型优点 • 该模型允许采用多个特征(及特征表达)对图像进行描述,每个特征都有动态权值与之对应 • 图像特征权值存在于上述模型的每一级上,Wi、Wij和Wijk分别对应于图像特征fi、特征表达rij和特征表达的每一分量rijk。 • 相关反馈就是找到最能体现用户信息需要的每个特征恰当权值 • 以前章节中所说的图像特征等价于上述图像模型中的特征表达形式rij,模型中的图像特征fi指的是抽象概念上的图像特征,而并非具体的数学表达形式。
相关反馈涉及的因素 • 一个图像模型和一组相似度算法M={mij}一起构成了CBIR模型 • 相似度算法M是用来计算两个图像对象之间的相似度。不同的特征可能采用不同的相似度算法,例如欧拉距离适用于纹理向量特征,而直方图相交适用于颜色直方图。 • Mij表示对图象i的第j类特征所赋予的相似度函数
反馈与非反馈的区别 • 在反馈中,可以认为存储在数据库中的图像对象都是客观的,它们的各级特征权重都是固定的。对于查询Q,在以计算机为中心(非交互式)的方法中,也被认为是客观的,即其所有权值也是固定的。由于固定了权值,该方法往往不能有效反映出图像的高层语义和用户的查询要求。此外,该方法还要求用户在查询中指定一组精确的权值,这对于一般用户来说是难以做到的。 • 与此相反,采用相关反馈的交互式检索方法将查询看成是主观的。在检索过程中,它根据用户的反馈信息动态调整特征权重,因此更准确地体现了用户的信息需求,还解除了要求用户指定权重的负担。
主观 客观 相关反馈 旗子 苹果 红色 房屋 More
相关反馈中的两个重要步骤 • 归一化(使每类特征的值域相同,存在可比性) • 权值调整(使每个特征的重要性不同,体现主观性)