1 / 16

Lucene 检索模型

Lucene 检索模型. IR-LAB 胡晓光. 检索模型. 检索模型是一个四元组 [D, Q, F, R(qi, dj)] D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框架 (Frame) R(qi, dj): 给 query qi 和 document dj 评分. 空间向量模型. 把索引中的每个词作为空间的一个维度 把每一篇文档作为空间中的一个向量 把每一个查询也作为空间中的一个向量 通过计算文档和查询的内积或余弦等来表示文档和查询的相关程度. 余弦相似度计算. 词项的权重.

jenna
Download Presentation

Lucene 检索模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lucene检索模型 IR-LAB 胡晓光

  2. 检索模型 • 检索模型是一个四元组[D, Q, F, R(qi, dj)] • D: 文档集的机内表示 • Q: 用户需求的机内表示 • F: 文档表示、查询表示和它们之间的关系的模型框架(Frame) • R(qi, dj): 给query qi 和document dj评分

  3. 空间向量模型 • 把索引中的每个词作为空间的一个维度 • 把每一篇文档作为空间中的一个向量 • 把每一个查询也作为空间中的一个向量 • 通过计算文档和查询的内积或余弦等来表示文档和查询的相关程度

  4. 余弦相似度计算

  5. 词项的权重 • 根据词项在文档( tf)和文档集( idf)中的频率(frequency)计算词项的权重 • tf(i , j) = 词项j在文档i中的频率 • df( j ) = 词项j的文档频率= 包含词项j的文档数量 • idf( j ) = 词项j的反文档频率= log2( N/ dfj)

  6. 词项的权重 • 文档中词项的权重 • w i,j= tf i,j * idf i • 其中tf i,j可以先归一化处理 • tfi,j = tfi,j / maxk tf k,j • 查询中词项的权重 • Salton and Buckley推荐公式 • wi,q = (0.5 + 0.5*tfi,q/maxk tfk,q) * idfi

  7. TermQuery • TermQuery为Lucene支持的最简单的查询方式 Query为一个关键词Term • TermQuery的计算公式 • score = sqrt(freq) * idf * boost * norm • idf = ln(maxDoc/(docFreq + 1) )+ 1.0 • norm = fieldboost / sqrt(fieldlength) • 结论 • 其中的idf和boost值与文档无关 不影响排名 • 排名因子 sqrt(freq) * fieldboost / sqrt(fieldlength) • fieldboost人为赋予的经验值 默认值都为1.0 • 此时lucene按照单位长度的文档包含的关键词个数freq/fieldlength来排列相关文档

  8. BooleanQuery • BooleanQuery是一种复合式的Query 支持多种不同Query的逻辑组合 • BooleanQuery例子 • +俄罗斯 恐怖 事件 -美国 • +(俄罗斯 美国) 恐怖 事件 • 可以对不同的query赋予不同的boost值表示该query在整个BooleanQuery中的重要程度 • 例如: 俄罗斯3.0 恐怖2.0 事件1.0

  9. BooleanQuery分值计算 • 计算查询的querynorm • querynorm = boost / sqrt(∑i idfi*idfi*boosti*boosti) • 计算每个查询的Term和匹配文档的分值 • weight = queryWeight * fieldWeight; • queryWeight = boost * idf * querynorm; • fieldWeight = tf * idf * fieldnorm; • 对每篇匹配文档计算总得分 • score = coord * (∑i weight i ) • coord = 匹配词项数/总词项数

  10. BooleanQuery计算公式 • 整理可得计算公式如下 • scorej = coordj*∑i(boost i*idf i*tfi,j*idf i*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) • fieldnorm = fieldboost / sqrt(fieldlength) • 其中sqrt(∑i (idf i *idf i *boost i *boost i))和文档无关,不会影响文档的排名

  11. Lucene检索模型 w i,j = tfi,j*idf i wi,q = boost q*idf q • 标准向量空间模型 • 一种简化的空间向量模型 • 文档中词项的权重 • w i,j = tfi,j*idf i • 查询中词项的权重 • wi,q = boost q*idf q • 文档向量模∣ dj∣≈sqrt(fieldlength) ∣ dj∣≈sqrt(fieldlength)

  12. 逻辑操作对分值计算的影响 • Lucene支持的逻辑操作例子 • +俄罗斯 恐怖 事件 -美国 • +(俄罗斯 美国) 恐怖 事件 • 对于强制符号+ 和-会首先对匹配结果进行过滤去除不符合条件的文档 • 然后对剩下的文档根据和每个关键词的相关程度计算得分

  13. Lucene检索实例 • 有三篇文本 内容如下 • aaa.txt: • You are a student. He is a student. • bbb.txt: • I am a student. • ccc.txt: • Lee is a student.He comes from China. • 按照缺省方式建索引 fieldboost = 1.0 • 根据公式fieldnorm = fieldboost / sqrt(fieldlength) • 首先可算得fieldnorm分别为 0.3125,0.5,0.3125 • 注意 norm在实现时只用了1个字节表示 故误差较大

  14. Lucene检索实例 • 现在输入查询 student 计算每篇文档分值 • score = sqrt(freq) * idf * boost * norm • idf = ln(maxDoc/(docFreq + 1) )+ 1.0 • 可得计算结果如下

  15. Lucene检索实例 • 输入多个关键词 student china • scorej = coordj*∑i(boost i*idf i*tfi,j*idfi*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) • 可得计算结果如下

  16. Any Question?

More Related