400 likes | 578 Views
稀疏查询的推荐算法与性能评价问题的研究. 答 辩 人:马中瑞 2009 级 计算机应用技术 指导教师:陆嘉恒 副教授 研究方向:信息检索、数据 挖掘 2012 年 05 月 17 日. 大 纲. 绪论 相关工作 基于 Term-Query 图的随机游走模型 基于查询文档的查询推荐算法 查询推荐评价指标优化 实验结果分析 总结展望. 绪论. 基于 Term-Query 图随机游走模型. 优化评价指标. 实验结果分析. 总结展望. 相关工作. 基于查询文档的推荐算法. 绪论. 研究背景与动机 查询推荐在搜索引擎中应用
E N D
稀疏查询的推荐算法与性能评价问题的研究 答 辩 人:马中瑞 2009级 计算机应用技术 指导教师:陆嘉恒 副教授 研究方向:信息检索、数据挖掘 2012 年 05 月 17 日
大 纲 • 绪论 • 相关工作 • 基于Term-Query图的随机游走模型 • 基于查询文档的查询推荐算法 • 查询推荐评价指标优化 • 实验结果分析 • 总结展望 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 绪论 • 研究背景与动机 • 查询推荐在搜索引擎中应用 • 为什么是稀疏查询? • 稀疏查询在查询日志中出现频率偏低 • 传统方法无法处理稀疏类查询 • Click-through 或 Session • 微软必应日志统计分析 • 33.95%惟一查询,并占有22.55%的访问量 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 绪论 • 研究内容及贡献 • 解决稀疏查询的生成推荐问题 • 提出Term-Query图的随机游走模型算法 • 提出查询文档概念及相关算法 • QSearch算法 • DSearch算法 • 全新的查询推荐评价指标 • 和 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 相关工作 • 基于会话日志的查询推荐 • 基于关联规则 • [Fonseca et al., 2003] • 基于Query-Flow图的推荐算法 • [Boldi et al., 2008][Bordino et al., 2010]等 • 基于点击日志的查询推荐 • Query-URL二部图 • 点击次数[Mei et al., 2008] • 信息熵[Deng et al., 2009] • 随机游走算法 query-flow图 query-url图 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 相关工作 • 其他查询推荐 • 合并Click-through和Session信息 • 基于概念序列的推荐算法[Cao et al., 2008] • 基于查询优化图的推荐算法[Sadikov et al., 2010] • Anchor日志[Deng and Croft, 2010] • 基于语料库的查询推荐[Bhatia et al., 2011] • N-grams抽取短语词库 • 计算部分查询与短语的概率 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 相关工作 • 稀疏查询推荐算法 • 基于隐式用户反馈信息[Song and He, 2010] • 点击Query-URL图,转移矩阵 • 跳过Query-URL图,转移矩阵 • 基于查询模板的长尾查询推荐[Szpektoret al., 2011] • 利用外部Ontology语料库,抽取查询模板 • 建立query-template-flow图,计算相关的模板和查询相似度 • 拟合查询推荐方法[Jain et al., 2011] • Query Relax Model去除非关键词,得到 • 为 产生候选推荐 • Click-through、Session、Web文档中的短语语料库 • 拟合生成查询推荐 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 基于Term-Query图的随机游走模型 • 构造Term-Query图 • 图 • 结点集合 ,其中 表示词表中单词结点, 表示查询日志中所有用户查询结点 • 表示二部图中所有的无向边。对于 , 和 之间存在无向边当且仅当 • 是权重函数 • 边权重函数 • 表示查询q的出现频率 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query图的随机方阵 • 随机转移矩阵 • 表示单词到查询的 矩阵 • 表示查询到单词的 矩阵 • Term-Query的随机方阵 注意: 或 内部结点之间不存在无向边,因而主对角线用 矩阵表示 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 随机游走模型 • 带重启动的随机游走算法 • 对某个单词执行随机游走 • 查询推荐算法 • 对查询每个单词执行随机游走,计算概率分布 • 合并所有单词的概率分布 单词到查询的相似度概率分布 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 参数优化 • 单词关联矩阵(Correlation Matrix) • 单词之间的点互信息PMI(Pointwise Mutual Information) • 表示单词 和 同时出现在同一查询的次数 • 表示查询集合中查询个数 • 查询关联矩阵 • 查询之间的PMI • 表示查询 和 同时发生在同一会话内的次数 • 表示会话日志中会话的个数 Ground-Truth: 单词关联矩阵 查询关联矩阵 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 参数优化 • 矩阵分解 • 对所有元素执行随机游走,获得概率分布矩阵 分解得: 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 参数优化 • 损失函数(Loss Function) • 对于重启动参数 ,利用Ground-Truth最小化估计 和 的损失来优化: • 目标函数: 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 基于查询文档的推荐算法 • 基本思想及系统框架 • 查询文档(Query Document) • 查询的搜索结果内容 • 查询转换为查询文档的形式 • 系统框架 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询库QCorpus • 日志清理 • 启发式规则 • 没有URL点击信息的查询 • 非英文查询 • URL类型查询 • 数字类型查询和长关键字查询 • 错拼处理 • Click-through聚类和cluster内分组(非本论文工作) • 选择每个分组中的最高的查询作为代表元 • 建立查询库 • 扩展查询为查询文档 • 标题:查询本身 • 内容:文档摘要(Snippet)或文档全文内容(Full-text) 前10个搜索文档 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 QSearch算法 • 基本思想 • 文本检索方式 • 建立倒排索引 • Term-based倒排索引 • 相似度计算 • 对于查询 和文档 的相似度,采用BM25衡量 • 参数 排序后文档所对应的标题即为查询推荐结果 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 DSearch算法 • 基本思想 • 将输入查询 转换为查询文档,采用查询文档进行搜索相关推荐 • K-NN问题 • 敏感位置哈希LSH • 适用于稠密向量 • TF-IDF向量是非稠密向量 • 基于LDA的文档分解 • LDA变体——SWB模型 • 主题类型单词 • 文档特殊词 • 语料库背景单词 • 文档分解 • 表示k维的文档主题向量 • 表示文档的特殊词集合 k=200 保留前15个特殊词 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 DSearch算法 • LSH索引:QCorpus所有文档 • 文档主题向量 • 查询推荐算法 • 对于查询 扩展为查询文档 • LDA分解 的主题向量 和特殊词集合 • 相似度计算公式 表示 和 之间的余弦值, 表示 和 对应的TF-IDF向 量的余弦值。 权重系数,本实验中 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 传统评价指标 • 判断相关性 • 对于查询-推荐对,判断是否相关Relevant/Irrelevant • 不同等级的相关性判断 • Perfectly relevant, Approximately relevant, somewhat relevant, Approximately irrelevant, Perfectly irrelevant • 衡量指标 • Precision/Recall/F-Measure • P@K • Mean Average Precision(MAP) 相关性V.S.有用性 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 优化的评价标准及指标 • 例如,查询“aol instant mess”和它的相应推荐 • =“aol instant messenger” • =“aol aim” • =“windows live messenger” • =“yahoo! messenger” • 如果的查询结果比较差,则和可能更适合;否则,和比较合适 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 优化的评价标准及指标 • 关系分类标定 • 相同意图(same intention) • 普遍化(generalization) • 特殊化(specialization) • 对等关系(peer) • 无关(no association) • 有用性标定(比较搜索结果质量) • 较好(better) • 较差(worse) • 相同(same) 1 2 2 0 2 1 2 0 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query算法实验分析 • 实验环境搭建 • 数据集:AOL查询日志 • 停用词,PorterStemmer取词根 • 对比算法 • QFG算法:建立query-flow graph,执行随机游走算法(参见[Boldi et al., 2008]) • QBI算法:对查询本身建立倒排索引,计算查询之间的TF-IQF(Term Frequency-Inverse Query Frequency)余弦相似度进行排序 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query算法实验分析 • 实验环境搭建 • User Study • 按照查询频率将查询日志分为4组数据,分别抽样25个惟一查询,共计100个测试查询用例 • 取Term-Query算法(简称RW-TQ)和两个对比算法各自的前5个推荐 • 1068个惟一查询-推荐对 • 判断相关性(Relevant/Irrelevant) • 原始查询与推荐比较包含关键字基本相同,则应被标定Irrelevant • 例如,原始查询“verizon wireless internet”与推荐“wireless internet from verizon” 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query算法实验分析 • 覆盖率:至少返回一个推荐的查询所占的比率 不同测试集合上的覆盖率对比图 前5个推荐结果数量在100测试查询的分布图 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query算法实验分析 • 性能对比 • P@K和MAP QFG算法偏向频率高的查询 QBI偏向包含关键词偏多的查询 RW-TQ相对比较稳定(Test-A除外) 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 Term-Query算法实验分析 • 参数调优 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 实验环境搭建 • 数据集和查询库QCorpus • 微软Bing查询日志(2010年12月) • 日志清理:18.44M干净查询 • 创建QCorpus • Bing搜索API:前10个文档摘要 • 集合大小:18.35M 抓取失败导致部分查询没有结果 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 实验环境搭建 • 对比算法:QFG算法+QBI算法 • 评价指标: 和 • 测试查询集合 • 判断查询搜索意图是否清晰 • 150流行查询:122个清晰 • 350稀疏查询:271个清晰 • 100个测试查询集合 • 50个来自清晰的122个流行查询 • 50个来自清晰的271个稀疏查询 标定有用性 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 标定结果 两种标定标准是描述的查询推荐结果的两个不同方面 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 覆盖率 前10个推荐结果数量在Popular查询集合的分布图 前10个推荐结果数量在Rare查询集合的分布图 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 性能对比(Popular查询) 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 性能对比(Rare查询) 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 合并所有基础方法结果 • 去除重复的推荐结果 • 获得候选集合 • 重排序(Re-rank)方法 • QSearch重排序:根据BM25公式,重新对中所有推荐进行计算相似度。 • DSearch重排序:根据DSearch方法的相似度计算公式对候选集合进行全新排序 • TF-IDF重排序:根据查询所对应的查询文档的TF-IDF向量,计算余弦相似度进行排序 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 重排序(Popular查询) 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 查询文档算法实验分析 • 重排序(Rare查询) 稀疏查询的推荐算法与性能评价问题的研究
绪论 基于Term-Query图随机游走模型 优化评价指标 实验结果分析 总结展望 相关工作 基于查询文档的推荐算法 总结展望 Term-Query随机游走模型 • 总结 • 未来展望 • NLP来进一步优化Term-Query随机游走模型 • 如何将Click-through等信息应用到查询文档概念上 稀疏查询推荐 DSearch算法 查询文档算法 QSearch算法 有用性标定 性能评价优化 关系分类标定 稀疏查询的推荐算法与性能评价问题的研究
参考文献 • P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis, and S. Vigna. The query-flow graph: model and applications. In CIKM, pages 609–618. ACM, 2008. • I. Bordino, C. Castillo, D. Donato, and A. Gionis. Query similarity by projecting the query-flow graph. In SIGIR, pages 515–522. ACM, 2010. • S. Bhatia, D. Majumdar, and P. Mitra. Query suggestions in the absence of query logs. In SIGIR, pages 795–804, New York, NY, USA, 2011. ACM. • H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, and H. Li. Context-aware query suggestion by mining click-through and session data. In KDD, pages 875–883. ACM, 2008. • V. Dang and B. W. Croft. Query reformulation using anchor text. In WSDM, pages 41–50. ACM, 2010. • H. Deng, I. King, and M. R. Lyu. Entropy-biased models for query representation on the click graph. In SIGIR, pages 339–346, 2009. • A. Jain, U. Ozertem, and E. Velipasaoglu. Synthesizing high utility suggestions for rare web search queries. In SIGIR, pages 805–814, New York, NY, USA, 2011. ACM. • B. M. Fonseca, P. B. Golgher, E. S. de Moura, and N. Ziviani. Using association rules to discover search engines related queries. In LA-WEB, pages 66–71. IEEE Computer Society, 2003. 稀疏查询的推荐算法与性能评价问题的研究
参考文献(续) • Q. Mei, D. Zhou, and K. W. Church. Query suggestion using hitting time. In CIKM, pages 469–478. ACM, 2008. • E. Sadikov, J. Madhavan, L. Wang, and A. Halevy. Clustering query refinements by user intent. In WWW, pages 841–850. ACM, 2010. • Y. Song and L. wei He. Optimal rare query suggestion with implicit user feedback. In WWW, pages 901–910. ACM, 2010. • I. Szpektor, A. Gionis, and Y. Maarek. Improving recommendation for long-tail queries via templates. In WWW, pages 47–56, New York, NY, USA, 2011. ACM. 稀疏查询的推荐算法与性能评价问题的研究
发表论文情况 • 已录取论文 • ZhongruiMa, Yu Chen, Ruihua Song, Tetsuya Sakai, Jiaheng Lu and Ji-Rong Wen. New Assessment Criteria for Query Suggestion. In Proceedings of ACM SIGIR (SIGIR'2012), poster, to appear, 2012. • 已投稿论文 • ZhongruiMa, Yu Chen, Ruihua Song, Jiaheng Lu and Ji-Rong Wen. Searching Suggestions for Rare Queries. In Proceedings of ACM CIKM (CIKM’2012), submission, 2012. 稀疏查询的推荐算法与性能评价问题的研究
谢谢各位答辩老师! 稀疏查询的推荐算法与性能评价问题的研究