1 / 29

TREC 简介及 英语词性标注对信息检索系统性能的影响

TREC 简介及 英语词性标注对信息检索系统性能的影响. 2004-12-14. 研究背景 TREC 基础知识 VSM 英文词性标注 实验 经验. 研究背景. TREC2004 ROBUST 任务 信息检索的义项矩阵模型研究. TREC. The Text REtrieval Conference the National Institute of Standards and Technology (NIST) and U.S. Department of Defense TRACKS DATA SET 评测 SMART11. TRACKS.

dacia
Download Presentation

TREC 简介及 英语词性标注对信息检索系统性能的影响

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TREC简介及英语词性标注对信息检索系统性能的影响TREC简介及英语词性标注对信息检索系统性能的影响 2004-12-14

  2. 研究背景 • TREC • 基础知识 • VSM • 英文词性标注 • 实验 • 经验

  3. 研究背景 • TREC2004 ROBUST任务 • 信息检索的义项矩阵模型研究

  4. TREC • The Text REtrieval Conference • the National Institute of Standards and Technology (NIST) and U.S. Department of Defense • TRACKS • DATA SET • 评测 • SMART11

  5. TRACKS • Cross-Language Track • Filtering Track • Genomics Track • HARD Track • Interactive Track • Novelty Track • Question Answering Track • Robust Retrieval Track • Terabyte Track • Video Track • Web Track

  6. DATA SET • 由TRACKS决定 • Document • TOPIC • Title • Desription • Narrative

  7. TREC评测 • Pooling • AP RP • P-R graph • Trec_eval

  8. SMART • (1)首先对文档集中的每个文档依据设定的加权方式表示成向量,并存入文档向量文件; • (2)根据向量文件建立倒排索引文件; • (3)对Topic集中每个Topic依据设定的加权方式表示成向量形式,并存入Topic向量文件; • (4)对特定Topic计算其与每个文档的相关度,提交与该Topic最相关的前1000篇文档。

  9. VSM • 文档的表示:将Di表示为由t维索引项组成的向量,其中dij表示第j个索引项在文档Di中的权重,t由整个文档集决定 • Di=(di1,di2,…dit) • 索引项的选取 • 索引项权重计算 • 向量之间的相似度

  10. VSM(续一) • SMART检索系统 索引项 权重计算 • tf • idf • 文档长度归一因子 • VSM的缺陷 • 引入NLP技术

  11. VSM(续二) • l ; lntf +1.0 • t : ln(N/n) • N是collection中的document总数 • n是包含给定term的doc数 • a=0.5 + 0.5*tf / maxtf

  12. 词性标注技术 • 词性标注是NLP中重要而成熟的技术 • 实现部分词义消歧 I can do it can of soda • 不同词性的词在索引中有不同作用 • 词性标注具有改进检索性能的潜力

  13. 英文词性标注集 • 宾州树库标注集 • 基于Brown语料库(87个标记)的标注集 • 含36个词性标记和12个其它标记 • 为了句法分析的目的而构建 • 精简的词性标注集 • 将相同语义不同句法形式的词类进行合并 • 排除功能词,如CC、DT等

  14. 实验方案 • 索引方案 • pain • pos-48 • pos-7 • pos-v-n • pos-v-n-j • 索引项权重表示 • nnn-nnn atc-atc lnc-ltc

  15. 实验设置 • 数据集 TREC-7和TREC-8 ad hoc任务的数据集。 100个Topic。文档集规模约为1,904MB,包含文档数约528,000篇 • SMART检索系统 • Brill的词性标注器及数据预处理

  16. 词性标注 • Brill词性标注系统 • 基于转换的错误驱动的学习 • 正确率97.2% (WSJ语料库) • 问题——断句 • 根据句尾标志断句,如“. : ; ! ?” • 断句准确优先 • 对“.”的处理 • 特殊词处理

  17. 实验结果-nnn

  18. atc-atc

  19. Lnc-ltc

  20. 发现规律: • 不同的词性标注集在TREC-7和TREC-8数据集上的检索性能有相似的总体规律; • 在nnn-nnn权重下,标注越细,检索效果越好(pos-48最好,plain最差); • 在atc-atc和lnc-ltc权重下,标注越细,检索效果越差(pos-48最差,plain最好);

  21. 100个Topic采用不同索引方案时的AP • 其它略

  22. Topic429 <title> Legionnairesn/NNP disease/NN <desc> Identify/VB outbreaks/NNS of/IN Legionnairesd/NNP disease/NN ./. <narr> To/TO be/VB relevant/JJ ,/, a/DT document/NN must/MD discuss/VB a/DT specific/JJ outbreak/NN of/IN Legionnaires/NNP disease/NN ./. Documents/NNS that/WDT address/VBP prevention/NN of/IN or/CC cures/NNS for/IN the/DT disease/NN without/IN citing/VBG a/DT specific/JJ case/NN are/VBP not/RB relevant/JJ ./.

  23. 索引项权重的差异 • 检索系统的性能不仅跟Topic相关,很大程度上与整个文档集相关。

  24. Topic447 • engine engineering; engineer; engineered engin • engine/NN engineering/NN; engineering/VBG; engineered/VBD

  25. 实验结果分析 • 对单一词性\同一词形,词性标注不会造成影响 • 对同一词形、不同词性的词,通过词性标注能够对它们进行区分,减少了噪音信息匹配的可能性,使检索系统性能得到提高。 • 词语之间的同源性,导致词汇语义层面相关。词性标注的加入将它们分离为不同的索引项分量,成为了Topic向量或Document向量中独立的维。这样就降低了Topic向量与Document向量中相关词匹配的可能性,也会导致检索系统性能的下降。

  26. 结语 • 在信息检索中引入词性标注信息会对特定Topic及文档集下的检索效果有所改进,但是改进的效果不明显。 • 词性标注对于信息检索系统效果的影响明显弱于选择不同的索引项权重对其产生的影响。 • 将语义信息加入信息检索

  27. 经验教训

  28. 敬请指正!

More Related