1 / 27

实习 报告

实习 报告. 陈文 强 社区技术部 RD Intern 2013-08-13. 目录. 百科词条目录归一化. 背景. 1 、词条目录过分口语化,命名不规范. 2 、词条目录层次关系不合理,逻辑混乱. 特点. 大部分目录与分类知识体系下的标准目录名称具有映射关系. 百科词条目录归一化. 百科词条目录归一化. 目的. 帮助解决百科词条中目录名称不规范、目录逻辑混乱 、 层级关系不合理等问题,帮助提高百科可读性及全面性. 策略概述.

Download Presentation

实习 报告

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 实习报告 陈文强 社区技术部 RD Intern 2013-08-13

  2. 目录

  3. 百科词条目录归一化 背景 • 1、词条目录过分口语化,命名不规范 • 2、词条目录层次关系不合理,逻辑混乱 特点 大部分目录与分类知识体系下的标准目录名称具有映射关系

  4. 百科词条目录归一化

  5. 百科词条目录归一化 目的 • 帮助解决百科词条中目录名称不规范、目录逻辑混乱、层级关系不合理等问题,帮助提高百科可读性及全面性 策略概述 与分类知识体系下标准目录名称具有映射关系,通过挖掘这种关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。

  6. 百科词条目录归一化 策略流程

  7. 百科词条目录归一化 策略1-目录间相似度计算 采用LCS算法来计算用户目录与标准目录之间的相似度,相似度越高,说明越应该关联 策略2-目录下内容相似度计算 采用TF-IDF算法,计算用户目录与标准标注目录下内容的相似度,内容的相似度越高,说明就越应该关联

  8. 百科词条目录归一化 结果 升级 增加标注目录的量,召回低频目录,用wordsim计算目录间相似度等

  9. 百科词条时效性内容判定 背景 • 百科词条内容含有大量如今年,去年等不能表示明确时间信息的时效性词语,影响用户的阅读质量 特点 • 大部分时效性的百科词条语句都含有比较明显的关键词语,如今年,从现在开始,X月X日等。本次主要是针对特殊关键词和X月X日时间这两种类型。

  10. 百科词条时效性内容判定 目的 • 删除时效性词语,减少时效性语句,使得百科的内容更加规整权威,提高阅读质量 策略概述 • 利用统计的方法,对时效性语句进行特征提取,寻找强规则。

  11. 百科词条时效性内容判定 策略流程

  12. 百科词条时效性内容判定 关键字词识别

  13. 百科词条时效性内容判定 X年X月类型的识别 含有X年X月这样的句子都会被判定为时效性句子,除了以下四种情况:

  14. 百科词条时效性内容判定 其他 • 如果识别出来的时效性词语被特殊的字符所包含,则视为非时效性

  15. 百科词条时效性内容判定 结果 • 准确率为93%,召回率为52%

  16. 百科词条重复内容判定 背景 • 百科的词条内容中,往往有大量的重复内容,这些重复内容包括句子级别的重复以及段落级别的重复,这浪费了用户的查阅时间,降低了整个词条的阅读质量 特点 • 单句重复,多句重复,段落级别重复

  17. 百科词条重复内容判定 目的 • 删除百科词条中的单句重复、多句重复以及段落级重复,使百科词条内容变简洁,提升阅读质量 策略概述 • 采用hash的方法,来对词条中的句子进行重复性检查,然后再依次是多句重复性检查和段落级别的重复性检查

  18. 百科词条重复内容判定 策略流程

  19. 百科词条时效性内容判定 结果 • 准确率为94%,召回率为87%

  20. 百科词条主观性内容判定 背景 • 百科的词条内容中,往往有大量的主观内容,如我认为,我说等。这样的主观性句子导致百科词条质量下降。 特点 • 主观性的句子一般都含有特殊的关键字,如我认为,他说等。

  21. 百科词条主观性内容判定 目的 • 删除百科词条中的这些主观性句子,使得百科词条内容质量得到提升,词条内容更加专业。挖掘主观内容的召回率和准确率在80%以上。 策略概述 • 主要采用统计的方法,挖掘能识别主观性词语的强规则,依靠这些强规则来挖掘主观性内容。

  22. 百科词条主观性内容判定 策略流程

  23. 百科词条主观性内容判定 词条分句

  24. 百科词条主观性内容判定 主观内容的提取 • 主观内容与“意见指示性动词”、“程度副词”、“情感词”、“人物代词”有很大关系,但是它们影响句子是否为主观内容的程序不同,即权重不同,其中“情感词”、“人物代词”的权重较大,而“意见指示性动词”、“程度副词”的权重较小。 • 利用这些词库匹配百科词条中的每个句子,当求出句子的主观性大于某一阈值时,将判定这个句子为主观句 • 。

  25. 百科词条主观性内容判定 情感词的准备 • 1、NLP积累了一部分的情感词,选用这一部分情感词为基本词库 • 2、对原始预料进行标注,选取高频的形容词、代词和情感副词来来作为补充

  26. 百科词条主观性内容判定 结果 • 准确率为90%,召回率为77%

  27. 谢谢

More Related