270 likes | 359 Views
实习 报告. 陈文 强 社区技术部 RD Intern 2013-08-13. 目录. 百科词条目录归一化. 背景. 1 、词条目录过分口语化,命名不规范. 2 、词条目录层次关系不合理,逻辑混乱. 特点. 大部分目录与分类知识体系下的标准目录名称具有映射关系. 百科词条目录归一化. 百科词条目录归一化. 目的. 帮助解决百科词条中目录名称不规范、目录逻辑混乱 、 层级关系不合理等问题,帮助提高百科可读性及全面性. 策略概述.
E N D
实习报告 陈文强 社区技术部 RD Intern 2013-08-13
百科词条目录归一化 背景 • 1、词条目录过分口语化,命名不规范 • 2、词条目录层次关系不合理,逻辑混乱 特点 大部分目录与分类知识体系下的标准目录名称具有映射关系
百科词条目录归一化 目的 • 帮助解决百科词条中目录名称不规范、目录逻辑混乱、层级关系不合理等问题,帮助提高百科可读性及全面性 策略概述 与分类知识体系下标准目录名称具有映射关系,通过挖掘这种关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。
百科词条目录归一化 策略流程
百科词条目录归一化 策略1-目录间相似度计算 采用LCS算法来计算用户目录与标准目录之间的相似度,相似度越高,说明越应该关联 策略2-目录下内容相似度计算 采用TF-IDF算法,计算用户目录与标准标注目录下内容的相似度,内容的相似度越高,说明就越应该关联
百科词条目录归一化 结果 升级 增加标注目录的量,召回低频目录,用wordsim计算目录间相似度等
百科词条时效性内容判定 背景 • 百科词条内容含有大量如今年,去年等不能表示明确时间信息的时效性词语,影响用户的阅读质量 特点 • 大部分时效性的百科词条语句都含有比较明显的关键词语,如今年,从现在开始,X月X日等。本次主要是针对特殊关键词和X月X日时间这两种类型。
百科词条时效性内容判定 目的 • 删除时效性词语,减少时效性语句,使得百科的内容更加规整权威,提高阅读质量 策略概述 • 利用统计的方法,对时效性语句进行特征提取,寻找强规则。
百科词条时效性内容判定 策略流程
百科词条时效性内容判定 关键字词识别
百科词条时效性内容判定 X年X月类型的识别 含有X年X月这样的句子都会被判定为时效性句子,除了以下四种情况:
百科词条时效性内容判定 其他 • 如果识别出来的时效性词语被特殊的字符所包含,则视为非时效性
百科词条时效性内容判定 结果 • 准确率为93%,召回率为52%
百科词条重复内容判定 背景 • 百科的词条内容中,往往有大量的重复内容,这些重复内容包括句子级别的重复以及段落级别的重复,这浪费了用户的查阅时间,降低了整个词条的阅读质量 特点 • 单句重复,多句重复,段落级别重复
百科词条重复内容判定 目的 • 删除百科词条中的单句重复、多句重复以及段落级重复,使百科词条内容变简洁,提升阅读质量 策略概述 • 采用hash的方法,来对词条中的句子进行重复性检查,然后再依次是多句重复性检查和段落级别的重复性检查
百科词条重复内容判定 策略流程
百科词条时效性内容判定 结果 • 准确率为94%,召回率为87%
百科词条主观性内容判定 背景 • 百科的词条内容中,往往有大量的主观内容,如我认为,我说等。这样的主观性句子导致百科词条质量下降。 特点 • 主观性的句子一般都含有特殊的关键字,如我认为,他说等。
百科词条主观性内容判定 目的 • 删除百科词条中的这些主观性句子,使得百科词条内容质量得到提升,词条内容更加专业。挖掘主观内容的召回率和准确率在80%以上。 策略概述 • 主要采用统计的方法,挖掘能识别主观性词语的强规则,依靠这些强规则来挖掘主观性内容。
百科词条主观性内容判定 策略流程
百科词条主观性内容判定 词条分句
百科词条主观性内容判定 主观内容的提取 • 主观内容与“意见指示性动词”、“程度副词”、“情感词”、“人物代词”有很大关系,但是它们影响句子是否为主观内容的程序不同,即权重不同,其中“情感词”、“人物代词”的权重较大,而“意见指示性动词”、“程度副词”的权重较小。 • 利用这些词库匹配百科词条中的每个句子,当求出句子的主观性大于某一阈值时,将判定这个句子为主观句 • 。
百科词条主观性内容判定 情感词的准备 • 1、NLP积累了一部分的情感词,选用这一部分情感词为基本词库 • 2、对原始预料进行标注,选取高频的形容词、代词和情感副词来来作为补充
百科词条主观性内容判定 结果 • 准确率为90%,召回率为77%