1 / 12

中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室. 报告人:周霄. 简介. 在本届评测设立的 3 个评测任务中, LTLAB 分别参加了任务 1 (观点句识别)和任务 3 (情感要素抽取)。 对于任务 1 :采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。 对于任务 3 :参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息。. 1. 预处理. 预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分: URL

jenn
Download Presentation

中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中文微博情感分析系统-LTLAB上海交通大学中德语言技术联合实验室中文微博情感分析系统-LTLAB上海交通大学中德语言技术联合实验室 报告人:周霄

  2. 简介 • 在本届评测设立的3个评测任务中,LTLAB分别参加了任务1(观点句识别)和任务3(情感要素抽取)。 • 对于任务1:采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。 • 对于任务3:参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息。

  3. 1. 预处理 • 预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 • 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分: • URL • 用户名及转发标志:变现为:“@+ 用户名”,或“|| @ + 用户名” • 话题:即一对“#”包裹的非空格字符 • 正常文本信息 • 分词和句法分析 • 分词使用了中科院的分词系统ICTCLAS,句法分析使用了Stanford Parser。 • 为了改善分词效果,评测小组成员从网络和评测样例数据中收集了一部分常用网络用语,加入用户词典中。

  4. 1. 预处理 • 评价词抽取 • 基于评价词词典对词或词组进行匹配 • 分为正面评价词词典和负面评价词词典 • 词典来源由3部分构成:Hownet情感词集合、NTUSD情感词集合、来自网络和评测数据样例的评价词 • 词典加入正则表达式模板,如“丢.{1,4}的脸”可以匹配“丢我的脸” • 对于抽取出的评价词,首先设定初始评价极性为词典中的极性;然后向前一个范围内寻找是否含有表否定的词语,如“不”、“没有”等,每找到一个词就对当前评价极性进行一次反转。

  5. 2. 观点句识别 • 基于VFI(Voting Feature Interval)分类器进行二值分类,正例即为观点句: • 人工标注了评测样例数据作为训练数据。 • VFI分类器的原理较简单,它假设各维特征独立,每维特征对所有类标识进行投票,每类的得分正比于该类得到的票数。 • VFI分类器不显式考虑先验概率。由于训练数据不平衡(正例较少),因此有助于提高结果的召回率。下表是我们在小范围数据上使用各种分类器得到的结果。

  6. 2. 观点句识别 • 对于微博中的每一句,抽取如下几种特征: • 基于词性的特征。选取了在观点句中常出现的词性或词性组合作为特征,如:连词个数、代词个数、副词+形容词个数、“不”+形容词个数等等 • 基于标点符号的特征:问号的数量和感叹号的数量 • 句中评价词的个数 • 纯粹表达主观意愿词的个数。评测要求纯粹表达主观意愿的句子不算作观点句。针对这一要求,我们人工收集了一些纯粹表达主观意愿词(如“祝愿”),并将句中该类词的数量作为一个特征 • 根据实验结果,人工调整了个别特征的权重,调低了分类器判分的阈值

  7. 3. 情感要素抽取 • 主要使用基于分类器的方法,辅以基于模板的方法。使用评价对象与评价词间的位置关系判别极性。 • 分类器同样采用VFI分类器。对于一条微博,首先抽取其中的候选评价对象,然后对于微博中的每个观点句,分别判断每个候选评价对象是否是其正确评价对象。

  8. 3. 情感要素抽取 • 候选评价对象抽取 • 有两种情况:句子中长度小于阈值的、句法成分为NN、NR、NP、IP、FW之一的词组;当前话题的关键词之一。 • 使用了两种方法抽取话题关键词: • 方法一:使用话题中的名词。如“#假和尚搂女子#”,则抽取关键词“和尚”、“女子” • 方法二:使用话题中的名词词组,以及整个话题。即“假和尚”、“女子”、“假和尚搂女子” • 第二种方法的评测结果略好于方法一

  9. 3. 情感要素抽取 • 构建分类实例 • 对于每一个候选评价对象t,将其与微博中的每一句s分别组合构成分类实例<t, s>。系统需要对每个分类实例判断true/false,对应t 是/不是 s的评价对象 • 每个分类实例抽取以下特征: • t的句法成分 • t与s的距离,即t与s间隔的字数。若t在s中,则距离为0;若t在s之前,则为一负值;若t在s之后,则为一正值 • t是否是话题关键词 • t是否出现在一对“#”之间 • t在话题相关微博中出现的频次

  10. 3. 情感要素抽取 • 基于模板的方法 • 评测小组借鉴了史兴等人在COAE 2011论文集中使用的方法,对微博中所有<依存关系,评价对象句法成分,评价词句法成分>都满足下表的三元组进行抽取 • 评价对象的极性判别 • 对每个评价对象,在一个窗口范围内寻找最近的评价词,若找到则使用该评价词的极性 • 若窗口内无评价词,则计算句子中正负评价词的个数,以此判断评价对象极性

  11. 4. 总结

  12. 谢谢!

More Related