230 likes | 496 Views
BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告. 巢文涵 chaowenhan@buaa.edu.cn 010-82338927 北京航空航天大学计算机学院 2012.11.01. 大纲. 引言 BUAA-SA 系统结构 实验 总结. 引言. BUAA-SA 是一个规则与统计相结合的情感分析系统 情感词处理 细节处理:反讽、程度词等 话题自适应 参加了三个子任务 观点句识别 极性判断 情感要素抽取. BUAA-SA 结构. 应用层. 情感分析接口. 处理层. 观点句识别. 情感倾向判断. 情感要素抽取. 基础层.
E N D
BUAA-SA: NLP&CC 2012中文微博情感分析评测报告 巢文涵 chaowenhan@buaa.edu.cn 010-82338927 北京航空航天大学计算机学院 2012.11.01
大纲 • 引言 • BUAA-SA系统结构 • 实验 • 总结
引言 • BUAA-SA是一个规则与统计相结合的情感分析系统 • 情感词处理 • 细节处理:反讽、程度词等 • 话题自适应 • 参加了三个子任务 • 观点句识别 • 极性判断 • 情感要素抽取
BUAA-SA结构 应用层 情感分析接口 处理层 观点句识别 情感倾向判断 情感要素抽取 基础层 情感词处理 细节处理 话题自适应 数据层 话题情感要素表 原始情感词库 分级情感词库 反讽词表、程度词
情感词处理 • 数据源 • Hownet情感词 • 台湾大学情感词(http://nlg18.csie.ntu.edu.tw:8080/lwku/index.html) • 清华大学情感词(nlp.csai.tsinghua.edu.cn/site2/) • 极性值判断及分级 • 将情感词的权值定义为情感词的“专注性” • 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高 • 将情感词划分为5个等级
细节处理 • 讽刺 • 就算、竟 • 程度词 • 增强 • 彻头彻尾、地地道道、极度 • 弱化 • 有点、颇为、未免
话题自适应 • 话题评价元素获取 • 建立一个通用的情感词种子词集 • 根据具体的话题,从互联网爬取相关文本 • 抽取评价对象和情感词 • 参见:Expanding Domain Sentiment Lexicon through Double Propagation
任务-1:观点句识别 • 规则方法 • 至少包含一个强情感词或者两个弱情感词[Y] • 普通情感词+话题情感词 • 特征+SVM方法
任务-1分类特征选择(续) F1:情感词(可含话题相关情感词) F2:不规范标点[Y] F3:否定词 F4:程度词 F5:表情符号 F6:特殊符号[N] F7:叹词与带有情感色彩的标点融合 F8:主张词 F9:第一、二人称代词 F10:祝愿、但愿、希望等表达愿望的词 F11:程度词+情感词 F12:否定词+程度词+情感词 F13:其它融合特征或者其它特征
任务-2:极性判断 • 规则方法 • 对每个情感词进行分类,判断它是否表达情感 • 对句子中的情感词加权 • 特征+SVM方法
任务-2分类特征选择(续) 句子中表情符号个数 积极表情符号的个数 消极表情符号的个数 句子是问句、陈述句、还是感叹句。。。。 情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的个数 情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的情感极值和 积极词个数 消极词个数 句子的情感词极值和 否定词的个数 感叹号个数 问号个数 非情感词的各类词性标记个数n、t、s、f、v、a、b、z、r、m、q、d、p、c、u、e、y、o、h、x、w 主题相关的情感词个数 {"n", "v", "a", "z", "d"}等话题相关的情感词对应词性标记的个数 句子包含target数量 话题总体情感倾向 话题正面情感倾向 话题负面情感倾向
任务-3:情感要素抽取 候选评价对象生成 判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象 如果没有,则对句子中的所有可能的评价对象(主要是词性为n的词)进行分类 观察候选评价对象的个数,如果为0,则选择hashTAG中出现的名词作为唯一的候选评价对象
任务-3:情感要素抽取(续) 识别句子中的评价词 观察句子中是否有强烈的情感词(强情感词定义为程度为4和5的词),如果有则直接作为候选, 如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于2则直接将它们作为候选,如果大于2,则进行分类
任务-3:情感要素抽取(续) 生成所有候选搭配,并输出最佳结果 如果候选搭配个数小于等于2,则直接输出结果 如果候选数量大于2,则对所有候选进行分类 分类特征包括
任务-3:情感要素抽取(续) 分类特征 评价对象是否在hashtag中出现 评价词是否为主题相关的评价词 评价对象与评价词之间的的依存关系 评价词极值 评价词是否与程度词存在依存关系 评价词是否与形容词存在依存关系 评价词是否与副词存在依存关系 评价词前后词汇及其词性 评价词是否存在否定依存关系 评价词一定窗口(窗口大小可设为2)内是否出现讽刺性词语。 候选搭配的个数 句子中表情符号个数 积极表情符号的个数 消极表情符号的个数
实验结果 表1 观点句识别评果
实验结果 表2 情感倾向性判断评测结果
实验结果 表3 情感要素抽取评测结果
总结 • BUAA-SA系统参加了三个评测子任务 • 主要的特点在于 • 情感词的处理 • 细节的处理 • 话题适应性
思考 话题的倾向性太强? 训练集、测试集的主观性太强? 在应用中如何提高用户的满意度?
主要参考文献 • Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009. • Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010. • 赵妍妍, 秦兵, 刘挺.文本情感分析综述. 2009. • 许洪波,孙乐,姚天昉(主编).第三届中文倾向性分析评测(COAE2011)论文集. 中国科学院计算技术研究所,2011.
附录 北航计算机学院 信息安全与智能信息处理实验室 研究方向: 机器翻译、情感分析、自然语言处理 文本挖掘、机器学习 信息安全、内容安全、舆情分析 联系 北航新主楼G1001/G930 chaowenhan@buaa.edu.cn; 010-82338927 (O) 欢迎各位专家莅临指导