680 likes | 786 Views
多层次语言粒度的文本情感倾向分析. 王素格. 山西大学计算机与信息技术学院. 2013 年 11 月 2 日. 目录. 引言 词汇级倾向性分析 要素级倾向性分析 句子与篇章级倾向性分析 中文倾向性分析评测 未来的工作. 为什么需要文本情感倾向分析. 文本信息主要包含两类 客观性事实 (Facts ) 主观性观点 (Opinions )
E N D
多层次语言粒度的文本情感倾向分析 王素格 山西大学计算机与信息技术学院 2013年11月2日
目录 • 引言 • 词汇级倾向性分析 • 要素级倾向性分析 • 句子与篇章级倾向性分析 • 中文倾向性分析评测 • 未来的工作
为什么需要文本情感倾向分析 • 文本信息主要包含两类 • 客观性事实(Facts ) • 主观性观点(Opinions) • 随着Web2.0的飞速发展以及Web3.0的兴趣,互联网中出现大量的UGC数据,主要包括作者的观点(opinion)、态度(attitude)、感觉(feeling)、情绪(emotion)等。
为什么需要文本情感倾向分析 • 表现形式:以非结构化或半结构化的文本形式出现。如,产品评论、股票评论、微博、影视评论、新闻评论等。 • 44%新闻文本包含观点信息 (Wiebe ACL 2001) • 已有文本分析方法主要侧重于客观性文本内容(factual information)的分析和挖掘
为什么需要文本情感倾向分析 • 企业对倾向性分析的需求 • Automatically find consumer sentiments and opinions (market intelligence) • Capture public trends • Capture commercial opportunity • Online reputation management • Precision advertising
为什么需要文本情感倾向分析 • 普通用户对倾向性分析的需求 • Helpful for purchasing a product • Find opinions on political topics • 政府对观点挖掘和倾向性分析的需求 • Control the public opinions • Monitor the public event
观点:人们对事物的看法,具有明显的主观性,不同人对同一事物的看法存在差异。观点:人们对事物的看法,具有明显的主观性,不同人对同一事物的看法存在差异。 倾向性:观点中所包含的情感倾向性。 文本情感倾向分析 文本情感分析又称意见挖掘(观点挖掘),简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。 文本情感倾向分析的定义
AAAI’2004春季研讨会(AAAI Spring Symposium 2004)的主题就是探索文本中的态度与情感; AAAI’2006春季研讨会包含了大量文本情感倾向分析的论文。 COLING-ACL’2006开辟了Workshop来探讨文本中的情感与主观性。 ACL’2007 和EMNLP2007也包含文本情感讨论。 在评测方面,TREC’2003的Novelty Track专门设计了观点句识别评测任务。2006年的NTCIR的检索评测会议也设计了观点分析的探索性任务(Opinion Analysis Pilot Task)。 国内的计算语言学会议和信息检索会议也将文本情感倾向分析列为主题。 文本情感倾向分析兴起
文本情感倾向分析粗略分为两类 情感倾向性分类 情感倾向性信息抽取 文本情感倾向分析分类
对于给定的语言粒度篇章、段落、句子、短语或单词是否具有倾向性,以及倾向性的极性进行分类。对于给定的语言粒度篇章、段落、句子、短语或单词是否具有倾向性,以及倾向性的极性进行分类。 分类类别{褒义,中性,贬义}或主观(含倾向性)、客观(不含倾向性)。 加入了强度,或将分类状态变成若干级别(将强度包含在不同的状态中) 情感倾向性分类
词汇级情感倾向示例 高档与高性价比一肩挑 车主评说06新款君威 作为国内中高档车市场的主力干将,别克君威一直口碑素著。 别克君威的大气、安静、安全、动态舒适等突出亮点在同级车型中无可比拟,使它赢得市场上广大消费者和30多万用户的认同与赞赏。06新款别克君威不仅延承了以上的各项优势,更以兼具响当当的大品牌和出众的性价比,为公商务及家庭用户提供了“品位”与“价值”同时拥有的最佳选择。
短语与搭配级情感倾向示例 高档与高性价比一肩挑 车主评说06新款君威 作为国内中高档车市场的主力干将,别克君威一直口碑素著。 别克君威的大气、安静、安全、动态舒适等突出亮点在同级车型中无可比拟,使它赢得市场上广大消费者和30多万用户的认同与赞赏。06新款别克君威不仅延承了以上的各项优势,更以兼具响当当的大品牌和出众的性价比,为公商务及家庭用户提供了“品位”与“价值”同时拥有的最佳选择。
句子级褒义情感倾向示例 • 高档与高性价比一肩挑 车主评说06新款君威 1 • 作为国内中高档车市场的主力干将,别克君威一直口碑素著。 1 • 别克君威的大气、安静、安全、动态舒适等突出亮点在同级车型中无可比拟,使它赢得市场上广大消费者和30多万用户的认同与赞赏。 1 • 06新款别克君威不仅延承了以上的各项优势,更以兼具响当当的大品牌和出众的性价比,为公商务及家庭用户提供了“品位”与“价值”同时拥有的最佳选择。1
篇章级的褒义情感倾向示例 高档与高性价比一肩挑 车主评说06新款君威 作为国内中高档车市场的主力干将,别克君威一直口碑素著。 别克君威的大气、安静、安全、动态舒适等突出亮点在同级车型中无可比拟,使它赢得市场上广大消费者和30多万用户的认同与赞赏。06新款别克君威不仅延承了以上的各项优势,更以兼具响当当的大品牌和出众的性价比,为公商务及家庭用户提供了“品位”与“价值”同时拥有的最佳选择。
词汇级的情感倾向分析 • 2003 Turney 又将单对种子扩展成多对种子,选取了正反面各7个词汇,分别采用PMI-IR( pointwise mutual information )和LSA( latent semantic analysis )方法来度量给定词汇与基准词的关联度,确定词汇的语义倾向,实验采用了GI中的部分词语(共3596个),结果表明PMI-IR算法的优越性。
基于概率潜在语义分析的词汇情感倾向判别 真实语料中有下面两个例句: (1)新POLO的悬架经过调教后,舒适性有所增强,配合舒适的座椅,那种冲过坑洼的颠簸感只是在踏板上能有清晰感觉。 (2)新车强调驾乘乐趣,即在保证宝马良好操纵性能的基础上加强乘坐的舒适性,着力营造良好的商务空间。 在这两个句子中“增强”和“加强”是同义词,在同义词词林中列出词条“增强”、“加强”、“提高”、“增高”、“增进”、“增长”、“滋长”、“如虎添翼”均为同义词。 王素格,李德玉,魏英杰,宋晓雷. 基于同义词的词汇情感倾向判别方法. 中文信息学报. 2009,23(5):68-74 宋晓雷,王素格,李红霞. 基于概率潜在语义分析的词汇情感倾向判别. 中文信息学报. 2011,25(2):89-93
基于概率潜在语义分析的词汇情感倾向判别 概率潜在语义分析对称参数表示模型 PLSA对称参数模型 A Z B
利用得到A与B之间的相似度矩阵 利用公式求得A与A之间的相似度矩阵。 相似度矩阵计算
小结 基于PLSA的语义倾向判别,只需利用少量的基准词,比较容易实现且不受任何外部资源的限制,解决了语料规模较小时的数据稀疏问题。 本方法在较小的语料规模上(语料规模大小为570506个词,即不足60万个词。)对于2958个测试词汇情感倾向判别的准确率达到了68.93%。
基于混合语言信息的词语搭配倾向判别方法 • 问题提出 • 具有明显的语义倾向:优秀、聪明、漂亮、狡猾、妖艳等。 • 某些中性词组合可产生情感倾向:油耗高/低、技术含量高/低、精度高/低、排量大/小、配置高/低等。 • 搭配被认为是一种具有任意性的、重复出现的词语组合。 王素格,杨安娜. 基于混合语言信息的词语搭配倾向判别方法. 中文信息学报. 2010,24(3):69-74
基于规则的二元词语搭配倾向判别 • 对于“cd+a”、“cd+v”、“fd+a”和“fd+v”这4 种模式的搭配采用规则的方法判别其情感倾向.
基于概率潜在语义分析的二元词语搭配倾向判别基于概率潜在语义分析的二元词语搭配倾向判别 (a)PLSA(b)U-型模型 (a)为原始的概率潜在语义模型. (b)图U-型模型判别词语搭配的情感倾向. X、Y 表示词语,Z与 C分别表示词语X的潜在语义块、词语X与词语Y的潜在语义块的情感倾向,词语 Y 通过概率 直接影响语义倾向,而且在这个模型中只有词语X被聚类.
融合语言信息的二元词语搭配情感倾向判别模型融合语言信息的二元词语搭配情感倾向判别模型 • 采用概率潜在语义分析+规则的方法,融合语言信息模型如下: 这里 为概率潜在语义情感倾向判别模型, 为基于规则的搭配情感倾向判别模型.
二元词语搭配情感倾向的判别结论 • 基于概率潜在语义模型的方法可以克服基于规则的方法的不足,除模式“v+v”、“v+n”和“a+v”外,基于概率潜在语义模型的方法实验结果优于基于规则的方法; • 除模式“v+v”和“v+n”,采用融合语言信息模型的二元词语搭配情感倾向判别方法的实验结果均是最优的.
句子级情感倾向分析 • 相关技术 • 无监督的观点句识别方法 • 基于有监督的机器学习方法。 • 基于半监督学习方法 • 基于集成学习方法 • 基于半监督学习方法和集成学习方法的融合 本文提出一个基于BootStrapping的集成分类器的中文观点句识别方法 吕云云,李旸,王素格. 基于BootStrapping的集成分类器的中文观点句识别方法. 中文信息学报. 2013,27(5):84-92
实验比较结果分析 • 由表1看出: • 无论利用Bootstrapping的观点句识别方法在训练集的标注率为0.4和1时,集成分类器优于单分类器的观点句识别结果。 • 当训练集的标注率为0.4时,各分类器的观点句识别结果可达到训练集为全部带标注类别的水平,即标注率为1。 • 无监督分类方法中选取分值排名在前60%的观点句识别的结果整体劣于各分类器利用Bootstrapping的观点句识别方法,说明未标注数据对观点句识别的有一定的支持作用。
篇章级文本情感倾向分析 • 表示形式与传统的文本分类一样仍是向量空间模型 • 研究的重点是特征选择、分类器的构造。 • 主客观以及倾向性类别的非平衡问题。
A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification • 基于Fisher判别准则的特征选择方法 Fisher准则函数 • 基于布尔值的Fisher准则函数的计算 • 基于词频(频率)的Fisher准则函数的计算 Wang suge, Li deyu. A feature selection method based on improved fishe’s discriminant ratio for text sentiment classification. Expert Systems with Applications. 2011.38(2011): 8696-8702
结论 • Two experiments are conducted by combining different feature selection methods with 2 kinds of candidate feature sets. • The experiment results show that I+FF obtains the best classification effectiveness, its accuracy achieves 86.61% in Experiment corpus1. • Further research works will focus on establishing a sentiment knowledge base based on vocabulary, syntactic, semantic and ontology.
基于赋权粗糙隶属度的文本情感分类方法 • 带有情感倾向强度的文本表示
赋权粗糙隶属度 王素格,李德玉,魏英杰. 基于赋权粗糙隶属度的文本情感分类方法. 计算机研究与发展. 2011.48(5):855-861
实验结果与分析 • 数据的压缩率 结论:本文提出的离散化方法将495个候选特征压缩到113个,压缩比达到了22.85%,表明该离散化方法在数据降维方面效果很好。
基于赋权粗糙隶属度的文本情感分类方法 • 文本情感分类实验结果 结论 • 提出的粗糙隶属函数(方法1)的测试效果优于文献[142]中的粗糙隶属函数(方法2),表明在文本情感分类中应该考虑特征的情感倾向强度因素,综合评价指标提高约2.5%。 • 与支持向量机方法(方法3)相比,本文方法正面召回率和F值、反面精确率均优于支持向量机方法,综合F值略有提高
Sample cutting method for imbalanced text sentiment classification based on BRC • 在评论文本中,经常出现褒贬类别不平衡现象。 • 为了保持褒贬类别平衡,给出了文本d的ε领域、文本集D的平均k邻域、高密可达等概念. • 提出了BRC(boundary region cutting)算法和BRC + RS(random sampling). • 与同类裁剪方法,利用支持向量机分类实验,结果表明,在数据压缩、各项分类评价指标,以及分类结果的可解释性等方面均优于其它方法。 、 Wang suge, Li deyu, Zhao lidong. Sample cutting method for imbalanced text sentiment classification based on BRC. Knowledge-Based System. 37 (2013) 451–461
Boundary region cutting algorithm BRC • The main idea of the algorithm BRC is as follows • For every high-density neighbor in the boundary region, we cut some majority class texts from it to clarify the disorder boundary region and to balance two-class texts when the majority class texts are much more than the minority class texts. • If all other samples in the high-density neighbor of a minority text are majority class texts we consider it as a noise or an outlier, and put it away. 、
Sample cutting method for imbalanced text sentiment classification based on BRC 、 Fig. 9. The best whole average accuracy Acc on six text sets with four cutting schemes.
指根据预先给定的倾向性单元定义,对于输入的一篇文本(通常是句子或者篇章),从中抽取其所评论的评价对象、评价属性、评价词和评价者等组成情感倾向评价单元要素,并识别要素或者评价单元间的关系指根据预先给定的倾向性单元定义,对于输入的一篇文本(通常是句子或者篇章),从中抽取其所评论的评价对象、评价属性、评价词和评价者等组成情感倾向评价单元要素,并识别要素或者评价单元间的关系 这类方法可将具有倾向性的文本转化为框架、槽等情感倾向性表示形式,继而供情感分析上层的研究。 需要命名实体识别、关系抽取、句法分析等自然语言处理底层技术。 要素级倾向性抽取
要素级情感倾向抽取示例 <Doc1>诺基亚lumia新款win8系统,用起来很流畅哦,很好用</Doc1> <Doc2>我舍友的诺基亚Lumia竟然摔坏了,就摔了一下</Doc2> <Doc3>强烈推荐北京银行信用卡。人家北京银行不差钱儿,是偶用过的信用卡中活动最多、礼品最好滴。</Doc3> <Doc1>诺基亚lumiawin8系统流畅1 <Doc1>诺基亚lumiawin8系统好用1 <Doc2>诺基亚Lumia NULL 摔坏-1 <Doc3>北京银行信用卡活动最多 1 <Doc3>北京银行信用卡礼品最好 1
候选评价对象:名词或名词短语 模板的形式(词形模板和词性模板) 模板1):“slot-len,…,slot-i,…,slot-1,word, #”; 模板2):“#,word,slot+1,…,slot+i,…, slot+len”; 模板3):“slot-len,…,slot-i,…,slot-1, word, slot+1,…,slot+i,…,slot+len” 基于模板的候选评价对象抽取 宋晓雷,王素格,李红霞. 面向特定领域产品评价对象自动识别研究. 中文信息学报.2010,24(1):89-93
更新模板集 模板驱动抽取 模板种子集 候选评价对象集 模板打分 预处理及打分 对象驱动抽取 候选模板集 评价对象集 更新评价对象集 基于bootstrapping的自动抽取研究 模板抽取模块 评价对象抽取模块 Bootstrapping算法流程图
聚类特征: 文档频率、词频、段落信息 距离度量方法: 夹角余弦 聚类结果举例: {宝马,奥迪,骏捷,思域…} {动力,空间,发动机,内饰…} 基于K-means的产品名称和属性的识别
基于K-means的产品名称和属性的识别 表2:产品名称与产品属性识别结果 说明:实验4对正确的评价对象聚类; 实验5对自动识别的评价对象聚类。 结论: 1)预处理的引入提高了实验性能 2)综合使用词形模板和词性模板,结果的F值略有提高 3)聚类结果: 产品名称(69.48%)产品属性(27.16%)