380 likes | 1.05k Views
中文产品评论的意见挖掘研究 Research on Opinion Mining of Product Reviews in Chinese. 报告人:严孙荣 导 师:瞿有利 时 间: 2010 年 6 月. 内容提纲. 研究背景和意义 整体褒贬分类研究 细颗粒意见分析研究 意见挖掘系统设计与实现 总结和展望 参考文献. 研究背景和意义. 问题的产生 电子商务飞速发展, 用户 在 使用产品之后会在 网 上发表对产品的评论 。 从纷繁复杂的网络世界中准确而快速地获取所需信息并非易事。 产品评论意见挖掘
E N D
中文产品评论的意见挖掘研究Research on Opinion Mining of Product Reviews in Chinese 报告人:严孙荣 导 师:瞿有利 时 间:2010年6月
内容提纲 • 研究背景和意义 • 整体褒贬分类研究 • 细颗粒意见分析研究 • 意见挖掘系统设计与实现 • 总结和展望 • 参考文献
研究背景和意义 • 问题的产生 • 电子商务飞速发展,用户在使用产品之后会在网上发表对产品的评论。 • 从纷繁复杂的网络世界中准确而快速地获取所需信息并非易事。 • 产品评论意见挖掘 • 对网上大量的评论信息进行挖掘,通过采用自然语言处理技术,对自然语言描述的无结构的用户产品评论中进行自动挖掘,找到有用的信息,并以直观的方式对挖掘结果进行表示。 • 研究意义 • 帮助用户购买适合自己的产品。 • 帮助厂家生产符合社会需求的产品。
研究现状 • 研究现状 • ReviewSeer :由Dave等人研究并开发,是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。 • Pulse :由Gamon等人研究并开发,可以自动挖掘网上用户所上载的自由文本中有关汽车评价中的贬褒信息和强弱程度。 • Opinion Observer :由Liu等人研究并开发的,可以处理网上在线顾客产品评价,并采用可视化方式对若干种产品特征的综合质量进行比较。 • WebFountain :由Yi和Niblack研究并开发了,WebFountain系统是一个基于多类型数据、开放领域意见挖掘的研究和开发平台。 • OpinionFinder :Wilson等人研究并开发的,一个自动识别主观性句子以及句子中各种与OpinionFinder主观性有关的成分的系统。 • 存在的问题目前的研究主要是针对英文评论,中文评论的意见挖掘才刚刚起步。
主要研究内容 • 整体褒贬分类(文档级情感分类) • 判断给定文本片段所体现的说话者的情感倾向是正面肯定评价还是反面否定批判。例:“便宜,相当便宜。外型较酷!”-> 肯定 • 细颗粒意见分析(基于产品特征的意见分析) • 挖掘评论中的产品特征和其所持有的情感方向。 • 例: “诺基亚5230不但样子漂亮,而且功能强大,不过电池不怎么耐用!” 样子->漂亮(肯定)功能->强大(肯定) 电池->不耐用(否定) • 产品评论意见挖掘系统的实现 北京交通大学计算机研究所
整体褒贬分类 分类实验整体设计 北京交通大学计算机研究所
整体褒贬分类 • 实验设计 • 为了分析不同因素对分类性能的影响,实验设计了相应的方案。刚所有的组合进行实验分析。整体如下: 北京交通大学计算机研究所
整体褒贬分类 • 基于N-Gram特征抽取 • 基于词的unigram(WBU) • 基于词的bigram(WBB) • 基于字的unigram(CBU) • 基于字的bigram(CBB) • 基于字的trigram(CBT) 北京交通大学计算机研究所
整体褒贬分类 北京交通大学计算机研究所 • 基于后缀树的特征抽取方法 • 后缀树(Suffix Tree) • 由Weiner在1973年提出的,Ukkonen在1995年进行了简化,并提供了第一个线性时间的在线构造后缀树的算法。 • 广义后缀树 • 由若干字符串组成的后缀树。对于两个字符串S1,S2,我们可以看作是由S1和S2组成的S1$S2# 字符串,也可以看作S1和S2依次加入所构成的后缀树。 • 特点 • 任何子串都是某个后缀的前缀。 • 子串可以按节点分成不同的组。
整体褒贬分类 北京交通大学计算机研究所 • 基于后缀树的特征抽取方法(续) • 关键子串组(key Substring Group) • 后缀树上的一个节点,可以看做是一个字符串的组( SubString Group )。 • 选择其中的部分组(key Substring Group)作为文本的特征表示。 • 提取方法 • l:最低频次,SGv所要出现的最低次数。 • h:最大频次,超过这个频次,则过滤掉。 • b:最小分支数,也就是孩子节点的个数。 • p:最大的父亲-孩子节点的条件概率。 • q:最大的后缀链接的条件概率。
整体褒贬分类 • 特征权重计算 1.布尔权重(Bool) 2.绝对词频权重(TF) 3.TFIDF权重 • 特征选择(特征降维) CHI 统计法 北京交通大学计算机研究所
整体褒贬分类 • 分类器选择 • 朴素贝叶斯分类方法(Naïve Bayes,NB)程序自己实现 • 最大熵(Maximum Entropy,ME)张乐博士的最大熵工具 • 支持向量机(Support Vector Machine,SVM)Joachims的SVM-light系统 北京交通大学计算机研究所
整体褒贬分类 • 性能评价指标 • 微平均(MicroF1)微平均是每一个实例(文档)的性能指标的算术平均,同一个数据集它的准确率、召回率和F1 的微平均指标是相同的。 • 宏平均(MacroF1)宏平均是每一个类的F1的算术平均值。 北京交通大学计算机研究所
整体褒贬分类 情感正例 情感反例 褒贬分类数据集构建选择京东商城(www.360buy.com)的部分产品评论。 北京交通大学计算机研究所
整体褒贬分类 北京交通大学计算机研究所 评论例子
整体褒贬分类 • 数据集规模 共从京东网抓紧大约16000条评论。 随机选择其中的12000条评论作为实验数据集, 9000条训练集,3000条作为测试集。 • 文本长度分析 北京交通大学计算机研究所
整体褒贬分类 • 基于N-Gram特征抽取实验结果 • 基于词的unigram特征维度(6917) • 基于词的bigram特征维度(62187) 北京交通大学计算机研究所
整体褒贬分类 • 基于N-Gram特征抽取的实验结果(续) • 基于字的unigram特征维度(2687) • 基于字的bigram特征维度(37626) • 基于字的trigram特征维度(78031) 北京交通大学计算机研究所
整体褒贬分类 分类准确率 特征维度 • 基于后缀树特征抽取的实验结果 • 不同参数(l,h)对实验结果的影响,使用TF的加权方法在SVM分类器下的结果。 北京交通大学计算机研究所
整体褒贬分类 • 基于后缀树特征抽取的实验结果(续) • 在参数(l=10,h=4000)下不同特征加权方法,在不同分类器下的的实验结果 北京交通大学计算机研究所
整体褒贬分类 • 实验结论 • 在特征表示上:Suffix>CBB>WBB>WBU>CBU>CBT。 • 在特征加权方法上:TF>BOOL>TFID。 • 分类器的性能:SVM>ME>NB。 • 基于后缀树的特征抽取,避免了分词,同时避免了N-Gram的高维度,并取得了比较满意的效果。 北京交通大学计算机研究所
细颗粒意见分析 • 整体设计 北京交通大学计算机研究所
细颗粒意见分析 • 产品特征库库构建 • 产品特征定义 • 1.产品部件。 • 2.产品属性。 • 3.产品部件的属性。 • 4.产品的总体评价。 • 产品特征类型 • 显式特征和隐式特征 • 产品特征词库构建方法 • 从产品规格说明书中提取 • 从产品评论中提取 北京交通大学计算机研究所
细颗粒意见分析 • 中文极性词典库构建 • 极性词 • 用来表达自己观点的直接描述工具 • 主要为形容词、动词、名词和部分成语等 • 中文极性词典构建 • 极性词词典 • 极性修饰词词典 • 极性词的上下文极性 北京交通大学计算机研究所
细颗粒意见分析 • 中文产品评论语言特点分析 • 中文句子分析 • 按结构分:单句,复句 • 按语气分:陈述(肯定句,否定句,双重否定句)、祈使句、感叹句、疑问句。 • 产品评论特点 • 评论语言大都比较简短。 • 断句随意,标点符号不规范使用。 • 评论用词比较随意,口语化较重,出现较多的网络用词。 • 只表达了希望或者建议的态度。 • “没有”、“尚未”句式。 北京交通大学计算机研究所
细颗粒意见分析 价格-便宜(正面) 外观-不喜欢(负面) • 基于依存句法(Dependence Grammar)的意见分析 • 主要思想:SBV+VOB极性传递方法 • SBV主谓关系(如“性价比高”) • ATT修饰关系(如“漂亮的外观”) • VOB动宾关系(如“喜欢它的屏幕”) 北京交通大学计算机研究所
细颗粒意见分析 基于关键字匹配的意见分析主要思想:使用关键字进行匹配,通过查找产品特征词的最近出现的极性词来计算极性。 北京交通大学计算机研究所
细颗粒意见分析 • 细颗粒意见分析实验 • 从京东网随机选择500条句子,包含280个褒义评论句子,150个贬义评论句和70条个褒贬都有的评论句。 • 共标记极性词904个。其中含有否定词的句子比例为18%,含有强调词的比例为35%,含有产品特征相关的极性词为13%。 北京交通大学计算机研究所
细颗粒意见分析 实验结论:关键匹配的方法的分析性能好于依存句法的方法分析。分析原因:依存句法的方法对句法分析结果的依赖过重。 • 细颗粒意见分析实验(续) • 共标记产品特征词953个,其中对特征词表达了有效的情感意见的关系对共有818对。 北京交通大学计算机研究所
意见挖掘系统设计与实现 整体设计 北京交通大学计算机研究所
意见挖掘系统设计与实现 评论下载与内容抽取 北京交通大学计算机研究所
意见挖掘系统设计与实现 产品评论管理界面 北京交通大学计算机研究所
意见挖掘系统设计与实现 产品意见比较查询界面 北京交通大学计算机研究所
意见挖掘系统设计与实现 产品意见查询界面 北京交通大学计算机研究所
总结 采用机器学习的方法对产品评论进行整体褒贬分类研究。分析比较不同因素对分类结果的影响。 设计并实现了基于依存句法分析的细颗粒评价分析算法和关键字匹配的细颗粒评价分析算法,并构建产品特征库和中文极性词典。 设计并实现了产品评论意见挖掘系统。 北京交通大学计算机研究所
展望 进一步挖掘针对情感分类的特征提取方法。 进一步完善对复杂评论的处理能力。 进一步完善中文产品评论语料库的构建。 北京交通大学计算机研究所
参考文献 [1]Peter D.Tumey.Thumbs up or Thumbs Down?Semantic Orientation Applied to Unsupervised Classification of Reviews the Association for Computational Linguistics 40th Anniversary Meeting,New Brunswick,N.,J 2002:41 7—424 [2]SANTORINI B.Part-of-speech tagging guidelines for the Penn Tree bank project[M].Pennsylvania:ACM Press,1990. [3]PANG Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]// Prec of EMNLP'02.Philadelphia: Association for Computational Linguistics.2002:79-86. [4]DAVE K,LAWRENCE S,PENNOCK D.Mining the peanut gallery: opinion extraction and sentiment classification of product reviews [C]//Proc of the 12th Intl World Wide Web Conference.[S.1.]:ACM Press,2003:519-528. [5] L.Dini and G Mazzini.2002.Opinion Classification Through Information Extraction.In A.Zanasi.C.Brebbia,N.Ebecken and P.Melli(eds):Data Mining,pages 299-3 1 0,WIT Press,Southampton,UK [6]Bo pang and Lillian Lee. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. [7]朱嫣岚,阂锦,周雅倩,黄首苦,吴立德.基于HowNet 的词语语义倾向计算.《中文信息学报》,2006(1) [8]周立柱,贺宇凯,王建勇.情感分析研究综述 [J].计算机应用2008. [9]姚天昉,等.一个用于汉语汽车评论的意见挖掘系统[A].中文信息处理前沿进展一中国中文信息学会二十五周年学术会议论文集[C].北京:清华大学出版社,2006.260.281. [10]刘群,李素建.基于《知网》的词语语义相似度的计算[A].第三届汉语词语语义学研讨会,台北,2002 [11]史树敏,黄河燕,刘东升.一种基于领域本体的指代消解策略[C].北京:清华大学出版社,2007
Thanks! 请老师批评指正!