500 likes | 765 Views
CIKM 大会总结报告. 报告人:谭松波 2005-11-17. 内容概要. 1. 语气分类; 2. 多标签分类; 3. 基于证据融合的文本分类; 4. 基于 MailRank 的邮件过滤; 5. 基于时间加权的协同过滤; 6. 最小化文档集检索; 7. 基于隐含用户建模的个性化搜索. 语气分类 (1). 语气分类 (sentiment classification) 就是对文本的语气进行分类。比如按照肯定与否定进行分类。 它在数据挖掘、市场调研与客户关系管理等方面有着广泛的应用。. 语气分类 (2).
E N D
CIKM大会总结报告 报告人:谭松波 2005-11-17
内容概要 • 1. 语气分类; • 2. 多标签分类; • 3. 基于证据融合的文本分类; • 4. 基于MailRank的邮件过滤; • 5. 基于时间加权的协同过滤; • 6. 最小化文档集检索; • 7. 基于隐含用户建模的个性化搜索.
语气分类(1) • 语气分类(sentiment classification)就是对文本的语气进行分类。比如按照肯定与否定进行分类。 • 它在数据挖掘、市场调研与客户关系管理等方面有着广泛的应用。
语气分类(2) • 目前语气分类可以分为两种。第一种就是基于词袋的分类。这种方法根据词语的出现频率来训练出一个肯定与否定分类器。 • 第二种方法(语义倾向)把词区分成两类,即“好”或“坏”。然后计算整篇文档的“好”或“坏”得分来对文档分类。第二种方法应用得较为普遍。
语气分类(3) • 然而,第二种方法遇到了许多困难。首先,它需要在定义完整的语气分类体系上对态度表达进行详细的语义分析。 • 其二,态度表达的原子单位不是所谓的词语,而是一些关系紧密的表达一个语气的词语集合。作者把这个“词语集合”定义为“评价团”。
语气分类(4) • 作者把评价团划分为四个属性:态度、语气、强度与极性。 • 态度又可以细分为影响、评判与判断。影响指个人情感状态(e.g., ‘happy’, ‘angry’),是最外在的主官评价形式。 • 语气就是指肯定与否定。 • 强度主要从force与focus两方面来描述。例如,‘very’ (increased force), ‘slightly’ (decreased force), ‘truly’ (sharpened focus), ‘sort of’ (softened focus)。 • 极性表示一个描述词的使用极性。如happy(‘unmarked’),not happy(‘marked’)。
语气分类(6) ‘not very happy’的描述:
语气分类(7) • 论文特点:概念新颖;论述详尽。 • 不足:实验不够充分。难以实用。
多标签分类(1) • 就是给一个样本分配一个或多个类别。 • 目前有两种通常的做法。 • 第一种做法就是对每个类别训练一个二分分类器,分类时把判别为“是”的类别都判为当前样本的类别。 • 第二种做法就是对每个类别训练一个预测实数积分的决策函数。分类时把积分大于阈值的类别都判为当前样本的类别。
多标签分类(2) • 然而,作者认为这两种方法都没有考虑类别之间的依赖性。 • 事实上,类别之间存在很强的共现模式与依赖性。比如说,如果认为带有“sodium”的研究论文应该分到“Heart Disease”类,那么就也应该把它归入到“Hypertension”类中。 • 所以,作者认为,要是一种分类方法能够抓住这种共现模式,那么这种方法将表现出更好的分类性能。
多标签分类(3) • 作者提出了两个模型来捕捉这种共现模式。 • Collective Multi-Label classifier (CML)考虑了类类之间的关系; • Collective Multi-Label with Features classifier (CMLF) 考虑了特征、类与类三者之间的影响。 • 举例来说,假如一篇文档来自于“Rice”与“Soybean”,如果它含有词“Cooking”的话,那么,它被正确分类的可能性要大于它被误分入其他类(Alternative Fuels)的可能性。
多标签分类(5) • 论文特点:提出了类类共现的概念;实验效果较好。 • 不足:模型比较复杂;计算量大。因为它需要对所有的多标签集合计算一个概率分布。多标签集合的个数随着类别数呈指数增长。
基于证据融合的文本分类(1) • 作者认为单单基于内容进行分类忽略一些重要信息,比如引用信息等等。 • 作者提出了一个“分类证据” 的概念。把各种对分类有益的各种信息,如引用、标题、摘要、正文等等都看成分类证据。
基于证据融合的文本分类(2) • 为了有效地融合各个分类证据。人们通常采用手工选择与投票方法。 • 但是,手工选择需要耗费大量时间;投票方法在某些环境中并不适用。 • 于是,作者提出采用GP来融合分类证据。
基于证据融合的文本分类(3) • 遗传算法(genetic algorithms,GA) • 1. 个体长度固定; • 2. 采用简单的二元串(111000); • 遗传规划(genetic programming,GP) • 1. 个体长度不固定; • 2. 个体使用的结构比较复杂。如树,链表等
基于证据融合的文本分类(4) • 作者从内容与引用两个角度定义了14种相似度计算函数。
基于证据融合的文本分类(5) • 适应度函数:
基于证据融合的文本分类(6) • 算法流程为: • 1. 对每个类别,随机生成一个初始种群。每个个体表示一个相似度函数。 • 2. 执行如下遗传操作Ngen步: • 2.1 计算每个个体的适应度函数; • 2.2 选出适应度最高的Ntop个个体; • 2.3 通过交叉、变异等产生下一代; • 3. 从(Ngen* Ntop)个候选个体中选出最好的个体bC。 • 4. 使用该个体bC作为KNN分类器中的相似度计算函数。进行分类。
基于证据融合的文本分类(8) • 论文特点:思想新颖。 • 不足:操作麻烦,计算量大。
基于MailRank的邮件过滤(1) • 本文通过研究邮件关系所描述的社交网络来过滤垃圾邮件。邮件社交网络来自于用户的邮件交往,并且随着他们的交往活动而自动更新。
基于MailRank的邮件过滤(2) • 主要思想就是通过对每封邮件的发信人地址进行排序,并根据这种排序来对邮件进行垃圾或非垃圾判断。 • 基于这种思想,该文提出了两个算法:基本邮件排序算法与个性化邮件排序算法。前者为每个email地址计算一个信誉积分;而后者根据每个用户来计算积分。
基于MailRank的邮件过滤(3) • 基本邮件排序算法的计算步骤如下: • 首先,在邮件社交网络中选择信誉积分较高的email地址集合; • 然后,根据选定的email地址集合,采用能量迭代算法计算每个email地址信誉积分。 • 实验结果表明该方法对垃圾过滤较为有效。并且对稀疏网络也表现了较好的稳定性。
基于MailRank的邮件过滤(4) • 垃圾email地址特性分析。 • 垃圾email地址的主要行为就是向正常email地址发送垃圾邮件。正因为如此,垃圾email地址越多,那么收到垃圾邮件的正常email地址的积分就越高。所以说,垃圾email地址常常能够促进MailRank网络对垃圾email地址的侦察能力。
基于MailRank的邮件过滤(6) • 论文特点:思想新颖;措辞晦涩难懂。 • 不足之处:没有跟通常的垃圾邮件过滤方法进行比较,如基于内容、基于标题、基于协议等方法。
时间加权的协同过滤(1) • 1. 内容过滤与协同过滤: • 内容过滤根据项目的属性作出推荐;协同过滤根据用户对历史数据的喜好来向用户推荐。 • 2. 协同过滤可以分为两种: • 基于记忆; • 基于模型。 • 3. 基于记忆的协同过滤又可以分为: • 基于用户; • 基于项目。
时间加权的协同过滤(2) • 其中,基于项目的协同过滤在研究与实际应用中都取得了较大的成功。 • 然而,这种模型假定数据是静态的。也就是说,用户行为的变化没有被考虑。 • 因此,作者认为用户的最近评分比以前的评分更能反映用户的将来喜好。
时间加权的协同过滤(3) • 用户喜好预测公式: • 其中Ij表示第j个项目。 IC表示第j个项目的最近邻居。Oij表示第i个用户对第j个项目的喜好。
时间加权的协同过滤(4) • 基于时间加权的用户喜好预测公式: • 其中tiC表示OiC发生的时间。其中时间函数定义如下:
时间加权的协同过滤(6) • 论文特点:思想简洁明了;论述充分;实验结果较好。
最小化文档集检索(1) • 最小化文档集检索是一个新兴而很有前景的检索任务。 • 该任务认为每个查询都包含许多子主题。 • 因此,它的目标就是要求检索文档集能覆盖尽可能多的子主题,而且每个子主题中的文档冗余性最小。
最小化文档集检索(2) • 为了实现这个目标,作者提出了3种检索算法; • 基于信息的方法; • 基于聚类的方法; • 基于子主题抽取的方法。
最小化文档集检索(3) • 基于信息的方法: • 1. 生成文档的相关性排序表L; • 2. 选择最相关的一些文档S作为种子; • 3. 沿着排序表,计算每个未选文档与S的冗余值。若冗余值小于某个阈值,就插入到S种。 • 4. 从L中删除已经被选取的文档,转2。 • 5. 按照选取顺序对S进行排序。
最小化文档集检索(4) • 基于聚类的方法: • 1. 生成文档的相关性排序表L; • 2. 对L聚类成几个子类。并且在排序的过程中保持每个类中的文档的相关性次序。 • 3. 从每个类中挑选一篇文档作为种子,依据该种子产生一个文档集。
最小化文档集检索(5) • 文论特点:问题新颖。方法新颖。
基于隐含用户建模的个性化搜索(1) • 现有检索系统通常缺乏用户建模部分。它不能适应用户的变化。因此检索性能还没有发挥到最优。 • 例如,一个程序员与一个游客使用一样的关键词(“Java”)去搜索,结果返回一样的结果。 • 为了解决这个问题,作者提出了隐含用户建模的思想。
基于隐含用户建模的个性化搜索(2) • 作者在客户端实现了一个搜索代理(UCAIR)。该代理能够依据查询扩展和点击信息进行即时的隐含反馈。 • 该系统主要包括三大模块: • 1. 隐含用户建模模块; • 2. 查询更新模块; • 3. 重排序模块。
基于隐含用户建模的个性化搜索(4) • UCAIR中的四中用户行为: • 1. 提交关键词查询; • 2. 浏览一篇文档; • 3. 点击“Back”; • 4. 点击“Next”; • 系统的响应如下: • 1. 产生查询列表; • 2. 更新需求模型; • 3、4. 更新不可见的查询文档的排序。
基于隐含用户建模的个性化搜索(7) • 论文特点:思想新颖。实验效果较为理想。