把“联想” 带给自然语言处理 —— 社会标签标注行为的研究

把“联想” 带给自然语言处理 ——社会标签标注行为的研究范淼 @CSLT(THU)

参考文献 未来工作新方法的提出相关研究测试结果简介 1 2 4 3 6 5 目录

简介 1 Q: 什么是社会标签(Social Tag)？ A: Web 2.0 之后才出现的一种允许用户根据自己的理解和喜好对网络资源进行简短描述的一项应用。（Web 1.0因为技术不支持与用户的交互，因此不存在这项应用）碟中谍4 Mission: Impossible - Ghost Protocol

简介 1 Q: 社会标签(Social Tag)有哪些特征？ A: 总结来看，特征有二： 1. 简洁暗示被描述资源的主要内容 2. 反应用户的兴趣（个性）

简介 1 Q: 社会标签的用途有哪些？ A: 推荐系统、流行趋势的追踪和检测、用户行为分析、精准广告投递

简介 1 Q: 我们要解决什么问题？ A: 自动标签推荐（社会标签标注行为分析）碟中谍4 Mission: Impossible - Ghost Protocol

相关研究 2 Q: 自动标签推荐的研究，前人都是怎么做的？ A: 既然叫“推荐”，那么方法自然就和推荐系统有关，总体分为协同过滤方法和基于内容推荐的方法协同过滤缺陷！不热门的永远没有翻身的机会

相关研究 2 Q: 基于内容推荐的研究目标是什么？ A: 修正协同过滤推荐的问题。网络上对资源的自然语言描述是极大丰富的，研究人员希望通过这些描述（书籍的题目，书籍的摘要，书籍的作者等等信息）来进行自动标签的推荐（基于内容）。

相关研究 2 Q: 基于内容推荐的方法有哪些？ A: 1. 传统的分类方法：将训练集中的标签看做分类记号(label)，然后选取合适的特征进行训练（SVM,KNN,NB），得到分类模型，最后对测试集为标注的语料打上合适的标签。缺点：用户本身提供的标注就含有大量噪音；类别的数量直接取决于训练语料。 2. LDA（话题入手）：将标签和对应的描述看做为(标签-隐话题-描述)的三元组认为隐藏话题是服从资源描述的概率分布，而标签则是从描述的文档中选出的合适的一系列词用来表征话题。缺点：话题的数量需要预先设定，并且选出的词也是属于概念层面，不具有个性。 3. 关键词抽取的方法: Tfidf, 传统的textrank。缺点：不是所有的标签都像关键词一样来自于资源描述中。

相关研究 2

相关研究 2 Q: 前人的研究暴露出哪些问题？ A: 首先，标签不同于关键词，标签由于最初是人工加入的，因此不一定存在统计意义上的显著特征（TF）或者不一定全都来自于资源的描述文本。其次，现有的研究并没有真切地建立出帮助计算机模拟人类对网络资源标注的行为模型。所以，我们的研究要从上述两个方面着手。

新方法的提出 3 人类对网络资源的自然标注行为（我们后面方法的提出基于这一系列形象假设）我们认为分为三步： 1. 首先，人类需要从海量的文本中学习知识，而这种学习的知识，我们认为如下的一类文本是具有指导意义的（即用语义相关的不完全相同的描述同一种客观物体的平行文本）。

新方法的提出 3 2. 然后，我们的大脑就会根据我们的这类知识阅历得到一系列“词到词”的触发概率。 Pr(喝大了-解酒)；Pr(喝大了-卫生间)；…..

新方法的提出 3 3.接着在我们的大脑中联想形成一个图，经过权衡，得到结果。豆浆 Pr(？|豆浆) 包子早餐、食物、早点花卷皮蛋

新方法的提出 3 我们在上述的三步抽象假设的基础上提出适合于人工智能的形式化模型深层语义相关学习就如同提到了“肯德基”你会想到“香辣鸡腿堡”一样，我们的知识都是从很多潜藏语义相同的平行语料中来的。在方法上我们采用机器翻译中的词对齐模型（GIZA-PP）训练，在大量平行文本上让计算机模拟人脑学习到词与词之间的语义指向概率。以上图为例，我们需要训练出一系列条件概率Pr(x|肯德基); x为通过肯德基能够“触发”出的相关词汇。

新方法的提出 3 引入一点机器翻译的介绍帮助我们理解：e为目标语言，f为源语言（类似我们谍战片里面的加密和解密的过程） E（解密） F（加密）信道肯德基超值全家桶广告信道

新方法的提出 3 2. 深层次语义关系联想而在海量的文本中，我们就需要训练一个词对齐的概率（类似语义映射的关系）其中的a被定义为隐含变量——词对齐（Word Alignment），所谓词对齐，简而言之就是知道源语言句子中某个词是由目标语言中哪个词翻译而来的。为了获取这样的对齐（语义相关概率），也同样是模拟人脑学习的过程，我们采用GIZA-pp Model1（不考虑词在句子中的位置，更重要是为了性能）这里我们引入参数 ϭ = 标签长度/资源长度（抽取名词以及标签词汇，引用孙茂松老师的自然标注改善中文分词的思想）

新方法的提出 3 利用GIZA++_Model1(cpp)：对类似如下的平行语料进行训练 Summary: 特工杀手 …. Tag: 动作碟中谍 … 由于GIZA++MODEL1不考虑词与词在句子中的位置，因此训练大规模语料的性能相对较好由此我们得到： ; 为了使数据对称，我们引入一个调和平均数，来整合两端对齐概率

新方法的提出 3 电脑由北京邮电大学想到的 “触发”出的信息是爆炸性的！

新方法的提出 3 3. 深层次语义关系归纳（总结）上图的联想是爆炸性的！但是为什么我问了很多人下面的例子，大家都会先说“早餐”呢？（没错，归纳排序！）豆浆 Pr(？|豆浆) 包子花卷皮蛋

新方法的提出 3 这里我们引入TextRank的概念传统的textrank(2004)：每一个节点为一个词图为无向无权图, d = 0.85(迭代) 缺陷明显：首先这里缺少推荐的概念，即不是有向图。其次，作者虽然提出了加权图的模型，但是他没有如何使用这个模型的环境。

新方法的提出 3 但是我们“联想”到的是既有“向”还有“权” 豆浆 Pr(早餐|豆浆) 包子早餐、食物、早点花卷皮蛋后面的试验中，我们引入作为图的最大出度（由于爆炸性的“触发”）

测试结果 4 数据集：（为了说明我们的方法是独立于语言模型的，因此我们同时计划获取last.fm上的英文数据） 29465（简介-标签）评价标准：我们每次取出得分最大的M个标签作为机器推荐结果。如果定义通过我们的方法由Summary生成的标签集合为C，原始语料中对Summary用户标注的标签集合为A(黄金准则)，那么精确率(P)：召回率(R)：F值：数据验证方式：大于80/20原则，采用7次(每组4209)交叉验证方法，然后求平均P,R,F

测试结果 4

测试结果 4 比较ATR, WTM(state-of-the-art), TextRank, TFIDF方法精确率和召回率

测试结果 4 比较ATR, WTM(state-of-the-art), TextRank, TFIDF方法F值和推荐标签数量的关系

测试结果 4 调和参数的比较

测试结果 4 最大出度的比较

测试结果 4 节点不同初值的比较

参考文献(主要) 6 [1] G. Salton. The SMART Retrieval System –Experiments in Automatic Document Processing. Prentice-Hall Inc, Englewood Cliffs, New Jersey, 1971. [2] Lin, D., & Wu, D. (Eds.). Textrank: Bringing order into texts. Proceedings of EMNLP 2004, pp. 404-411. [3] P.F. Brown, V.J.D. Pietra, S.A.D. Pietra, and R.L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational linguistics, 19(2):263–311. [4] Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. Proceedings of EMNL 2011, pp 1577-1588.

Q & A

Thank You!

把“联想” 带给自然语言处理 —— 社会标签标注行为的研究

把“联想” 带给自然语言处理 —— 社会标签标注行为的研究

Presentation Transcript