互联网文本信息分析基础理论

互联网文本信息分析基础理论 浙江大学计算机学院人工智能研究所吴飞 2011年

课程介绍 • 自然语言理解的挑战 • 文本表示模型 • 文本处理三个基本问题 • 索引、相似度计算、排序 • 文本分类

自然语言理解存在的挑战 • 自然语言理解研究起始于机器翻译。 • 早在1949年，Warren Weaver 就提出了一个设想，认为可以利用信息论的编码思想，使用一种统计的方法，来解决机器翻译的问题。五十年代，经验主义更是处于它的鼎盛时期，它统治了从心理学（行为主义）到电子工程（信息论）的广泛的领域．在那时候，不仅依据词的意义而且依据它们与其它词的共现情况对词进行分类，是语言学上的常规操作。学科：计算机语言学（Computational Linguistics）

自然语言理解存在的挑战

自然语言理解存在的挑战 • 随着五十年代末到六十年代初一系列重大事件的发生，包括Chomsky 在“句法结构”中对n元语法（n-gram）的批评和Minsky 和Papert在“视觉感控器（Perceptrons）”中对神经网络的批评，对经验主义的兴趣逐渐减退了。 • 1.Weaver,W. (1949)，Translation， Reproduced in Machine Translation of Languages, edited in 1955 by W.Locke and A.Booth, MIT press, 15-23 • 2. Chomsky,N. (1957), Syntactic Structure, Monton • 3. Minsky,M.; and Papert,S. (1969). Perceptrons: An introduction to Computational Geometry. MIT press.

自然语言理解存在的挑战 • 五十四年过去了，真正在国际上公认的机器翻译的译准率,根据IBM公司Berger的研究报告，那怕是同语系的英法机器翻译，对非受限文本，还只定留在50%左右。

自然语言理解的热点 • 近年来，计算机技术得到了飞速的发展,机器的存储量越来越大，运算速度越来越快，而价格却越来越便宜，这样的客观条件使大容量的机器可读语料库的建设成为可能． • 仅仅在十几年以前，一百万词的Brown语料库还被认为是巨大的，但从此以后，出现了更大的语料库，例如：二千万词的Birmingham • 语料库。今天，许多地方都有了达到几亿甚至数十亿词的文本样例．

自然语言理解的热点 • 同时，一些新的、更好的统计语言模型也开始出现．而且，随着自然语言理解系统的不断实用化，知识获取问题已成为一个瓶颈，基于规则的NLP系统在处理大规模的非受限真实文本中遇到的种种困难 • 促使广大研究人员去探索和采用一种新的研究思想。所有这些因素，推动了基于语料库的经验主义研究方法成为目前NLP研究中的一个热点

一些机器翻译的例子 • 我想跟你莺歌燕舞，纸醉金迷 • 谷歌翻译： I want to tell you the joy of spring, growing • 上海移动翻译：I want to sing and dance with you, living a luxury and • dissipation life. • 君要臣死，臣不得不死 • 谷歌翻译：Jun to Chen Si, Chen had to die • 上海移动翻译：Subjects must obey their emperor absolutely even if he orders them to die. • 商女不知亡国恨，隔江尤唱后庭花谷歌翻译：I do not know subjugated women hate business, especially in singing river Courtyard Flowers上海移动翻译：Where girls, wth no thought of a perished kingdom, gaily echo a Song of Courtyard Flowers

Why? 计算机对自然语言处理过程 • 第一，把需要研究的问题在语言学上加以形式化（linguistic formalism），使之能以一定的数学形式，严密而规整地表示出来； • 第二，把这种严密而规整的数学形式表示为算法（algorithm），使之在计算上形式化（computational formalism）； • 第三，根据算法编写计算机程序，使之在计算机上加以实现（computer implementation）。

Why? 自然语言本身的特性：歧异性 • 歧义性是自然语言最显著的特性之一，汉语中多义词在语料中占到42%左右 • [彩色][铅笔盒子]。 B [彩色铅笔][盒子]。（句法组合层次歧义） • 他讲不清楚。（句法组合关系歧义）解释：A 他讲他不清楚。 B 他讲得不清楚。 • 发了一天的工资。（语义组合层次歧义）解释：A 发了只有一天的工资。 B 发工资这事做了一天 • 他在看病。（语义组合关系歧义）解释：A 他给别人看病。 B 大夫给他看病

How 第一种思路 • 基于机器可读词典（machine readable dictionary）的方法进行词义消歧：通过约束性规则来确定上下文中的词义，这需要一个具有完备性、一致性、可扩充性和对开放领域的适应性的知识库，如何有效构造规则库和进行知识获取是该方法的一个瓶颈问题。 • 这种方法也叫做“知识工程”。 E.Agirre and G.Rigau. 1995，A proposal for word sense disambiguation using conceptual distance，In Proceedings of the first International Language Proceeding, Velingrad

知识工程的 “瓶颈”问题 • 缺乏大规模已标注语料。 • 知识获取的困难。（非规范知识、概率知识等） • 建立可供下载、可供比较和交流数据库的十分必要。

How 第二种思路 • 基于语料库（Corpus ）统计方法。 • 通过计算给定文本中词汇在上下文中的概率权重，选择具有最大概率权重的词义作为最佳结果输出，如贝叶斯分类器（ Naive-Bayes Classifier ）、基于分类的方法（Class-based Approach）、向量空间模型（Vector Space Model，高维灾难？）等。 • 该方法根据训练语料事先是否经过人工标注又可以分为有指导的和无指导的两类。 • 该方法是目前主流方法。

How 语料库语言学（ Corpus Linguistics ） • 80年代崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

How 语料库语言学（ Corpus Linguistics ） • 语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型，两者是相辅相成、缺一不可的．从本质上讲，语料库语言学的研究采用的是一种基于统计的经验主义处理方法，它与传统的基于规则的理性主义处理方法是很不相同的。

How 面向语料库处理的基本假设 • 在语料库语言学中，基于统计的处理技术是从语料库中获取各种所需要的知识的主要手段．它的基本思想是： • 使用语料库作为唯一的信息源，所有的知识（除了统计模型的构造方法）都是从语料库中获得的 • 使用统计方法获取知识：知识在统计意义上被解释，所有参量都是通过统计处理从语料库中自动学习

How 第二种思路: 计算语言学 • H. T. Ng, Examplar-Based word sense disambiguation: Some recent improvements, in Proceedings of the 2nd conference on empirical methods in natural language processong, EMNLP, 1997。 • 该方法是目前主流方法。批评观点：计算独大，语言渐弱

《全宋词》中高频词

Why? 自然语言可能的错误 • 对中文的文本错误，一般将其分为三类：插入错误、替换错误和删除错误。例如： • 把学生氛围（分为）两组。（替换错误） • 不断演深化经济体制改革。（插入错误） • 我们联合起来追（求）共同的目标。（删除错误） Edit Distance (编辑距离)

Why? 自然语言可能的错误 • 局部错误和全局错误。 • 局部错误是指字词一级的错误，表现为错误和邻接的词语共现不合理，引起句子的局部异常。 • 这是一个重要的果（课）题。 • 句中，“果”和其前后词语“重要的”和“题”为不合理搭配，所以，只分析“重要的果题” • 这个局部成分，就能发现其中有错误。可见，查找局部错误，只需对进行句子的局部分析就可以了。

Why? 自然语言可能的错误 • 全局错误是指句子一级的错误，表现为错误和其邻接词语搭配合理，局部范围内符合语法规范，但整个句子不通顺，错误引发句子全局异常，如： • 我们带着游泳（镜）好不好？ • 错误的局部范围“游泳好不好”，语法通顺，其局部的表现合理，如果只进行局部分析，则无法发现其中的删除错误，必须对整个句子进行分析，才能找出这种全局错误。

How 思路 • N-gram 是最为常用的统计语言模型，其中尤以二元文法（Bigram）和三元文法（Trigram）模型应用最为广泛。

How 思路 • 它基于如下假设：对正确的语言现象，词与词之间的共现概率较高，对一些不符合语法的错误语言，词与词之间的共现概率较低。

How 思路：以三元组为例

数据稀疏性（sparse data）问题

稀疏性已经引起了学术界广泛关注 • 2000年在美国数学学会组织的“21世纪数学面临挑战”的研讨会中，斯坦福大学统计系David Donoho教授将高维数据分析与处理作为一个热点问题予以详细介绍 • D.L. Donoho, High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality, Proc. AMS Conf. Math, Challenges of the 21st Century, http://www.waveletidr.orglectures.html, 2000 • 佐治亚理工于2008年专门组织了“高维统计与学习理论中的稀疏性”研讨会，对渐近几何分析、模型可解释性和学习惩罚等问题进行了广泛讨论

语言模型和搜索引擎的相似性

Why 本质原因与可能思路 • 正如M. Walker (AT&T), 和 J. Moore (Pittsburgh U.) 讲：“人类对语言的领悟和创造依赖于以往具体的语言经验(先验概率)，而不是仅仅依赖于抽象的语法规则。” • 传统的基于规则（Rule-Based）的系统认为“语言是有限手段的无限使用”，难以应付现实世界中的自然语言的复杂多变的现象。

Why 本质原因与可能思路 • 根据国际计算语言协会的统计：语义、语用和话语方面NLP的经验主义文章，历史上一般都徘徊在 8% -- 20%左右，到了1993年达到40%，1995-1999年高达75%，具有很大的进展，令人吃惊。这可以说是一种趋势，利用统计方法的经验主义研究已走向自然语言处理的主流方法。

Why 本质原因与可能思路实际上目前很多基于统计的分析技术取得了很好的实验结果，很大程度依赖于语料库构造的代价。 • Brown（1992）从约3亿多个句子统计得出大约14%三元组存在数据稀疏问题。 • 如果一个语音识别系统每7个句子识别就包含一个句子错误的话，这样的系统是完全不能使用的。

信息检索 对于信息检索，美国国防部的《DARPA，Defense Advance Research Project Agency》对此十分重视，主办两个国际上重要会议： • 1. Message Understanding Conference (MUC)，美国 DARPA 主办；

信息检索 对于信息检索，美国国防部的《DARPA，Defense Advance Research Project Agency》对此十分重视，主办两个国际上重要会议： • 2. Text Retrieval Conference (TREC)，美国国家标准研究院（NIST）和 DARPA主办。从1992年开始但是检索的整体准确率，直到现在还很差，只在10-20% 左右徘徊。

信息检索 涉及领域 • 文本分类（Text Classification) • 文本主题识别 (Text Topic Identification) • 文本检索与自然语言检索 (Text Natural Retrieval) • 文本过滤 (Text Filter) • 文本摘要 (Text Summarization) • 文本挖掘 (Text Mining) • 上述的所有这一切子任务，还都可以冠以“网络”二字

当前语言学处理的一个总趋势 • 部分分析代替全分析 • 部分理解代替全理解 • 部分翻译代替全翻译这在当前的条件下，不是一种退步而是进步！！！ [许嘉潞] Context-free Grammar --- Stochastic Context-free Grammar Lexicalized Tree Adjoining Grammar --- Stochastic Lexicalized Tree Adjoining Grammar Unification-based Grammar --- Stochastic Unification-based Grammar 统计方法就是这样一种趋势中的产物。传统语言学受到挑战！统计与采样紧密相关的（Sampling)

美国东北大学郑江教授到药学院讲学(2002-09-23 11:40:07 / 阅读次数:283) 9月20日，我校校友、美国东北大学药学院郑江教授回到母校讲学。郑江教授在药学院为160余名师生作了题为“美国药学教育概况”的专题报告，他的报告涉及美国高等药学教育体制、教学各环节特点、美国的教师与学生等广泛内容。报告会后，郑江教授还同药学院领导、教师进行了深入交流。一个问题分析的简单例子

分词的困难之处 • 汉语语词切分中存在切分歧异，如句子“使用户满意”可切分为“使/用户/满意”，也可能被错误地切分为“使用/户/满意”。因而需要利用各种上下文知识解决语词切分歧异。 • 此外，还需要对语词进行词法分析，识别出各个语词的词干，以便根据词干建立信息索引。

分词的方法（1）基于字符串匹配的分词方法 • 这种方法又叫做机械分词方法 • 它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

分词的方法（2）基于理解的分词方法 • 这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果； • 其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

分词的方法（3）基于统计的分词方法 • 从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。 • 因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。 • 实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

如何定义相似度 • 字数相似（约140字左右） • 发表时间相似（均在2002年发表的新闻） • 主角相似（郑江教授） • 内容相似（药学教育）应该指出，不同搜索引擎的检索相似度策略不同，使得检索的结果极大不同

为什么要进行索引

美国东北大学郑江教授到药学院讲学(2002-09-23 11:40:07 / 阅读次数:283) 9月20日，我校校友、美国东北大学药学院郑江教授回到母校讲学。郑江教授在药学院为160余名师生作了题为“美国药学教育概况”的专题报告，他的报告涉及美国高等药学教育体制、教学各环节特点、美国的教师与学生等广泛内容。报告会后，郑江教授还同药学院领导、教师进行了深入交流。原文=（郑江药学院药学教育概况）内涵多的单词作为索引效果要好

美国东北大学郑江教授到药学院讲学(2002-09-23 11:40:07 / 阅读次数:283) 9月20日，我校校友、美国东北大学药学院郑江教授回到母校讲学。郑江教授在药学院为160余名师生作了题为“美国药学教育概况”的专题报告，他的报告涉及美国高等药学教育体制、教学各环节特点、美国的教师与学生等广泛内容。报告会后，郑江教授还同药学院领导、教师进行了深入交流。原文=（交流教师特点）外延太大，太普通的单词不能作为索引

通过索引，使得原有海量数据的表达更加简洁，相似度计算更快！通过索引，使得原有海量数据的表达更加简洁，相似度计算更快！ • 由于原有信息被索引要素表示，所以对构成索引的要素需要认真定义 • 什么信息可以作为索引 • 作者 • 关键字 • 标题 • … Meta Data （关于数据的数据,如何自动产生？）

关键三个问题 1.如何自动得到这些索引要素 2.索引要素之间的相似判断 3. 如何对检索结果排序（Ranking,无Hyperlink属性）

文本检索的分类 • 文本分析，形成关键字或文章结构等索引信息（全文分析和非全文检索）； • 使用文本对图象进行标注； • 超链接文本

为什么要进行全文分析 • 先前文本信息比较短而规范，使用题目、关键字和摘要等信息就可以表述； • 对目前动辄成千上万不同单词的文本信息，题目和关键字（特别是非学术著作）不足以代表整个文字的信息，因此要全文分析

互联网文本信息分析基础理论

互联网文本信息分析基础理论

Presentation Transcript