410 likes | 573 Views
面向计算机的语言研究. 黄昌宁 微软亚洲研究院 cnhuang@microsoft.com. 报告提纲. 1. 自然语言处理 (NLP) 的目标 2. 自然语言的歧义性 3. 概率化参数模型 (PPM) 4. 应用系统举例 5. 结论(两种语言研究的对比). 1. 自然语言处理的目标. ▅ 让用户能通过自然语言与计算机对话
E N D
面向计算机的语言研究 黄昌宁 微软亚洲研究院 cnhuang@microsoft.com
报告提纲 • 1.自然语言处理(NLP)的目标 • 2.自然语言的歧义性 • 3.概率化参数模型(PPM) • 4.应用系统举例 • 5.结论(两种语言研究的对比)
1.自然语言处理的目标 ▅ 让用户能通过自然语言与计算机对话 The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. -- Bill Gates ▅ 通过机器翻译跨越语言壁垒,以便让全世界每个用户都能共享因特网的浩瀚信息和无限商机。
大规模真实文本处理 ▅ NLP 从实验室走向实用化的重要标志 ▅ 1990年被列为第13届国际计算语言学大会 (Coling’90)的主题 ▅12年来取得的成果: •搜索引擎: http://www.google.com •MyNews: http://www.latimes.com/service •信息抽取(IE): http://www.cymfony.com •语料库标注:http://www.hcu.ox.ac.uk/BNC/
方法论的分歧 • 关于经验主义和理性主义方法的论争 •自然语言的歧义性和大规模真实文本处理的需求把经验主义方法推向第一线。 •十年前第4届机器翻译的理论和方法国际会议(TMI-92) 的主题是:“机器翻译中的经验主义和理性主义方法” 。 •面向计算机的语言研究:语言知识表示和知识获取都发生了实质性的转变。
报告提纲 • 1.自然语言处理(NLP)的目标 • 2.自然语言的歧义性 • 3.概率化参数模型(PPM) • 4.应用系统举例 • 5.结论(两种语言研究的对比)
同音字——汉字拼音输入 • 每个不带调的音节平均对应19个汉字 • 单音节“yi”对应131个汉字:一,以,已,异,亦,伊,意,易,毅,仪,依,宜,议,衣… ▀shishi:实施,事实,实时,实事,适时,时时 ▅一个含10个音节的句子,平均生成 1910 条可能的汉字序列 ▅用词的三元模型(trigram)实现拼音-汉字转换,出错率比市场上原有产品大约减小50%
多音字——文语转换(TTS) ● 行(xing):步行,一行,行头,人行道, 发行,流行, 进行,… ● 行(hang): 行列,行业,排行,行家, 人行, 工商行,… ● 乐(le): 快乐,欢乐, 娱乐,… ● 乐(yue): 音乐,乐队,乐手,…
自动分词 ▀ 交集型歧义字段(OAS):AB/C 或 A/BC 不只是,从今后,法学院,曲剧团,热汤面,大队长 ● 建设/有/效率/的精干的机构 (1694) ● 他/只得/到/工厂值班室去睡觉(325) ▀组合型歧义字段(CAS):AB 或 A/B 上将,成人,学会,国有,个人,马上,都会,阵风 ● 怎么样/才/能/抓住机遇 (202:24) ▀未登录词识别(误切) ● 坎/昆/市/市长/拉/腊/和/夫人 ● 瑞/闽/铝/板/带/有限公司
自动分词的评测 • 对一个句法分析系统的评测 ● 错误的分布: 分词 词性 组块 中心词 40% 24% 12% 24% ● 分词错误的分布: 人名 地名 机构名 新词 OAS 10% 20% 30% 30% 10%
专名识别的评测 人名(%) 地名(%) 机构名(%) P R P R P R 系统A 94.5 78.1 85.4 72.0 71.3 13.1 系统B 90.7 74.4 93.5 44.2 64.2 46.9 系统C 78.0 78.7 76.7 73.6 81.7 21.6 测试集 4,347 5,311 3,850 (1MB)
思考问题 • 分词的任务定义清楚了吗?知识从哪里来? • 词典为什么帮不上忙? • 靠现有的句法-语义知识能解决分词歧义吗? ● 一个重要的理念 • 面向计算机的语言知识有什么特性? ● 语言运用知识的来源:语料库 ● 知识的表示:概率化参数模型 ● 语言知识的获取:统计学习理论
多乂词 ■据《同义词词林》统计: 最小类总数: 1,428 词形总数: 42,724 多义词占词形总数的 14.8% ■ 据语料库统计: 多义词占总词次数的 42%
(句法)结构歧义 • 结构歧义是通过词例动态显现的: ●V N1 de N2 [削苹果的/刀]NP; [削/苹果的皮]VP ● P N1 de N2 [对系统的/评测]NP; [对/评测的系统]PP ● NumP N1 de N2 五个[公司的职员]; [五个公司]的职员 ● N1 N2 N3 [现代/汉语]词典; 新版[汉语/词典]
(句法)结构歧义(续) ●NP → V N % 打击力度; 委托方式 ●VP → V N % 打击盗版; 委托甲方 ■短语类型歧义: ● 该 公司 / 正在 招聘 / [销售 人员]NP。 ● 地球 / 在 不断 / [改变 形状]VP。
(句法)结构歧义(续) ●NP→N V % 市场调查;政治影响 ●S→NP VP % 价格攀升。局势稳定。 ■ 短语边界歧义: ●中国的[铁路建设]NP发展很快。 ●[中国的铁路]NP 建设得很快。
思考问题 • 短语结构规则(PSG)为什么不能消解短语边界和短语类型的歧义? • 句法规则的确是遣词造句的动态知识,但词类标记是否丢失了太多的词例信息? ● 复杂特征集和合一语法怎么样? ● 词汇主义(lexicalism)怎么样? ■ 如何表示和获取颗粒度更细、覆盖面更宽的语言知识?
报告提纲 • 1.自然语言处理(NLP)的目标 • 2.自然语言的歧义性 • 3.概率化参数模型(PPM) • 4.应用系统举例 • 5.结论(两种语言研究的对比)
OAS 的语料调查 ■其中约 94% 是伪歧义,即只有一种切分: 挨/批评; 爱/国家; 爱情/诗; 市/政府 ■ 真歧义占 6%,它由两部分组成: ● 5.3% 通常只有一种切分,如: 解除/了; 其/实质; 与/其他; 提/出来 ● 必须依靠上下文才能消歧的只占 0.7%: 应用于; 从小学; 前进一步 ■ 利用上述知识,OAS 的消歧正确率可达 92%
CAS 的语料调查 ● 让/人/生/厌/的/行为 (1:84) ● 一/种/是/非/和平/方式 (7:14) ● 拉达乡中心校/是/一/所/有/七/名/教师/的/小学。 (4:198) ■ 首先需要有一张 CAS 词表 ■ 为每个CAS制订一条规则或一对分类器以便根据特定的上下文选择正确切分 ■ 概率化参数模型使CAS 的消歧正确率达96% [1]Xiao Luo, Maosong Sun, and Benjamin K.T’sou. Covering ambiguity resolution in Chinese word segmentation based on context information. Proceedings of COLING2002, Taiwan.
CAS 消歧 拉达乡中心校/是/一/所/有/七/名/教师/的/小学 w-3 w-2 w-1 CAS w1 w2 w3 ■ 知识表示:向量空间模型(VSM) CAS不切分的向量 v0 =(t01 t02… t0m) CAS切分的向量 v1= (t11 t12… t1m) 其中m是向量的维数(即语境词的个数),tij是词wij的权重(由位置和频度来确定)。 ■ 输入句子生成向量vinput。分别计算向量vinput和v0 、v1之间的夹角,即可知该CAS要不要切分。
介词短语(PP)附加 ● 例句: Pierre Vinken, 61 years old, joined the board as a nonexecutive director. ● 令A=1表示名词附加,A=0为动词附加,则 (A=0, V=joined, N1=board, P=as, N2=director) ● 参数: Pr (A=1 | V=v, N1=n1, P=p, N2=n2) ● 算法:若 Pr (1 | v, n1, p, n2) ≥ 0.5 则 判定 PP 附加于 n1 否则 附加于 v
介词短语附加(续) ● 语料库: 华尔街日报(WSJ)树库 训练集: 20,801个四元组 测试集: 3,097个四元组 ● 自动判定精度的上下限分析: 一律视为名词附加 (A≡1) 59.0% 只考虑介词p的最常见附加 (unigram) 72.2% 三位专家只根据四个中心词判断 88.2% 三位专家根据全句判断 93.2%
介词短语附加(续) ● 实验结果: 四元组总数 3,097 正确判断数 2,606 平均精度 84.1% 若以上限值88.2%为100计,精度已达95.4%。 [2] M. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. In Proc of the 3rd WVLC, Cambridge, MA, 1995.
统计语言模型(SLM) ● 令W=w1, …,wn为任一词序列,则 P(W) = P(w1)P(w2|w1) …P(wn|w1, …,wn-1) ● 若近似认为,任一词的出现只同它前一个词有关,则有二元模型(bigram): P(W) ≈ P(w1)∏i=2,…,nP(wi|wi-1) ● 设语料库的总词次数为N,则概率参数估算为: P(wi|wi-1) ≈ count(wi-1wi) / count(wi-1) P(wi) ≈ count(wi) / N
语音识别 • 语音识别可视为求以下条件概率的极大值 W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) /P(speech signal) = argmaxW P(speech signal|W) P(W) 其中,P(W) 为语言模型,通过语料库训练获得; P(speech signal|W) 叫做声学模型。 ■ 目前市场上的中外文听写机产品都是用 三元模型实现的, 几乎完全不用句法-语义分析手段。
词性标注 ● 词典中约 14% 的词形具有不只一个词性,而在一个语料库中总词次数的约 30% 是兼类词。 系统名 TAGGIT(1971) CLAWS(1987) 标记数 86 133 方法 3000条规则 隐马尔科夫模型 标注精度 77% 96% 测试语料 布朗语料库 LOB语料库 [3]Garside,R. et al (Eds.). The Computational Analysis of English: A Corpus-Based Approach. London: Longman, 1989
词性标注(续) ● 令 C 和 W 分别代表词类标记序列和词序列,则词性标注可视为计算如下条件概率的极大值 C*= argmaxC P(C|W) = argmaxC P(W|C)P(C) / P(W) ≈ argmaxCi=1,…,nP(wi|ci )P(ci |ci-1 ) ● P(W|C) ≈i=1,…,nP(wi|ci )(独立性假设) 参数 P(wi|ci ) ≈ count(wi,ci) / count(ci) ● P(C) ≈i=1,…,n P(ci |ci-1 ) ( 二元模型) 参数 P(ci |ci-1 ) ≈ count(ci-1ci) / count(ci-1)
基于SLM的自动分词 • 设S是由汉字串组成的句子,W是所有可能被切分出来的词序列。则分词结果是: W* = argmaxWP(W|S) = argmaxWP(S|W)P(W) ■ 专名PN、LN、ON各为一类,其余每词一类,建立基于类的N-gram模型。设C为类序列: C* = argmaxC P(S|C)P(C) PN模型: P(S|C) ~ P(李际生|PN) 语境模型: P(ci|ci-1) ~ P(PN|研究员)
词义排歧(WSD) ■根据《同义词词林》统计: ● Ga15:醒悟 懂事 (1)醒悟 觉悟 省悟 觉醒 清醒 醒 如梦初醒 大梦初醒 (Ib04) (2)懂事 记事儿 开窍 通窍 ● 每个义类都可以用一个特征向量表示,其中的特征就是 语料库中和该义类的词在 ± d 距离内同现的所有实词。
词义排歧(续) ■语义空间的两个假设 ● 假设1:如果两个词的词义相同或相似,则它们在文本中对应的上下文相似。 ● 假设2:意义相同或相似的一些词,在语义空间上体现为一个密集的点阵。因此可以用一个义类向量来表示。 ■义类向量可当作该义类的“分类器” 。它可通过未经义类标注的语料库获取,因此这种方法又叫无指导学习方法。用义类向量方法进行大规模非受限文本词义标注, [4] 黄昌宁、李涓子:词义排歧的一种语言模型,《语言文字应用》2000年 第3期。
报告提纲 • 1.自然语言处理(NLP)的目标 • 2.自然语言的歧义性 • 3.概率化参数模型(PPM) • 4.应用系统举例 • 5.结论(两种语言研究的对比)
信息检索(IR) • 任务:从一个大型文档库中找出与某一查询相关的那些文档。 ● 怎样表示文档和查询的内容? ——索引问题 “基于内容”≠ “基于理解” ● 如何度量文档和查询之间的相关度?检索过程 ● 如何评价一个信息检索系统?—精度和召回率 精度 = 检索到的相关文档数 / 检索到的文档总数 召回率 = 检索到的相关文档数 / 库中相关文档总数
信息检索(续) • 信息检索大会TREC (http://trec.nist.gov/) ● 1992年起每年举办一届大会。得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。 ● 通过提供大规模测试语料和统一的评测方法来支持IR技术的研发。 ● 1999年 TREC-8宣布,提交给大会的检索系统七年间效率提高了一倍。但迄今没有证据表明NLP技术能显著提高IR系统的性能。 ● 一直到1999年的问答系统(QA)评比,NLP技术才崭露头角。
信息检索(续) ▀ 测试内容:不同索引单位对中文信息检索的影响 ▀ 评测指标:11点平均精度 ▀ 测试预料库:TREC5/6 提供 内容:人民日报(1991-1993) 新华社新闻稿(1994-1995) 文档数:164,789篇 文档平均长度:507字 规模:167.4 MB 查询数:54个 查询平均长度:119字
信息抽取(IE) • MUC——以限定领域的信息抽取为目标 ▀IE可分解为如下子任务: ●命名实体(NE)识别:人名,地名,机构名,日期,时间,货币,百分数等。 ● 同指关系(Co-reference)抽取。 ● 事件模板的识别与填充。 ▀ 非受限领域的信息抽取仍是一个挑战。
TIDES • Translingual Information Detection, Extraction and Summarization http://www.darpa.mil/ito/research /tides/ ▅ 特点:把NLP技术的现状和用户对跨语言信息检索、信息抽取的迫切需求紧密结合起来。 ▅ 如果说移动通讯使语音识别成为主流技术,那么搜索(search) 将把自然语言推上主干线。
5.结束语(两种语言研究对比) 面向计算机 面向人/教学 1)概率化参数模型 句法-语义分析 2)参数空间极大 大规则库难于维护 3)上下文相关(动态) 上下文无关(静态) 4)词汇主义 (lexicalism)基于词类/短语类 5)颗粒度极细 颗粒度粗 6)覆盖面宽 覆盖面窄 7)自动/半自动获取 靠语言学家提供 8)以评测驱动研究 多半无评测
Textbook • E. Charniak. Statistical Language Learning. Cambridge , MA: MIT Press, 1993 • Christopher D. Manning and Hinrich Schütze. Foundation of Statistical Language Processing. Cambridge, MA: MIT Press, 1999