自然语言处理的若干问题研究

自然语言处理的若干问题研究 哈尔滨工业大学王晓龙电话：0451-86413322 Email: wangxl@insun.hit.edu.cn

主要研究内容 • 问答系统与问答式检索 • 多文档自动文摘 • 智能输入与音字转换 • 生物信息学 • 智能化中文信息处理平台

1.问答系统与问答式检索 • 四个系统 • 1国内早期的问答系统研究 80年代针对固定段落 7w 技术路线1 基于理解技术路线2 基于统计的检索

1.问答系统与问答式检索 • 2基于问答对的问答系统问一问：100万句 • 3专业网站黑龙江联通网站 • 4国家863重点项目数字奥运旅游领域。国家自然科学基金项目

1.问答系统与问答式检索 • 国内外研究现状 • 目前国外开发出的一些相对成熟的问答系统包括： Mit开发的Start系统 AnswerBus系统 • 国内的研究成果尤里卡搜索引擎百度(孙悟空)搜索引擎问一问搜索引擎

问答式信息检索研究 • 在每年一度的文本信息检索（TREC）会议上，自动问答（Question Answering Track）是最受关注的主题之一。越未越多的大学和科研机构参与了TREC会议的Question Answering Track。

1.问答系统与问答式检索 • 问答式信息检索研究 • 允许用户输入自然语言问句 • 符合人的习惯 • 精确刻画信息需求 • 系统直接返回答案或者蕴含答案的文本片断 • 提高信息检索的效率 • 精确度是问答式信息检索的首要指标

问答式信息检索研究 • 研究目标 • 研究基于Web的面向大规模真实网络文本的问答系统 • 目前为受限领域（旅游领域） • 研究高鲁棒性的相关语言处理技术，带动它们向实用化方向发展

问答式信息检索研究 • 技术路线 • 用户问句与海量网络语言信息的深层次结构化加工处理 • 海量语言信息的自动结构化技术 • 海量网络文档自动分类技术 • 海量网络文档的摘要生成

问答式信息检索研究 • 海量语言信息的自动结构化技术 • 自动分词 • 词性标注 • 名实体识别 • 短语划分 • 句法结构标注 • 语义标注

自动分词 • 词网格分词 • Bigram模型 • 词网格技术 • Viterbi算法 • 采用分类算法解决汉语的交叉歧义和组合歧义 • 这两项指标在2003年的863评测中名列首位

词性标注 • 同时支持北大标注集和清华北语标注集 • 隐马尔科夫模型词性标注 • 北大1998年6月人民日报语料评测词性标注精确率94.5% • 基于触发对的最大熵模型词性标注 • 北大1998年6月人民日报语料评测词性标注精确率96.5% • 目前正在研究粗糙集和最大熵融合的模型 • 有望将词性标注的正确率提高到97~98%左右

名实体识别 • 人名、地名、机构名、日期、时间、数字、比例等 • 人名（中外人名）、地名和机构名是识别的重点与难点所在 • 基于最大熵模型中文名实体识别 • 基础模型：最大熵模型 • 基于转移的错误驱动（TBL）机器学习技术进行名实体识别结果修正 • 采用特征融合技术解决权值偏执问题 • 采用Boosting技术解决过拟和问题 • 最近一次的评测结果如下： • 98年人民日报语料测试的结果为：人名：正确率：89.2%，召回率：81.6%，F量度：85.22%，地名：正确率：94.3%，召回率：89.9%，F量度：92.1%，机构名：正确率：85.3%，召回率：63.3%，F量度：72.7%。

短语划分 • 鲁棒性句法分析策略 • 级联式有限状态句法分析方法 • 基于词语搭配的有限状态短语划分算法 • 优点 • 适于处理网络文档（含有大量未登录词、病构语句） • 效率较高 • 处理101,500篇旅游类网络文档耗时4个小时左右。 • 精度能够满足问答式信息检索的需要 • 缺点 • 与现有的句法分析方法在技术路线上完全不同，因此造成评测的困难 • 缺乏训练机制

海量网络文档自动分类技术 • 针对文档分类技术本身，研究文档分类技术中的关键技术的创新与融合 • 特征提取与重构 • 基于期望交叉熵的特征提取算法 • 以OKAPI权值计算公式对文本进行向量化表示 • Semi-Discrete Matrix Decomposition (SDD)算法对文档向量进行语义分析 • 分类器算法融合 • KNN分类算法 • 支持向量机（SVM）算法 • 2003年文本分类评测取得了第一名的成绩 • 评测显示：采用K-NN与SVM算法相结合的文本分类技术，在分类精度上有了进一步的提高。

海量网络文档自动分类技术 • 研究自动文档分类技术在专业领域问答式信息检索中的应用方法 • 语义类别的确定问题 • 目前采用人工确定的方法 • 文本分类应用策略问题 • 重新排序技术 • 过滤不相关答案技术

海量网络文档自动分类技术 • 实验表明，自动文档分类技术在减少候选答案片段的同时可有效提高问答系统的准确率与响应时间，对系统效率有明显的改善。

问题： • 单项技术评测分词、标注、文本分类、文摘 • 总体评测

2、多文档自动文摘 • 研究意义 • 多文档自动文摘目的在于将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要输出。 • 与单文档自动文摘相比，多文档自动文摘不但达到了“摘要”的效果，而且体现了“信息整理”和“信息融合” ，从而会提高获取信息的效率。 • 如果说搜索引擎提高了所需信息的查全率的话，结合文本自动聚类的多文档自动文摘技术将会使人们迅速的找到所需的内容，即查得更准更快。 • 目前多文档自动文摘技术在国外引起了充分重视，并成为研究热点之一。 • 在国内单文档自动文摘的研究比较深入，但是从事多文档文摘研究的单位比较少。

国外研究现状 国外研究主要是面对英文信息的处理。比较有代表性的系统有： • 美国哥伦比亚大学的多文档自动文摘系统 Newsblaster。其研究主要针对新闻领域。可以对每天发生的同主题新闻进行摘要。目前该系统达到了每天上万人次的访问记录。 • 美国密西根大学研究开发的WebInEssence。这是一个个性化的基于Web的多文档自动文摘和内容推荐系统。 • 美国南加利福尼亚大学的信息科学研究所原型系统 NeATS。也是一个比较有名的多文档自动文摘系统。

国外研究现状 进行多文档自动文摘相关研究和开发的公司有： • Vivisimo公司（http://www.vivisimo.com） • infonetware公司（http://www.infonetware.com）这两个公司对搜索引擎返回的结果进行了有效地聚类整理。而文档聚类是多文档自动文摘的一个关键的预处理步骤。

国内研究现状 • 国内目前在单文档文摘上的研究相对比较深入，如东北大学、上海交通大学、中科院、哈工大等科研机构进行的研究。 • 在多文档自动文摘方面，国内复旦大学开发了一个基于统计的文本自动综述系统，该方法利用文档内和文档之间段落的语义相关性，实现多文档的自动综述. • 在文档聚类方面，北京大学计算机科学与技术系提出了一种快速的Web文档聚类方法： PCCS部分聚类分类。中科院的陈宁等人提出了基于模糊概念图的聚类方法。中科院计算所的吴斌提出了基于群体智能的文档聚类算法。

多文档自动文摘的研究内容 • 目前在多文档自动文摘所涉及的相关自然语言处理技术上都取得了一定的进展。如文本分类，单文档自动文摘，汉语的自动分词，人名、地名、机构名等中文名实体识别，基于词矢量的语义量化模型等等。 • 项目以汉语的语义量化以及基于文档主题的自动聚类为基础，重点进行汉语多文档自动文摘的研究。 • 最终建立起一个高效、准确的汉语多文档自动文摘系统，以满足当前网络环境下人们对海量信息的准确、高速获取与处理的迫切需求。允许用户输入关键词，并从多个信息源收集可能的相关信息，进行聚类和摘要处理。 • 通过有机集成基于词矢量的汉语的语义量化模型、基于多知识源的文本主题分析算法、多文档自动聚类算法以及汉语语言生成等自然语言处理技术，并在单文档自动文摘技术基础上，解决多文档摘要的主题一致性以及由于多文档文摘句之间缺乏一致性与连贯性而无法保证文摘生成质量的问题。

问题 • 单文档文摘评测 863评测评测方法和标准：先验式测试集评测后验式个性化评测 • 多文档文摘评测

3智能输入与音字转换 • 研究目的 • 研究通用型、跨平台语句级音字转换技术 • 研究小型移动设备（例如手机、PDA）上使用的音字转换技术

语言模型 • N-gram

问题1: 长距离依赖 • “He read an English book” • 一枝小花一只小花猫

问题2：递归 • 1234 一千二百三十四 • 654321 六十五万四千三百二十一 • 123456789987 • 一千二百三十四台机器

问题3：部分理解 • 字、词、短语等

智能(语句级)拼音输入的研究内容 • 统计与规则结合的语言模型 • 拼音汉字转换算法 • 面向数字键盘的多种歧义消解技术 • 支持字、词、语句级的多级系列化拼音输入 • 面向用户的先进人机接口的研究与实现 • 支持多种汉字标准的编码兼容技术 • 支持多种嵌入式操作系统和多种开发环境

4、生物信息学方面的研究 • 问题的提出： • 在美国国家自然科学基金的支持下，Carnegie Mellon University正在进行这方面的研究 • 项目经费总计九百万美元 • 合作单位University of Pittsburgh Massachusetts Institute of Technology Boston University National Canadian Research Council

分子组织细胞系统器官生物信息技术的发展背景人类对生命的认识水平医学及医学信息技术生物科学及生物信息技术

生物信息技术的发展背景 分子水平对生命的认识 • 染色体：遗传物质的主要载体； • DNA:主要遗传物质，双螺旋结构，遗传信息的载体； • 基因：遗传物质的功能单位和结构单位，基因是DNA片段； • 蛋白质：特定的决定人体的特定细胞和器官的形成与运转

4、生物信息学方面的研究 • 蛋白质结构预测 • 随着人类和其它动物基因组破译工作的完成，生物学研究面临的最重要的挑战之一，就是如何由这些生物大分子的基因序列预测它们的结构与功能。如果能够做到这一点，将在所有生物技术与药物设计领域产生巨大的影响。

蛋白质结构预测 • 目前，基因组范围内的研究重点在于同源性分析上，而不是通过序列确定这些蛋白质功能的规则上面。需要指出的是，这些问题无法依靠单独同源性研究而解决。相反，我们建议基因组数据可以用于训练和分类的研究，该研究意在根据某一组织内蛋白质序列的每一个位置在生物序列、结构和功能的映射关系中的作用分类。

蛋白质结构预测 • 我们建议采用语言学的方法来研究生物学的问题，以超出一般语言技术应用的观点，更深层次地考察生物序列、结构和功能的映射关系问题。该方法的目的是提供实用的方法用于建立基于不同生物体蛋白质序列的词和短语及相应的语法规则的语言模型

蛋白质结构预测 • N-gram统计分析: • 挖掘与生物体种类相关的“词和短语”。建立用于区分生物体种类的模型。 • 生物统计语言模型: • 建立与物种相关的生物统计语言模型，用于预测蛋白质的二级结构、三级结构。

蛋白质结构预测 • 蛋白质序列基于内容的特征发现: • 抽取多种生物体序列中与结构和功能密切相关的有意义的“词”、“短语”以及相应“语法规则”，结合空间构象中分子动力学和分子热力学的约束条件，建立多种生物体的生物语言学词典。

基因表达数据的分析 • 基因表达水平的分析对于研究及了解生物体特性和基因功能起着至关重要的作用。对基因表达数据，在大规模数据集上进行分析和归纳可以了解基因表达的时空规律，探索基因表达的代谢控制，了解基因的功能，理解遗传网络，提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。

基因表达数据的分析 • 聚类分析 • 聚类方法是基因表达数据分析的基础，但目前这类方法只能找出基因之间简单的、线性的关系，需要发展新的分析方法以发现基因之间复杂的、非线性的关系。 • 应用文本聚类分析及相关技术，分析基因表达数据，将表达规律相似的基因聚为一类，在此基础上寻找相关基因，分析基因的功能。利用聚类分析的结果可以研究基因的启动子，分析表达模式相同的一类基因的启动子组成特性，通过多重序列比对操作，在各个基因序列的上游区域寻找共同的启动子。

基因表达数据的分析 • 基因表达网络调控模式的研究 • 系统科学的研究正在推动生物学家从系统角度看待具有高度复杂性的生命现象。生命系统是一个有内外相互作用的自组织系统,即储存生命信息的各基因并不是孤立地发挥作用，而是通过形成“基因网络”这样一个复杂系统来推动生命演化的。

基因表达数据的分析 • 基因表达网络调控模式的研究 • 内容包括探索基因的转录调节网络，发现基因在环境或药物作用下表达模式的变化，阐明一些基因对另一些基因的调节作用。

5、智能化中文信息处理平台 • 研究目标和主要研究内容根据863重点课题合同，研究建立用于中文信息处理的大型关键性基础资源库与相关加工技术： (1)多语种的机器翻译、语音识别与合成、文字识别技术、语言处理技术; (2)基于内容的Internet信息搜索、处理和理解技术 (3)大型基础资源库核心技术进一步完善、融合这些关键技术，构造面向网络环境的新型智能化中文信息处理平台。

研究队伍以及人员 • 队伍：自然语言处理课题组、机器翻译课题组、模式识别（手写输入）课题组、语音识别课题组、计算机新技术研发中心5个课题组100多人 • 经历：80年代至今。基本上经历了中文信息处理领域发展的全过程。问答系统、机器翻译、语句输入、手写输入等均为国内最先推出的几家之一。

总体结构 语言处理技术问答文摘翻译检索智能输入输出语音手写键盘语句语料多级加工技术文本获取自动分词词性标注词义标注句法分析

经验总结 • 基础研究与应用研究注重评测注重应用，实践检验真理 • 研究语言无关的语言处理技术国际化通用性

谢谢！

自然语言处理的若干问题研究

自然语言处理的若干问题研究

Presentation Transcript