200 likes | 376 Views
自然语言理解与全信息理论 方法论的探讨及应用. 钟义信 北京邮电大学智能研究中心 yxzhong@ieee.org. NLP - NLU. NLP : 对自然语言所进行的 任何有意义的 操作。 NLU : 为了理解自然语言 而进行的各种操作。. NLP 是实现 NLU 的手段, NLU 是进行 NLP 的目的 。. 为何要特别关注 NL U 问题 ?. 社会全球化:人 - 人多语言沟通. 先进生产力:人 - 机自然语言沟通. NLP/NLU :方法论的困惑( 1 ). 理性主义(规则方法) 基本信念:“ 有限语言规则覆盖无限语言现象 ”。
E N D
自然语言理解与全信息理论方法论的探讨及应用自然语言理解与全信息理论方法论的探讨及应用 钟义信 北京邮电大学智能研究中心 yxzhong@ieee.org
NLP - NLU NLP:对自然语言所进行的任何有意义的操作。 NLU:为了理解自然语言而进行的各种操作。 NLP 是实现NLU的手段,NLU是进行NLP的目的。
为何要特别关注NLU问题? 社会全球化:人-人多语言沟通 先进生产力:人-机自然语言沟通
NLP/NLU:方法论的困惑(1) 理性主义(规则方法) 基本信念:“有限语言规则覆盖无限语言现象”。 然而, (1) 语言现象无限丰富和动态开放,“规则有限性和 封闭性”受到质疑;有限性与可实现性 (2) 随着规则数量增多,可能经常产生规则之间的 矛盾冲突 (3) 人工提取规则费时费事,机器提取规则的质量 还难以保证
NLP-NLU:方法论的困惑(2) 经验主义(统计方法): 基本信念:“多者为真” 然而, (1) 统计特性的假设(符号独立或Markov阶数固定) 在实际语言现象中难以成立,先天不足 (2) 何谓“足够大”?即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏) (3) 统计方法本身的“统计平均性质”,不保证实际结 果的正确性;“多者为真”信念受到挑战
出路:优势互补 理想的东西都不现实;现实的东西都不理想。 理性主义和经验主义虽然在理想条件下都有无穷的 威力,但都受到实际条件的限制,不可能包打天下 理性主义和经验主义恰具互补特性,于是出路只有 互相结合,实现优势互补。 问题:怎样互补? 语言学规则框架,统计学处理手段; 底层统计,高层理解;多层嵌套,互动互补。
科学方法论的变迁 现代科学:信息科学、系统科学、认知科学、智能科学, … 全信息:主体关于“事物运动状态及其变化方式”的表述, 包括“状态-方式”的形式、内容和价值的表述。 系统:相互作用的要素的有机整体;整体大于部分和 现代科学方法论特点:(1)信号与信息,(2)形式与内容 (3)客观与主观,(4)确定与不定 (4)分解与综合,(6)局部与整体 现代科学方法论意义:二元科学 三元科学; 物质结构能量转换 信息机制 分解分析方法 分合互动方法
自然语言理解与全信息 自然语言是认识论信息(而不是本体论信息)的载体。 因此,对自然语言的理解应是对它所载荷的认识论信息的理解。 认识论信息是形式-内容-价值三位一体。因此,理解信息需要利用全信息理论。 (Comprehensive Information Theory) Shannon信息论是全信息理论的特例,它主要 适用于通信等场合。
Shannon信息的概念 Shannon信息论 (Mathematical Theory of Communication) X Y D 信息论的信息概念:消除随机波形不定型的东西。 是随机型的语法信息 信息论在解决通信问题方面是完美的(Perfect)理论; 但在解决智能问题方面却无能为力(Problematic)。
全信息的基本概念 语法信息、语义信息、语用信息的三位一体。 形式 含义 效用 客体 符号 主体 语义信息 语用信息 语法信息 详见《信息科学原理》,第三版,2002年.
语义信息与语用信息 语法信息只涉及事物本身 语义信息涉及事物和公共主体 语用信息才关注效用主体 语义信息不能代替语用信息
全信息的表示 语法信息参量: Certainty (C) 语义信息参量: Logic Truth (T) 语用信息参量: Utility (U) 状态矢量 … … X x1 x2 xn xN C c1 c2 cn cN T t1 t2 tn tN U u1 u2 un uN 肯定度 … … 真实度 … … 效用度 … …
全信息的度量 N I(C; X) = log N + c log c if X is random/ Incidental; n n n=1 N = log 2 + (1/N) [c log c + (1-c ) log (1-c )] n n n n n=1 If X is fuzzy in nature. N I(T; X) = log 2 + {t log t + (1-t ) log (1-t )} 1/N n n n n n=1 N I(U; X) = log 2 + {u log u + (1-u ) log (1-u )}1/N n n n n n=1
自然语言理解的层次 理解语法信息(理解结构): 浅层次 理解语法-语义信息(理解结构-内容):中层次 理解语法-语义-语用信息(理解结构-内容-价值):深层次 理解全信息的最小单位是语句;准确的理解往往要涉及更 大的范围:语段,语篇。
全信息自然语言理解方法论模型 N N 合法? Y N 真实? Y 有用? Y + + + 预处理 语法 分析 语义 分析 语用 分析 后处理 全信息库 人工 建构 机器 学习
模型说明 理性主义与经验主义:优势互补 宏观框架的完备性: 理性主义 -- 语法信息分析 -- 语义信息分析 -- 语用信息分析 } 三位一体 微观实现的灵活性:经验主义/理性主义 -- 可用统计学方法(如VSM) -- 可用规则推理方法 -- 可用混合方法
需要注意的问题 根据问题确定理解深度 全信息与特征矢量 全信息辞典与Ontology
应用举例:信息内容安全监控(CICS) N N 合法句? Y N 相关类? Y 要过滤? Y + + + 预处理 语法 分析 语义 分析 语用 分析 后处理 全信息库 人工 创建 机器 学习
应用举例 Internet 检索 摘要 翻译 知识 管理 分类 安全分析 搜索引擎 对话 全信息自然语言理解方法论 信息-知识-智能转换理论