浙江大学研究生《人工智能引论》课件

浙江大学研究生《人工智能引论》课件 第四讲不确定性推理概述(Chapter4 Uncertainty Reasoning ) 徐从富(Congfu Xu)PhD, Associate Professor Email: xucongfu@zju.edu.cn Institute of Artificial Intelligence, College of Computer Science, Zhejiang University, Hangzhou 310027, P.R. China March 10, 2002第一稿 April 18, 2007第四次修改稿

Outline • 本章的主要参考文献 • 基本概念 • 基本问题 • 不确定性推理方法的分类 • 不确定性度量的测度理论 • 不确定性的其它度量方法 • Shannon信息熵及在决策树中的应用 • 模糊推理

本章的主要参考文献 [1] 王永庆. 人工智能原理与方法. 西安交通大学出版社, 1998. pp156-252. (偏重基本概念) [2] 张文修, 梁怡. 不确定性推理原理. 西安交通大学出版社, 1996. （偏重数学原理） [3] 陆汝钤. 人工智能(下册). 科学出版社, 2000. pp1133-1170. （偏重Bayes概率推理、可信度、模糊推理） [4] 史忠植. 知识发现. 清华大学出版社, 2002. pp24-26, pp141-202. （偏重Rough set和贝叶斯网络）

本章的主要参考文献（续） [5] Mitchell, T. M.著, 曾华军等译. 机器学习. 机械工业出版社, 2003. pp112-143. （偏重贝叶斯学习） [6] Russell, S., Norvig, P. Artificial Intelligence: A Modern Approach. 人民邮电出版社, 2002. pp413-522. （偏重贝叶斯网络及其应用） “Blessed is the nation whose God is the LORD, the people he chose for his inheritance.” From PSALMS 33:12 NIV

4.1 基本概念 4.1.1 精确推理的局限性  推理 • 依据已知事实（证据）、相关知识（规则） • 证明某个假设成立 or 不成立 精确推理及其不足 • 将原本为不确定性的关系“硬性”转化为精确关系 • 将原本不存在明确界限的事物“人为”划定界限 • 歪曲了现实情况的本来面目 • 舍弃了事物的某些重要属性 • 失去了真实性

4.1.2 不确定性推理的定义及意义 1. 定义 • 也称“不精确性推理” • 从不确定性的初始证据（即已知事实）出发 • 运用不确定性的知识（或规则） • 推出具有一定程度的不确定性但却是合理或近乎合理的结论 2. 意义 • 使计算机对人类思维的模拟更接近于人类的真实思维过程

4. 2 不确定性推理中的基本问题 • 不确定性的表示与度量 • 不确定性匹配 • 不确定性的传递算法 • 不确定性的合成

4.2.1 不确定性的表示与度量 1. 不确定性的表示 • 选择不确定性表示方法时应考虑的因素 • 充分考虑领域问题的特征 • 恰当地描述具体问题的不确定性 • 满足问题求解的实际需求 • 便于推理过程中对不确定性的推算

不确定性的表示与度量（续1） 2. 不确定性的度量 • 针对不同的领域问题采用不同的度量方法 • 用不同的数值刻画不同的不确定性程度 • 事先规定不确定性程度的取值范围 3. 常用的度量方法 • 测度理论（基于概率统计的度量方法） • Shannon信息熵 • 其它度量方法 • ……

不确定性的表示与度量（续2） 在选择不确定性度量方法时应考虑的因素： • 充分表达相应知识及证据不确定性的程度 • 度量范围便于领域专家及用户估计不确定性 • 便于计算过程中的不确定性传递，结论的不确定性度量不超出规定的范围 • 度量的确定应直观，且有相应的理论依据

4.2.2 不确定性匹配 • 解决不确定性匹配的常用方法 • 设计一个匹配算法用以计算相似度 • 指定一个相似度的“限定”（即阈值） “To do what is right and just is more acceptable to the LORD than sacrifice.” From PROVERBS 21:3 NIV

4.2.3 证据不确定性的组合 • 单一证据 & 组合证据 • 单一证据：前提条件仅为一个简单条件 • 组合证据：一个复合条件对应于一组证据 • 前提条件用AND（与）或OR（或）把多个简单条件连接起来构成复合条件

常用的组合证据不确定性计算方法 （1）最大最小法 T(E1 AND E2) = min {T(E1), T(E2)} T(E1 OR E2) = max {T(E1), T(E2) （2）概率方法（要求事件之间完全独立） T(E1 AND E2) = T(E1) × T(E2) T(E1 OR E2) = T(E1) + T(E2) - T(E1) × T(E2) （3）有界方法 T(E1 AND E2) = max {0, T(E1) + T(E2) -1} T(E1 OR E2) = min {1, T(E1) + T(E2)} 【注】：上述T(E)表示证据E为真的程度，如可信度、概率等。每组公式都有相应的适用范围和使用条件。

4.2.4 不确定性的传递 • 包含两个子问题 • 在每一步推理中，如何把证据及知识的不确定性传递给给结论 • 在多步推理中，如何把初始证据的不确定性传递给最终结论

4.2.5 结论不确定性的合成 • 用不同知识进行推理得到相同的结论 • 同个结论的不确定性程度却不相同 • 需要用合适的算法对它们进行合成

4. 3 不确定性推理方法的分类 4.3.1 不确定性推理的两条研究路线 • 模型方法 • 在推理一级上扩展确定性推理 • 不确定证据和知识与某种度量标准对应 • 给出更新结论不确定性的算法 • 构成相应的不确定性推理模型 • 控制方法 • 在控制策略一级上处理不确定性 • 无统一的不确定性处理模型，其效果依赖于控制策略

4.3.2 不确定性推理方法的分类 概率统计方法绝对概率方法贝叶斯方法数值方法模糊推理方法模型方法证据理论方法粗糙集方法 HMM方法不确定性推理非数值方法发生率计算可信度方法控制方法相关性制导回溯、机缘控制、启发式搜索等

4.3.3 关于不确定性推理方法的说明 • 数值方法 • 对不确定性的一种定量表示和处理方法 • 其研究及应用较多，已形成多种应用模型 • 非数值方法 • 除数值方法外的其它处理不确定性的模型方法 • 典型代表：“发生率计算方法”，它采用集合来描述和处理不确定性，且满足概率推理的性质

关于不确定性推理方法的说明（续1） • 概率统计方法 • 有完整、严密的数学理论 • 为不确定性的合成与传递提供了现成的数学公式 • 最早、最广泛地用于不确定性知识的表示与处理 • 已成为不确定性推理的重要手段 • 证据理论方法 • 1967年Dempster首次提出，1976年Shafer完善 • 可表示并处理“不知道”等不确定性信息

关于不确定性推理方法的说明（续2） • 模糊推理方法 • 可表示并处理由模糊性引起的不确定性 • 已广泛应用于不确定性推理 • 粗糙集理论方法 • 1981年Z. Pawlak首次提出 • 一种新的可表示并处理“含糊”等不确定性的数学方法 • 可用于不确定性推理、数据挖掘等领域

4.4 描述不确定性信息的测度理论 4.4.1 测度及其分类设(X) 是有限集合X上的子集合的全体，测度的定义如下：定义6.1（测度）若g: (X)  [0, 1]满足条件： (1) g(X) = 1; (2) 当A  B =  时，有 g(A B) = g(A) + g(B) +   g(A)  g(B) 称为g测度。【注】：关于测度理论的详细论述请参见夏道行编著的《实变函数与泛函分析》，复旦大学出版社。

定义4.2（模糊测度） 模糊测度被定义为一个映射 M: (X)  [0, 1] 具有如下性质： (1) 有界性： M() = 0, M(X) = 1; (2) 单调性：对任意A, B(X), AB时，有M(A)  M(B) 由模糊测度定义可知：（1）有界性表示：一个非空元素不可能属于，它必然属于全集；（2）单调性表示：一个元素隶属于一个集合的确定度不大于它隶属于更大的一个集合的确定度。

模糊测度及其性质 定理4.1 当>-1时，测度g是模糊测度。定理4.2 当>-1时，测度g具有如下性质：

定义4.3（概率测度）称P： (X）→ [0，1]为概率测度，若满足：（1）有界性：P(X) = 1 （2）可加性：A∩B=Φ时，P(A∪B) = P(A) + P(B) 【注】：可证明概率测度是＝0时模糊测度。定义4.4 (条件概率) 如果P是X上的概率测度，EX，且P(E)>0，称为给定条件E下，事件A发生的条件概率。

对于条件概率有如下联合概率公式： 若A1, A2, ..., An为X中的n个事件，可得若A, B两个事件满足P(A|B) = P(A)，即A发生的可能性与B无关，称A, B是相互独立的。这时有若n个事件A1, A2, ..., An相互独立，则

Markov条件独立性 定义4.5 (马氏条件独立性) 若A1, A2, ..., An是按时间顺序发生的一系列事件，而且具有如下特性：未来某一事件Ak+1发生的可能性只依赖于当前时刻的事件Ak ，而与过去发生的事件无关，即这时称n个事件具有马氏（Markov）独立性。对n个满足马氏独立性条件的事件满足

定义4.6（全概率公式）设Hi (i<=m)是X上的分划， Hi Hj   (i  j)，且H1H2 …Hm =X。由概率可加性，对于任意事件A，有对于条件概率有如下全概率公式：定义4.7 (后验概率公式）：Bayes公式

Bayes公式与全概率公式的区别 • 全概率公式 • 由原因到结果的计算公式 • 不如Bayes公式使用广泛 • Bayes公式 • 后验概率公式 • 已知某结果发生，寻求这个结果发生的原因 • 在实际问题中有着十分重要的应用

定义4.8（信任测度） 设X是有限集，称B：(X)  [0, 1]为信任测度，若满足： (1) B() = 0, B(X) = 1; (2) 对于X中任意子集A1，A2，…，An有如果仅仅满足，对于X中任意两个子集A1及A2有称为弱信任测度。【注】：可证明信任测度与弱信任测度都是模糊测度。信任测度是证据理论的最基础概念。

定义4.9（似然测度） 设X是有限集，称L：(X)  [0, 1]为似然测度，若满足： (1) L() = 0, L(X) = 1; (2) 对于X中任意子集A1，A2，…，An有如果仅仅满足，对于X中任意两个子集A1及A2有称为弱似然测度。【注】：可证明似然测度与弱似然测度都是模糊测度。似然测度是证据理论的最基础概念。

定义4.10（mass函数）称m：(X)→ [0，1]是mass函数，若满足：（1）m(Ф) = 0 （2） mass函数是专家的一种评价或确认程度。比如X={x1, x2, …, xn}是n中疾病，某专家认为某人得疾病x1的可能性为0.7，于是得到一个mass函数：在证据理论中，mass函数对构造信任测度与似然测度中有着重要的作用。

定义4.11（必然性测度） 设X是有限集，称N：(X)  [0, 1]为必然性测度，若满足： (1) N() = 0, N(X) = 1; (2) N(A  B) = N(A)  N(B) 定义4.12（可能性测度）设X是有限集，称：(X)  [0, 1]为可能性测度，若满足： (1) () = 0, (X) = 1; (2) (A  B) = (A)  (B) 【注】：可证明必然测度与可能性测度都是模糊测度。它们是Zadel提出的可能性理论的最基础概念。

4.4.2 模糊测度各类之间的关系 似然测度可能测度概率测度必然测度信任测度模糊测度各种模糊测度之间的关系示意图

模糊测度各类之间的关系（续） 模糊测度是一大类测度，它除了有界性条件外，只要求测度满足单调性，即当AB时，有M(A)  M(B)。上述各类模糊测度之间的关系如下： • 必然性测度一定是信任测度 • 可能性测度一定是似然测度 • 概率测度是信任测度与似然测度的交集 • ……

4.5 不确定性的其它度量方法 1、不协调度定义4.17 (不协调度) 设m是X上的mass函数，L为由m生成的似然测度，即称为[X, m]的不协调度。

不协调度（续） 若m是X上的概率分布，即这时信任测度与似然测度均为概率测度，于是显然，这时的不协调度与香农信息量（即信息熵）一致。此时的不协调度就是不确定度。

2、混淆度 定义4.18 (混淆度) 设m是X上的mass函数，B为由m生成的信任测度，即称为[X, m]的混淆度。其中， = {A | m(A) > 0} 。【注】：与不协调度相似，当m是概率分布时，混淆度即为不确定度（香农信息熵）。

3、信息量 一个概念是内涵与外延的统一体。内涵的多少表示了信息量的大小，但是内涵一般是无法度量的。由于内涵与外延是某种相反关系，我们可用外延补集作为信息，用外延补集的测度作为信息量。于是就得到如下信息量的概念。定义4.19 (信息量) 设X是有限集，包含n个元素。P是X上的概率分布，称是[X, P]的信息量。其中，

补充说明： 在不确定性推理过程中，经常遇到两类问题： (1) 匹配（检索）问题，需要相似度的概念； (2) 推理规则的条件与结论之间的蕴涵关系，就需要蕴涵度的概念。经专家研究发现，相似度与蕴涵度的共性即为包含度。【注】：本课件只简要介绍上述三个概念的定义，有关包含度理论的详细论述请参见文献：张文修、梁怡《不确定性推理原理》，西安交通大学出版社，1996。

4、包含度 设X是一个普通集合，(X)表示X中所有子集的全体，(X)表示X中模糊集合的全体。定义4.19 (包含度)：设0(X)(X) ，对A, B 0(X) 有数D(B/A)对应，且满足： (1) 0 <= D(B/A) <= 1 (2) 对A, B 0(X), A B时，有D(B/A) = 1 (3) 对A, B, C 0(X), A B C时，有 D(A/C)  D(A/B) 称D为 0(X)上的包含度。【注】：关于包含度的数学原理请详见张文修《不确定性推理原理》。 C B A X

4.6 信息论及其在决策树中的应用 4.6.1 Shannon信息论  信息论的创立 • 1948年Shannon首次提出 • 以数学方法度量并研究通信信号 信息论对不确定性推理的作用 • 为不确定性知识的度量提供理论依据 • 用信息熵来衡量不确定性程度的高低 • 在决策树等方法中发挥重要作用

4.6.2 信息论中的基本概念 定义4.13（自信息量）在收到ai之前，收信者对信源发出ai的不确定性定义为信息符号ai的自信息量I(ai)。即其中，p(ai)为信源发出ai的概率，为表达简便起见，本课件的对数lg均以2为底。【说明】: （1）自信息量只能反映符号的不确定性。（2）有的文献采用以10 或e为底的对数，但是在某个具体的信息系统中，一旦确定并保持某个底数，对不确定性信息的度量和计算不会有任何影响。

Shannon信息熵 定义4.14（信息熵）设r为信源X所有可能的符号数， p(ai)为信源发出ai的概率，则信源每发一个符号所提供的平均自信息量即为信息熵。【说明】：（1）信息熵也称香农信息量，或称不确定度。（2）信息熵可用来度量整个信源X整体的不确定性。

定义4.15（条件熵） 如果信源X与随机变量Y不是相互独立的，那么用条件熵H(X|Y)来度量收信者在收到随机变量Y之后，对随机变量X仍然存在的不确定性。设X对应信源符号ai ，Y对应信源符号bj ，p(ai | bj)为当Y为bj时X为ai的概率，则有由于可得

平均互信息量 定义4.16（平均互信息量，也称信息论测度值）表示信号Y所能提供的关于X的信息量的大小，用I(X, Y)表示【说明】：信息论在决策树学习中具有非常重要的意义。在决策树学习方法中，最关键的问题就是如何根据每个属性提供的信息量构造出一棵决策树，以此对整个实例空间进行合理的分类（划分）。

4.6.3 信息论在决策树中的应用 设训练实例集为X，目的是将训练实例分为n类。设属于第i类的训练实例个数是Ci，X中总的训练实例个数为|X|，若记一个实例属于第i类的概率为P(Ci)，则此时，决策树对划分C的不确定程度为：【注意】：在无混淆的情况下，习惯将H(X,C)简记为H(X)。

决策树的学习过程 决策树学习过程就是使得决策树对划分的不确定程度逐渐减小的过程。大致过程如下：（1）选择测试属性a进行测试，在得知a=aj的情况下，属于第i类的实例个数为Cij个。记 p(Ci; a=aj) = Cij / |X| p(Ci; a=aj) 为在测试属性a的取值为aj时它属于第i类的概率。此时决策树对分类的不确定程度就是训练实例集对属性X的条件熵。

训练实例集对属性X的条件熵的计算公式 即

决策树的学习过程（续） 可知属性a对于分类提供的信息量I(X; a)为：（2）信息量I(X; a)的值越大，说明选择测试属性a对于分类提供的信息量越大，选择属性a之后对分类的不确定程度越小。（3）依次类推，不断地计算剩余样本的条件熵及信息量，直至构造出完整的决策树。

4.6.4 信息熵在决策树中的应用实例—ID3算法 属性 Outlook Temperature Humidity Windy 类 • Overcast Hot High Not N • Overcast Hot High Very N • Overcast Hot High Medium N • Sunny Hot High Not P • Sunny Hot High Medium P • Rain Mild High Not N • Rain Mild High Medium N • Rain Hot Normal Not P • Rain Cool Normal Medium N • Rain Hot Normal Very N • Sunny Cool Normal Very P • Sunny Cool Normal Medium P

浙江大学研究生《人工智能引论》课件