680 likes | 834 Views
第 2 章 信息的统计度量. §2.1 自信息量和条件自信息量. 本节包括以下内容: 自信息 联合自信息 条件自信息. 1 ) ,. 2 ). §2.1 自信息量. ★ 事件 的概率为 ,它的自信息:. ?. 对数的底数大于 1. 关于对数底的选取 : 以 2 为底:单位为比特( bit ,为 binary digit 的缩写),工程上常用; 以 3 为底:单位为 Tit ; 以 e 为底:单位为奈特( Nat ,为 Natural Unit 的缩写),理论推导时常用; 以 10 为底:单位为 Dit 或哈特 。
E N D
§2.1 自信息量和条件自信息量 本节包括以下内容: • 自信息 • 联合自信息 • 条件自信息
1) , 2) §2.1 自信息量 ★ 事件的概率为,它的自信息: ? 对数的底数大于1
关于对数底的选取: • 以2为底:单位为比特(bit,为binarydigit的缩写),工程上常用; • 以3为底:单位为Tit; • 以e为底:单位为奈特(Nat,为Natural Unit的缩写),理论推导时常用; • 以10为底:单位为Dit或哈特。 • 单位之间的换算关系为: • 1奈特 = logee = log2e比特 = 1.443比特 • 1 Dit =log1010 =log210比特 = 1/log102比特 = 3.32比特
自信息为随机变量 • 自信息含义包含两个方面 • i)自信息表示事件发生前,事件发生的不确定性。 • ii) 自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。
联合自信息量 联合事件集合XY中的事件xi,yj的自信息定义为: 其中,p(xy)要满足非负和归一化条件。实际上如果把联合事件xy看成一个单一事件,那么联合自信息的含义与自信息的含义相同。
例2.1.1甲袋中有n个不同阻值的电阻,从中随机取出一个,猜测所取得的是何种阻值的困难程度是多少?例2.1.1甲袋中有n个不同阻值的电阻,从中随机取出一个,猜测所取得的是何种阻值的困难程度是多少? 解 相当求事件的不确定性,因事件等概,故p(ai)=1/n ,I(ai)=-log pi=log n。 续 甲袋中有n(n+1)/2个不同阻值的电阻,其中1Ω的1个,2Ω的2个,……,nΩ的n个,从中随机取出一个,求“取出阻值为i(0 ≤ i≤ n)的电阻”所获得的信息量。 解“取出阻值为i的电阻”的概率为i/[n(n+1)/2], 故所求信息量为: I(ai)=-log pi=log [n(n+1)/(2i)]
2.1.2 条件自信息量 事件xi在事件yj给定条件下的自信息定义为: 注意:1)条件概率P(x|y) 也要满足非负和归一化条件 2)条件自信息为非负值
条件下自信息与自信息类似,只不过是概率空间有变化。条件自信息也是随机变量。 条件自信息的含义: 1)在事件yj给定条件下,事件xi发生前的不确定性; 2)在事件yj给定条件下,事件xi发生后所得到的信息量。
例2.1.2有8*8=64个方格,甲将一棋子放入方格中,让乙猜;例2.1.2有8*8=64个方格,甲将一棋子放入方格中,让乙猜; 1)将方格按顺序编号,让乙猜顺序号的困难 程度为何? 2)将方格按行和列编号,当甲告诉乙方格的 行号后,让乙猜列顺序号的困难程度为何? 解 两种情况下的不确定性: 1)I(xy)=log 64=6 bit 2)I(x|y)=-log p(x|y)=-log(1/8)=3 bit
§2.2 互信息量和条件互信息量 本节包括以下内容 • 互信息量 • 互信息量的性质 • 条件互信息量
2.2.1 互信息 离散随机事件xi和yj之间的互信息(x∈X ,y ∈Y)定义为: 简记为 通过计算可得
注: 1)互信息的单位与自信息单位相同; 2)x与y的互信息等于x的自信息减去在y条件 下x的自信息。 I(x;y)表示当 y发生后x不确定性的变化。这种变化,反映了由y发生所得到的关于x 的信息量。互信息是一种消除不确定性的度量。 3)应注意I(x;y)与 I(x|y)的区别。
2.2.2 互信息的性质 1)互易性:I (x;y) = I (y;x) 2)当事件x ,y 统计独立时,互信息为零,即 I (x;y) = 0; 3)互信息可正可负; 4)任何两事件之间的互信息不可能大于其中任一事 件的自信息。
证明:由定义明显看出性质1)成立,而且 • 当事件x,y 统计独立时,有p(x|y)= p(x),所以性质2)成立; • 因为,当p(x|y) > p(x)时,I(x;y) > 0; 当p(x|y) < p(x)时,I(x;y) < 0,所以性质3)成立; • 考虑自信息和条件自信息的非负性,可得性质4)。也可以说,一个事件提供的关于另一事件的信息量不超过后者的自信息。
例2.2.1 设e表示事件“降雨”,f表示事件“空中有乌云”,且 P(e)=0.125, P(e|f)=0.8, 求:1)事件“降雨”的自信息; 2)在“空中有乌云”条件下“降雨”的自信息 3)事件“无雨”的自信息; 4)在“空中有乌云”条件下“无雨”的自信息; 5)“降雨”与“空中有乌云”的互信息; 6)“无雨”与“空中有乌云”的互信息; 解: 设 p(e)表示事件“无雨”,则P( )=1-P(e); 1) I(e)= -log0.125 =3 bit ; 2) I(e|f)= -log0.8 =0.322 bit ; 3) I( )= -log0.875 =0.193 bit ; 4) I( /f)= -log0.2 =2.322 bit ; 5) I(e;f)= 3 – 0.322 =2.678 bit ; 6) I( ;f)= 0.193 – 2.322 = -2.129 bit 。
一般地说,如果某事件x提供了关于另一事件y正的信息量,说明x的出现有利于y的出现;如果某事件x提供了关于另一事件y负的信息量,说明x的出现不利于y的出现。
2.2.3 条件互信息量 设联合集XYZ,在给定z∈Z 条件下x(∈X) 与y(∈Y ) 之间的互信息定义为: 除条件外,条件互信息的含义与互信息的含义与性质都相同。
§2.3 离散集的平均自信息量(熵) 本节包括以下内容 • 信息熵 • 熵函数的数学特性 • 条件熵 • 联合熵
2. 3. 1 信息熵 离散信源X的熵定义为自信息的平均值,记为H(X) 其中, I(x)为事件x的自信息, 表示对随机变量x用p(x)来进行取平均运算;熵的单位为比特(奈特)/信源符号。
信息熵H(X)从平均意义上表征信源的总体特性,其含义体现在如下几方面:信息熵H(X)从平均意义上表征信源的总体特性,其含义体现在如下几方面: 1) 在信源输出前,表示信源的平均不确定性; 2) 在信源输出后,表示一个信源符号所提供的 平均信息量; 3)表示信源随机性大小,H(X)大的,随机性 大; 4)当信源输出后,不确定性就解除,熵可看成为 解除信源不确定性所需信息量。
例2.3.1 一个信源X的符号集为{0,1},其中“0”符号出现的概率为p,求信源的熵。 解 H(X)= -p log p - (1-p) log (1-p) = H (p)。 例2.3.2 一电视屏幕的格点数为500ⅹ600=3ⅹ105,每点有10个灰度等级,若每幅画面等概率出现,求每幅画面平均所包含的信息量。 解 可能的画面数为: 10300000,所以每个画面出现的概率为p=(10300000)-1, 每幅画面平均所包含的信息量为: H(X)= log2(1/ p )= log2 (10300000) = 106比特/符号。
§2.3.2 熵函数的数学特性 本节包括以下内容 • 凸函数 • 信息散度 • 熵的基本性质
凸函数 记H(X) = H(p) = H(p1,p2,…,pn) = -∑pi logpi,因∑pi=1, 所以 H(X)为n-1元函数。特别是,当n=2时,可记为 H(p) = H(p1,p2) = H(p1,1 - p1) = H(p1)。 凸函数的定义: • 多元函数f(x) = f(x1,x2,…,xn)称为为定义域上的上凸 (cap)函数,若对于α(0≤α≤1)及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≥αf(x1)+(1-α)f(x2) (2.4.1)成立。 当且仅当x1 = x2或α= 0 或1时等式成立,则称严格上凸函数。 • 多元函数f(x) = f(x1,x2,…,xn)称为为定义域上的下凸 (cup)函数,若对于α(0≤α≤1) 及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≤αf(x1)+(1-α)f(x2)(2.4.2) 成立。 当且仅当x1 = x2或α= 0 或1时等式成立,则称严格下凸函数。
一元上凸函数如图所示。图中可以看出,当α从0到1变化时,函数自变量从 x2变到 x1;αf(x1)+(1-α)f(x2)的值在点(x1,f(x1))和(x2,f(x2))之间的线段上变化。上凸的含义就是:在点x1和x2之间的区域,函数f的图线在上述线段的上方。 图2. 4. 1 上凸函数的图形说明
引理2.3.1 若f(x) 是定义在区间上的实值连续严格上凸函数,则对于任意一组x1,x2,…,xq和任意一组λ1,λ2,…,λq,∑λk=1, 那么 当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等式成立。 该式称做Jenson不等式。
证 利用数学归纳法。根据上凸函数的定义有 f[αx1+(1-α)x2]≥αf(x1)+(1-α)f(x2) 其中0<α<1 ,即q=2 时成立。 今假定 q=n 成立。现考虑 q=n+1 的情况 设 , 令 , 则 ,
当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等式成立。
特别地,当xk为离散信源符号的取值,λk 为相应的概率,f(x) 为对数函数时,有 对于一般的上凸函数,有 根据数学分析可知,对于一元函数,如果在某区间的二阶导数小于0,则在此区间内为严格上凸函数。因此,对于一元函数,可以利用Jenson不等式,也可利用二阶导数小于0的性质,来判定函数的上凸性。
另一个有用的不等式: 对于任意正实数x,下面不等式成立 实际上, 设 ,可求得函数 的稳定点为x=1,并可求得在该点的2阶导数小于0, 从而可得x=1为f(x)取极大值的点,即, 仅当x=1时等式成立。令y=1/x,可得 , 再将y换成x,就得到左边的不等式。
信息散度 若P和Q为定义在同一概率空间的两个概率测度,定义P相对于Q的散度为: 在其他文献中,散度又称做相对熵、鉴别信息、方向散度、交叉熵、Kullback_ Leibler数等。注意,在上式中,概率分布的维数不限,可以是一维,也可以是多维。
定理2.3.1 如果在一个共同的有限字母表的概率空间上给定的两个概率测度P(x)和Q(x),那么 当且仅当对所有x, P(x) = Q(x) 时,等式成立。 证 因为 , ,log(x)为严格上 凸函数,所以根据Jensen不等式有
当且仅当对所有x, P(x) = Q(x) 时,等式成立。该式称为散度不等式(divergence inequality )。 • 一个概率测度相对于另一个概率测度的散度是非负的,仅当两测度相等时,散度为零。
熵函数的数学特性 1.对称性 概率矢量p=(p1,p2,…,pn)中,各分量的次序任意改变,熵不变。即,熵仅与信源的总体特性有关,而与随机变量的取值无关。 2.非负性 H(p)=H(p1,p2,…,pn) ≥0 仅当对某个pi=1,等式成立。 因为自信息是非负的,熵为自信息的平均,所以也是非负的。不过,非负性仅对离散信源的熵有效。 3.扩展性 利用 可得到式(2.4.10)的结果。该式的含义就是,小概率事件对熵的影响很小,可以忽略。虽然小概率事件自信息大,但在计算熵时所占比重很小。
4.可加性 设两个随机变量集合X、Y与的它们的联合集XY的熵分别为H(X) ,H(Y) , H(XY),则 H(XY)= H(X) + H(Y|X ) 证 由定义可得
熵的可加性可以推广到多随机变量集合的情况。设N维随机变量集X1X2…XN,则有熵的可加性可以推广到多随机变量集合的情况。设N维随机变量集X1X2…XN,则有 H(X1X2…XN)= H(X1)+ H(X2|X1)+ … + H(XN | X1…XN-1) 熵的可加性含义:复合事件集合的不确定性为各个分事件集合的不确定性的和。
5.极值性 定理2. 3. 2 (离散最大熵定理) 对于离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值。 证 设随机变量集合有n个符号,概率分布为P(x) ;Q(x)为等概率分布,即Q(x)=1/n。根据散度不等式有 即 ,仅当P(x) 等概率分布时等号成立。
6.确定性 H(1,0) = H(1,0,0)= … = H(1,0,…0) = 0。 当随机变量集合中任一事件概率为1时,熵就为0。 7.上凸性 H(p)=H(p1,p2,…,pn) 是 (p1,p2,…,pn) 的 严格上凸函数。
2. 3. 3 条件熵 联合集XY上,条件自信息 I(y|x) 的平均值定义为条件熵: 其中, 为在x取某一特定值时, Y的熵。
2. 3. 4 联合熵 联合集XY上,对联合自信息I(xy) 的平均值称为联合熵:
2. 3. 5各类熵的关系 信息熵、条件熵和联合熵之间的关系: • 条件熵不大于信息熵 H(Y|X) ≤ H(Y) 证 仅当个X、Y 相互独立时,等式成立。上面利用了散度不等式。这就是熵的不增原理:在信息处理过程中,条件越多,熵越小。
联合熵不大于个信息熵的和 即 H(X1X2…XN) ≤ 仅当各Xi相互独立时,等式成立。 • 联合熵与信息熵、条件熵的关系 H(XY)= H(X) + H(Y|X )
例 随机变量X,Y的联合概率分布如表2.1所示,求联合熵H(XY)和条件熵H(Y|X)。 表2.1 X,Y的联合概率分布
§ 2.4 离散集的平均互信息量 本节包括以下内容 • 集合与事件之间的互信息 • 平均互信息 • 平均互信息与熵的关系 • 平均互信息的性质 • 平均条件互信息
2.4.1 集合与事件之间的互信息 定义集合X与事件y=bj之间的互信息为: 表示由事件y=bj提供的关于集合X的平均条件互信息 (注意:用条件概率平均)。 定理2.4.1 I(X;y)≧0, 仅当y与所有x 独立时,等式成立。 证 根据散度的定义,有 仅当对所有x,p(x)= p(x|y) 时,等式成立, 证毕。
2.4.2 平均互信息 集合X、Y之间的平均互信息定义为:
H(XY) I(X;Y) H(X|Y) H(Y|X) H(X) H(Y) 2.4.3. 平均互信息与熵的关系 很容易证明下面的关系式: I(X;Y)=H(X)- H(X|Y) I(X;Y)=H(Y)- H(Y|X) I(X;Y)=H(X)+ H(Y)- H(X Y) 图中,H(X)、H(Y)分别为集合 X、Y的某种测度 ,H (XY) 为集合X、Y并的某种测度,I(X;Y)为集合X、Y交的某种测度,H(X|Y)为X∩ 的某种测度,H(Y|X)为Y∩ 的某种测度。
2.4.4 平均互信息的性质 1. 非负性 I(X;Y)≥0 仅当X,Y 独立时,等式成立。 证 根据定理I(X; y)≧0,其平均值也大于或等于0。 实际上 ,I(X; Y) = D(PXY //PX PY) ≧ 0, 其中,PXY为 XY的联合概率分布,PX PY为X和Y概率分布的乘积。 证毕。 2. 互易性(对称性) I(X;Y)=I(Y;X) 根据定义很容易得到。
3.凸函数性 • I(X;Y)为概率分布p(x)的上凸函数。 • 对于固定的概率分布p(x), I(X;Y) 为条件概率的下凸函数。
例2.4.1 二元信源X输出符号为 {0,1} , PX(0)=ω, 条件概率分别为 PY|X(0|0) = PY|X(1|1) =1-p, PY|X(0|1) = PY|X(1|0) = p, 求I(X;Y)。 解 将PY(0)、 PY(1)分别记为q(0)、q(1),则 得 所以