1 / 67

第 2 章 信息的统计度量

第 2 章 信息的统计度量. §2.1 自信息量和条件自信息量. 本节包括以下内容: 自信息 联合自信息 条件自信息. 1 ) ,. 2 ). §2.1 自信息量. ★ 事件 的概率为 ,它的自信息:. ?. 对数的底数大于 1. 关于对数底的选取 : 以 2 为底:单位为比特( bit ,为 binary digit 的缩写),工程上常用; 以 3 为底:单位为 Tit ; 以 e 为底:单位为奈特( Nat ,为 Natural Unit 的缩写),理论推导时常用; 以 10 为底:单位为 Dit 或哈特 。

inga
Download Presentation

第 2 章 信息的统计度量

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第2章 信息的统计度量

  2. §2.1 自信息量和条件自信息量 本节包括以下内容: • 自信息 • 联合自信息 • 条件自信息

  3. 1) , 2) §2.1 自信息量 ★ 事件的概率为,它的自信息: ? 对数的底数大于1

  4. 关于对数底的选取: • 以2为底:单位为比特(bit,为binarydigit的缩写),工程上常用; • 以3为底:单位为Tit; • 以e为底:单位为奈特(Nat,为Natural Unit的缩写),理论推导时常用; • 以10为底:单位为Dit或哈特。 • 单位之间的换算关系为: • 1奈特 = logee = log2e比特 = 1.443比特 • 1 Dit =log1010 =log210比特 = 1/log102比特 = 3.32比特

  5. 自信息为随机变量 • 自信息含义包含两个方面 • i)自信息表示事件发生前,事件发生的不确定性。 • ii) 自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。

  6. 联合自信息量 联合事件集合XY中的事件xi,yj的自信息定义为: 其中,p(xy)要满足非负和归一化条件。实际上如果把联合事件xy看成一个单一事件,那么联合自信息的含义与自信息的含义相同。

  7. 例2.1.1甲袋中有n个不同阻值的电阻,从中随机取出一个,猜测所取得的是何种阻值的困难程度是多少?例2.1.1甲袋中有n个不同阻值的电阻,从中随机取出一个,猜测所取得的是何种阻值的困难程度是多少? 解 相当求事件的不确定性,因事件等概,故p(ai)=1/n ,I(ai)=-log pi=log n。 续  甲袋中有n(n+1)/2个不同阻值的电阻,其中1Ω的1个,2Ω的2个,……,nΩ的n个,从中随机取出一个,求“取出阻值为i(0 ≤ i≤ n)的电阻”所获得的信息量。 解“取出阻值为i的电阻”的概率为i/[n(n+1)/2], 故所求信息量为: I(ai)=-log pi=log [n(n+1)/(2i)]

  8. 2.1.2 条件自信息量 事件xi在事件yj给定条件下的自信息定义为: 注意:1)条件概率P(x|y) 也要满足非负和归一化条件 2)条件自信息为非负值

  9. 条件下自信息与自信息类似,只不过是概率空间有变化。条件自信息也是随机变量。 条件自信息的含义: 1)在事件yj给定条件下,事件xi发生前的不确定性; 2)在事件yj给定条件下,事件xi发生后所得到的信息量。

  10. 例2.1.2有8*8=64个方格,甲将一棋子放入方格中,让乙猜;例2.1.2有8*8=64个方格,甲将一棋子放入方格中,让乙猜; 1)将方格按顺序编号,让乙猜顺序号的困难 程度为何? 2)将方格按行和列编号,当甲告诉乙方格的 行号后,让乙猜列顺序号的困难程度为何? 解 两种情况下的不确定性: 1)I(xy)=log 64=6 bit 2)I(x|y)=-log p(x|y)=-log(1/8)=3 bit

  11. §2.2 互信息量和条件互信息量 本节包括以下内容 • 互信息量 • 互信息量的性质 • 条件互信息量

  12. 2.2.1 互信息 离散随机事件xi和yj之间的互信息(x∈X ,y ∈Y)定义为: 简记为 通过计算可得

  13. 注: 1)互信息的单位与自信息单位相同; 2)x与y的互信息等于x的自信息减去在y条件 下x的自信息。 I(x;y)表示当 y发生后x不确定性的变化。这种变化,反映了由y发生所得到的关于x 的信息量。互信息是一种消除不确定性的度量。 3)应注意I(x;y)与 I(x|y)的区别。

  14. 2.2.2 互信息的性质 1)互易性:I (x;y) = I (y;x) 2)当事件x ,y 统计独立时,互信息为零,即 I (x;y) = 0; 3)互信息可正可负; 4)任何两事件之间的互信息不可能大于其中任一事 件的自信息。

  15. 证明:由定义明显看出性质1)成立,而且 • 当事件x,y 统计独立时,有p(x|y)= p(x),所以性质2)成立; • 因为,当p(x|y) > p(x)时,I(x;y) > 0; 当p(x|y) < p(x)时,I(x;y) < 0,所以性质3)成立; • 考虑自信息和条件自信息的非负性,可得性质4)。也可以说,一个事件提供的关于另一事件的信息量不超过后者的自信息。

  16. 例2.2.1 设e表示事件“降雨”,f表示事件“空中有乌云”,且 P(e)=0.125, P(e|f)=0.8, 求:1)事件“降雨”的自信息; 2)在“空中有乌云”条件下“降雨”的自信息 3)事件“无雨”的自信息; 4)在“空中有乌云”条件下“无雨”的自信息; 5)“降雨”与“空中有乌云”的互信息; 6)“无雨”与“空中有乌云”的互信息; 解: 设 p(e)表示事件“无雨”,则P( )=1-P(e); 1) I(e)= -log0.125 =3 bit ; 2) I(e|f)= -log0.8 =0.322 bit ; 3) I( )= -log0.875 =0.193 bit ; 4) I( /f)= -log0.2 =2.322 bit ; 5) I(e;f)= 3 – 0.322 =2.678 bit ; 6) I( ;f)= 0.193 – 2.322 = -2.129 bit 。

  17. 一般地说,如果某事件x提供了关于另一事件y正的信息量,说明x的出现有利于y的出现;如果某事件x提供了关于另一事件y负的信息量,说明x的出现不利于y的出现。

  18. 2.2.3 条件互信息量 设联合集XYZ,在给定z∈Z 条件下x(∈X) 与y(∈Y ) 之间的互信息定义为: 除条件外,条件互信息的含义与互信息的含义与性质都相同。

  19. §2.3 离散集的平均自信息量(熵) 本节包括以下内容 • 信息熵 • 熵函数的数学特性 • 条件熵 • 联合熵

  20. 2. 3. 1 信息熵 离散信源X的熵定义为自信息的平均值,记为H(X) 其中, I(x)为事件x的自信息, 表示对随机变量x用p(x)来进行取平均运算;熵的单位为比特(奈特)/信源符号。

  21. 信息熵H(X)从平均意义上表征信源的总体特性,其含义体现在如下几方面:信息熵H(X)从平均意义上表征信源的总体特性,其含义体现在如下几方面: 1) 在信源输出前,表示信源的平均不确定性; 2) 在信源输出后,表示一个信源符号所提供的 平均信息量; 3)表示信源随机性大小,H(X)大的,随机性 大; 4)当信源输出后,不确定性就解除,熵可看成为 解除信源不确定性所需信息量。

  22. 例2.3.1 一个信源X的符号集为{0,1},其中“0”符号出现的概率为p,求信源的熵。 解   H(X)= -p log p - (1-p) log (1-p) = H (p)。 例2.3.2  一电视屏幕的格点数为500ⅹ600=3ⅹ105,每点有10个灰度等级,若每幅画面等概率出现,求每幅画面平均所包含的信息量。 解 可能的画面数为: 10300000,所以每个画面出现的概率为p=(10300000)-1, 每幅画面平均所包含的信息量为: H(X)= log2(1/ p )= log2 (10300000) = 106比特/符号。

  23. §2.3.2 熵函数的数学特性 本节包括以下内容 • 凸函数 • 信息散度 • 熵的基本性质

  24. 凸函数 记H(X) = H(p) = H(p1,p2,…,pn) = -∑pi logpi,因∑pi=1, 所以 H(X)为n-1元函数。特别是,当n=2时,可记为 H(p) = H(p1,p2) = H(p1,1 - p1) = H(p1)。 凸函数的定义: • 多元函数f(x) = f(x1,x2,…,xn)称为为定义域上的上凸 (cap)函数,若对于α(0≤α≤1)及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≥αf(x1)+(1-α)f(x2) (2.4.1)成立。 当且仅当x1 = x2或α= 0 或1时等式成立,则称严格上凸函数。 • 多元函数f(x) = f(x1,x2,…,xn)称为为定义域上的下凸 (cup)函数,若对于α(0≤α≤1) 及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≤αf(x1)+(1-α)f(x2)(2.4.2) 成立。 当且仅当x1 = x2或α= 0 或1时等式成立,则称严格下凸函数。

  25. 一元上凸函数如图所示。图中可以看出,当α从0到1变化时,函数自变量从 x2变到 x1;αf(x1)+(1-α)f(x2)的值在点(x1,f(x1))和(x2,f(x2))之间的线段上变化。上凸的含义就是:在点x1和x2之间的区域,函数f的图线在上述线段的上方。 图2. 4. 1 上凸函数的图形说明

  26. 引理2.3.1 若f(x) 是定义在区间上的实值连续严格上凸函数,则对于任意一组x1,x2,…,xq和任意一组λ1,λ2,…,λq,∑λk=1, 那么 当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等式成立。 该式称做Jenson不等式。

  27. 证 利用数学归纳法。根据上凸函数的定义有 f[αx1+(1-α)x2]≥αf(x1)+(1-α)f(x2) 其中0<α<1 ,即q=2 时成立。 今假定 q=n 成立。现考虑 q=n+1 的情况 设 , 令 , 则 ,

  28. 当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等式成立。

  29. 特别地,当xk为离散信源符号的取值,λk 为相应的概率,f(x) 为对数函数时,有 对于一般的上凸函数,有 根据数学分析可知,对于一元函数,如果在某区间的二阶导数小于0,则在此区间内为严格上凸函数。因此,对于一元函数,可以利用Jenson不等式,也可利用二阶导数小于0的性质,来判定函数的上凸性。

  30. 另一个有用的不等式: 对于任意正实数x,下面不等式成立 实际上, 设 ,可求得函数 的稳定点为x=1,并可求得在该点的2阶导数小于0, 从而可得x=1为f(x)取极大值的点,即, 仅当x=1时等式成立。令y=1/x,可得 , 再将y换成x,就得到左边的不等式。

  31. 信息散度 若P和Q为定义在同一概率空间的两个概率测度,定义P相对于Q的散度为: 在其他文献中,散度又称做相对熵、鉴别信息、方向散度、交叉熵、Kullback_ Leibler数等。注意,在上式中,概率分布的维数不限,可以是一维,也可以是多维。

  32. 定理2.3.1 如果在一个共同的有限字母表的概率空间上给定的两个概率测度P(x)和Q(x),那么 当且仅当对所有x, P(x) = Q(x) 时,等式成立。 证 因为 , ,log(x)为严格上 凸函数,所以根据Jensen不等式有

  33. 当且仅当对所有x, P(x) = Q(x) 时,等式成立。该式称为散度不等式(divergence inequality )。 • 一个概率测度相对于另一个概率测度的散度是非负的,仅当两测度相等时,散度为零。

  34. 熵函数的数学特性 1.对称性 概率矢量p=(p1,p2,…,pn)中,各分量的次序任意改变,熵不变。即,熵仅与信源的总体特性有关,而与随机变量的取值无关。 2.非负性 H(p)=H(p1,p2,…,pn) ≥0 仅当对某个pi=1,等式成立。 因为自信息是非负的,熵为自信息的平均,所以也是非负的。不过,非负性仅对离散信源的熵有效。 3.扩展性 利用 可得到式(2.4.10)的结果。该式的含义就是,小概率事件对熵的影响很小,可以忽略。虽然小概率事件自信息大,但在计算熵时所占比重很小。

  35. 4.可加性 设两个随机变量集合X、Y与的它们的联合集XY的熵分别为H(X) ,H(Y) , H(XY),则 H(XY)= H(X) + H(Y|X ) 证 由定义可得

  36. 熵的可加性可以推广到多随机变量集合的情况。设N维随机变量集X1X2…XN,则有熵的可加性可以推广到多随机变量集合的情况。设N维随机变量集X1X2…XN,则有 H(X1X2…XN)= H(X1)+ H(X2|X1)+ … + H(XN | X1…XN-1) 熵的可加性含义:复合事件集合的不确定性为各个分事件集合的不确定性的和。

  37. 5.极值性 定理2. 3. 2 (离散最大熵定理) 对于离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值。 证 设随机变量集合有n个符号,概率分布为P(x) ;Q(x)为等概率分布,即Q(x)=1/n。根据散度不等式有 即 ,仅当P(x) 等概率分布时等号成立。

  38. 6.确定性 H(1,0) = H(1,0,0)= … = H(1,0,…0) = 0。 当随机变量集合中任一事件概率为1时,熵就为0。 7.上凸性 H(p)=H(p1,p2,…,pn) 是 (p1,p2,…,pn) 的 严格上凸函数。

  39. 2. 3. 3 条件熵 联合集XY上,条件自信息 I(y|x) 的平均值定义为条件熵: 其中, 为在x取某一特定值时, Y的熵。

  40. 2. 3. 4 联合熵 联合集XY上,对联合自信息I(xy) 的平均值称为联合熵:

  41. 2. 3. 5各类熵的关系 信息熵、条件熵和联合熵之间的关系: • 条件熵不大于信息熵 H(Y|X) ≤ H(Y) 证 仅当个X、Y 相互独立时,等式成立。上面利用了散度不等式。这就是熵的不增原理:在信息处理过程中,条件越多,熵越小。

  42. 联合熵不大于个信息熵的和 即 H(X1X2…XN) ≤ 仅当各Xi相互独立时,等式成立。 • 联合熵与信息熵、条件熵的关系 H(XY)= H(X) + H(Y|X )

  43. 随机变量X,Y的联合概率分布如表2.1所示,求联合熵H(XY)和条件熵H(Y|X)。 表2.1 X,Y的联合概率分布

  44. § 2.4 离散集的平均互信息量 本节包括以下内容 • 集合与事件之间的互信息 • 平均互信息 • 平均互信息与熵的关系 • 平均互信息的性质 • 平均条件互信息

  45. 2.4.1 集合与事件之间的互信息 定义集合X与事件y=bj之间的互信息为: 表示由事件y=bj提供的关于集合X的平均条件互信息 (注意:用条件概率平均)。 定理2.4.1 I(X;y)≧0, 仅当y与所有x 独立时,等式成立。 证 根据散度的定义,有 仅当对所有x,p(x)= p(x|y) 时,等式成立, 证毕。

  46. 2.4.2 平均互信息 集合X、Y之间的平均互信息定义为:

  47. H(XY) I(X;Y) H(X|Y) H(Y|X) H(X) H(Y) 2.4.3. 平均互信息与熵的关系 很容易证明下面的关系式: I(X;Y)=H(X)- H(X|Y) I(X;Y)=H(Y)- H(Y|X) I(X;Y)=H(X)+ H(Y)- H(X Y) 图中,H(X)、H(Y)分别为集合 X、Y的某种测度 ,H (XY) 为集合X、Y并的某种测度,I(X;Y)为集合X、Y交的某种测度,H(X|Y)为X∩ 的某种测度,H(Y|X)为Y∩ 的某种测度。

  48. 2.4.4 平均互信息的性质 1. 非负性 I(X;Y)≥0 仅当X,Y 独立时,等式成立。 证 根据定理I(X; y)≧0,其平均值也大于或等于0。 实际上 ,I(X; Y) = D(PXY //PX PY) ≧ 0, 其中,PXY为 XY的联合概率分布,PX PY为X和Y概率分布的乘积。 证毕。 2. 互易性(对称性) I(X;Y)=I(Y;X) 根据定义很容易得到。

  49. 3.凸函数性 • I(X;Y)为概率分布p(x)的上凸函数。 • 对于固定的概率分布p(x), I(X;Y) 为条件概率的下凸函数。

  50. 例2.4.1 二元信源X输出符号为 {0,1} , PX(0)=ω, 条件概率分别为 PY|X(0|0) = PY|X(1|1) =1-p, PY|X(0|1) = PY|X(1|0) = p, 求I(X;Y)。 解 将PY(0)、 PY(1)分别记为q(0)、q(1),则 得 所以

More Related