270 likes | 343 Views
怎么度量信息. 可否用消除不确定性的多少来度量信息!. 白箱. 黑箱. 灰箱. 信息 II. 信息 I. 不确定度 C. 不确定度 A. 不确定度 B. § 9.4 信息的度量与应用. 对于系统,可以利用守恒关系有 A+I=B ,得 I=B-A 。. 首先分析一下问题的认识过程. 1. 对一问题毫无了解,对它的认识是不确定的. 2. 通过各种途径获得信息,逐渐消除不确定性. 3. 对这一问题非常的了解,不确定性很小. 几个例子:.
E N D
怎么度量信息 可否用消除不确定性的多少来度量信息! 白箱 黑箱 灰箱 信息II 信息I 不确定度C 不确定度A 不确定度B § 9.4 信息的度量与应用 对于系统,可以利用守恒关系有 A+I=B,得I=B-A。 首先分析一下问题的认识过程 1.对一问题毫无了解,对它的认识是不确定的 2. 通过各种途径获得信息,逐渐消除不确定性 3. 对这一问题非常的了解,不确定性很小
几个例子: 例12当你要到大会堂去找某一个人时,甲告诉你两条消息:(1)此人不坐在前十排,(2)他也不坐在后十排;乙只告诉你一条消息:此人坐在第十五排。问谁提供的信息量大? 乙虽然只提供了一条消息,但这一条消息对此人在什么位置上这一不确定性消除得更多,所以后者包含的信息量应比前者提供的两条消息所包含的总信息量更大 例13假如在盛夏季节气象台突然预报“明天无雪”的消息。在明天是否下雪的问题上,根本不存在不确定性,所以这条消息包含的信息量为零。
是否存在信息量的度量公式 基于前面的观点,美国贝尔实验室的学者香农(Shannon)应用概率论知识和逻辑方法推导出了信息量的计算公式 In his words "I just wondered how things were put together." Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory".
上述公理怎样推出信息量的计算公式呢 Shannon提出的四条基本性质 (不妨称它们为公理 ) 公理1 信息量是该事件发生概率的连续函数 公理2 如果事件A发生必有事件B发生,则得知事件A发生的信息量大于或等于得知事件B发生的信息量。 公理3 如果事件A和事件B的发生是相互独立的,则获知 A、B事件将同时发生的信息量应为单独获知两事件发生的信息量之和。 公理4 任何信息的信息量均是有限的。 将某事件发生的信息记为M,该事件发生的概率记为p,记M的信息量为I(M)。
,又 有: ,g亦为连续函数。 定理11.2 满足公理1—公理4的信息量计算公式为I(M)=-Clogap,其中C是任意正常数,对数之底a可取任意为不为1的正实数。 证明: 由公理1 I(M)=f(p),函数f连续。 由公理2 若A发生必有B发生,则pA≤pB, 有f(pA)≥f(PB) ,故函数f是单调不增的。 由公理3 若A、B是两个独立事件,则A、B同时发生 的概率为pApB,有f(PAPB)=f(pA)+f(pB)。 先作变量替换 令p=a-q,即q=-logaP 记
记g(1)=C,容易求得g(2)=2C,g(3)=3C,…,一般地, 有g(n)=nC。进而 ,可得 。 于是对一切正有理数 m/n,g(m/n) =(m/n)C。 g(x+y)=g(x)+g(y)的连续函数有怎样的性质 现作逆变换q=-logap, 得I(M)=f(P)=-ClogaP(11.3) 证毕。 首先,由g(0)=g(0+0)=2g(0)得出g(0)=0或g(0)=∞。 但由公理4,后式不能成立,故必有g(0)=0。 由连续性可知:对一切非负实数x,有g(x)=Cx 当x取负实数时,由g(x)+g(-x)=g(0)=0,可得 出g(x)=―g(―x)=cx也成立,从而对一切实数x,g(x)=Cx, 故g(q)=Cq。
各种信息量单位 若取a=2,C=1,此时信息量单位称为比特 若取a=10,C=1,此时信息量单位称为迪吉特 若取a=e,C=1,此时信息量单位称为奈特
(i)“某人在第十排”包含的信息量为 (比特) (ii)“某人在第15座”包含的信息量为 (比特) (iii)“某人在第十排第15座”包含的信息量为 (比特) 例14设剧院有1280个座位,分为32排,每排40座。现欲从中找出某人,求以下信息的信息量。(i)某人在第十排;(ii)某人在第15座;(iii)某人在第十排第15座。 这一例子反映了对完全独立的几条信息,其总信息量等于各条信息的信息量之和。 对于相应不独立的信息,要计算在已获得某信息后其余信息的信息量时,需要用到条件概率公式,可以参阅信息论书籍。 解:在未知任何信息的情况下, 此人在各排的概率可以认为是相等的,他坐在各座号上的概率也可以认为是相等的,故 5bit+5.32bit=10.32bit
设某一实验可能有N种结果,它们出现的概率分别为p1,…,pN,则事先告诉你将出现第i种结果的信息,其信息量为-log2pi,而该实验的不确定性则可用这组信息的平均信息量(或熵)设某一实验可能有N种结果,它们出现的概率分别为p1,…,pN,则事先告诉你将出现第i种结果的信息,其信息量为-log2pi,而该实验的不确定性则可用这组信息的平均信息量(或熵) 来表示 平均信息量(熵)问题 例15投掷一枚骼子的结果有六种,即出现1—6点、出现每 种情况的概率均为1/6,故熵 H=log26≈2.585(比特)。 投掷一枚硬币的结果为正、反面两种,出现的概率均为1/2,故熵 H=log22=1(比特)。 向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出现的概率为1,故熵H=log21=0 从例子可以看出,熵实质上反映的是问题的“模糊度”,熵为零时问题是完全清楚的,熵越大则问题的模糊程度也越大
离散型概率分布的随机试验,熵的定义为 : (11.5) 熵具有哪些有趣的性质 连续型概率分布的随机试验,熵的定义为 : (11.6) 若实验仅有有限结果S1,…,Sn,其发生的概率分别为 P1,…,Pn,则当 时,此实验具有最大熵。 此定理既可化为条件极值问题证明之,也可以利用凸函数性质来证明,请大家自己去完成 定理11.3
定理9.4 若实验是连续型随机试验,其概率分布P(x)在[a,b]区间以外均为零,则当 P(x)平均分布时具有最大熵。 定理9.5 对于一般连续型随机试验,在方差一定的前提下,正态分布具有最大的熵。 定理9.6 最大熵原理,即受到相互独立且均匀而小的随机因素影响的系统,其状态的概率分布将使系统的熵最大。 上述结果并非某种巧合。根据概率论里的中心极限定理,若试验结果受到大量相互独立的随机因素的影响,且每一因素的影响均不突出时,试验结果服从正态分布。最大熵原理则说明,自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况下,系统将处于熵最大的均匀状态。
例16有12个外表相同的硬币,已知其中有一个是假的,可能轻些也可能重些。现要求用没有砝码的天平在最少次数中找出假币,问应当怎样称法。 解 假币可轻可重,每枚硬币都可能是假币。故此问题共有 24种情况,每种情况的概率为1/24。所以此问题的熵为log224。 确定最少次数的下界 实验最多可能出现三种结果 ,根据定理11.3,这种实验在可能出现的各种事件具有相等的概率时,所提供的平均信息量最大,故实验提供的平均信息量不超过log23。 设最少需称k次,则这k次实验提供的总信息量 不超过klog23=log23k,又问题的模糊度(熵)为log224 必要条件: log23k≥log224 ,得 k≥3。
称三次足够了吗? 情况1 两堆重量相等 假币在未秤的4枚中。任取其中的3枚加上从已秤过的8枚中任取的1枚,平分成两堆称。出现两种情况 情况1.1两堆重量相等 最后剩下的一枚是假币,再称一次知其比真币轻还是重。 情况1.2两堆重量不相等 设右重左轻,并设真币在左边, 若假币在右边,则比真币重,若在左边,则轻。取右边两个称 。 实验方法:使每次实验提供尽可能大的平均信息量。 第一次:将12枚硬币平分成三堆,取两堆称,出现两中情况
情况2.1两堆重量相等 取出的两枚中轻的为假币,再称一次即可找出假币。 情况2 两堆重量不相等 设右边较重 。先从左边取出两枚,再将右边的取两枚放到左边,将原来左边的两枚中取出一枚放于右边 情况2.2两堆重量不相等 若右边较重,则假币在右边原来的两枚及左边未动过的一枚中(若为前者,则假币偏重;若为后者,则假币偏轻),于是再称一次即可找出假币。若第二次称时左边较重,则假币必在交换位置的三枚中,可类似区分真伪 。 三次是最少次数!
英文的熵是多少呢? 例17在人类活动中,大量信息是通过文字或语言来表达的,而文学或语言则是一串符号的组合。据此,我们可以计算出每一语种里每一符号的平均信息量。例如,表11-2、表11-3、表11-4分别是英语、德语和俄语中每一符号(字母与空格,标点符号不计)在文章中出现的概率的统计结果(汉语因符号繁多,难以统计)
符号 i Pi 符号 i Pi 符号 Pi 符号 Pi 空格 E T O A N I 表11-2(英语) 0.2 0.105 0.072 0.0654 0.063 0.059 0.065 R S H D L C F 0.054 0.052 0.047 0.035 0.029 0.023 0.0225 U M P Y W G V 0.0225 0.021 0.0175 0.012 0.012 0.011 0.008 B K X J Q Z 0.005 0.003 0.002 0.001 0.001 0.001
符号 i Pi 符号 i Pi 符号 Pi 符号 Pi 空格 E N S I R A 表11-3(德语) 0.144 0.144 0.0865 0.0646 0.0628 0.0622 0.0594 D T U H L C G 0.0546 0.0536 0.0422 0.0361 0.0345 0.0255 0.0236 O M B W Z V F 0.0211 0.0172 0.0138 0.0113 0.0092 0.0079 0.0078 K P J J Q Y 0.0071 0.0067 0.0028 0.0008 0.0005 0.0000
符号 i Pi 符号 i Pi 符号 Pi 符号 Pi 空格 O E Ё A И T H C 表11-4(俄语) 0.175 0.090 0.072 0.062 0.062 0.053 0.053 0.045 P B Л К М Д П у 0.040 0.038 0.035 0.028 0.026 0.025 0.023 0.021 Я Ы э ъь Б Г Ч й 0.018 0.016 0.016 0.014 0.014 0.013 0.012 0.010 Х Ж Ю Щ Ц Ш Э Ф 0.009 0.007 0.006 0.006 0.004 0.003 0.003 0.002
以英文为例,可计算得: (比特/每符号) 对于有27个符号的信息源,可能达到的最大平均信息量为: (比特/每符号) 由此可计算出英语表达的多余度为: (即15%) 英文的多余度
事实上,英语在表达意思上的确存在着富余。例如Q后出现U的概率几乎是1,T后出现H的概率也很大,等等。这种多余是完全必要的,没有多余度的语言是死板的,没有文采的,它是存在语法的必要条件。但对于电报编码、计算机文字处理来讲,这种多余度的存在常常会造成浪费。有人在上述讨论的基础上研究了符号编码问题,使得每一符号的平均信息量达到十分接近Hmax的程度,但由于译电过于复杂,这种方法尚未实际应用。事实上,英语在表达意思上的确存在着富余。例如Q后出现U的概率几乎是1,T后出现H的概率也很大,等等。这种多余是完全必要的,没有多余度的语言是死板的,没有文采的,它是存在语法的必要条件。但对于电报编码、计算机文字处理来讲,这种多余度的存在常常会造成浪费。有人在上述讨论的基础上研究了符号编码问题,使得每一符号的平均信息量达到十分接近Hmax的程度,但由于译电过于复杂,这种方法尚未实际应用。
信息通道的容量问题 单位时间内信息通道能够传递的最大平均信息量称为此信息通道的容量 问题背景: 信息的传递是需要时间的。用n个符号S1、…、Sn来表达信息,各符号传递所需时间是各不相同的,设分别为t1、…、tn,并设各符号出现的概率分别为p1、…、pn。这样,就出现了两方面的问题。 一、pi是确定的,如何缩短传递确定信息所需的时间。 二、ti是确定的,如何使单位时间传递的平均信息量最大。
如何求信息通道的容量? 每一符号的平均信息量为: 每一符号所需的平均时间为: 故单位时间内传递的平均信息量应为:
(11.7) (11.8) (11.9) 问题化为: 利用拉格朗日乘子法,(11.7)式可化为无约束极值问题: 记(11.8)式的目标函数为f(p,λ),即求解方程组:
方程组(11.9)的解为: 由于 是与pi有关的量,方程组的解仍无法算出 为此,记 (11.10) 则 ,又 得方程 记 ,g(0+)=+∞,g(+∞)=0及g’(A)<0, 知(11.10)式有且仅有一个正根,此根容易用牛顿法求 出,进而求出最佳的 。
解: 求解方程 ,得唯一正根A=1.92。 由A的定义可以求出此信息通道容量 : (比特/单位时间) 而 例18为简单起见,设符号只有四种:S1、S2、S3和S4,在利用这些符号传递信息时,这些符号分别需要1、2、3、4单位传递时间,试求出此信息通道的容量及相应的最佳pi值。
货币是人们拥有财富的一种信息,它具有各种面值(相当于例11.18中的符号),各种面值的平均花费时间是不等的(相当于例18中的时间),于是,如何控制各种面值的比例以便使货币流通的容量最大显然是一个十分有意义的问题。日本东京工业大学的国泽清典教授基于上述方法计算了100日元与500日元信用券应保持的比例,并与市场实际调查作了对比,发现两者完全一致。市场多次调查结果均为100日元占75%,500日元占25%,而计算结果如下:以百元为单位,令t1=1,t2=5,求解方程 求得正根A≈1.327 信息通道容量为log2A≈0.408(比特/每单位)