模式分类笔记 --信息熵

highsky

浏览: 269568 次
性别:
来自: 深圳

最近访客更多访客>>

songling

213yy

u010081690

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

模式分类

F#百度 Blog

信息论中的熵借鉴与物理学里的概念，物理学里熵来自于热力学第二定律，描述了功与热的转化，公式上是温度（不是温度变化值）除热量变化值所得的商，标志热量转化为功的程度，物质微观热运动时，混乱程度的标志。看得出来在封闭的系统中是一个熵是增加的。

熵是混乱和无序的度量。熵值越大，混乱无序的程度越大。生命是高度的有序，智慧是高度的有序，局部的有序是可能的，但必须以其他地方的更大无序为代价，生命和智慧算作负熵。更多详细的内容，百度百科上说的挺不错的。

信息论首先定义信息就是消除不确定性的东西，一系列的概念及所能表现的性质相当完备和一致，不得不佩服这些开创者的洞察力和跨域的综合能力。

任意随机事件的自信息量定义为该事件发生概率的对数的负值。设I(xi)=－log p(xi) 事件xi 的概率为p(xi)，对于离散符号集合，定义熵为

信息熵公式

首先，熵值是对应于一个系统或符号集合而言，并不是求对一个符号的熵，当所有的符号出现概率相同的时候，对应的熵值最大，因为我们对下一个将出现什么符号的不确定程度越大。

对于离散随机变量x和任意函数f，我们有H（f(x)）<=H（x），即对原始信号的任何处理都不能增加熵（也就是信息量）。另外，任意改变事件的标记，不会影响这组符号的熵，因为熵只与每个符号的出现概率有关，而与符号本身无关。

我们记P(f(x))为f(x)出现的概率，那么H（f(x)）= E[log1/p(f(x))], H(x) = E[log1/p(x)];

其中p（f(x)）>= p(x),f(x)的离散值数目<=x，所以H（f(x)） <= H(x).

而对于连续的随机变量的情况，上述不一定成立，因为f（x）后的积分值很可能会发生变化，所以最后的熵值往往是不同的，因为f(x)与x是一一对应的，如果因此而说f(x)和x具有不同的内在无序性是没有意义的，除非加入某些随机性后,比如函数映射时随机改变映射之间的位置。

实际应用中，相对熵和熵之间的差值对我们来说更加重要。

相对熵，用经常使用的比值来定义

相对熵公式，还有一个形式是E q(x)log q(x)/p(x).

那么交叉熵就是H(X, q) = H(X) + D(p||q) = - E p(x) log q(x), 其中X~p(x), q(X)用于近似p(x)的概率分布，它的概念用来衡量估值模型与真实概率分布间差异情况。

联合熵变形

这时候互传信息量为 I(X;Y) = H(X) - H(X|Y),展开式子又可得下式。

联合自信息量

可以认为它就是联合概率分布与各自概率乘积之间的相对熵，衡量的是x，y的分布于统计独立的差别程度。

注意上面的交叉熵和互传信息量都不服从全部度量性质，联合熵总是比单独的熵要大，显然不确定性越大。

-----------------------

后记一些关于熵的内容（Added at 2009-09-28）

热力学第二定律是一个经验公式，当前还没有观察到违反它的现象发生。熵的概念最早来自描述能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大，当然其过程来自于对热力学过程的研究。

虽然热力学第一定律描述能量守恒，但第二定律表明内能不如机械能，电能好用，它只能部分用于做功，表明能量的品质是在降级，这就是能量的耗散与退化。熵就被引入来描述能量耗散过程。

比较不均匀的状态是比较有序的状态，从微观的角度来讲，热传递过程也是从比较有序的状态变成比较无序的状态，例如，温度高的物体说明其分子运动比较剧烈，这是一种秩序，达到热平衡后两者温度一致，热运动没有区别了，变成无序。所以说熵是表征系统无序程度的物理量。

熵作为一个数学物理量，当然有正负之分，只不过在孤立系统中其总是大于等于0，特别是物理上。例如生命就可以说是靠负熵维持的。顺带附上一片有趣的日志，别人理解描述的深刻的多。

http://buguang.spaces.live.com/blog/cns!846EA6D78FBE7773!1330.entry

分享到：

随想 --关于工作 | 数据库的未来

2008-07-28 00:47
浏览 2012
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论