熵熵减-爱华网

信息量和香农熵

一个变量取值的信息量可以看作是它带来的“使人惊讶的程度”，一个必然事件没有任何信息量，而一个极其偶然的事件的发生则会使人非常“惊讶”，因而包括大量信息。

自然地，信息量的概率就与变量的概率分布联系在了一起。香农熵（ShannonEntropy）成功表【】达了一个离散型变量所带来的平均信息量：

注意到，因此计算某个变量的香农熵时只考虑非零取值即可。另外，香农熵是非负的。

无噪声编码定理：香农熵是传递一个变量状态所需要的比特数的下界。也就是说，在期望意义下，对一个变量的取值进行编码所需要的最小的比特数即为香农熵。一般情况下，香农熵对数的底取2。

对于一个概率分布，当概率集中于较少的某几个取值时（绝大多数情况下变量会取少数的几个值之一），香农熵的值会较低，相反地，如果概率在各种取值上比较平均（几乎无法判断变量会取哪个值），那么香农熵会较高。使用拉格朗日乘子法（约束概率分布的归一化）计算香农熵的最大值，可知当概率分布是均匀分布时，香农熵可取到最大值，其中M为变量的状态总数（所有可能取值的个数）。因此，香农熵也可以看作是一个变量不确定度的度量。

物理上关于香农熵的解释：mulitplicity, microstate, macrostate, weight

连续型变量的微分熵

对于一个连续型变量，无法直接使用上面香农熵的定义。可以近似地对连续型变量的取值进行离散化，将整个取值范围划分成宽度为的小区域。均值定值告诉我们，在每个小区域内总存在一个值，使得以下等式成立

因此，我们可以把每个落入第i个小区域的的点赋予。这样，我们就可以套用离散型变量的香农熵公式

而当趋近于0时，上式最右侧第二项趋近于0，而第一个项则趋近的表达式称为微分熵(differentialentropy)：

仍然使用拉格朗日乘子法，约束均值和方差，以及概率分布的归一化，可知在均值和方差一定的情况下，使微分熵最大的概率分布为正态分布。而正态分布的微分熵表达式为

由以上的表达式可知，香农熵随着方差而增大。同时，我们也可以看出，与离散型变量的香农熵不同，微分熵可以是负的。

条件熵(conditional entropy)

相对熵(relative entropy)

依然从编码角度来考虑，若一个变量的真实分布为，而我们实际上使用了来对这个变量进行编码，那么由此而使用了的多余的比特数定义为相对熵或者KL距离（Kullback-Leiblerdivergence）。

注意到，虽然名为距离，但是KL距离（相对熵）没有对称性。另外，相对熵是非负的，当且仅当时相对熵取零。其证明用到了以下内容：

凸函数定义为。等价地，函数的二阶导数各处均非负。如果仅当时等号成立，那个这个函数称为严格凸函数。凸函数的相反数为凹函数。香农熵为凹函数。

简森不等式（Jensen's inequality）

，其中,为凸函数

如果，那么有

于是，可证相对熵的非负性

其中严格凸函数，因而当且仅当时取等号。

相对熵与似然函数的关系

假设未知真实分布为，我们希望使用一个参数模型结合N个观测数据来确定一个最优的来模拟真实分布。一种自然的方法是使用KL距离做为误差函数，以最小化和的KL距离为标准来确定最优的参数值。

将上面的误差函数相对于参数求导，可知：最小化KL距离等价于最大化似然函数。

互信息(mutual information)

互信息描述了两个变量之间互相包含关于对方的信息量。定义为两个分布和之间的KL距离

根据相对熵的非负性可知，互信息是非负的，当仅且当两个变量相互独立时互信息为零。

由此可知，互信息可以看作，当已知一个变量的情况下，另一个变量不确定性降低的程度。

怎么理解熵

爱华网本文地址 » http://www.413yy.cn/a/25101015/266845.html

熵熵减

信息量和香农熵

连续型变量的微分熵

条件熵(conditional entropy)

相对熵(relative entropy)

相对熵与似然函数的关系

互信息(mutual information)

更多阅读

转笞刑探幽打板子贴图溯源探幽熵的世界

二维最大熵阈值分割图像区域分割

(转)熵编码——哈夫曼编码二进制哈夫曼编码

基于MATLAB的图像阈值分割算法的研究最大熵阈值分割算法

08年次贷危机从熵的内涵理解次贷危机

声明:《熵熵减》为网友唯爱衬衣少年分享！如侵犯到您的合法权益请联系我们删除

信息量和香农熵

连续型变量的微分熵

条件熵(conditional entropy)

相对熵(relative entropy)

相对熵与似然函数的关系

互信息(mutual information)

更多阅读

转 笞刑探幽 打板子贴图 溯源探幽 熵的世界

二维最大熵阈值分割 图像区域分割

(转)熵编码——哈夫曼编码 二进制哈夫曼编码

基于MATLAB的图像阈值分割算法的研究 最大熵阈值分割算法

08年次贷危机 从熵的内涵理解次贷危机

声明:《熵 熵减》为网友唯爱衬衣少年分享！如侵犯到您的合法权益请联系我们删除

转笞刑探幽打板子贴图溯源探幽熵的世界

二维最大熵阈值分割图像区域分割

(转)熵编码——哈夫曼编码二进制哈夫曼编码

基于MATLAB的图像阈值分割算法的研究最大熵阈值分割算法

08年次贷危机从熵的内涵理解次贷危机

声明:《熵熵减》为网友唯爱衬衣少年分享！如侵犯到您的合法权益请联系我们删除