用来描述信息量的多少,随机变量不确定性的度量(metric),给定一个随机变量\(X,p(x)=Pr\{X=x\},x\in\omega\)
\[ H(X)= -\sum_{x\in\omega}{p(x)log_2p(x)} \]
衡量一对随机变量所包含的信息量,两个随机变量联合不确定性的度量,联合熵描述了随机变量的相关性,越小越相关\((X,Y)\)及联合分布\(p(x,y)\)
\[
H(X,Y) = -\sum_{x\in X}\sum_{y\in Y}{p(x,y)log_2p(x,y)}
\]
已知\(Y\)随机变量的前提下,随机变量\(X\)提供的信息量,依据\(p(x|y)=p(x,y)/p(y)\)
\[
\begin{aligned}
H(X|Y) &= -\sum_{x\in X}\sum_{y\in Y}{p(x,y)log_2p(x|y)}\&=-\sum_{x\in X}\sum_{y\in Y}{p(x,y)log_2p[(x,y)/p(y)]}\&=H(X,Y)-H(Y)
\end{aligned}
\]
对于联合分布和边缘分布,把\(X\)或\(Y\)的熵称作边缘熵,于是有
\[
H(Y|X)=H(X,Y)-H(X)\H(X,Y) = H(Y|X)+H(X)=H(X|Y)+H(Y)
\]
将香农熵定义中的概率分布换成累计概率分布
\[
\epsilon(X)=-\sum_{X\in X}P(X>x)logP(X>x)
\]
瑞利熵时香浓熵的一种推广形式,又称作\(\alpha\)熵
\[
R_\alpha(X)=\frac{1}{1-\alpha}log\sum_{x\in X}p(x)^\alpha \quad (\alpha>0,\alpha\not ={1})
\]
当\(\alpha \to 1\),求得瑞利熵的极限为香农熵,求极限也很简单,利用洛必达法则即可求得即可
互信息衡量随随机变量\(X,Y\)之间的依赖程度,用来测量联合概率分布和二者完全独立时的分布之间的距离,使用KL散度(或称为相对熵)来定义
\[
MI(X,Y)=\sum_x\sum_y{p(x,y)=log\frac{p(x,y)}{p(x)\cdot p(y)}}
\]
互信息、联合熵、边缘熵、条件熵之间有紧密的关系
\[
\begin{aligned}
MI(x,y) &= H(X)+H(Y)-H(X,Y)\ &=H(X)-H(X|Y)\ &=H(Y)-H(Y|X)
\end{aligned}
\]
互信息表示\(X\)中包含\(Y\)的信息的多少,也是对称的\(Y\)中包含\(X\)的多少。若\(X,Y\)独立则\(I(X,Y)=0\),若一一相关,则\(I(X,Y)=H(X)=H(Y)\)
为了解决互信息对图像部分重叠区域的敏感性,提出了NMI
\[
NMI(X,Y)=\frac{H(X)+H(Y)}{H(X,Y)}
\]
可以看作另一种归一化互信息
\[
\begin{aligned}
ECC(X,Y) &=\frac{2I(X,Y)}{H(X)+H(Y)}\ &=2-\frac{2}{NMI}
\end{aligned}
\]
和互信息类似,只不过这里的熵换成了累计剩余熵
\[
CCRE(X,Y)=\epsilon(X)-E[\epsilon(Y|X)]
\]
根据\(\alpha\)熵得出\(\alpha\)熵
\[
D_\alpha(X,Y)=\frac{1}{\alpha -1}log\sum_{x\in X}\sum_{y\in Y}p(x,y)^\alpha(p(x)p(y))^{1-\alpha}
\]
相对熵也称作为KL散度,可以衡量两个分布之间的差异,\(p,q\)是\(X\)上的两个分布
\[
D_{KL}(p||q)=\sum{p(x)log\frac{p(x)}{q(x)}}
\]
是KL散度的一部分
\[
H(p,q)= \sum_{x\in X}p(x)log(q(x))
\]
因为KL散度不对称,所以提出了JS散度
\[
JS(p||q)=\frac{1}{2}D_{KL}(p||\frac{p+q}{2})+\frac{1}{2}D_{KL}(q||\frac{p+q}{2})
\]
\[ JR_\alpha^\omega(X,Y)=R_\alpha(Y)-\sum_{x\in X}p(x)R_\alpha(Y|x) \]
原文:https://www.cnblogs.com/WAoyu/p/11913581.html