资源描述
定义
离散
连续
自信息
(单位:比特/奈特)
自信息
Ix=-logp(x)
联合自信息
Ixy=-logp(xy)
条件自信息
I(x|y)-logp(x|y)
互信息
(单位:比特/奈特)
互信息
Ix;y=logp(x|y)p(x)=logpxypxp(y)
y给x提供的信息量
Ix;y=logpxypxp(y)
条件互信息
Ix;yz=logp(x|yz)p(x|z)
熵
(单位:比特/信源符号)
(单位:
比特/扩展(N个)符号)
(单位:比特/自由度)
信息熵
H(X)=-xpxlogp(x)
离散熵
hX=--∞+∞pxlogp(x)dx
差熵、微分熵
h0X=-lim∆x→0(log∆x)pxdx=-lim∆x→0(log∆x)→∞
绝对熵
hX=-lim∆x→0ipxi∆xlogpxi=-pxlogp(x)dx
HX=-ipxi∆xlogpxi∆x
=-ipxi∆xlogpxi-ipxi∆xlog∆x
连续随机变量的离散化
条件熵
HYX=-xyp(xy)logpyx=xpx-ypyxlogpyx(本质)=xpxH(Y|x)
hXY=--∞+∞pxylogp(x|y)dxdy
联合熵
HXY=-xypxylogp(xy)
hXN=-pxlogpxdx
XN=X1X2…XN, px是XN的联合概率密度
熵率
H∞X=limN→∞1NHXN=limN→∞1NHX1X2…XN
单位:比特/符号
h∞X=limN→∞1NhXN=limN→∞1NhX1X2…XN
单位:比特/自由度
平均互信息
离散
连续
集合和事件之间
Ix;Y=ypyxlogp(y|x)p(y)(过渡)
x给Y提供的信息量,与事件自信息顺序不同
集合之间
IX;Y=xypxyI(x;y)=xypxylogp(x|y)p(x)
Y给X提供信息量,与事件自信息顺序相同
-∞+∞p(xy)logpxypxp(y)dxdy
平均条件互信息
I(X;Y|Z)
IX;YZ=xyzp(xyz)I(x;y|z)
性质
离散
连续
等式关系
自信息、条件自信息、联合自信息之间的关系
Ixy=Ix+Iyx=Iy+I(x|y)
互信息、条件自信息、自信息之间的关系
Ix;y=Ix-Ixy
平均互信息与熵的关系
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
I(X;Y)=H(X)+ H(Y)-H(XY)
对比:
Ix;y=Ix-Ixy
Ix;y=Ix+Iy-Ixy
等式两边同时对xyp(xy)求和则为上式
平均条件互信息和平均互信息的关系
I(X;Y|Z) =I(X;YZ)-I(X;Z)
I(X;Z|Y)=I(X;YZ)-I(X;Y)
I(X;YZ)=I(X;Y|Z)+I(X;Y)
I(X;YZ)=I(X;Z|Y)+I(X;Z)
Ix;yz=logpxyzpx=logpxyzpxzpxzp(x)=Ix;yz+I(x;z)
等式两边对xyzp(xyz)求和,得到
性质
熵的性质
对称性
非负性 Hp=H (p1,p2,…,pn)≥0
当且仅当某个pi=1时,取“=“
差别:
1. 不具有非负性
若整个积分区间概率密度值大于1,则差熵值小于0
2. 相对度量不是绝对度量
3. 一 一对应变换条件下差熵可能发生变化
3.扩展性
4.(可加性)HX1X2…Xn=
HX1+HX2|X1+…+HXn|X1…Xn-1
(熵的链式法则)
可加性:hX1X2…Xn=
hX1+hX2|X1+…+hXn|X1…Xn-1
5.(极值性)离散最大熵定理:有限离散随机变量集合,当集合事件等概率发生时,熵达到最大值(无限情况下不满足)
6.确定性
任何一事件为1,熵为0
7.(上凸性)Hp=H (p1,p2,…,pn)是(p1,p2,…,pn)上的严格上凸函数。
各类熵之间的不等关系:
熵不增加原理:H(Y|X)≤H(Y)
证明:散度
(单个事件不具有该性质)
凡是事件不成立而平均成立的都要利用散度
当且仅当X,Y互相独立时,取“=“
含义:条件越多,熵越小
熵的不增性:
h(Y|X)≤h(Y)
H(X1X2…XN)≤i=1NH(Xi)
证明:熵不增原理,所以取等条件一致
当且仅当各Xi独立时,取“=”
h(X1X2…XN)≤i=1Nh(Xi)
熵函数的唯一性
尚不清楚
互信息的性质
互易性:I(x;y)=I(y;x)
2. X⊥Y时: I(x;y)=0
3.互信息可正可负(平均互信息非负)
4.任何两件事的互信息不大于任一事件自信息:(一件事情的自信息是任何其他事件所能提供关于该事件的最大信息量)
Ix;y≤Ix,Iy;Iy;x≤Iy,I(x)
平均互信息的性质
非负性I(X;Y)≥0
证明:散度
(单个事件不具有该性质)
凡是事件不成立而平均成立的都要利用散度
1.非负性I(X;Y)≥0
对称性I(X;Y)=I(Y;X)
2.对称性I(X;Y)=I(Y;X)
凸函数性
I(X;Y)是概率分布p(x)上的上凸函数
是条件概率p(y\x)下的下凸函数
极值性
I(X;Y)≤H(X),H(Y)
与事件互信息性质一致
Ix;y≤Ix,Iy;Iy;x≤Iy,I(x)
.5.I(X;YZ)≥I(X;Z) , I(X;Y)
含义:事件越多,提供的互信息越大
6.(平均互信息的链式法则)
IX1X2…Xn;Y=IX1;Y+IX2;Y|X1+…+IXn;Y|X1X2…Xn-1
平均条件互信息的性质
非负性
I(X;Y|Z)≥0
证明:散度
(单个事件不具有该性质)
凡是事件不成立而平均成立的都要利用散度
补充概念:
凸函数:
多元函数 f(x1,x2,…,xn),若对α(0≤α≤1),及任意矢量 x1,x2 有
fαx1+(1-α)x2≥αf(x1)+(1-α)f(x2)
则称为上凸函数,若当且仅当 x1=x2,或α=0或1时取“=”,则为严格上凸函数
定理:若f(x)是定义在区间上的实值严格上凸函数,则对任意一组 x1,x2,…,xq(x可以为一维或多维)和任意一组λ1,λ2,…,λq, λk=1,
那么
fk=1qλkxk≥k=1qλkf(xk) (Jason不等式)
当且仅当 x1=x2=…=xq,或λk=1(1≤k≤q)且λj=0(j≠k),取“=“
有用不等式: 1-1x≤lnx≤x-1
信息的散度:
DP||Q=xPxlogPxQ(x)
定理:D(P||Q)≥0,当且仅当对所有x,P(x)=Q(x)时,取“=”。(证明:Jason不等式)
连续随机变量集合的信息散度
展开阅读全文