信息论公式总结.doc_咨信网zixin.com.cn

资源描述

定义离散连续自信息（单位：比特/奈特）自信息 Ix=-logp(x) 联合自信息 Ixy=-logp(xy) 条件自信息 I(x|y)-logp(x|y) 互信息（单位：比特/奈特）互信息 Ix;y=logp(x|y)p(x)=logpxypxp(y) y给x提供的信息量 Ix;y=logpxypxp(y) 条件互信息 Ix;yz=logp(x|yz)p(x|z) 熵（单位：比特/信源符号）（单位：比特/扩展（N个）符号）（单位：比特/自由度）信息熵 H（X）=-xpxlog⁡p(x) 离散熵 hX=--∞+∞pxlogp(x)dx 差熵、微分熵 h0X=-lim∆x→0(log∆x)pxdx=-lim∆x→0(log∆x)→∞ 绝对熵 hX=-lim∆x→0ipxi∆xlogpxi=-pxlogp(x)dx HX=-ipxi∆xlogpxi∆x =-ipxi∆xlogpxi-ipxi∆xlog∆x 连续随机变量的离散化条件熵 HYX=-xyp(xy)logpyx=xpx-ypyxlogpyx(本质)=xpxH(Y|x) hXY=--∞+∞pxylogp(x|y)dxdy 联合熵 HXY=-xypxylog⁡p(xy) hXN=-pxlogpxdx XN=X1X2…XN, px是XN的联合概率密度熵率 H∞X=limN→∞1NHXN=limN→∞1NHX1X2…XN 单位：比特/符号 h∞X=limN→∞1NhXN=limN→∞1NhX1X2…XN 单位：比特/自由度平均互信息离散连续集合和事件之间 Ix;Y=ypyxlogp(y|x)p(y)（过渡） x给Y提供的信息量，与事件自信息顺序不同集合之间 IX;Y=xypxyI(x;y)=xypxylogp(x|y)p(x) Y给X提供信息量，与事件自信息顺序相同 -∞+∞p(xy)logpxypxp(y)dxdy 平均条件互信息 I(X;Y|Z) IX;YZ=xyzp(xyz)I(x;y|z) 性质离散连续等式关系自信息、条件自信息、联合自信息之间的关系 Ixy=Ix+Iyx=Iy+I(x|y) 互信息、条件自信息、自信息之间的关系 Ix;y=Ix-Ixy 平均互信息与熵的关系 I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) I(X;Y)=H(X)+ H(Y)-H(XY) 对比： Ix;y=Ix-Ixy Ix;y=Ix+Iy-Ixy 等式两边同时对xyp(xy)求和则为上式平均条件互信息和平均互信息的关系 I(X;Y|Z) =I(X;YZ)-I(X;Z) I(X;Z|Y)=I(X;YZ)-I(X;Y) I(X;YZ)=I(X;Y|Z)+I(X;Y) I(X;YZ)=I(X;Z|Y)+I(X;Z) Ix;yz=logpxyzpx=logpxyzpxzpxzp(x)=Ix;yz+I(x;z) 等式两边对xyzp(xyz)求和，得到性质熵的性质对称性非负性 Hp=H (p1,p2,…,pn)≥0 当且仅当某个pi=1时，取“=“ 差别： 1. 不具有非负性若整个积分区间概率密度值大于1，则差熵值小于0 2. 相对度量不是绝对度量 3. 一一对应变换条件下差熵可能发生变化 3．扩展性 4．（可加性）HX1X2…Xn= HX1+HX2|X1+…+HXn|X1…Xn-1 （熵的链式法则）可加性：hX1X2…Xn= hX1+hX2|X1+…+hXn|X1…Xn-1 5．（极值性）离散最大熵定理：有限离散随机变量集合，当集合事件等概率发生时，熵达到最大值(无限情况下不满足) 6．确定性任何一事件为1，熵为0 7．（上凸性）Hp=H (p1,p2,…,pn)是(p1,p2,…,pn)上的严格上凸函数。各类熵之间的不等关系：熵不增加原理：H(Y|X)≤H(Y) 证明：散度（单个事件不具有该性质）凡是事件不成立而平均成立的都要利用散度当且仅当X，Y互相独立时，取“=“ 含义：条件越多，熵越小熵的不增性： h(Y|X)≤h(Y) H(X1X2…XN)≤i=1NH(Xi) 证明：熵不增原理，所以取等条件一致当且仅当各Xi独立时，取“=” h(X1X2…XN)≤i=1Nh(Xi) 熵函数的唯一性尚不清楚互信息的性质互易性：I（x;y）=I(y;x) 2. X⊥Y时: I(x;y)=0 3.互信息可正可负（平均互信息非负） 4．任何两件事的互信息不大于任一事件自信息：（一件事情的自信息是任何其他事件所能提供关于该事件的最大信息量） Ix;y≤Ix,Iy;Iy;x≤Iy,I(x) 平均互信息的性质非负性I(X;Y)≥0 证明：散度（单个事件不具有该性质）凡是事件不成立而平均成立的都要利用散度 1．非负性I(X;Y)≥0 对称性I(X;Y)=I(Y;X) 2．对称性I(X;Y)=I(Y;X) 凸函数性 I(X;Y)是概率分布p(x)上的上凸函数是条件概率p(y\x)下的下凸函数极值性 I(X;Y)≤H(X),H(Y) 与事件互信息性质一致 Ix;y≤Ix,Iy;Iy;x≤Iy,I(x) .5．I(X;YZ)≥I(X;Z) , I(X;Y) 含义：事件越多，提供的互信息越大 6．（平均互信息的链式法则） IX1X2…Xn;Y=IX1;Y+IX2;Y|X1+…+IXn;Y|X1X2…Xn-1 平均条件互信息的性质非负性 I(X;Y|Z)≥0 证明：散度（单个事件不具有该性质）凡是事件不成立而平均成立的都要利用散度补充概念：凸函数：多元函数 f(x1,x2,…,xn),若对α（0≤α≤1），及任意矢量 x1,x2 有 fαx1+(1-α)x2≥αf(x1)+(1-α)f(x2) 则称为上凸函数，若当且仅当 x1=x2，或α=0或1时取“=”，则为严格上凸函数定理：若f(x)是定义在区间上的实值严格上凸函数，则对任意一组 x1,x2,…,xq（x可以为一维或多维）和任意一组λ1，λ2，…，λq， λk=1，那么 fk=1qλkxk≥k=1qλkf(xk) (Jason不等式) 当且仅当 x1=x2=…=xq，或λk=1(1≤k≤q)且λj=0(j≠k)，取“=“ 有用不等式: 1-1x≤lnx≤x-1 信息的散度： DP||Q=xPxlogPxQ(x) 定理：D(P||Q)≥0，当且仅当对所有x，P(x)=Q（x）时，取“=”。（证明：Jason不等式）连续随机变量集合的信息散度

展开阅读全文