资源描述
附2 随机向量2.1 2.1 一元分布2.2 2.2 多元分布2.3 2.3 数字特征2.4 2.4 欧氏距离和马氏距离2.5 2.5 随机向量的变换2.6 2.6 特征函数(不讲)2.2 多元分布一、多元概率分布二、多元概率密度函数三、边缘分布四、条件分布五、独立性一、多元概率分布随机向量:元素为随机变量的向量。随机矩阵:元素为随机变量的矩阵。随机变量X的分布函数:随机向量 的分布函数:二、多元概率密度函数一元的情形:多元的情形:多元概率密度函数f(x1,xp):三、边缘分布 设X是p维随机向量,由它的q(0。(2)设A为常数矩阵,b为常数向量,则 当p=1时,上述等式就是我们熟知的如下等式:(3)设A和B为常数矩阵,则例2 的各分量间存在线性关系(依概率1 1)。协差阵的性质(4)设 为常数矩阵,则推论 证明协差阵的性质(5)设k1,k2,kn是n个常数,X1,X2,Xn是n个相互独立的p维随机向量,则 证明由独立性可得,协差阵的性质例3 设随机向量 的数学期望和协方差矩阵分别为令y1=2x1x2+4x3,y2=x2x3,y3=x1+3x22x3,试求y=(y1,y2,y3)的数学期望和协方差矩阵。三、相关矩阵随机变量X和Y的相关系数定义为:的相关阵定义为:若(X,Y)=0,则表明X和Y不相关。X=Y时的相关阵(X,X)称为X的相关阵,记作R=(ij),这里ij=(Xi,Xj),ii=1。即 R=(ij)和=(ij)之间有关系式:R=D1D1 其中 。R和的相应元素之间的关系式为:前述关系式即为:标准化变换在数据处理时,常常因各变量的单位不完全相同而需要对每个变量作标准化变换,最常用的标准化变换是令记 ,于是即标准化后的协差阵正好是原始向量的相关阵。可见,相关阵R也是一个非负定阵。2.4 欧氏距离和马氏距离一、欧氏距离二、马氏距离一、欧氏距离 之间的欧氏距离为:平方欧氏距离为:到总体的平方欧氏距离定义为:平均大小等于一、欧氏距离不适合直接使用欧氏距离的例子下面是各国家和地区男子径赛记录的数据(19841984年):国家和地区100米(秒)200米(秒)400米(秒)800米(分)1500米(分)5000米(分)10000米(分)马拉松(分)阿根廷10.3920.8146.841.813.714.0429.36137.72澳大利亚10.3120.0644.841.743.5713.2827.66128.3奥地利10.4420.8146.821.793.613.2627.72135.9比利时10.3420.6845.041.733.613.2227.45129.95百慕大10.2820.5845.911.83.7514.6830.55146.62巴西10.2220.4345.211.733.6613.6228.62133.13缅甸10.6421.5248.31.83.8514.4530.28139.95加拿大10.1720.2245.681.763.6313.5528.09130.15智利10.3420.846.21.793.7113.6129.3134.03中国10.5121.0447.31.813.7313.929.13133.53哥伦比亚10.4321.0546.11.823.7413.4927.88131.35一、欧氏距离 向量的各分量如果单位不全相同,则上述欧氏距离一般就没有意义。即使单位全相同,但如果各分量的变异性差异很大,则变异性大的分量在欧氏距离的平方和中起着决定性的作用,而变异性小的分量却几乎不起什么作用。在实际应用中,为了消除单位的影响和均等地对待每一分量,我们常须先对各分量作标准化变换,然后再计算欧氏距离。令 ,则 由于 ,故平方和 中各项的平均取值均为1 1,从而各分量所起的平均作用都一样。欧氏距离经变量的标准化之后能够消除各变量的单位或方差差异的影响,但不能消除变量之间相关性的影响,以致有时用欧氏距离显得不太合适。为此,我们引入一个由印度著名统计学家马哈拉诺比斯(MahalanobisMahalanobis,19361936年)提出的“马氏距离”的概念。一、欧氏距离二、马氏距离 之间的平方马氏距离定义为:到总体的平方马氏距离定义为:比例单位变换如X的分量是长度、重量、速度、费用和用时等,则变量的单位变换可表达为:其中 。带有常数项的单位变换例子 摄氏温度与华氏温度的换算公式:F(C95)32,C(F32)59 式中F华氏温度,C摄氏温度。特点1.马氏距离不受变量单位的影响,是一个无单位的数值。证明 X1,X2经单位变换后为Y1,Y2,即有特点2.马氏距离是X和Y经“标准化”之后的欧氏距离,即其中 ,它们的均值皆为0,协差阵皆为单位阵I。特点3.若 ,则即当各分量不相关时马氏距离即为各分量经标准化后的欧氏距离。1.马氏距离的计算是建立在总体样本的基础上的,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同。2.在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。3.协方差矩阵的逆矩阵不存在,比如三个样本点(3,4),(5,6)和(7,8)这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。4.在实际应用中,绝大多数情况下马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。马氏距离的优缺点优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。2.5 随机向量的变换设在区间I 以外恒为0(I 有限或无限);在区间I 上的值域为在区间I 上单调可导;其反函数记为则的密度为:2.5 随机向量的变换将上述结果推广到随机向量,则2.5 随机向量的变换例4 设y=Ax+b,其中A为p阶常数矩阵,b为p维常数向量,则EXERCISES2.24;2.25;2.302.24;2.25;2.30;2.402.40;2.412.41试证:马氏距离对下列形式的试证:马氏距离对下列形式的p p维向量维向量x x单位的改变具单位的改变具有不变性:有不变性:y=Cx+by=Cx+b其中其中C C为为p p p p阶的非退化常数矩阵,阶的非退化常数矩阵,b b为为p p维常数向量。维常数向量。
展开阅读全文