随机变量模型的确定.doc_咨信网zixin.com.cn

资源描述

第十一章随机变量模型的确定 11.1 随机变量模型的确定三种情形：①. 随机变量分布的类型已知, 需要由观测数据确定该分布的参数 ②. 由观测数据确定随机变量概率分布类型, 并在此基础上确定其参数 ③. 由已有的观测数据难以确定该随机变量的理论分布形式, 则定义一个实验分布图11.1 均匀分布U(a, b) 的密度函数 f(x) 1/ (b-a) 0 a b x 1 分布参数的确定 u 分布参数的类型 (1) 位置参数(记为) 确定分布函数取值范围的横坐标。当改变时, 相应的分布函数仅仅向左或向右移动而不发生其它变化, 因而又称为位移参数。例如, 均匀分布函数U(a,,b), 其密度函数为: 图11.2 指数分布EXPO() 的密度函数 0 0.5 1.0 x f(x) 2.0 1.0 0.5 =0.5 =1.0 =2.0 其中参数定义为位置参数, 当改变时(保持不变), 向左或向右移动。 (2) 比例参数(记为)：决定分布函数在其取值范围内取值的比例尺。的改变只压缩或扩张分布函数, 而不会改变其基本形状。例如, 指数分布函数EXPO(), 其密度函数为: (3) 形状参数(记为α)：确定分布函数的形状, 从而改变分布函数的性质, 例如, 韦伯分布Weibull(), 其密度函数为: 图11.3 韦伯分布Wilbull() 的密度函数 0 0.5 1.0 1.5 2.0 2.5 x f(x) 1.5 1.0 0.5 =3 =2 =1 当改变时, 其形状发生很大的变化。随机变量, 如果存在一个实数, 使与具有相同的分布, 则称与仅仅是位置上不同变量; 如果对于某个正实数, 使得与具有相同的分布, 则称与仅仅是比例尺不同的随机变量; 如果与具有相同的分布, 则称与仅在位置与比例上不同。 2. 分布参数的估计最大似然估计: 设参数, 观测数据为在离散分布情形, 可令为该分布的概率质量函数, 定义似然函数为: 则是联合质量函数, 的最大似然估计值是使取最大值的, 即对于所有可能的值, 。在连续分布情形, 令为该分布的概率密度函数, 其似然函数定义为: 例：指数分布, 被估计的参数, 其分布密度函数为由为求使取最大值的, 先对取自然对数: 由于是严格递增的, 取最大值等价于取最大值, 为此, 对求极值: 可得又由当时, 由于为正, 可见, 因而为最大值, 从而得到参数的最大似然估计值为 11.2 分布类型的假设由观测数据来确定随机变量的分布类型----对观测数据进行适当的预处理, 然后根据预处理的结果对分布类型进行假设。 1. 连续分布类型的假设预处理方法有三种, 即点统计法、直方图法及概率图法。 (1) 点统计法：基于连续分布的变异系数特征来进行分布类型的假设。变异系数的定义是: 其中Var与E分别为分布的方差与均值。点统计法对观测数据进行如下预处理: 则的似然估计为: 然后根据值并参照各类分布的变异数据来假设观测数据的分布类型------粗 (2) 直方图法将观测数据的取值范围分成个断开的相邻区间, , 每个区间宽度相等, 记为。对任意,设为第个区间上观测点的个数, 记定义函数 0 1.0 2.0 0.20 0.15 0.10 0.05 做出的直方图, 再将该图与基本理论分布的密度函数图形进行比较(先忽略位置及比例尺的差别), 观察何种分布与的图形类似, 则可假设观测数据服从该类型分布，然后再采用前面介绍的方法确定其参数。在实际使用时, 可能需要增加一些其值特别大或特别小的观测数据，以便与理论分布进行比较。使用直方图法的困难在于如何确定区间长度。太大, 将丢失信息, 太小, 则观测数据中的噪声滤除得不够(一般观测数据中总是存在一定的噪声)。 (3) 概率图法直方图法：将观测数据的直方图与理论分布的密度函数进行比较概率图法：将观测数据定义成一个实验分布函数, 然后将它与理论分布函数进行比较后再进行假设设观测数据共有个取值(, 因为可能存在取值相同的观测点), 分别记为(1), (2), …, , 实验分布函定义为: 其中表示小于或等于的观测数据的个数, 且。为了避免由有限个观测数据得到的实验分布函数值等于1, 对上式可略加修正, 可采用下式来定义: 概率图法采用所谓“分位点”比较法: 定义：分布函数的分位点为：设, 则称为的分位点。如果与都是分布函数, 分别取不同的值, 相应得到不同的(), 若与是相同的分布函数, 则由()形成的轨迹是斜率为45°的直线。反过来说，如果由两个分布函数与按相同的一组值求得各自的分位点, 在平面上确定的轨迹, 若该轨迹是一条斜率为45°的直线, 则可以确认与的分布是相同的。为了假设的分布类型, 可取的分位点为, 分别对应的值为, 然后从基本理论分布中选择一种, 按分别求得其分位点, 然后在平面上画出的轨迹, 观察是否是斜率为45°的直线, 若比较接近, 则可假设观测数据的分布类型与所选分布的类型相同。有时, 的轨迹虽然呈直线形状, 但斜率却不是45°, 这说明这两个分布的类型是相同的, 只是位置参数和(或)比例参数不同, 那么可对进行如下下变换: 得到的的轨迹必然是斜率为45°的直线。这就说明, 只要分位点的轨迹接近直线, 不管其斜率如何, 观测数据的分布与所选分布的类型是相同的。概率图法只需要判断分位点轨迹偏离线性度的程度, 不会对观测数据造成信息丢失。 3 实验分布------难以由观测数据确定一个理论分布原始观测数据为单个数据：,先将该个数据按递增顺序排列。由于可能有相同值的数据, 经排序后得到(1), (2), …, , （），该观测数据的实验分布可由下式来定义: 观测数据是分组数据：即不知道观测数据的数值, 而仅知道该个数据分布在个相邻区间, , …, 上及每个区间上数据的个数。记第个区间上的个数为, 则, 实验分布函数的表达式为: 11.3 拟合优良度检验由观测数据假设了其分布的类型并估计出其参数以后, 一般需要检验该分布与这些观测数据吻合的程度, 即进行拟合优良度检验。 1 检验将该拟合分布的取值范围分为个相等子区间, , …, , 其中可能, 或/ , 然后计算: ，其中是拟合的分布密度函数。对离散情形, ，其中是拟合分布的质量函数。检验的步骤可概括如下: (1) 分别计算每个区间上观测数据的个数, 记 (2) 计算按拟合分布得到的期望个数, 即 (3) 计算检验的统计值： (4) 结果判断首先要规定检验水平, 如果拟合分布中有个参数是从观测数据按最大似然估计得到的, 则可以证明, 当时, 进行检验时, 区间的确定将影响检验的效能。为了使检验无偏, 要求按基本相等来确定区间, 即所选区间 , 使。另外, 根据经验, 区间的个数宜在30~40以下, 并能使, 以提高检验的有效性。在离散分布的情形下, 不可能保证完全相等, 但应使的值尽可能接近。 2 柯尔莫哥洛夫-斯米尔洛夫(K-S检验) 检验的困难：按相等来确定时要对进行逆运算, 而在某些情况下, 求的逆运算比较困难, 或者无封闭形式无法求的逆运算; 当较小时, 的值较大, 从而得到的区间过大, 结果造成观测数据的信息丢失。 K-S检验：将拟合的分布函数与由观测数据定义的实验分布函数进行比较。设观测数据为, 观测数据的实验分布函数采用如下定义: (对所有) 这样, 是右连续的阶跃函数。 K-S检验规则：根据与的接近程度来决定是否拒绝原假设。评价接近程度的指标是采用与之间的最大距离：若超过规定的常数(其中是要求的检验水平)，则拒绝, 否则不拒绝。问题：对于不同的分布, 的值是不同的; 即使是同一分布, 不同的下也不相同, 而且尚无通用的表可查。 1. 指数分布EXPO：若成立, 则拒绝, 其中的值为; 0.150 0.100 0.050 0.25 0.10 0.926 0.990 1.094 1.190 1.308 2. 正态分布若成立, 则拒绝, 其中的值为: 0.150 0.100 0.050 0.25 0.10 0.775 0.819 0.895 0.955 1.035 习题（1）利用K-S检验法检验下列样本是否符合均值为0.0、方差为2.5的正态分布。检验水平为=0.05。 1.549422 2.444344 -1.356287 -1.158468 1.986288 -1.317650 1.203433 -2.405187 -0.983101 -0.942457 2.627202 2.295194 0.253501 0.256372 -1.221426 -2.819277 2.729291 1.374238 -0.028606 0.940219 -1.100076 -2.032944 -1.105679 1.694956 0.019935 （2）若有一批样本数为50的三极管，其放大倍数β值分别为： 34.7 56.2 38.4 54.1 57.4 51.7 60.6 67.7 78.1 38.2 49.2 42.8 45.2 53.4 80.4 97.4 84.5 65.3 66.4 73.4 61.1 68.4 69.4 81.3 74.4 36.3 47.2 52.4 69.2 89.7 76.6 67.3 66.2 59.8 59.2 63.2 38.4 44.6 70.1 28.1 52.3 44.5 46.4 64.4 66.4 54.2 78.8 62.0 32.4 48.5 设β为随机变量X，X的取值范围为（0，100），试计算其均值和方差，且用直方图法确定该随机变量的分布类型，并对其进行=0.10水平的检验。 15

展开阅读全文