资源描述
第十一章 随机变量模型的确定
11.1 随机变量模型的确定
三种情形:①. 随机变量分布的类型已知, 需要由观测数据确定该分布的参数
②. 由观测数据确定随机变量概率分布类型, 并在此基础上确定其参数
③. 由已有的观测数据难以确定该随机变量的理论分布形式, 则定义一个实验分布
图11.1 均匀分布U(a, b)
的密度函数
f(x)
1/ (b-a)
0 a b x
1 分布参数的确定
u 分布参数的类型
(1) 位置参数(记为)
确定分布函数取值范围的横坐标。当改变时, 相应的分布函数仅仅向左或向右移动而不发生其它变化, 因而又称为位移参数。
例如, 均匀分布函数U(a,,b), 其密度函数为:
图11.2 指数分布EXPO()
的密度函数
0 0.5 1.0 x
f(x)
2.0
1.0
0.5
=0.5
=1.0
=2.0
其中参数定义为位置参数, 当改变时(保持不变), 向左或向右移动。
(2) 比例参数(记为): 决定分布函数在其取值范围内取值的比例尺。
的改变只压缩或扩张分布函数, 而不会改变其基本形状。
例如, 指数分布函数EXPO(), 其密度函数为:
(3) 形状参数(记为α):确定分布函数的形状, 从而改变分布函数的性质,
例如, 韦伯分布Weibull(), 其密度函数为:
图11.3 韦伯分布Wilbull()
的密度函数
0 0.5 1.0 1.5 2.0 2.5 x
f(x)
1.5
1.0
0.5
=3
=2
=1
当改变时, 其形状发生很大的变化。
随机变量, 如果存在一个实数, 使与具有相同的分布, 则称与仅仅是位置上不同变量; 如果对于某个正实数, 使得与具有相同的分布, 则称与仅仅是比例尺不同的随机变量; 如果与具有相同的分布, 则称与仅在位置与比例上不同。
2. 分布参数的估计
最大似然估计: 设参数, 观测数据为
在离散分布情形, 可令为该分布的概率质量函数, 定义似然函数为:
则是联合质量函数, 的最大似然估计值是使取最大值的, 即对于所有可能的值, 。
在连续分布情形, 令为该分布的概率密度函数, 其似然函数定义为:
例:指数分布, 被估计的参数, 其分布密度函数为
由
为求使取最大值的, 先对取自然对数:
由于是严格递增的, 取最大值等价于取最大值, 为此, 对求极值:
可得
又由
当时, 由于为正, 可见, 因而为最大值, 从而得到参数的最大似然估计值为
11.2 分布类型的假设
由观测数据来确定随机变量的分布类型----对观测数据进行适当的预处理, 然后根据预处理的结果对分布类型进行假设。
1. 连续分布类型的假设
预处理方法有三种, 即点统计法、直方图法及概率图法。
(1) 点统计法: 基于连续分布的变异系数特征来进行分布类型的假设。变异系数的定义是:
其中Var与E分别为分布的方差与均值。
点统计法对观测数据进行如下预处理:
则的似然估计为:
然后根据值并参照各类分布的变异数据来假设观测数据的分布类型------粗
(2) 直方图法
将观测数据的取值范围分成个断开的相邻区间, , 每个区间宽度相等, 记为 。
对任意,设为第个区间上观测点的个数, 记
定义函数
0 1.0 2.0
0.20
0.15
0.10
0.05
做出的直方图, 再将该图与基本理论分布的密度函数图形进行比较(先忽略位置及比例尺的差别), 观察何种分布与的图形类似, 则可假设观测数据服从该类型分布,然后再采用前面介绍的方法确定其参数。
在实际使用时, 可能需要增加一些其值特别大或特别小的观测数据,以便与理论分布进行比较。
使用直方图法的困难在于如何确定区间长度。太大, 将丢失信息, 太小, 则观测数据中的噪声滤除得不够(一般观测数据中总是存在一定的噪声)。
(3) 概率图法
直方图法:将观测数据的直方图与理论分布的密度函数进行比较
概率图法:将观测数据定义成一个实验分布函数, 然后将它与理论分布函数进行比较后再进行假设
设观测数据共有个取值(, 因为可能存在取值相同的观测点), 分别记为(1), (2), …, , 实验分布函定义为:
其中表示小于或等于的观测数据的个数, 且。
为了避免由有限个观测数据得到的实验分布函数值等于1, 对上式可略加修正, 可采用下式来定义:
概率图法采用所谓“分位点”比较法:
定义:分布函数的分位点为: 设, 则称为的分位点。
如果与都是分布函数, 分别取不同的值, 相应得到不同的(), 若与是相同的分布函数, 则由()形成的轨迹是斜率为45°的直线。
反过来说,如果由两个分布函数与按相同的一组值求得各自的分位点, 在平面上确定的轨迹, 若该轨迹是一条斜率为45°的直线, 则可以确认与的分布是相同的。
为了假设的分布类型, 可取的分位点为, 分别对应的值为, 然后从基本理论分布中选择一种, 按分别求得其分位点, 然后在平面上画出的轨迹, 观察是否是斜率为45°的直线, 若比较接近, 则可假设观测数据的分布类型与所选分布的类型相同。
有时, 的轨迹虽然呈直线形状, 但斜率却不是45°, 这说明这两个分布的类型是相同的, 只是位置参数和(或)比例参数不同, 那么可对进行如下下变换:
得到的的轨迹必然是斜率为45°的直线。这就说明, 只要分位点的轨迹接近直线, 不管其斜率如何, 观测数据的分布与所选分布的类型是相同的。
概率图法只需要判断分位点轨迹偏离线性度的程度, 不会对观测数据造成信息丢失。
3 实验分布------难以由观测数据确定一个理论分布
原始观测数据为单个数据:,先将该个数据按递增顺序排列。由于可能有相同值的数据, 经排序后得到(1), (2), …, , (),该观测数据的实验分布可由下式来定义:
观测数据是分组数据:即不知道观测数据的数值, 而仅知道该个数据分布在个相邻区间, , …, 上及每个区间上数据的个数。记第个区间上的个数为, 则, 实验分布函数的表达式为:
11.3 拟合优良度检验
由观测数据假设了其分布的类型并估计出其参数以后, 一般需要检验该分布与这些观测数据吻合的程度, 即进行拟合优良度检验。
1 检验
将该拟合分布的取值范围分为个相等子区间, , …, , 其中可能, 或/ , 然后计算:
,其中是拟合的分布密度函数。
对离散情形, ,其中是拟合分布的质量函数。
检验的步骤可概括如下:
(1) 分别计算每个区间上观测数据的个数, 记
(2) 计算按拟合分布得到的期望个数, 即
(3) 计算检验的统计值:
(4) 结果判断 首先要规定检验水平, 如果拟合分布中有个参数是从观测数据按最大似然估计得到的, 则可以证明, 当时,
进行检验时, 区间的确定将影响检验的效能。为了使检验无偏, 要求按基本相等来确定区间, 即所选区间 , 使。另外, 根据经验, 区间的个数宜在30~40以下, 并能使, 以提高检验的有效性。在离散分布的情形下, 不可能保证完全相等, 但应使的值尽可能接近。
2 柯尔莫哥洛夫-斯米尔洛夫(K-S检验)
检验的困难: 按相等来确定时要对进行逆运算, 而在某些情况下, 求的逆运算比较困难, 或者无封闭形式无法求的逆运算;
当较小时, 的值较大, 从而得到的区间过大, 结果造成观测数据的信息丢失。
K-S检验:将拟合的分布函数与由观测数据定义的实验分布函数进行比较。
设观测数据为, 观测数据的实验分布函数采用如下定义:
(对所有)
这样, 是右连续的阶跃函数。
K-S检验规则:根据与的接近程度来决定是否拒绝原假设。评价接近程度的指标是采用与之间的最大距离:
若超过规定的常数(其中是要求的检验水平),则拒绝, 否则不拒绝。
问题:对于不同的分布, 的值是不同的; 即使是同一分布, 不同的下也不相同, 而且尚无通用的表可查。
1. 指数分布EXPO: 若成立, 则拒绝, 其中的值为;
0.150
0.100
0.050
0.25
0.10
0.926
0.990
1.094
1.190
1.308
2. 正态分布 若成立, 则拒绝, 其中的值为:
0.150
0.100
0.050
0.25
0.10
0.775
0.819
0.895
0.955
1.035
习 题
(1) 利用K-S检验法检验下列样本是否符合均值为0.0、方差为2.5的正态分布。检验水平为=0.05。
1.549422
2.444344
-1.356287
-1.158468
1.986288
-1.317650
1.203433
-2.405187
-0.983101
-0.942457
2.627202
2.295194
0.253501
0.256372
-1.221426
-2.819277
2.729291
1.374238
-0.028606
0.940219
-1.100076
-2.032944
-1.105679
1.694956
0.019935
(2)若有一批样本数为50的三极管,其放大倍数β值分别为:
34.7
56.2
38.4
54.1
57.4
51.7
60.6
67.7
78.1
38.2
49.2
42.8
45.2
53.4
80.4
97.4
84.5
65.3
66.4
73.4
61.1
68.4
69.4
81.3
74.4
36.3
47.2
52.4
69.2
89.7
76.6
67.3
66.2
59.8
59.2
63.2
38.4
44.6
70.1
28.1
52.3
44.5
46.4
64.4
66.4
54.2
78.8
62.0
32.4
48.5
设β为随机变量X,X的取值范围为(0,100),试计算其均值和方差,且用直方图法确定该随机变量的分布类型,并对其进行=0.10水平的检验。
15
展开阅读全文