资源描述
(完整版)计量经济学的数理统计学基础
计量经济学的数理统计学基础
一、随机变量的概率分布
1.随机变量
随机变量是指取值具有随机性的变量。
随机变量有两种:离散随机变量和连续随机变量.
2.离散随机变量的概率分布
(1)概率函数
通常用一个二维表格直观描述离散随机变量X的概率分布:
X
…
P
…
其中,
(2)分布函数
累计分布概率:
3.连续随机变量的概率分布
(1)概率函数
用概率密度函数描述,
它满足以下性质:
;
;
(2)分布函数
累计分布函数 ;
另有:
(3)常用分布
l 正态分布
定义:如果随机变量X的密度函数为
则称X服从参数为μ、σ的正态分布,通常记为X~N(m,s2)。
令,
那么服从标准正态分布N(0,1),
l 卡方分布
假设n维向量X~N(0,),那么;
l t—分布
假设两个独立的随机变量Z~N(0,1), Y~ ,那么
l F-分布
假设和是两个独立的卡方分布,那么
二、随机变量的联合分布
1。联合概率
对于两个离散的随机变量X,Y,它们的联合分布为
…)
对于两个连续的随机变量,它们的概率分布由联合概率密度决定
2。边际概率
与联合概率函数相对应,都称为边际概率函数。
3.条件概率
三、随机变量的数字特征(分布参数)
1.数学期望
数学期望 记为或
对于离散变量,;
对于连续变量,
性质:
2.方差
方差 记为或
性质:
;.
3.标准差(均方差)
标准差
4.矩
称为变量X的阶原点矩,时就是X的期望.
称为变量X的n阶中心矩,n=2时就是X的方差。
5.偏度和峰度
偏度S度量了X围绕其均值的非对称性,峰度K则度量了凸起或平坦程度.
对于正态分布,K=3,S=0。
6.协方差
协方差用于度量两个变量的线性相关程度,记为或;
。
意味着两个变量同方向变动,称之为正相关;
称之为负相关;
称之为不相关。
四、从总体到样本
1.总体和样本
所谓总体就是一个随机变量X。
X的分布函数通常记为,其中就是待估参数.
在进行n次重复独立实验后,得到总体X的n个观察值,而在实验之前,实际上是相互独立均与总体X同分布的n个随机变量。称为总体X的容量为n的简单随机样本,简称样本;称为样本的一个观察值,简称样本值.
2.样本统计量
l 统计量的概念
设是来自总体X的一个样本,若随机变量的函数中不含有任何未知参数,则称为一个统计量.
注意:统计量本身是一个随机变量;其值可由样本值计算出来.
l 最常见的统计量有:
样本均值 ;
样本方差;
样本标准差;
样本k阶原点矩 ;
样本k阶中心矩 .
假设,,是某个X和Y联合分布的样本,那么
样本协方差
3.抽样分布
l 样本均值的分布
总体X ~ N(m,s2)
样本~ N(m,s2)
则:~ N(m,s2/n)
l 样本方差的分布
~
l 样本均方差的分布
~
五、参数估计
1.点估计
2.区间估计
l 临界值的概念
设的分布函数为,满足,则称为的临界值。
对称分布的临界值
非对称分布的临界值
l 区间估计
对于参数,如果有两个统计量,,满足对给定的,有
则称区间[,]是的一个区间估计或置信区间,、分别称作置信下限、置信上限,称为置信水平.
置信水平为1—,在实际上可以这样理解:如取,就是说若对某一参数取100个容量为的样本,用相同方法做100个置信区间。[,],=1,2,…,100,那么其中有95个区间包含了真参数.因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断当然也可能犯错误,但犯错误的概率只有5%。
寻找置信区间的通常方法是从已知抽样分布的统计量,如上文提到的U,X和T入手,由于分布和概率已知,只要确定临界值就可以了.
单个正态总体参数的区间估计
设为的样本,对给定的置信水平,,求 参数的区间估计.
情况1(已知)
由于,
所以容易找到临界值,使得
,
那么的区间估计是:
。
情况 2(未知)
六、假设检验
l 假设检验的基本思想
在数理统计中,假设检验是这样一个过程:对未知总体,先作出某种假设,然后利用样本提供的信息,对这一假设的合理性进行检验,从而确定接受或拒绝这一假设.
在进行假设检验时,有两点值得注意:
① 反证法思想.
②“小概率事件”在一次实验中不会发生.
l 假设检验的步骤
第一步,建立假设
;
这里称为原假设,称为备择假设。
注意:在假设检验中,原假设与备选假设的地位是不对等的。一般来说是较小的,因而检验推断是“偏向"原假设,而“歧视"备选假设的。既然是受保护的,则对于的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于的否定则是有力的,且越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。在应用中,如果要用假设检验说明某个结论成立,那么最好设为该结论不成立。
第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。
统计量
在成立的条件下,对应的具体值记为.
第三步,根据备择假设构造出对不利的小概率事件—-在给定显著性水平下,确定临界值,构造出拒绝域。
在一个问题中,通常指定一个正数(),认为概率不超过的事件是在一次试验中几乎不会发生的事件,称为显著性水平。
=0。05,算出临界值。
,这里V是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。
第四步,得出结论
方法1:根据计算出来的值,看样本是否落在内,若落在内,则拒绝,否则,不能拒绝。
如果,则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设;
方法2:比较p值和。
p值定义为拒绝零假设的最大的显著性水平;
,也就是在t—分布中大于统计量的概率。
比较p值和预先设定的显著性水平。
如果p值<,则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设。
由于统计量是随机变量,假设检验可能犯两种类型的错误。
l 当成立,而检验的结果表明不成立,即拒绝了,这时称该检验犯了第一类错误(type I error)或“弃真”的错误;第一类错误的概率就是在成立的条件下的概率;
l 当不成立,成立,而检验的结果表明成立,即接受了,这时称该检验犯了第二类错误(type II error),或称“取伪”的错误。犯第二类错误的概率是。
展开阅读全文