1、(完整版)计量经济学的数理统计学基础计量经济学的数理统计学基础一、随机变量的概率分布1随机变量随机变量是指取值具有随机性的变量。随机变量有两种:离散随机变量和连续随机变量.2离散随机变量的概率分布(1)概率函数通常用一个二维表格直观描述离散随机变量X的概率分布:XP其中,(2)分布函数累计分布概率:3连续随机变量的概率分布(1)概率函数用概率密度函数描述,它满足以下性质:;(2)分布函数累计分布函数 ;另有:(3)常用分布l 正态分布定义:如果随机变量X的密度函数为则称X服从参数为、的正态分布,通常记为XN(m,s2)。令,那么服从标准正态分布N(0,1),l 卡方分布假设n维向量XN(0,)
2、,那么;l t分布假设两个独立的随机变量ZN(0,1), Y ,那么 l F-分布假设和是两个独立的卡方分布,那么二、随机变量的联合分布1。联合概率对于两个离散的随机变量X,Y,它们的联合分布为)对于两个连续的随机变量,它们的概率分布由联合概率密度决定2。边际概率与联合概率函数相对应,都称为边际概率函数。3.条件概率三、随机变量的数字特征(分布参数)1数学期望数学期望 记为或 对于离散变量,;对于连续变量,性质: 2方差方差 记为或 性质:;.3标准差(均方差)标准差 4矩称为变量X的阶原点矩,时就是X的期望.称为变量X的n阶中心矩,n=2时就是X的方差。5偏度和峰度偏度S度量了X围绕其均值的
3、非对称性,峰度K则度量了凸起或平坦程度.对于正态分布,K=3,S=0。6协方差协方差用于度量两个变量的线性相关程度,记为或; 。意味着两个变量同方向变动,称之为正相关;称之为负相关;称之为不相关。四、从总体到样本1总体和样本所谓总体就是一个随机变量X。X的分布函数通常记为,其中就是待估参数.在进行n次重复独立实验后,得到总体X的n个观察值,而在实验之前,实际上是相互独立均与总体X同分布的n个随机变量。称为总体X的容量为n的简单随机样本,简称样本;称为样本的一个观察值,简称样本值.2样本统计量l 统计量的概念设是来自总体X的一个样本,若随机变量的函数中不含有任何未知参数,则称为一个统计量.注意:
4、统计量本身是一个随机变量;其值可由样本值计算出来.l 最常见的统计量有:样本均值 ;样本方差;样本标准差;样本k阶原点矩 ;样本k阶中心矩 .假设,是某个X和Y联合分布的样本,那么样本协方差 3抽样分布l 样本均值的分布总体X N(m,s2)样本 N(m,s2)则: N(m,s2/n)l 样本方差的分布l 样本均方差的分布五、参数估计1点估计2区间估计l 临界值的概念设的分布函数为,满足,则称为的临界值。对称分布的临界值 非对称分布的临界值 l 区间估计对于参数,如果有两个统计量,满足对给定的,有则称区间,是的一个区间估计或置信区间,、分别称作置信下限、置信上限,称为置信水平.置信水平为1,在
5、实际上可以这样理解:如取,就是说若对某一参数取100个容量为的样本,用相同方法做100个置信区间。,=1,2,100,那么其中有95个区间包含了真参数因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断当然也可能犯错误,但犯错误的概率只有5%。寻找置信区间的通常方法是从已知抽样分布的统计量,如上文提到的U,X和T入手,由于分布和概率已知,只要确定临界值就可以了.单个正态总体参数的区间估计设为的样本,对给定的置信水平,,求 参数的区间估计.情况1(已知)由于,所以容易找到临界值,使得,那么的区间估计是:。情况 2(未知)六、假设检验l 假设检验的基本思想在数理统计中,假设检验
6、是这样一个过程:对未知总体,先作出某种假设,然后利用样本提供的信息,对这一假设的合理性进行检验,从而确定接受或拒绝这一假设.在进行假设检验时,有两点值得注意: 反证法思想.“小概率事件”在一次实验中不会发生.l 假设检验的步骤第一步,建立假设; 这里称为原假设,称为备择假设。注意:在假设检验中,原假设与备选假设的地位是不对等的。一般来说是较小的,因而检验推断是“偏向原假设,而“歧视备选假设的。既然是受保护的,则对于的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于的否定则是有力的,且越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。在
7、应用中,如果要用假设检验说明某个结论成立,那么最好设为该结论不成立。第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。统计量 在成立的条件下,对应的具体值记为.第三步,根据备择假设构造出对不利的小概率事件-在给定显著性水平下,确定临界值,构造出拒绝域。在一个问题中,通常指定一个正数(),认为概率不超过的事件是在一次试验中几乎不会发生的事件,称为显著性水平。=0。05,算出临界值。,这里V是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。第四步,得出结论方法1:根据计算出来的值,看样本是否落在内,若落在内,则拒绝,否则,不能拒绝。如果,则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设;方法2:比较p值和。p值定义为拒绝零假设的最大的显著性水平;,也就是在t分布中大于统计量的概率。比较p值和预先设定的显著性水平。如果p值,则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设。由于统计量是随机变量,假设检验可能犯两种类型的错误。l 当成立,而检验的结果表明不成立,即拒绝了,这时称该检验犯了第一类错误(type I error)或“弃真”的错误;第一类错误的概率就是在成立的条件下的概率;l 当不成立,成立,而检验的结果表明成立,即接受了,这时称该检验犯了第二类错误(type II error),或称“取伪”的错误。犯第二类错误的概率是。