研究生计量经济学.pptx_咨信网zixin.com.cn

资源描述

1、第二章第二章简单回归模型简单回归模型Chapter Outline 本章大纲Definition of the Simple Regression Model 简单回归模型的定义简单回归模型的定义Deriving the Ordinary Least Squares Estimates 普通最小二乘法的推导普通最小二乘法的推导Mechanics of OLS OLS的操作技巧的操作技巧Units of Measurement and Functional Form测量单位和函数形式测量单位和函数形式Expected Values and Variances of the OLS estima

2、tors OLS估计量的期望值和方差估计量的期望值和方差Regression through the Origin 过原点回归过原点回归回归分析回归分析(regression analysis)是研究一是研究一个变量关于另一个（些）变量的具体依赖关系个变量关于另一个（些）变量的具体依赖关系的计算方法和理论的计算方法和理论。其用意其用意：在于通过后者的已知或设定值，去在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值估计和（或）预测前者的（总体）均值。回归分析的基本概念回归分析的基本概念回归分析构成计量经济学的方法论基础，其主要内回归分析构成计量经济学的方法论基础，其主要内容包

3、括：容包括：（1）根据样本观察值对经济计量模型参数进行估计，求得回归方程；回归方程；（2）对回归方程、参数估计值进行显著性检验；（3）利用回归方程进行分析、评价及预测。简单回归模型：简单回归模型：y=b b0+b b1x+u 等式只有一个非常数解释变量。等式只有一个非常数解释变量。我我们们称称之之为为简简单单回回归归模模型型，一一元元线线性性回回归归模模型型.Some Terminology 术语注解术语注解Some Terminology 术语注解术语注解简单回归模型：简单回归模型：y=b b0+b b1x+u y通常被称为通常被称为-因变量因变量(Dependent Variable)-左

4、边变量左边变量(Left-Hand Side Variable)-被解释变量被解释变量(Explained Variable)-回归子回归子(Regressand)-响应变量（响应变量（response variable）-被预测变量（被预测变量（predicted variable）术语注解术语注解简单回归模型：简单回归模型：y=b b0+b b1x+u x通常被称为通常被称为-自变量自变量(independent Variable)-右边变量右边变量(right-Hand Side Variable)-解释变量解释变量(explanatory Variable)-回归元回归元(regres

5、sor)-控制变量（控制变量（control variable）-预测变量（预测变量（predictor variable）术语注解术语注解在简单回归模型：在简单回归模型：y=b b0+b b1x+ub b0,b b1被称为被称为回归系数回归系数(regression coefficients）。）。b b0也被称为也被称为常数项或截矩项常数项或截矩项(intercept term)，或，或截矩参数截矩参数(intercept parameter)。b b1代表了解释变量代表了解释变量x的边际效果，也被成为斜率参的边际效果，也被成为斜率参数（数（slope parameter）。）。术语注解

6、术语注解在简单回归模型：在简单回归模型：y=b b0+b b1x+uu 为误差项为误差项(error term)或扰动或扰动(disturbance)它代表了除了它代表了除了x之外可以影响之外可以影响y的因素。的因素。随机误差项主要包括下列因素的影响：随机误差项主要包括下列因素的影响：1）在解释变量中被忽略的因素的影响；2）变量观测值的观测误差的影响；3）模型关系的设定误差的影响；4）其它随机因素的影响。产生并设计随机误差项的主要原因：产生并设计随机误差项的主要原因：1）理论的含糊性；2）数据的欠缺；3）节省原则。术语注解术语注解线性回归的含义（线性回归的含义（P45）：）：y 和和x 之间并

7、不一定之间并不一定存在线性关系，但是，只要通过转换可以使存在线性关系，但是，只要通过转换可以使y的的转换形式和转换形式和x的转换形式存在的转换形式存在相对于参数的线性相对于参数的线性关系关系，该模型即称为线性模型。，该模型即称为线性模型。For example,y=eb0+b1x+u.转化为：log(y)=b0+b1x+u For example,For example,简单回归模型例子（例简单回归模型例子（例2.2）A simple wage equationwage=b b0+b b1educ+u 上述简单工资函数描述了受教育年限和工资之间上述简单工资函数描述了受教育年限和工资之间的关系，

8、的关系，educ用受教育的年限来度量用受教育的年限来度量 u:包含了其他非观测因素，如劳动经验、天生素包含了其他非观测因素，如劳动经验、天生素质、任现职时间等。质、任现职时间等。b b1:衡量了在其他条件不变的情况下，多接受一年衡量了在其他条件不变的情况下，多接受一年教育，工资可以增加多少教育，工资可以增加多少.A Simple Assumption关于关于u的假定的假定我们假定总体中误差项我们假定总体中误差项u的平均值为零的平均值为零.：E(u)=0(2.5)思考：该假定是否具有很大的限制性思考：该假定是否具有很大的限制性（restrictive）呢）呢?A Simple Assumptio

9、n关于关于u的假定的假定If for example,E(u)=5.Then y=(b b0+5)+b b1x+(u-5),therefore,E(u)=E(u-5)=0.上述推导说明我们总可以通过调整上述推导说明我们总可以通过调整常数项常数项来实现来实现误差项的均值为零误差项的均值为零,因此该假定的限制性不大因此该假定的限制性不大.Zero Conditional Mean Assumption 条件期望零值假定（条件期望零值假定（）y=b b0+b b1x+u 我们需要对我们需要对u和和 x之间的关系做一个关键假之间的关系做一个关键假定。理想状况是对定。理想状况是对x的了解并不增加对的了解

10、并不增加对u的的任何信息。换句话说，我们需要任何信息。换句话说，我们需要u和和 x相互相互独立。独立。E(u|x)=E(u)=0条件期望条件期望令（X，Y）代表一个工人总体，X是受教育程度，Y为小时工资。则：E（Y|x=12）：是总体中所有受了12年教育的工人的平均小时工资。E（Y|x=16）：是总体中所有受了16年教育的工人的平均小时工资。那么E（Y|X）可能=f（X）Zero Conditional Mean Assumption 条件期望零值假定条件期望零值假定由于我们已经假定了由于我们已经假定了E(u)=0，因此有，因此有:E(u|x)=E(u)=0.(2.6)思考：该假定是何含义？

11、思考：该假定是何含义？思考：为什么有这种条件期望的假定，而思考：为什么有这种条件期望的假定，而不直接给出不直接给出cov(x,u)=0的形式？的形式？思考：为什么有这种条件期望的假定，而思考：为什么有这种条件期望的假定，而不直接给出不直接给出cov(x,u)=0的形式？的形式？cov(x,u)=0表示不相关，但在统计学中其含表示不相关，但在统计学中其含义是无线性相关，不能保证无非线性相关。义是无线性相关，不能保证无非线性相关。Zero Conditional Mean Assumption 条件期望零值假定条件期望零值假定简单回归模型：简单回归模型：y=b b0+b b1x+uE(u|x)=

12、E(u)=0.(2.6)(2.6)说明总体回归函数应满足说明总体回归函数应满足 E(y|x)=b b0+b b1x.E(y|x)是是x的线性函数，的线性函数，y的分布以它为中心。的分布以它为中心。.x1=5x2=10E(y|x)=b0+b1xyf(y)给定x时y的条件分布下标的使用惯例：横截面数据 i时间序列数据 t 例例2：一个假想的社区有100户家庭组成，要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家庭可支配收入X的关系。Population Regression Function，PRF 总体回归函数总体回归函数为达到此目的，将该100户家庭划分为组内收入差不多的10

13、组，以分析每一收入组的家庭消费支出。（1）由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；（2）但由于调查的完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布条件分布（Conditional distribution）是已知的，如：P(Y=561|X=800）=1/4。因此，给定收入X的值Xi，可得消费支出Y的条件条件期望期望（conditional expectation）：E(Y|X=Xi)该例中：E(Y|X=800)=605分析：分析：描出散点图发现：随着收入的增加，消费“平均地说平均地说”也在增加，且Y的条件均值均落在一根正斜率的

14、直线上。这条直线称为总体回归线总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X（元）每月消费支出Y（元）概念：概念：在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线（population regression line），或更一般地称为总体回归曲线总体回归曲线（population regression curve）。称为（双变量）总体回归函数总体回归函数（population regression function,PRF）。相应的函数：例2中，个别家庭的消费支出为：（*

15、）式称为总体回归函数总体回归函数（方程）（方程）PRFPRF的随机设定形式。的随机设定形式。表明被解释变量除了受解释变量的系统性影响外，还受其他表明被解释变量除了受解释变量的系统性影响外，还受其他因素的随机性影响因素的随机性影响。又称为。又称为总体回归模型总体回归模型。（1）该收入水平下所有家庭的平均消费支出E(Y|Xi)，称为系统性（系统性（systematic）或确定性确定性（deterministic)部分部分。（2）其他随机随机或非确定性非确定性（nonsystematic)部分部分ui。即，给定收入水平Xi,个别家庭的支出可表示为两部分之和:(*)Sample Regression

16、Function，SRF 样本回归函数样本回归函数问题：问题：能从一次抽样中获得总体的近似的信息吗？如果可以，如何从抽样中获得总体的近似信息？问：能否从该样本估计总体回归函数PRF？回答：能例例2.2：在例2.1的总体中有如下一个样本，总体的信息往往无法掌握，现实的情况只能是在一次观测中得到总体的一个样本。核样本的散点图散点图（scatter diagram)：样本散点图近似于一条直线，画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该线近似地代表总体回归线。该线称为样本回归线样本回归线（sample regression lines）。）。记样本回归线的函数形式为：称为样本回归函数

17、样本回归函数（sample regression function，SRF）。这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代注意：注意：样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型：同样地，样本回归函数也有如下的随机形式：由于方程中引入了随机项，称为由于方程中引入了随机项，称为样本回归样本回归模型模型（sample regression model）。回回归归分分析析的的主主要要目目的的：根据样本回归函数SRF，估计总体回归函数PRF。注意：注意：这里PRF可能永远无法知道。即，根据估计四个概念总体回归模型总体回归函数样本回归模型样本回归函数四个概念

18、总体回归模型总体回归函数样本回归模型样本回归函数估计Deriving the Ordinary Least Squares Estimates 普通最小二乘法的推导普通最小二乘法的推导回归的基本思想是从样本去估计总体参数。回归的基本思想是从样本去估计总体参数。我们用我们用(xi,yi):i=1,n 来表示一个随机样本，并来表示一个随机样本，并假定每一观测值满足假定每一观测值满足 yi=b b0+b b1xi+ui。估计方法估计方法有多种，其种最广泛使用的是普通普通最小二乘法最小二乘法（ordinary least squares,OLS）。.y4y1y2y3x1x2x3x4u1u2u3u4x

19、yPopulation regression line,sample data pointsand the associated error terms总体回归线，样本观察点和相应误差E(y|x)=b b0+b b1xDeriving OLS Estimates普通最小二乘法的推导普通最小二乘法的推导假定：假定：E(u|x)=E(u)=0 可以得到：可以得到：Cov(x,u)=E(xu)=0 since u=y b b0 b b1x，所以有：所以有：E(y b b0 b b1x)=0 Ex(y b b0 b b1x)=0These are called moment（矩）（矩）restrict

20、ionsDeriving OLS using M.O.M.使用矩方法推导普通最小二乘法使用矩方法推导普通最小二乘法矩方法是将总体的矩限制应用于样本中。目标是矩方法是将总体的矩限制应用于样本中。目标是通过选择参数值，使得在样本中矩条件也可以成通过选择参数值，使得在样本中矩条件也可以成立。立。The sample versions are as follows:Derivation of OLS普通最小二乘法的推导普通最小二乘法的推导根据样本均值的定义以及加总的性质，可将第一根据样本均值的定义以及加总的性质，可将第一个条件写为个条件写为Derivation of OLS普通最小二乘法的推导普通最

21、小二乘法的推导第二个条件：第二个条件：So the OLS estimated slope is因此因此OLS估计出的斜率为估计出的斜率为思考：条件说明什么？思考：条件说明什么？斜率估计量等于样本中x 和 y 的协方差除以x的方差。若x 和 y 正相关则斜率为正，反之为负。Alternate approach to derivation推导方法二推导方法二给定一组样本观测值（Xi,Yi）（i=1,2,n）要求样本回归函数尽可能好地拟合这组值.普通最小二乘法普通最小二乘法（Ordinary least squares,OLS）给出的判断标准是：二者之差的平方和最小方程组（*）称为正规方程组正规

22、方程组（normal equations）为什么不是残差的其他某个函数的最小化？Using Eviews for OLS regressions使用 Eviews 进行OLS回归我们已经推导出公式计算参数的OLS估计值，所幸的是我们不必亲手去计算它们。在Eviews中进行回归非常简单，例2.4 工资和受教育程度526个样本的OLS估计结果：例2.5 投票结果和竞选支出1988年美国众议院173次两党竞选的选举结果：voteA为候选人A所得票数的百分比；shareA为候选人A在竞选支出中所占百分比 Example2.3:CEO Salary and Return on Equity 例：首席执行

23、官的薪水和例：首席执行官的薪水和资本权益报酬率资本权益报酬率Example:CEO Salary and Return on Equity 例：CEO的薪水和资本权益报酬率变量salary衡量了以1000美元为单位的年薪，其最小值，均值和最大值分别如下：(min,mean,max)=(223,1281,14822).Roe净收入/所有者权益，为三年平均值。其最小值，均值和最大值分别为：（0.5,17.18,56.3)salary 对roe的回归方程为：Example:CEO Salary and Return on Equity 例：CEO的薪水和资本权益报酬率对估计量的解释：963.19:常

24、数项的估计值衡量了当roe为零时CEO的薪水。18.5:b1 的估计值反应了ROE若增加一个百分点工资将平均增加18500美元。If roe=30,what is the estimated salary?思考思考:两条线分别代表什么意思？两条线分别代表什么意思？拟合值和残差Salaryhat是拟合值，uhat是残差第二章第二章简单回归模型（简单回归模型（2）Chapter Outline 本章大纲本章大纲Definition of the Simple Regression Model 简单回归模型的定义简单回归模型的定义Deriving the Ordinary Least Square

25、s Estimates 推导普通最小二乘法的估计量推导普通最小二乘法的估计量Mechanics of OLS OLS的操作技巧的操作技巧Unites of Measurement and Functional Form 测量单位和回归方程形式测量单位和回归方程形式Expected Values and Variances of the OLS estimators OLS估计量的期望值和方差估计量的期望值和方差Algebraic Properties of OLS OLS的代数性质（1）OLS 残差和为零残差和为零（一阶条件（一阶条件)因此因此 OLS 的样本残差平均值也为零的样本残差平均值也

26、为零.Algebraic Properties of OLS OLS的代数性质（2）回归元（解释变量）和）回归元（解释变量）和OLS残差之间的样本协残差之间的样本协方差为零方差为零(一阶条件一阶条件)（3）OLS回归线总是通过样本的均值。回归线总是通过样本的均值。Algebraic Properties of OLS OLS的代数性质我们可把每一次观测看作由被解释部分和未解释部分构成.（4）预测值和残差在样本中是不相关的（自己推导）Algebraic Properties of OLS OLS的代数性质常用的推导条件拟合优度拟合优度（Goodness of fit）More Terminolo

27、gy更多术语定义总平方和（定义总平方和（total sum of squares,SST）为为总平方和是对总平方和是对y在样本中所有变动的度量，即它度在样本中所有变动的度量，即它度量了量了y在样本中的分散程度。将总平方和除以在样本中的分散程度。将总平方和除以n-1,我们得到我们得到y的样本方差。的样本方差。More Terminology更多术语解释平方和解释平方和(Explained Sum of Squares，SSE)定义为定义为它度量了它度量了y的预测值的在样本中的变动的预测值的在样本中的变动More Terminology更多术语残差平方和（残差平方和（Residual Sum of

28、 Squares，SSR）定义为）定义为残差平方和度量了残差的样本变异残差平方和度量了残差的样本变异注意：注意：SSR、SSE没有统一的定义。没有统一的定义。SST,SSR and SSEy 的总变动可以表示为已解释的变动SSE和未解释的变动SSR之和，即SST=SSE+SSR证明 SST=SSE+SSRGoodness-of-Fit拟合优度我们如何衡量样本回归线是否很好地拟合了样本数据呢?称 R2 为（样本）（样本）判定系数判定系数（coefficient of determination)。被看作是y的样本变动中被可以被x解释的部分判定系数判定系数的取值范围取值范围：0，1 R2 2越

29、接近越接近1 1，说明实际观测点离样本线越近，拟，说明实际观测点离样本线越近，拟合优度越高合优度越高。Goodness-of-Fit拟合优度拟合优度注意：注意：在社会科学中，特别是在截面数据分析中在社会科学中，特别是在截面数据分析中,回归方程得到低的回归方程得到低的R2并不罕见。并不罕见。值得强调的是表面上低的值得强调的是表面上低的R2不一定说明不一定说明OLS回归方程是没有价值的回归方程是没有价值的Goodness-of-Fit拟合优度Example 2.8 CEO薪水和股本回报Example 2.9Voting outcomes and Campaign Expenditures竞选结果和

30、选举活动开支2.4 度量单位和函数形式Units of Measurement 度量单位例例2.3：首席执行官的薪水和资本权益报酬率：首席执行官的薪水和资本权益报酬率其中，其中，salary衡量了以衡量了以1000美元为单位的年薪；美元为单位的年薪；假定薪水的单位是美元，而不是千美元，在假定薪水的单位是美元，而不是千美元，在Salarys对对roe进行回归时进行回归时OLS截距和斜率的估计截距和斜率的估计值是多少？值是多少？Units of Measurement 度量单位新的回归方程：新的回归方程：一般而言，当因变量乘上常数一般而言，当因变量乘上常数c，而自变量不改，而自变量不改变时，变时，

31、OLS的截距和斜率估计量也要乘上的截距和斜率估计量也要乘上c。Units of Measurement 测量单位如果定义如果定义 roedec=roe/100，那么新的回归线变，那么新的回归线变为：为：一般而言，如果自变量一般而言，如果自变量除以或乘上除以或乘上某个非零常数某个非零常数c，那么，那么 OLS斜率将斜率将乘以或除以乘以或除以c，而截距则不改，而截距则不改变。变。R2呢？呢？Units of Measurement 测量单位结论：结论：改变因变量的度量单位，会以同等倍数改改变因变量的度量单位，会以同等倍数改变斜率和截距；变斜率和截距；改变自变量的度量单位，截距不变，斜率改变自变量的

32、度量单位，截距不变，斜率会以相反的方式改变；会以相反的方式改变；R2不依赖于度量单位。不依赖于度量单位。在简单回归中加入非线性线性关系并不适合所有的经济学运用线性关系并不适合所有的经济学运用然而，通过对因变量和自变量进行恰当的定义,我们可以在简单回归分析中非常容易地处理许多y和x之间的非线性关系.The Natural Logarithm自然对数 Log-log 形式，弹性Log-level形式，半弹性Level-log 形式变量的原始形式和其自然对数的不同组合变量的原始形式和其自然对数的不同组合在工资-教育的例子中，wage=b b0+b b1educ+u估计得到：估计得到：即每增加一年的

33、教育，工资的增长都是相同的，即0.54美元。合理性？假定每增加一年的教育，工资增长的百分比都是相同的。能够给出不变的百分比效果的模型是If ,we haveExample 2.10A log Wage Equation将对数工资方程Compared to 和原方程相比和原方程相比每多接受一年的教育，工资会有每多接受一年的教育，工资会有8.3的提高。的提高。递增的教育回报：当受教育程度提高时，工资的变化递增的教育回报：当受教育程度提高时，工资的变化量也随之增加。量也随之增加。自自然然对对数数的的另另一一个个重重要要用用途途是是用用于于获获得得弹弹性性为为常常数的模型数的模型在在CEO的的薪薪水水

34、和和企企业业销销售售额额的的例例子子中中，常常数数弹弹性性模型是：模型是：1是是y对对x的弹性。这里薪水对销售额的弹性估计的弹性。这里薪水对销售额的弹性估计量为量为0.2572.5 OLS估计量的期望值和方差估计量的期望值和方差补充：补充：抽样与抽样分布抽样与抽样分布参数估计参数估计假设检验假设检验统计方法统计方法描述统计描述统计推断统计推断统计什么是推断统计？什么是推断统计？The purpose of Statistics inference(统计推断统计推断)is to obtain information about a population from information cont

35、ained in sample.例例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。120个个样本样本测试平均里程：36,500公里推断新轮胎新轮胎平均寿命平均寿命:36,500公里400个样本支持人数：160推断支持该候选人的选民支持该候选人的选民占全部选民的比例：占全部选民的比例：160/400=40%例例2：某党派想支持某一候选人参选美国某州议员，为了决定是否支持该候选人，该党派领导需要估计支持该候选人的民众支持该候选人的民众占全部登记投票人总数的比例占全部登记投票人总数的比例。由于时间及财力的限制：主要用在下列两种情况主要用在下列两种情况：主要内容：主要内容：1、抽样估计(es

36、timation)2、假设检验(hypothesis testing)注意：注意：抽样估计只得到对总体特征的近似测度，因此，抽样估计还必须同时考察所得结果的“可能范围可能范围”与“可靠程度可靠程度”。1、对所考查的总体不可能进行全部测度；2、从理论上理论上说可以对所考查的总体进行全部测度，但实践上实践上由于人力、财力、时间等方面的原因，无法（不划算）进行全部测度。第一节第一节抽样抽样随机样本随机样本第二节第二节点估计与抽样分布点估计与抽样分布例例某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪平均年薪及参加过公参加过公司培训计划的比例司培训计划的

37、比例。总体：总体：2500名中层干部（population)，如果：如果：上述上述情况可由每个人的个人档案中得知，可容易地测出这2500名中层干部的平均年薪及标准差。假如有假如有1500人参加了公司培训人参加了公司培训，得到了如下的结果：总体均值总体均值（population mean）：）：=51800 总体标准差总体标准差（Population standard deviation）：）：=400 参加公司培训计划的参加公司培训计划的比例比例为：为：P=1500/2500=0.60参数是总体的数值特征参数是总体的数值特征 A parameter is a numerical charact

38、eristic of a population一、点估计假如随机抽取了一个容量为30的样本：Annual Salary Management Training Program?49094.3 Yes 53263.9 Yes 49643.5 Yes 根据该样本求得的年薪样本年薪样本平均数平均数、标准差标准差及参加过培参加过培训计划人数的训计划人数的比例比例分别为：（一）点估计（一）点估计上述估计总体参数的过程被称为点估计点估计（point estimation）；由于点估计量是由样本测算的，因此也称为样本样本统计量。统计量。估计量和估计值估计量和估计值样本的（不包含未知总体参数的）函数称为统计

39、量；由于一个统计量对于不同的样本取值不同，所以，估计量也是随机变量，并有其分布。如果样本已经得到，把数据带入之后，估计量就有了一个数值，称为该估计量的一个实实现现(realization)，也称为一个估估计计值值(estimate)。二、抽样分布在上述某公司30个中层干部的简单随机抽样中，如果再一次抽样的样本与前一次的不同，则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。同样地，如果多次抽样，则可得到多个不同的结果。下表是一个假设的经过500次抽样后的情况表。500个的频数分布频数分布与相对频数分布相对频数分布，图图 500个个的相对频数分布的相对频数分布这里，这里，的相对频

40、数分布，就称为的相对频数分布，就称为的的抽样分布抽样分布。1.样本统计量的概率分布，是一种理论分布在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布 2.随机变量是样本统计量样本统计量样本均值,样本比例，样本方差等3.结果来自容量相同容量相同的所有所有可能样本抽样分布(sampling distribution)抽样分布的形成过程(sampling distribution)总体计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计量量量量量量如：样本均值、如：样本均值、如：样本均值、比例、方差比例、方差比例、方差样本1、样本均值的抽样分布 1、样本均

41、值的抽样分布（、样本均值的抽样分布（Sampling Distribution of )样本均值的抽样分布【例例例例】设设一一个个总总体体，含含有有4 4个个元元素素(个个体体)，即即总总体体单单位位数数N N=4 4。4 4 个个个个体体分分别别为为x x1 1=1=1，x x2 2=2=2，x x3 3=3=3，x x4 4=4=4 。总总体的均值、方差及分布如下体的均值、方差及分布如下总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差均值和方差均值和方差样本均值的抽样分布现现从从总总体体中中抽抽取取n n2 2的的简简单单随随机机

42、样样本本，在在重重复复抽抽样条件下，共有样条件下，共有4 42 2=16=16个样本。所有样本的结果为个样本。所有样本的结果为3,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2 的样本（共的样本（共16个）个）3,4样本均值的抽样分布计算出各样本的均值，如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值（个样

43、本的均值（x）x x样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P (x x)1.51.53.03.04.04.03.53.52.02.02.52.5样本均值的分布与总体分布的比较 =2.5 2=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布抽样分布抽样分布P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x 考察样本均值的概率分布形式样本均值的概率分布形式。分两

44、种况：1)总体分布已知且为正态分布总体分布已知且为正态分布；2)总体分布未知；总体分布未知；（1）当总体分布已知且为正态分布或接近正态分布时，则无论样本容量大小如何，样本均值则无论样本容量大小如何，样本均值都为正态分布都为正态分布。样本均值的抽样分布 =50=50=50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布xn n=16=16当当总总体体服服从从正正态态分分布布N N(,2 2)时时，来来自自该该总总体体的的所所有有容容量量为为n n的的样样本本的的均均值值 x x也也服服从从正正态态分分布布

45、，x x 的的数数学学期望为期望为，方差为，方差为 2 2/n n。即。即 x xN N(,2 2/n n)（2）当总体分布未知时，需要用到中心极限定理中心极限定理中心极限定理中心极限定理（Central limit Theorem）对容量为对容量为n 的简单随机样本，样本均值的分布的简单随机样本，样本均值的分布随样本容量的增大而趋于随样本容量的增大而趋于正态分布正态分布。经验上验证经验上验证，当样本容量等于或大于30时，无论总体的分布如何，样本均值的分布则非常接近正态分布。因此统计上常称容量在30（含30）以上的样本为大样本大样本（large-sample-size)。中心极限定理(cent

46、ral limit theorem)当样本容量足够当样本容量足够大时大时(n n 30)30)，样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布从从均均值值为为，方方差差为为 2 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n n的的样样本本，当当n n充充分分大大时时，样样本本均均值值的的抽抽样样分分布布近近似似服服从从均均值为值为，方差为，方差为 2 2/n n的正态分布的正态分布一个任意分一个任意分布的总体布的总体x x中心极限定理(central limit theorem)x x 的的的的分分分分布布布布趋趋趋趋于于于于正正正正态态态态分分分分布布布布的

47、过程的过程的过程的过程三、点估计量的性质：估计量优劣的衡量用样本统计量样本统计量（sample statistics）可以作为其对应的总体的点估计量点估计量（point estimator)。但要估计总体的某一指标，并非只能用一个样本指标，而可能有多个指标可供选择，即对同一总体参数，可能会有不同的估计量。点估计量的性质：估计量优劣的衡量点估计量的性质：估计量优劣的衡量作为一个好的点估计量好的点估计量，统计量必须具有如下性质：无偏性、有效性、一致性无偏性、有效性、一致性无偏性(unbiasedness)无无偏偏性性：估计量抽样分布的数学期望等于被估计的总体参数P P()B BA A无偏无偏无

48、偏无偏无偏无偏有偏有偏有偏有偏有偏有偏有效性(efficiency)有效性：有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效 AB 的抽样分布的抽样分布的抽样分布的抽样分布的抽样分布的抽样分布的抽样分布的抽样分布P P()一致性(consistency)一致性：一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较小的样本容量较小的样本容量较大的样本容量较大的样本容量较大的样本容量较大的样本容量P P()为什么要研究最小二乘估计量的性质？为什么要研究最小二乘估计量的性质？当模型参数估计出后，需考虑参数估计值的精度，即是否能代

49、表总体参数的真值，或者说需考察参数估计量的统计性质。一个用于考察总体的估计量，可从如下几个方面考察其优劣性：（1）线性性）线性性，即它是否是另一随机变量的线性函数；（2）无偏性）无偏性，即它的均值或期望值是否等于总体的真实值；（3）有效性）有效性，即它是否在所有线性无偏估计量中具有最小方差。（4）渐渐近近无无偏偏性性，即样本容量趋于无穷大时，是否它的均值序列趋于总体真值；（5）一一致致性性，即样本容量趋于无穷大时，它是否依概率收敛于总体的真值；（6）渐渐近近有有效效性性，即样本容量趋于无穷大时，是否它在所有的一致估计量中具有最小的渐近方差。这三个准则也称作估计量的小样本性质。小样本性质。拥有这

50、类性质的估计量称为最佳线性无偏估计最佳线性无偏估计量量（best liner unbiased estimator,BLUE）。当不满足小样本性质时，需进一步考察估计量的大样本大样本或或渐近性质渐近性质：Expected Values and Variances of the OLS EstimatorsOLS估计量的期望值和方差从总体中抽取的不同的随机样本可得到不同的从总体中抽取的不同的随机样本可得到不同的OLS估计量，我们将研究这些估计量，我们将研究这些OLS估计量的分布。估计量的分布。首先，我们在一些假定下证明首先，我们在一些假定下证明OLS的无偏性。的无偏性。Assumption SL

展开阅读全文