收藏 分销(赏)

六多元回归-其他问题.pptx

上传人:天**** 文档编号:4822292 上传时间:2024-10-14 格式:PPTX 页数:53 大小:318.22KB
下载 相关 举报
六多元回归-其他问题.pptx_第1页
第1页 / 共53页
六多元回归-其他问题.pptx_第2页
第2页 / 共53页
六多元回归-其他问题.pptx_第3页
第3页 / 共53页
六多元回归-其他问题.pptx_第4页
第4页 / 共53页
六多元回归-其他问题.pptx_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、Chapter Outline 本章大纲n数据的测度单位换算对OLS统计量的影响n对函数形式的进一步讨论n拟合优度和回归元选择的进一步探讨n预测和残差分析Lecture Notesn重新定义变量的影响n估计系数nR 平方nt 统计量n函数形式n对数函数形式n含二次式的模型n含交叉项的模型Redefining Variables重新定义变量n为什么我们想这样做?n数据测度单位变换经常被用于减少被估参数小数点后的零的个数,这样结果更好看一些n既然这样做主要为了好看,我们希望本质的东西不改变。重新定义变量:一个例子n以下模型反映了婴儿出生体重与孕妇吸烟量和家庭收入之间的关系:(1)n考虑如下单位变换

2、:(2)出生体重单位由盎司变为磅(3)香烟的支数变为包数n估计结果列于下表Table 6.1Y(column)(1)bwght(2)bwghtlbs(3)bwghtX(rows)Cigs-0.4634(0.0916)-0.0289(0.0057)-Packs-9.268(1.832)Faminc0.0927(0.0292)0.0058(0.0018)0.0927(0.0292)Intercept116.794(1.049)7.3109(0.0656)116.974(1.049)Observations138813881388R-squared0.02980.02980.0298SSR557,4

3、85.512177.5778557.485.51SER20.0631.253920.063改变被解释变量测度单位的影响n因为1磅16盎司,被解释变量被除以16。n比较第1列与第2列。n(1)中被估参数/16(2)中被估参数n(1)中被估参数的标准差/16(2)中被估参数的标准差改变被解释变量测度单位的影响n(1)和(2)中 t 统计量相同nR平方相同n(1)中SSR/(16*16)(2)中SSRn(1)中SER(标准差)/16(2)中SER改变解释变量测度单位的影响n现在香烟数量单位变为包。n现在比较 第(1)列和第(3)列。n变量faminc系数和截距项的估计值和其标准差分析同上。npack

4、s的系数估计值和标准差变为20倍。Impact of changing the scale of the independent variable改变解释变量测度单位的影响nt 统计量相同nR平方相同nSSR相同nSER相同n怎样度量数据通常只起非实质性作用。比如减少怎样度量数据通常只起非实质性作用。比如减少所估计系数小数点后零的个数等。通过对度量单所估计系数小数点后零的个数等。通过对度量单位合理的选择,可在不作任何本质改变的情况下,位合理的选择,可在不作任何本质改变的情况下,改进所估计方程的形象。改进所估计方程的形象。重新定义变量n 改变变量y的测度单位会导致系数和标准差相应的改变,所以解释

5、变量系数显著性和对其解释没有改变。n改变一个变量x的测度单位会导致该变量系数和标准差的相应改变,所以所有解释变量显著性和对其解释没有改变。Redefining Variables重新定义变量n如果被解释变量以对数形式出现,改变被解释变量度量单位对任何斜率系数没有影响。n因为log(cy)=log(c)+log(y),改变y测度单位将改变截距,不改变斜率系数。Beta Coefficients Beta系数n考虑如下形式的样本回归方程:=200+20,000 x1+0.2x2n我们能说x1是最重要的变量吗?n现在,查看以下各个变量的单位:ny in dollars y单位:美元nx1 in ce

6、nts x1单位:美分nx2 in thousands x2单位:千美元Beta Coefficients Beta系数n上例揭示了什么问题?n被估计系数的大小是不可比较的。n一个相关的问题是,当变量大小差别过大时,在回归中因运算近似而导致的误差会比较大。Beta Coefficients Beta系数n有时,我们会看见“标准化系数”或“Beta系数”,这些名称有着特殊的意义n Idea is to replace y and each x variable with a standardized version i.e.subtract mean and divide by standard

7、 deviation 使用Beta系数是因为有时我们把y和各个x替换为标准化版本也就是,减去均值后除以标准离差。n Coefficient reflects standard deviation of y for a one standard deviation change in x 系数反映对于一单位x的标准离差的y的标准离差。Beta Coefficients Beta系数Beta Coefficients Beta系数Functional Form 函数形式n OLS也可以用在x和y不是严格线性的情况,通过使用非线性方程,使得关于参数仍为线性。n 可以取x,y(一个或全部)的自然对数n

8、 可以用x的平方形式n 可以用x的交叉项Interpretation of Log Models对数模型的解释n 如果模型是 ln(y)=b0+b1ln(x)+un b1是y对于x的弹性n 如果模型是ln(y)=b0+b1x+unb1近似是,给定一单位x的改变,y的百分比变化,常被称为半弹性。Why use log models?为什么使用对数模型?n取对数后变量的斜率系数,不随变量测度单位改变。n如果回归元和回归子都取对数形式,斜率系数给出对弹性的一个直接估计。n对于y0的模型,条件分布经常偏斜或存在异方差,而ln(y)就小多了,所以,使用ln(y)作为因变量的模型,通常比使用y的水平值作为

9、因变量的模型更接近CLM假定。n ln(y)的分布窄多了,限制了异常(或极端)观测值(outliers)的影响。消除或缓和了数据的异方差和偏态性。Some Rules of Thumb一些经验法则n什么类型的变量经常用对数形式?n 肯定为正的钱数:工资,薪水,企业销售额和企业市值。n非常大的变量:如人口,雇员总数和学校注册人数等。Some Rules of Thumb一些经验法则n什么类型的变量经常用水平值形式?n 用年测量的变量:如教育年限,工作经历,任期年限和年龄n可以以水平值或对数形式出现的变量:n比例或百分比变量:失业率,养老保险金参与率等。Limitations of Logs对数形

10、式的限制n一个变量取零或负值,则不能使用对数。n如果y非负但可以取零,则有时使用log(1+y)。n当数据并非多数为零时,使用log(1+y)估计,并且假定变量为log(y),解释所得的估计值,是可以接受的。Cautions in using Logs慎重使用对数形式n使用对数形式因变量的一个缺陷是,当y取对数形式时,更难以预测原变量的值,因为原模型允许我们预测log(y)而不是y。Cautions in using Logs慎重使用对数形式Quadratic Models含二次式的模型n 对于形式为y=b0+b1x+b2x2+u的模型,我们不能单独将b1解释为关于x,y变化的度量,我们需要将

11、b2也考虑进来,因为Quadratic Models含二次式的模型n如果感兴趣的是,给定x的初始值和变动,预测y的变化,那么可以直接使用(1)。n一般来说,我们可以使用x的平均值,中值,或上下四分位数来预测y,取决于我们感兴趣的问题。Quadratic Models含二次式的模型Quadratic Models含二次式的模型3.737.3724.4experwageMore on Quadratic Models对含二次式模型的进一步讨论n 假如x的系数为正,x2的系数为负。n那么,y首先随x上升而上升,但最终转向随x上升而下降。More on Quadratic Models对含二次式模型的

12、进一步讨论n 假如x的系数为负,x2的系数为正。n那么,y首先随x上升而下降,但最终转向随x上升而上升。Interaction Terms交叉项n For a model of the form y=b0+b1x1+b2x2+b3x1x2+u we cant interpret b1 alone as measuring the change in y with respect to x1,we need to take into account b3 as well,since 对于形式为y=b0+b1x1+b2x2+b3x1x2+u的模型,我们不能单独将b1解释为关于x1,y变化的度量,我

13、们需要将b3也考虑进来,因为Interaction Terms交叉项Interaction Terms交叉项n教材例6.3More on Goodness-of-Fit and Selection of Regressors拟合优度和解释变量选择的进一步探讨拟合优度和解释变量选择的进一步探讨nAdjusted R-SquaredMore on Goodness-of-Fit and Selection of Regressors拟合优度和解释变量选择的进一步探讨拟合优度和解释变量选择的进一步探讨n我们定义总体R2为:y的变异在总体中能被解释变量解释的比例,为nThe adjusted R-sq

14、uare is still not an unbiased estimator of the population R-squared,because the ratio of two unbiased estimators is not an unbiased estimator.n调整过的R2仍不是总体R2的一个无偏估计量,因为两个无偏估计量的比例不是一个无偏估计量。More on Goodness-of-Fit and Selection of Regressors拟合优度和解释变量选择的进一步探讨拟合优度和解释变量选择的进一步探讨nThe primary attractiveness

15、of is that is imposes a penalty for adding more independent variables to a model.调整过的R2最根本的吸引力,在于它对向模型增加自变量的惩罚。nIf we add a new independent variable to a regression equation,increases if and only if the t statistic on the new variable is greater than one in absolute value.如果我们向回归模型加入一个新的解释变量,当且仅当新变量

16、的t统计量的绝对值大于1时,调整过的R2增加。Using Adjusted R-Sqrared to Choose Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择n如果两个模型中任何一个都不是另一个的特例,则两个模型是非嵌套的。nF统计量只允许我们检验嵌套模型嵌套模型,即一个模型(约束模型)是另一个模型(无约束模型)的一种特殊情形。n我们需要一些在无嵌套模型间进行选择的指导。Using Adjusted R-Squared to Choose Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择 n当变量有不同函数形

17、式时,通过比较调整过的R2,在不同的解释变量的非嵌套组合中进行选择,是颇有价值的。n例如,一个模型是y=b0+b1x1+b2log(x2),另一个是y=b0+b1x1+b2 x2+b3 x22。如果第一个模型调整过的R平方为0.3,而第二个为0.6,我们倾向于选择第二个模型Using Adjusted R-Squared to Choose Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择n The Limitation of Adjusted R-squared:we cannot use it to choose between different

18、functional forms for the dependent variable.n调整过的R2的限制:我们不能利用它在关于因变量函数形式不同的模型间进行选择Prediction Analysis:the estimator预测分析:估计量Prediction Analysis:the standard error预测分析:标准差Prediction Analysis:the Confidence Interval预测分析:置信区间Prediction Analysis:Confidence Interval for a particular y预测分析:一个特殊y的置信区间Predic

19、tion Analysis:Prediction Interval for y0预测分析:y0的预测区间Prediction Analysis:Prediction Interval for y0预测分析:y0的预测区间n Sometimes,it is useful to examine individual observations to see whether the actual value of the dependent variable is above or below the predicted value.有时,检验个体观测值来看它的因变量高于还是低于预测值是有用的。n T

20、hat is,to examine the residuals for the individual observations.也就是,检验个体观测值的残差。Residual Analysis 残差分析Residual Analysis 残差分析nExample:Regress the price of houses to a set of observable characteristics.Calculate the predicted value.The most negative residual is that most underpriced relative to its obs

21、erved chacteristics.nThis particular house may have undesired feature we have not accounted for.nCan establish a prediction interval.n例:将房价对一些可观测特点回归,得预测值,算出残差。残差为负则说明根据可观测因素房价偏低。负的程度最大值的大小说明我们还没有控制因素的重要程度。可为改值建立预测区间。nDefine logy=log(y).Let定义 logy=log(y)。令nIt can be shown that with MLR1-6,可以证明由MLR1-

22、6,有Predicting y when log(y)is the dependent variable当因变量是log(y)时预测yPredicting y when log(y)is the dependent variable当因变量是log(y)时预测yPredicting y when log(y)is the dependent variable当因变量是log(y)时,预测ynIf we just assume that u is independent of the explanatory variables,we have如果我们只假定,u独立于解释变量,我们有nGiven an estimate ,we can predict y as给定一个估计值 ,我们可以预测y为Estimating 估计nObtain nCreate nRegress y on the single variable without an intercept.The only coefficient is the estimate of 将y只向一个变量 回归,无截距项。唯一的系数是 的估计值。作业n习题 6.4,6.7 C6.2,C6.5n第4章作业:4.1,4.2,4.7,4.10 C4.1,C4.3

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服