1、2024/6/25 周二计 量 经 济 学1为什么要加入虚拟变量为什么要加入虚拟变量v回回归归分分析析中中,被被解解释释变变量量往往往往不不仅仅受受定定量量因因素素的的影影响响,也也会会受受定定性性因因素素的的影影响响。因因此此,在在构构建建回回归归模模型型时时,常常常常有有必必要要纳纳入入定定性性因因素素。在在回回归归模模型型里里面面纳纳入入定定性性因因素素必必须须先先把把定定性性因因素素“定量化定量化”。v方方法法:建建立立虚虚拟拟变变量量(常常用用大大写写字字母母D表表示示),按按照照一一定定的的规规则则赋赋予予虚虚拟拟变变量量特特定定的的取取值值,使使得得虚虚拟拟变变量量的的取取值值与
2、与某某种种“性性质质”相对应。相对应。v例例如如:样样本本观观测测点点的的性性别别属属性性为为男男性性,则则设设定定D=0,女女性性设设定定为为D=1。当当然然,可可以以反反过过来来设设定定。取取值值为为零零的的称称为为“基基准准类类”、“参参照照类类”。把把何何种种类类型型定定为为基基准准类类并并无无实实质质性性区区别别,根根据据研究者的着眼点而定。研究者的着眼点而定。v虚拟变量又叫指标变量、分类变量、定性变量等。虚拟变量又叫指标变量、分类变量、定性变量等。2024/6/25 周二计 量 经 济 学2v因此:因此:v男性就业者平均年薪为:男性就业者平均年薪为:v女性就业者平均年薪为:女性就业
3、者平均年薪为:虚拟变量的例子虚拟变量的例子v例子:建立回归模型研究女性就业者与男性就业者的工作水平是例子:建立回归模型研究女性就业者与男性就业者的工作水平是否存在显著差异。否存在显著差异。v以就业者的平均年薪为被解释变量以就业者的平均年薪为被解释变量Y;v以就业者的性别的虚拟变量以就业者的性别的虚拟变量D为解释变量,即为解释变量,即:v构建相应的双变量回归模型:构建相应的双变量回归模型:基准类的平均年薪基准类的平均年薪2024/6/25 周二计 量 经 济 学3虚拟变量的例子虚拟变量的例子v女性就业者与男性就业者的平均年薪差异为:女性就业者与男性就业者的平均年薪差异为:v2正好是虚拟变量(正好
4、是虚拟变量(D)的回归系数,如果)的回归系数,如果2统计上显著不为零,统计上显著不为零,那么就说明男性就业者平均年薪与女性就业者平均年薪存在显著那么就说明男性就业者平均年薪与女性就业者平均年薪存在显著差异,否则并不存在显著差异。差异,否则并不存在显著差异。2024/6/25 周二计 量 经 济 学4虚拟变量的估计与假设检验方法虚拟变量的估计与假设检验方法v虚拟变量的估计与假设检验方法虚拟变量的估计与假设检验方法v由由于于虚虚拟拟变变量量的的取取值值同同样样遵遵循循解解释释变变量量的的非非随随机机的的假假定定,因因此此用用OLS法法估估计计包包含含一一个个或或多多个个虚虚拟拟变变量量的的回回归归
5、模模型型,并并不不会会带带来来新新的的估估计计问问题题。这这就就是是说说,OLS估估计计法法则则同同样样适适用用于于解解释释变变量量为为虚虚拟变量的回归模型。拟变量的回归模型。v而而OLS估估计计法法则则的的假假设设检检验验也也同同样样适适用用于于解解释释变变量量为为虚虚拟拟变变量量的的回归模型。回归模型。2024/6/25 周二计 量 经 济 学5虚拟变量回归系数的意义虚拟变量回归系数的意义v思考女性就业者与男性就业者的平均年薪差异的回归模型思考女性就业者与男性就业者的平均年薪差异的回归模型v该回归模型能否用来解释工资中的性别歧视?该回归模型能否用来解释工资中的性别歧视?v不能!因为,所谓工
6、资性别歧视,应该是指在其它条件不变的情不能!因为,所谓工资性别歧视,应该是指在其它条件不变的情况下(比如能力、教育水平、工龄、职称、地区等等),男女年况下(比如能力、教育水平、工龄、职称、地区等等),男女年薪仍然存在显著差异。由于该模型只纳入了性别虚拟变量作为唯薪仍然存在显著差异。由于该模型只纳入了性别虚拟变量作为唯一的解释变量,所以不能解释工资的性别歧视,只能解释工资的一的解释变量,所以不能解释工资的性别歧视,只能解释工资的性别差异。性别差异。2024/6/25 周二计 量 经 济 学6虚拟变量的设定原则虚拟变量的设定原则v当当需需要要纳纳入入某某个个定定性性变变量量时时,如如果果模模型型包
7、包含含截截距距项项,那那么么引引入入的的虚虚拟拟变变量量个个数数应应该该比比该该定定性性变变量量的的分分类类总总数数少少1。否否则则,会会造造成成多多重重共共线线性性,使使得得模模型型无无法法估估计计。这这种种情情形形亦亦称称为为“虚虚拟拟变变量量陷陷阱阱”。v虚拟变量设定规则:虚拟变量设定规则:n分定性变量需要引入分定性变量需要引入(n-1)个虚拟变量。个虚拟变量。v例例如如:性性别别的的种种类类有有两两种种,则则只只需需要要引引入入一一个个虚虚拟拟变变量量D。学学历历若若只只考考虑虑大大学学、硕硕士士、博博士士三三种种,则则只只需需要要引引入入两两个个虚虚拟拟变变量量,D1和和D2。季季节
8、节变变量量有有四四种种类类型型,则则只只需需纳纳入入三三个个虚虚变变量量,D1、D2和和D3。2024/6/25 周二计 量 经 济 学7虚拟变量回归模型的一般形式虚拟变量回归模型的一般形式v虚拟变量回归模型的一般形式:虚拟变量回归模型的一般形式:v包含包含m个定量变量与个定量变量与n个定性变量,即:个定性变量,即:v这种回归模型称为协方差分析模型(这种回归模型称为协方差分析模型(ANCOVA)2024/6/25 周二计 量 经 济 学8包含一个定量变量与一个两分定性变量的回归包含一个定量变量与一个两分定性变量的回归v以性别的平均年薪差异回归模型为例以性别的平均年薪差异回归模型为例v在此模型的
9、基础上,考虑工龄的影响,加入一个新的解释变量在此模型的基础上,考虑工龄的影响,加入一个新的解释变量v因此:因此:v男性就业者平均年薪为:男性就业者平均年薪为:v女性就业者平均年薪为:女性就业者平均年薪为:v在考虑工龄影响的情况下女性与男性就业者的平均年薪差异为:在考虑工龄影响的情况下女性与男性就业者的平均年薪差异为:2024/6/25 周二计 量 经 济 学9包含一个定量变量与一个两分定性变量的回归包含一个定量变量与一个两分定性变量的回归v如果如果3显著异于显著异于0,就说明在工龄保持不变的条件下,男女工资,就说明在工龄保持不变的条件下,男女工资存在显著地差异。存在显著地差异。工资水平工资水平
10、工龄工龄男性男性女性女性v两两条条曲曲线线的的斜斜率率相相同同,意意味味着着工工龄龄对对于于男男性性与与女女性性工工资资水水平平的的影影响响是是相同的相同的v两两条条曲曲线线的的截截距距不不同同,意意味味着着男男性性与与女女性性的的工工龄初始点是不同的龄初始点是不同的2024/6/25 周二计 量 经 济 学10包含一个定量变量与一个多分定性变量的回归包含一个定量变量与一个多分定性变量的回归v如男女性别,是可以当做两分定性变量的,但是有一些定性变量如男女性别,是可以当做两分定性变量的,但是有一些定性变量中,并非仅仅是分为两类的,是可以分为多类的,这就可以定义中,并非仅仅是分为两类的,是可以分为
11、多类的,这就可以定义为多分定性变量。如将全国地区分为东、中、西部地区,如将大为多分定性变量。如将全国地区分为东、中、西部地区,如将大学生的年级分为大一、大二、大三与大四。学生的年级分为大一、大二、大三与大四。v例如:研究教师薪例如:研究教师薪酬水平的地区差异。酬水平的地区差异。v设被解释变量:教师平均薪酬水平(设被解释变量:教师平均薪酬水平(Pay)v定量解释变量:政府机构用于学生的花销(定量解释变量:政府机构用于学生的花销(PPS)v定性解释变量:定性解释变量:D1=1,第一类地区,第一类地区(东部地区东部地区);=0,其他地区,其他地区 D2=1,第二类地区,第二类地区(中部地区中部地区)
12、;=0,其他地区,其他地区 第三类地区第三类地区(西部地区西部地区)为基准类,基准类对应的虚拟变量取值均为基准类,基准类对应的虚拟变量取值均为零,即:为零,即:D1=0,D2=0。2024/6/25 周二计 量 经 济 学11包含一个定量变量与一个多分定性变量的回归包含一个定量变量与一个多分定性变量的回归v因此,构建包括一个定量变量与一个多分定性变量的回归模型因此,构建包括一个定量变量与一个多分定性变量的回归模型v第一类地区第一类地区(东部地区东部地区)教师平均薪酬水平教师平均薪酬水平v第二类地区第二类地区(中部地区中部地区)教师平均薪酬水平教师平均薪酬水平v第三类地区第三类地区(西部地区,基
13、准类西部地区,基准类)教师平均薪酬水平教师平均薪酬水平v该模型只能解释不同地区教师平均年薪的截距差异。该模型只能解释不同地区教师平均年薪的截距差异。2024/6/25 周二计 量 经 济 学12包含一个定量变量与多个定性变量的回归包含一个定量变量与多个定性变量的回归v例如,研究教师的薪酬水平受到教龄、性别与学历的影响。例如,研究教师的薪酬水平受到教龄、性别与学历的影响。v设被解释变量:教师平均薪酬水平(设被解释变量:教师平均薪酬水平(Y)v定量解释变量:教师的教龄(定量解释变量:教师的教龄(X)v两分定性解释变量:教师性别两分定性解释变量:教师性别 D1=1,女性;,女性;=0,男性,男性v多
14、分定性解释变量:教师学历(假设将教师学历分为本科、硕士多分定性解释变量:教师学历(假设将教师学历分为本科、硕士及博士三类,因此引入再两个虚拟变量)及博士三类,因此引入再两个虚拟变量)D2=1,硕士;,硕士;=0,其他,其他 D3=1,博士;,博士;=0,其他,其他 第三类第三类(本科本科)为基准类,基准类对应的虚拟变量取值均为零,即:为基准类,基准类对应的虚拟变量取值均为零,即:D2=0,D3=0。2024/6/25 周二计 量 经 济 学13v男性平均年薪:男性平均年薪:v男性本科平均年薪:男性本科平均年薪:v男性硕士平均年薪:男性硕士平均年薪:v男性博士平均年薪:男性博士平均年薪:包含一个
15、定量变量与多个定性变量的回归包含一个定量变量与多个定性变量的回归v因此,构建包括一个定量变量、一个二分定性变量与一个多分因此,构建包括一个定量变量、一个二分定性变量与一个多分定性变量的回归模型定性变量的回归模型v女性平均年薪:女性平均年薪:v女性本科平均年薪:女性本科平均年薪:v女性硕士平均年薪:女性硕士平均年薪:v女性博士平均年薪:女性博士平均年薪:2024/6/25 周二计 量 经 济 学14虚拟变量的交互效应虚拟变量的交互效应v假定假定Y为教师平均年薪,为教师平均年薪,X为工龄,其他虚拟变量:为工龄,其他虚拟变量:v男性平均年薪:男性平均年薪:v女性平均年薪:女性平均年薪:v可见,女性与
16、男性平均年薪差异为可见,女性与男性平均年薪差异为3,不取决于,不取决于D的取值如何。的取值如何。2024/6/25 周二计 量 经 济 学15虚拟变量的交互效应虚拟变量的交互效应v男性平均年薪:男性平均年薪:v女性平均年薪:女性平均年薪:v可见,女性与男性平均年薪差异为可见,女性与男性平均年薪差异为(3+3D),差异大小还取决于,差异大小还取决于D的取值,也就是取决于是硕士还是博士。的取值,也就是取决于是硕士还是博士。2024/6/25 周二计 量 经 济 学16虚拟变量的交互效应虚拟变量的交互效应v假设回归模型为:假设回归模型为:v系数度量了在系数度量了在X3保持不变的情况下,保持不变的情况
17、下,X2对对Y的影响程度,但是的影响程度,但是在现实中,在现实中,X2对对Y的影响往往还取决于的影响往往还取决于X3的水平。的水平。v因此,将回归模型修正为:因此,将回归模型修正为:v如果如果4显著不为零,说明显著不为零,说明X2对对Y的影响会取决于的影响会取决于X3的水平。同理的水平。同理X3对对Y的也要取决于的也要取决于X2的水平。的水平。2024/6/25 周二计 量 经 济 学17引入虚拟变量比较两个回归模型引入虚拟变量比较两个回归模型v例子:研究美国例子:研究美国1970-1995年间个人储蓄与个人收入间的关系。年间个人储蓄与个人收入间的关系。v考考虑虑一一个个问问题题:1982年年
18、美美国国经经济济经经历历严严重重衰衰退退,这这一一事事件件也也许许会会影响个人储蓄与个人可支配收入的关系。影响个人储蓄与个人可支配收入的关系。v研研究究目目标标:检检验验两两段段事事情情个个人人储储蓄蓄与与个个人人收收入入之之间间的的关关系系是是否否显显著存在差异,以及差异是什么。著存在差异,以及差异是什么。v设设定定Y表表示示个个人人储储蓄蓄,X表表示示个个人人可可支支配配收收入入,则则对对1970-1981年年间和间和1982-1995年间的储蓄利用分段回归方程进行估计,即:年间的储蓄利用分段回归方程进行估计,即:v萧条前:萧条前:v萧条后:萧条后:v检验:检验:2024/6/25 周二计
19、 量 经 济 学18引入虚拟变量比较两个回归模型引入虚拟变量比较两个回归模型v用虚拟变量回归的方法检验结构变化的问题。用虚拟变量回归的方法检验结构变化的问题。v利用虚拟变量利用虚拟变量D表示时期的这一定性变量:表示时期的这一定性变量:v因此,构建回归模型为:因此,构建回归模型为:2024/6/25 周二计 量 经 济 学19引入虚拟变量比较两个回归模型引入虚拟变量比较两个回归模型v第一阶段第一阶段(1970-1981)个人平均储蓄的回归函数为:个人平均储蓄的回归函数为:v第二阶段第二阶段(1981-1995)个人平均储蓄的回归函数为:个人平均储蓄的回归函数为:v2称为差别截距系数,称为差别截距
20、系数,4称为差别斜率系数(斜率漂移因子)称为差别斜率系数(斜率漂移因子)v检检验验2与与4的的统统计计显显著著性性,即即可可判判断断两两阶阶段段储储蓄蓄函函数数的的结结构构是是否否具具有有明明显显差差异异,同同时时可可以以得得知知差差异异是是来来自自截截距距还还是是斜斜率率,或或者者二二者都有。者都有。2024/6/25 周二计 量 经 济 学20引入虚拟变量比较两个回归模型引入虚拟变量比较两个回归模型YX0v一致回归一致回归YX0v平行回归平行回归2024/6/25 周二计 量 经 济 学21引入虚拟变量比较两个回归模型引入虚拟变量比较两个回归模型YX0v并发回归并发回归YX0v相异回归相异
21、回归2024/6/25 周二计 量 经 济 学22v在在计计量量经经济济学学中中,通通常常引引入入虚虚拟拟变变量量的的方方式式分分为为加加法法方方式式和和乘乘法方式两种:法方式两种:v加法方式:加法方式:v乘法方式:乘法方式:虚拟变量的加法效应与乘法效应虚拟变量的加法效应与乘法效应v加法方式引入虚拟变量改变的是截距;加法方式引入虚拟变量改变的是截距;v乘法方式引入虚拟变量改变的是斜率。乘法方式引入虚拟变量改变的是斜率。2024/6/25 周二计 量 经 济 学23v以以加加法法方方式式引引入入虚虚拟拟变变量量时时,主主要要考考虑虑的的问问题题是是定定性性因因素素的的属属性与引入虚拟变量的个数。
22、性与引入虚拟变量的个数。虚拟变量的加法效应与乘法效应虚拟变量的加法效应与乘法效应v加法方式引入虚拟变量的主要作用为:加法方式引入虚拟变量的主要作用为:v在有定量解释变量的情形下,主要改变方程截距;在有定量解释变量的情形下,主要改变方程截距;v在没有定量解释变量的情形下,主要用于方差分析。在没有定量解释变量的情形下,主要用于方差分析。2024/6/25 周二计 量 经 济 学24v以以乘乘法法方方式式引引入入虚虚拟拟变变量量时时,是是在在所所设设立立的的模模型型中中,将将虚虚拟拟解解释释变变量量与与其其它它解解释释变变量量的的乘乘积积,作作为为新新的的解解释释变变量量出出现现在在模模型型中中,以
23、以达达到到其其调调整整设设定定模模型型斜斜率率系系数数的的目目的的。或或者者将将模模型型斜斜率率系数表示为虚拟变量的函数,以达到相同的目的。系数表示为虚拟变量的函数,以达到相同的目的。虚拟变量的加法效应与乘法效应虚拟变量的加法效应与乘法效应v加法方式引入虚拟变量:加法方式引入虚拟变量:v截距不变;截距不变;v截距和斜率均发生变化截距和斜率均发生变化2024/6/25 周二计 量 经 济 学25虚拟变量在季节分析中的应用虚拟变量在季节分析中的应用v“季季节节”是是在在研研究究经经济济学学问问题题中中常常遇遇到到的的定定性性因因素素。如如,酒酒和和肉肉的的销销售售量量在在冬冬季季会会超超过过其其他
24、他季季节节,而而饮饮料料的的销销售售又又以以夏夏季季最最大大。当当建建立立该该类类问问题题的的计计量量模模型型时时,需需要要考考虑虑将将“季季节节”因因素素引入计量模型中。引入计量模型中。v月月度度或或季季度度时时间间序序列列数数据据往往往往呈呈现现出出一一定定的的季季节节模模式式。把把“季季节节”成成分分从从时时间间序序列列中中剔剔除除,有有助助于于独独立立观观察察其其它它成成分分的的运运行行态态势势。从从时时间间序序列列中中消消除除季季节节成成分分的的过过程程称称为为季季节节调调整整。季季节节调整可以用虚拟变量回归的办法来实现。调整可以用虚拟变量回归的办法来实现。2024/6/25 周二计
25、 量 经 济 学26虚拟变量在季节分析中的应用虚拟变量在季节分析中的应用v例例子子:市市场场用用煤煤销销售售量量模模型型。由由于于受受取取暖暖用用煤煤的的影影响响,每每年年第第四季度的销售量大大高于其他季度。将用煤量表示在图形中:四季度的销售量大大高于其他季度。将用煤量表示在图形中:2024/6/25 周二计 量 经 济 学27虚拟变量在季节分析中的应用虚拟变量在季节分析中的应用v例子:冰箱的销售量与季节性例子:冰箱的销售量与季节性v如如果果回回归归模模型型包包含含截截距距项项,那那么么在在虚虚拟拟变变量量在在季季节节分分析析的的应应用用中就需要设置三个虚拟变量。中就需要设置三个虚拟变量。v若
26、选定将第一季度作为基准类,因此设置虚拟变量:若选定将第一季度作为基准类,因此设置虚拟变量:v因此,构建相应的回归模型因此,构建相应的回归模型2024/6/25 周二计 量 经 济 学28v四个季节的冰箱销售量为:四个季节的冰箱销售量为:v第一节度平均销售量:第一节度平均销售量:v第二季度平均销售量:第二季度平均销售量:v第三季度平均销售量:第三季度平均销售量:v第四季度平均销售量:第四季度平均销售量:虚拟变量在季节分析中的应用虚拟变量在季节分析中的应用v回归结果为:回归结果为:v回归结果为:回归结果为:v第第二二季季度度与与第第三三季季度度虚虚拟拟变变量量的的结结果果是是统统计计显显著著的的,
27、而而第第四四季季度度虚虚拟拟变变量量的的结结果果不不是是统统计计显显著著的的,这这说说明明第第二二与与第第三三季季度度存存在在季季节效应,而第四季度则没有。节效应,而第四季度则没有。2024/6/25 周二计 量 经 济 学29v得到经过季节调整的时间序列得到经过季节调整的时间序列虚拟变量在季节分析中的应用虚拟变量在季节分析中的应用v第第一一步步:利利用用实实际际的的Y值值减减去去上上述述回回归归模模型型中中估估计计出出的的Y值值,得得到相应的残差序列;到相应的残差序列;v第第二二步步:将将残残差差序序列列加加上上Y的的均均值值序序列列,即即得得到到经经过过季季节节调调整整后的时间序列。后的时
28、间序列。2024/6/25 周二计 量 经 济 学30v在在很很多多研研究究中中,被被解解释释变变量量往往往往是是以以定定性性变变量量的的身身份份出出现现的的。比比如如:学学生生是是否否被被某某学学校校录录取取,某某居居民民是是否否申申请请到到购购房房贷贷款款,某某个个劳劳动动力力是是否否进进入入劳劳动动力力市市场场,等等等等。对对于于这这些些情情形形,对对被被解解释释变变量量的的回回答答只只有有“是是”或或“不不是是”。因因此此这这些些被被解解释释变变量量具具有有二二分分性性,可可以以用用一一个个虚虚拟拟变变量量来来表表示示。通通常常就就用用Y来来表表示示,Y只取只取0和和1两个值。两个值。
29、Y=0表示否定回答,表示否定回答,Y=1表示肯定回答。表示肯定回答。v被解释变量是定性变量的回归模型,称为概率模型。被解释变量是定性变量的回归模型,称为概率模型。线性概率模型线性概率模型2024/6/25 周二计 量 经 济 学31v例子:研究个人申请房贷成功的概率与个人收入之间的关系。例子:研究个人申请房贷成功的概率与个人收入之间的关系。线性概率模型线性概率模型v假假设设解解释释变变量量为为个个人人收收入入(X),被被解解释释变变量量为为是是否否申申请请房房贷贷成成功的虚拟变量:功的虚拟变量:v因此构建回归模型为:因此构建回归模型为:v根据期望的定义可得:根据期望的定义可得:v根据回归方程可
30、得:根据回归方程可得:v因此:因此:v所以,可以利用所以,可以利用 来估计来估计 2024/6/25 周二计 量 经 济 学32v例子:研究个人申请房贷成功的概率与个人收入之间的关系。例子:研究个人申请房贷成功的概率与个人收入之间的关系。线性概率模型线性概率模型v因因此此,E(Y|X)给给出出了了当当个个人人收收入入为为X时时,成成功功申申请请到到房房贷贷的的概概率,可以用率,可以用Y的拟合值来作为这一概率的点估计值。的拟合值来作为这一概率的点估计值。v2给给出出了了当当个个人人收收入入X每每增增加加一一个个单单位位时时,成成功功申申请请到到房房贷贷的的概率会增加多少。概率会增加多少。v一般不
31、关心判定系数的大小和截距项的意义。一般不关心判定系数的大小和截距项的意义。2024/6/25 周二计 量 经 济 学33v线线性性概概率率模模型型被被解解释释变变量量为为虚虚拟拟变变量量中中最最简简单单的的,但但线线性性概概率率模模型型中中得得到到的的误误差差项项存存在在异异方方差差的的问问题题,一一般般使使用用加加权权最最小小二二乘乘法法进进行行估估计计。但但是是加加权权最最小小二二乘乘法法却却无无法法保保证证估估计计的的被被解解释释变量在变量在(0,1)之内,这就是线性概率模型的一个缺点。之内,这就是线性概率模型的一个缺点。v因因此此,对对线线性性概概率率模模型型进进行行转转换换,会会得得到到二二元元选选择择模模型型,而而二二元选择模型的估计方法一般采用最大似然法的方法。元选择模型的估计方法一般采用最大似然法的方法。二元选择模型二元选择模型误差项的分布误差项的分布分布函数形式分布函数形式二元选择模型二元选择模型标准正态分布标准正态分布Probit分布分布逻辑分布逻辑分布Logit分布分布极值分布极值分布Extreme分布分布2024/6/25 周二计 量 经 济 学34v二元选择模型根据误差项的分布函数的不同分成三类。二元选择模型根据误差项的分布函数的不同分成三类。二元选择模型二元选择模型