分位数回归（QRM）方法及其应用.pdf

资源描述

分位数回归（QRM）方法及其应用管理与经济学院主要内容:分位数回归的基本介绍系数协方差的估计方法模型评价与检验基于Eviews的分位数回归一、分位数回归的提出传统的回归分析主要关注均值，即采用因变量条件均值的函数来描述自变量每一特定数值下的因变量均值，从而揭示自变量与因变量的关系。这类回归模型实际上是研究被解释变量的条件期望，描述了因变量条件均值的变化。人们当然也关心解释变量与被解释变量分布的中位数，分位数呈何种关系。这就是分位数回归，它最早由凯恩克(Koenker Roger)和巴西特(Bassett Gi Ibert Jr)于 1978年提出，是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法，强调条件分位数的变化。分位数回归(Quantile Regression)最早由科恩克和巴塞特(Koenker和Bassett,1978)于1978年提出,它提供了回归变量X和因变量V的分位数之间线性关系的估计方法。绝大多数的回归模型都关注因变量的条件均值，但是人们对于因变量条件分布的其他方面的模拟方法也越来越有兴趣，尤其是能够更加全面地描述因变量的条件分布的分位数回归。利用分位数回归解决经济学问题的文献越来越多，尤其是在劳动经济学中取得了广泛应用。如在教育回报和劳动市场歧视等方面都出现了很好的研究成果。在经济学中的应用研究还包括诸如财富分配不均问题、失业持续时间问题、食品支出的恩格尔曲线问题、酒精需求问题和日间用电需求问题等。在金融学领域也涌现出大量使用分位数回归的应用研究成果，主要应用领域包括风险价值(Value at Risk,VaR)研究和刻画共同基金投资类型的指数模型。分位数回归参数估计的思想正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样，分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化，其中，中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)o 它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。分位数回归参数估计的思想与LR估计量明显不同的QR估计量的特点在于，在QR中数据点到回归线距离的测量通过垂直距离的加权总和（没有平方）而求得，这里赋予拟合线之下的数据点的权重是1-T,而赋予拟合线之上的数据点的权重则是T.对于T的每一个选择，都会产生各自不同的条件分位数的拟合函数，这一任务是为每一个可能的寻找适合的估计量。中位数是一个特殊的分位数,它表示一种分布的中心位置。中位数回归是分位数回归的一种特殊情况，其他分位数则可以用来描述一种分布的非中心位置。第P个百分位数表一示因变量的数值低于这一百分位数的个数占总体的p%.因此，分位数可以指定分布中的任何一个位置。4.7.1分位数回归的基本思想和系数估计假设随机变量y的概率分布为：F（y）=Prob（y 值，即：q=inf 丁：F（y）t 9 0t-4I(u 0)=|1,u0I一般的Z分位数回归的检查函数为：pT()-ur-lu 0)其中，/(Z)为示性函数，Z是指示关系式。当分位数为0.5时，就是最小一乘回归，即考察此最小化问题的一阶条件为：O=zJ(y)+(l z)J(y)y，当以工了时，/g WjO=L否则取值为0。相应地，经验分位数为:(T)=inf yFN(y)T，0r 条件均值(co nditio nal mean)例2.1.1：一个假想的社区有99户家庭组成，欲研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。为达到此目的，将该99户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。表2.1.1某社区家庭每月收入与消费支出统计表每月家庭可支配收入X（元）8001100140017002000230026002900320035005616388691023125414081650196920902299每5947489131100130914521738199121342321月-6278149241144136415511749204621782530家.6388479791155139715951804206822662629庭93510121210140816501848210123542860消9681045124314741672188121892486t2871费1078125414961683192522332552支1122129814961716196922442585出1155133115621749201322992640Y118813641573177120352310（元）12101408160618042101143016501870211214851716194722002002共计242049501149516445193052387025025214502128515510 由于不确定因素的影响，对同一收入水平X,不同家庭的消费支出不完全相同；但由于调查的完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的，例如:P(Y=561|X=800)=1/4o 因此，给定收入X的值Xj,可得消费支出Y的条件均值(conditional mean)或条件期望.(conditional expectation)：E(Y|X=X)。该例中：E(Y|X=800)=605描出散点图发现：随着收入的增加，消费“平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。1500 2000 2500 3000 3500 4000每月可支配收入X（元）0053o o o o O o o o o O0 5 0 5 03 2 2 1 15000500 1000每月消费支出（元）2、总体回归函数在给定解释变量Xj条件下被解释变量Yj的期望轨迹称为总体回回线(population regression line),或更一般地称为总体回归曲线(population regression curve)。相应的函数称为(双变量)总体回归函数(population regression function,PRF)。E(YXi)=f(Xi)含义：回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。函数形式：可以是线性或非线性的。例2.L1中，将居民消费支出看成是其可支配收入的线性函数时:E(YXi)=/3Q+fi1Xi为线性函数。其中，阮氏是未知参数，称为回归系数(regression coefficients)。1、样本回归函数问题：能否从一次抽样中获得总体的近似信息?如果可以，如何从抽样中获得总体的近似信息?在例2.1.1的总体中有如下一个样本，能否从该样本估计总体回归函数？K表2.1.3家庭消费支出与可支配收入的一个随机样本X800110014001700200023002600290032003500Y59463811221155140815951969207825852530回答：能该样本的散点图(scatter diagram)：每月消费支出Y7E)/lx每月可支3沙姐x:元)画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该直线近似地代表总体回归线。该直线称为样本回归线(sample regression lines)。样本回归线的函数形式为:*=f(X,)=Bo+BXi称为样本回归函数(sample regression function,SRF)。I wwwi注意：这里将样本回归线看成总体回归线的近似替代I；=|X)+4=Go+4则I；为口口工）的估计；.-一Bi为夕1勺仙计昂:，二（0）,，jdgcn相对于最小二乘估计，分位数回归模型具有四个方面的优势:（1）分位数模型特别适合具有异方差性的模型。（2）对条件分布的刻画更加的细致，能给出条件分布的大体特征。每个分位点上的回归都赋予条件分布上某个特殊点（中央或尾部）一些特征；把不同的分位点上的分位数回归集中起来就能提供一个关于条件分布的更完整的统计特征描述。并且不同分位点下所给出的参数估计本身也可能有值得进一步探讨的意义。（3）分位数回归并不要求很强的分布假设，在扰动项非正态的情形下，分位数估计量可能比最小二乘估计量更为有效。（4）与最小二乘法通过使误差平方和最小得到参数的估计不同，分位数回归是通过使加权误差绝对值之和最小得到参数的估计，因此估计量不容易受到异常值的影响，从而估计更加稳健。普通最小二乘估计分位数回归估计基本思想设法使所构建的方程和样本之间的距离最短向普通最小一乘估计方法目的.借助数学模型对客观世界所存在的事物间的不确定关系进行数量化描写一问普通最小一乘估计方法.原理：以平均数为基准，求解最短距离.以不同的分位数为基准，求解最短距离算法最小一乘法加权最小一乘法前提假设独立、正态、同方差独立假设要求强假设弱假设检验类型参数检验非参数检验承载信息描述平均的总体信息充分体现整个分布的各部分信息极端值无法考虑极端值的影响可以充分考虑极端值的影响异力专影响大影响小拟合曲线只能拟合一条曲线可以拟合一簇曲线计算方法求偏导解行列式，算法完备自助方法估计标准误差，多种算法求解目标函数4.7.2系数协方差的估计一般地，分位数回归的系数估计量渐近服从正态分布，其渐近协方差依据模型的不同假定而具有不同形式。渐近系数协方差的计算在分位数回归分析中非常重要，有三种估计方法：1.独立同分布设定下协方差矩阵的直接估计方法(1)Siddiqui 差商法(2)稀疏度的核密度估计量2.独立但不同分布设定下协方差矩阵的直接估计方法(Hubert sandwich)3.自举法(Bootstrap)(1)x-y自举法(2)残差自举方法(3)马尔可夫链边际自举法在E Views中进行分位数回归1.方法选择为了使用分位数回归方法估计方程，在方程设定对话框的估计方法中选择“QREG”，打开分位数回归估计对话框:Equation Estimation区ISpeci ficationOptionsEquation specificationDependent variable followed by list of regressors OR linear equation like Y=c(1)+c C2)*X.0.5Estimation settings Method：Sample：确定取消 1“Quantile to estimate”后面输入值,可以输入01之间的任意数值,默认值是0.5,即进行中位数回归。例4.10分位数回归利用例3.1的消费和收入数据，我们建立如下的回归方程研究政府支出对居民消费的影响：ln（以）=A+A In（讥耳）+A（cst-）+A A-i）（4.7.44）其中，cs为实际居民消费，加c为实际可支配收入，%为财政支出,考虑到财政政策通常具有时滞的特点，模型中采用滞后一期的财政支出作为解释变量。所有变量均为剔除了价格因素的年度数据,样本区间为19782006年。为了进行比较，我们同时给出最小二乘法以及三个不同分位点的分位数回归估计结果（见表4.4）。OLS估计结果:Equation:EQ_4 10 OLS Torkfile:4 10:3 目回view NPro do bjecH【Print 岫me Freeze Estimate 1ko recast回丽Resids Dependent Variable:LOG(CSP)Metho d:Least Sq uaresDate:09/21/09 Time:08:47Sample(adjusted):1979 2006Included o bservatio ns:28 after adjustmentsCo efficientStd.Erro rt-StatisticPro b.c0.2828240.0489505.7778610.0000LOG(INC)0.4660890.0645647.2189720.0000LOG(CSP(-1)0.4705840.0621717.5691720.0000LOG(FEP(-1)0.0267580.0161941.6523570.1115R-sq uared0.999288Mean dependent var8.536631Adjusted R-sq uared0.999198S.D.dependent var0.604396S.E.o f regressio n0.017111Akaike info criterio n-5.166578Sum sq uared resid0.007027Schwarz criterio n-4.976263Lo g likeliho o d76.33210Hannan-Quinn criter.-5.108397F-statistic11220.30Durbin-Wats o n stat1.957044Pro b(F-statistic)0.000000分位数回归估计结果:Dependent Variable:LOG(CSP)Metho d:Quantile Regressio n(tau=0.2)uaie.uwz i/uo i nue.uo.qdSample(adjusted):1979 2006Included o bservatio ns:28 after adjustmentsHuber Sandwich Standard Erro rs&Co varianceSparsity metho d:Kernel(Epanechniko v)using residualsBandwidth metho d:Hall-Sheather,bw=0.18828Estimatio n successfully identifies uniq ue o ptimal so lutio nuuyuiuiuniSid.Erro r C4 一，-：一 1-OldUbllUPro b.c0.2095580.0752572.7845470.0103LOG(INC)0.4853830.1082084.4856300.0002LOG(CSP(-1)0.4381560.1039404.2154700.0003LOG(FEP(-1)0.0475700.0293631.6200650.1183Pseudo R-sq uared0.972919Mean dependent var8.536631Adjusted R-sq uaredu.yo yo j4S.D.dependent varXK.,U.DU4jyDS.E.o f regressio n0.029215Objective0.125904Quantile dependent var7.990470Objective(co nst o nly)4.649230Sparsity0.084695Quasi-LR statistic667.5910Pro b(Quasi-LR stat)0.000000表4.4最小二乘法和分位数回归结果系数估计结果OLSQuant20Quant50Quant80B。0.28(5.78)0.21(2.78)0.25(3.44)0.28(3.17)A0.47(7.22)0.49(4.49)0.38(2.33)0.45(2.93)agfA0.47(7.57)0.44(4.22)0.56(3.55)0.49(3.43)A0.027(1.65)0.048(1.62)0.034(1.196)0.026(0.82)，a或月0.9990.970.970.98注：括号内为弹性系数的t值；Quant20,Quant50,Quant80分另（J 代表20%,50%,80%分位数。三joo4xn从估计结果可以看出，对于不同的估计方法，居民实际可支配收入、前期消费水平两个变量的弹性系数变化不大。尽管在以往的研究中，政府支出对居民消费的影响还没有得出一致的结论，但是在本例中三种估计的结果表明政府支出对居民消费的弹性值均为正，说明在我们所分析的样本区间内政府支出与居民消费之间是互补的，政府支出的增加有利于加强基础设施建设和提高社会保障水平，使居民减少储蓄，尤其是预防性储蓄，从而增加消费。最小二乘估计给出的是政府支出对消费的平均影响效果，而分位数回归给出的是消费处于不同分位水平时，政府支出对居民消费的影响。在20%,50%和80%的分位点上政府支出的弹性分别为0.048,0.034,0.026,并且后两个水平的估计是不显著的，说明当消费水平较低时，政府支出的影响相对较大，而对于较高的消费水平，政府支出的影响变小，并且是不显著的。因为当消费水平较高时，进一步提升的空间变小，政府支出对其影响也变小。例3.6：工资差别为了解工作妇女是否受到了歧视，可以用美国统计局的“当前人口调查”中的截面数据研究男女工资有没有差别。这项多元回归分析研究所用到的变量有：W 雇员的工资（美元J、时）若雇员为妇女SEX-.0;男性ED 受教育的年数AGE雇员的年龄,1；若雇员不是西班牙裔也不是白人NONWH=、0;其他T；若雇员是西班牙裔HISP=：0;其他对206名雇员的样本所进行的研究得到的回归结果为(括号内是t统计量的值)：人W二1 0.93-2.73 SEX(22.10)(-3.86)R2=0.068 D.W.=1.79反映雇员性别的虚拟变量SEX在显著性水平1%下显著。因为工资的总平均是960美元，该虚拟变量告诉我们，妇女的平均工资为812美元，或比总平均低1.48美元。Dependent Variable:W Metho d:Least Sq uares Date:09/10/09 Time:15:41 Sample:1 206Included o bservatio ns:206W=C(1)+C(2)*SEXVariableCo efficientStd.Erro r t-StatisticPro b.C10.933530.494699 22.101360.0000C-2.7272380.706504-3.8601910.0002R-sq uared0.068072Mean dependent var9.596389Adjusted R-sq uared0.063504S.D.dependent var5.238212S.E.o f regressio n5.069161Akaike info criterio n6.093889Sum sq uared resid5242.063Schwarz criterio n6.126198Lo g likeliho o d-625.6705Hannan-Quinn enter.6.106956F-statistic14.90107Durbin-Watso n stat1.790377Pro b(F-statistic)0.000152表4.4最小二乘法和分位数回归结果系数估计结果OLSQuant20Quant50Quant80乐10.93(22.1)5.5(9.46)10.00(12.75)14.999(15.83)A-2.73(-3.86)-0.75(-1.04)-2.5(-2.66)-3.75(-3.29)所或尸0.0680.0080.030.08注：括号内为弹性系数的t值；Quant20,Quant50,Quant80分另U 代表20%,50%,80%分位数。4.7.3模型评价和检验1.拟合优度与传统的回归分析的拟合优度A2类似，分位数回归模型也可以计算拟合优度。在分位数回归中，参数估计是通过q（t|X,0（c）=x/（2）（4.7.29）得到的。将数据写为羽=（1,匕J,戍2）=（月,g卜这样式（4.7.29）可以写为q（，I 毛,少）=Bo +（4.7.30）最小化2分位数回归的目标函数（objective function）,得到V（r）=min 6工Phi-Bo-4状）（4.7.31）回归方程中只包含常数项情形下，最小化分位数回归的目标函数（objective function）,得到V（r）=min4）（4732）定义分位数回归方程的向achado拟合优度为*=1 0/R （4.7.33）RQ）位于01之间，?（乃越大说明模型估计的越好，反之“（为越小模型估计越差。可以看出，这与用普通最小二乘法估计的传统回归方程中定义的拟合优度用类似，分位数回归拟合优度的计算是基于分位数回归方程目标函数的最小值与只用常数项作为解释变量时的分位数回归方程目标函数最小值的关系。2.拟似然比检验(Quasi-LRTest)定义以下两个检验统计量：2伍)t(1-r)5(r)(4.7.34)八。=万蜒伍在”)Q.7.35)其中，叱”)和R.)分别是无约束的和对原方程施加夕个约束条件后，分位数回归的目标函数最小值。(米和这两个统计量都渐近服从自由度为夕的分布。分母中的s(是稀疏度值，在分位数回归的冗余变量检验、遗漏变量检验中将都用到拟似然比检验的和amg统计量。3.分位数过程检验(Quantile Process Testing)有时候，我们不仅对某个分位数回归感兴趣，而是希望对不只一个分位数回归的系数进行联合检验，比如下面将要研究的检验斜率系数是否相等，即不同分位数回归计算出的斜率系数是否相等，类似这种问题需要同时估计多于一个分位数回归，这种分析称为分位数过程(Quantile Process)分析。定义过程系数向量：)，/()(4736)(1)斜率相等检验(Slope Equality Testing)Ho：(%)=力氏)=,=/(&)，i=l,2,-,p-l(2)对称检验(Symmetry Testing)如果对于给定的x,y的分布是对称的，则应该有：(夕+少(1 幻)/2=/?(1/2)(4.7.42)具体而言，假定分位数过程包含了s个分位数回归，这里s 是奇数，中间值%+i)/2为0.5,并且丐=1-j=1,2,(s-l)/21则对称检验的原假设为：H。(%)+做_7.+1)/2=/?(1/2)(4.7,43)J=l,2,，(s 1)/22.分位数回归的输出结果例4.10的结果输出如下似0.2分位数的估计结果为例）:Dependent Variable:LOG(CSP)Metho d:Quantile Regressio n(tau=0.2)Date:09/21/09 Time:08:49Sample(adjusted):1979 2006Included o bservatio ns:28 after adjustmentsHuber Sandwich Standard Erro rs&Co varianceSparsity metho d:Kernel(Epanechniko v)using residualsBandwidth metho d:Hall-Sheather.bw=0.18828Estimatio n successfully identifies uniq ue o ptimal so lutio nCo efficientStd.Erro rt-StatisticPro b.c0.2095580.0752572.7845470.0103LOG(INC)0.4853830.1082084.4856300.0002LOG(CSP(-1)0.4381560.1039404.2154700.0003LOG(FEP(-1)0.0475700.0293631.6200650.1183Pseudo R-sq uared0.972919Mean dependent var8.536631Adjusted R-sq uared0.969534S.D.dependentvar0.604396S.E.o f regressio n0.029215Objective0.125904Quantile dependent var7.990470Objective(co nst,o nly)4.649230Sparsity0.084695Quasi-LR statistic667.5910Pro b(Quasi-LR stat)0.000000输出结果的上方显示了设定的内容，本例中设定用“Huber Sandwich”方法估计系数协方差，用“Siddiqui(mean fitted)”方法得到稀疏度，用HalLSheather”方法计算带宽。下面显示了系数估计值、标准差、，检验值和相应的。值。最下方显示了拟合优度和调整值、稀疏度数值、目标函数的最小值(“objective”)、仅包含常数的目标函数的最小值(Objective(const,only)x因变量序列的经验分位数(Quantile dependent var”)、拟似然比检验值(uQuasi-LR statistic59)和相应的 p 值(Prob(QuasLLR stat)”)等。3.分位数回归中的视图和过程分位数回归中的多数视图和过程都与用OLS法估计的方程对象中提供的功能相同，但有些地方还是值得注意，如冗余变量检验、遗漏变量检验和“Ramsey RESET”检验将都用到拟似然比检验。而在分位数过程(“Quantileprocess)里，提供了分位数回归中特有的三个功能：过程系数(Process Coefficients55)、斜率相等检验(41 Slope Equality Test)和对称检验(“Symmetric Quantiles Test”)。(1)Process Coefficients55：通过这个功能可以同时观察多种分位数设定下的系数估计结果。可以选择结果输出(output)的显示方式,即表格(table)或者图形(“graph)，默认状态是以表格形式显示系数估计值、标准差、，检验值和p值。如果选择以图形的方式显示，需要指定置信度，默认状态是95%。下面一栏中可以设定在何种分位数下估计模型，系统默认数值是10分位数，即对因变量的10%、20%、一直到90%分位数情形分别估计系数，如果输入20,则对因变量的5%、10%、一直到95%分位数情形分别估计系数。（2）Slope Equality Test”：这个功能用来检验因变量的不同分位数回归估计中斜率系数是否相同。默认状态下，只比较25%、50%、75%三种情形，当然也可以自行设定。（3）ctSymmetric Quantiles Test”检验对称的分位数回归估计出来的系数的平均值是否与中位数回归的系数估计值相等。例36：工资差别检验因变量的不同分位数回归估计中斜率系数是否相同。Equation:EQ_QR_05Torkfile:3_6:LvageMew Proc o bject(PrinH|Nr me Freeze)Estimate Fo recasl)Xats Resids Quantile Slo pe Eq uality TestEq uatio n:EQ_QR_05Specificatio n:W=C(1)*C(2)*SEXTest SummaryChi-Sq.StatisticChi-Sq.d.f.Pro b.Wald Test9.79059120.0075Restrictio n Detail:b(tau_h)-b(tau_k)=0Quantiles Co efficientRestr.ValueStd.Erro rPro b.0.25.0.5 C(2)0.5,0.751.4997392.1789080.7994171.0016370.06060.0296Ho:济(?1)=。”2)=B”k)，i=l,2,，p-l 此例拒绝原假设,不同分位数回归斜率系数不相同。

展开阅读全文