九定类或定序因变量回归分析.ppt

资源描述

第九讲定类或定序因变量回归分析 1.n 线性回归模型在定量分析中广为流行，然而当因变量是一个定类变量而不是一个连续变量时，很难应用线性回归模型。n 如政治学中研究是否选举某候选人，经济学研究中涉及的是否销售或购买某种商品，如在社会学和人口学研究中所涉及的如犯罪、逃学、迁移、结婚、离婚、生育、患病等等都可以按照二分类变量或多分类来测量。n 又如在研究态度与偏好等心理现象时也经常按几个类型进行测量的，如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。n 另外，有时对一些连续变量也要转换成类型变量，如在分析升学考试的影响因素时，将考生分为录取线以上和录取线以下，只要选定一个分界点，连续变量便可以被转换成定类变量。一、问题的提出2.n 从统计理论上看，在进行最小二乘法的参数估计时，我们仅仅关注残差项的分布，很少对因变量Y所服从的分布予以关注，实际上,我们拥有Y的信息要远远大于拥有残差项的信息。n 因变量Y服从正态分布的推断来源于残差项服从正态分布，因为Y 是残差项的线性函数。事实上，社会经济现象往往有不同于正态分布的其他分布，例如：n（1）二项分布（binomial distribution）n（2）泊松分布（Poisson）3.二、线性概率模型n1、模型建立 n 以最小二乘法为基础的线性回归方程是估测因变量的平均值，而二分变量的均值有一个特定的意义，即概率。用普通线性回归方程估测概率，就是所谓的线性概率回归。用公式表示为：nP=a+i iXi+n 对二项分布线性概率模型的结果解释：n 在其他变量不变的情形下，x每增加一个单位，事件发生概率的期望将变动个单位。n 例如，林楠和谢文（1988）曾用线性概率模型估测入党（政治资本）的概率，模型为：nP=-0.39+0.01A+0.04E+0.03Un 其中：P党员概率，A年龄，E受教育年限，U单位身份n 4.2、线性概率模型存在的问题 n1）异方差性 n 普通最小二乘法假设残差项的方差是相同的，但二项分布的方差为 p（1-p），这意味着方差是中间大，两边小，所以方程中残差项的方差不可能恒定。n2）非正态性n 在给定自变量x条件下，是y的预测值与实际值的离差。由于y仅仅有0和1两个值，误差项要么等于，或者很明显，该误差项不是正态分布。n3）无意义的解释n 从解释力上看，由于概率的值是有边界的，在0与1之间。但林楠方程很有可能要超过该限制，因变量的估计值可能是负数，也可能大于1，因此模型的结果是无意义的。例如，运用林楠方程，我们发现如果年龄为100岁，受教育程度超过10年，则入党的概率约等于1。n4）非线性关系5.三、简单对数比率回归 1、模型建立n 既然用线性概率回归存在以上两个方面的局限性，我们能否用比率做因变量呢？n 比如用男女比率作因变量，用成功与不成功之比做因变量。用比率做因变量可以建立估计方程，但存在的问题是，比率是非对称的.n 一个简单的解决办法就是取对数，结果就是所谓对数比率（logit)。若用P代表某事件的概率，则对数比率函数的定义为ng（P）=log（P/1-P）n 以对数比率为因变量对自变量X1，X2，X3做回归称为对数比率回归（logistic regression），其方程式为：n 6.表1 概率、比率和对数比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099对数比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.607.该模型即为logit回归模型。logit回归模型实际上是普通多元线性回归模型的推广，但它的误差项服从二项分布而非正态分布，因此，需要采用极大似然估计方法进行参数估计，参数称为logit回归系数，表示当其他自变量取值保持不变时，该自变量取值增加一个单位引起的发生比自然对数值的变化量。8.2、发生比n 发生比是事件的发生频数与不发生频数之间的比，即：nOdds=(事件发生频数)/（事件不发生频数）n n 当比值大于1时，表明事件更有可能发生。比如一个事件发生的概率为0.6，事件不发生的概率为0.4，发生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5倍。9.n四、极大似然估计的基本思想n1)概率问题n 例1、假定我们要估计一样本中男性的发生概率。以s表示样本中男性的数量；N是样本规模；是总体中男性的概率（=0.5 ）。n根据贝努利公式：n其中k!=k(k-1)2.1n10个样本中有3个男性的概率为：n n 如果我们已知样本中s、N及其概率分布的信息，需要估计总体特征，则需要借助极大似然估计法来完成。极大似然估计ML就是估计这样一个参数值，由于该参数的存在可以使得被观察的事件最有可能发生。10.n 2)似然函数n 当已知N 和，求s发生的可能性有多大，所建立的函数，称为概率函数。而当已知N 和s，求发生的可能性有多大，所建立的函数，称为似然函数。n 二者的差异：第一、前者是在参数已知下的数据的函数，后者是在数据已知条件下的参数的函数。第二、参数值是由可能性最高的值决定，我们称该值为极大似然估计。n nL（/s=3,N=10）=n 由于极大似然估计就是估计参数值，使得样本发生的可能性最大，故求最大化的前提是对上式求偏导：11.解得上式可以得到的估计值为0.3 12.例2，运用极大似然估计法估计泊松分布中参数n概率密度函数为：n似然函数为：nLi(/yi)n假定观察值是独立的，样本的似然函数就是个体似然函数的乘积。nLi(/yi)=L1*L2*Lnn =Li13.LnL=-N+yiln()-ln(yi!)lnL/=-N+yi/=yi/N14.例3、运用极大似然估计法估计正态分布中的参数 n设变量X为具有平均数，方差的正态变量，这里和为未知参数。试由样本观察值X1，X2Xn估计平均值和方差。n 解：由最大似然法得下述似然函数：n 15.例3、估计logistic回归模型中的参数n由于logistic模型是二项分布，其似然函数为：n n L=16.n 通过三个例子的比较，我们可以看出在线性回归中，似然函数是通过对似然方程求偏导数得到的，对于未知参数是线性的，容易求解,但是对于logistic回归，似然函数是和的非线性函数，求解比较困难，需要借助于计算机，通过迭代计算完成。n 最大似然估计与OLS估计的统计性质几乎完全相同，即具有一致性、渐进有效性和渐进正态性。一致性是指当样本规模增大时，模型参数估计逐渐向真值收敛，即估计将近似于无偏。所谓渐进有效性是指当样本规模增大时，参数估计的标准误相应缩小。所谓渐进正态性是指随着样本规模增大，最大似然估计值的分布渐进于正态分布。17.五、logistic回归模型及参数估计的评价n1、Logistic回归模型估计的假设条件第一、数据来自于随机样本。n第二、因变量Yi被假设为K个自变量Xk（k=1，2，K）的函数。n第三、正如OLS回归，logistic回归也对多重共线性有所限制，自变量之间存在多重共线性会导致标准误的膨胀。n Logistic回归模型还有一些与OLS回归不同的假设。第一，因变量是二分变量；第二，因变量和各自变量之间的关系是非线性的。18.2、拟合优度检验模型参数估计完成以后，需要评价模型是否能够有效地描述了观测数据。如果模型的预测值能够与对应的观测值有较高的一致性，就认为这一模型能够拟合数据。否则将不能接受这一模型，而需要对模型重新设置。因此，模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。1）皮尔逊卡方检验皮尔逊卡方检验主要用于检验残差项的大小。计算公式：其中yi是观察值（0或1），pi是估算值的概率，i=1，2n，分母是估算值的标准差，自由度为n-J-1，其中J为自变量数目。19.2）、Hosmer-Lemeshow 拟合优度检验该方法通常适用于自变量很多，或自变量为连续变量的情形。HL方法根据预测概率的大小将所有观察单位十等分，然后根据每一组中因变量的实际值与理论值计算Peason卡方，其统计量为：n其中G 代表分组数，且G 10；ng为第g组中的观测值数；yg第g组事件的观测数量；pg为第g组的预测事件概率；ngpg为事件的预测值，实际上它等于第g组的观测概率和。20.n3）对数似然比卡方检验n 对数似然比是用较复杂模型的似然与基本模型的似然进行比较。因为是非常小的数，通常将似然取对数并乘以-2，即-2logL，简称对数似然。n通常基本模型以独立模型表示：n n用L0表示独立模型的似然，L1表示非独立模型的似然，那么对数似然比定义为：n遵循卡方分布，其自由度为非独立模型的自变量数目，可用于检验复杂模型中自变量对似然率的增加是否显著，越大越好。21.3、logit模型回归系数的假设检验n设原假设H0为：k k=0，表示自变量对事件发生的可能性无影响；如果原假设被拒绝，说明自变量对事件发生的可能性有影响。nWald检验n在logit模型中，对回归系数进行显著性检验，通常使用Wald检验，其计算公式为：n n Wald 统计量实际上就是正态分布Z 统计量的平方。在零假设条件下，每一个回归系数都等于0。Wald统计量服从卡方分布，其自由度为n-k-1。22.六、模型解释n 由于logit模型是非线性的，因此不能以传统回归模型中自变量与因变量之间的关系解释之。通常以发生比率来解释logit回归系数n n 截矩项通常被作为基准发生比的对数，表明当回归模型中没有任何自变量时所产生的发生比。或者说，是在所有自变量都取0值时所产生的发生比。23.预测概率n 将系数估计和自变量值代入logistic函数，便可得到预测概率的公式：24.练习：二分变量logit 回归模型的实证分析英国国会权力下放后的国民身份认同感分析n1、题目内容：本文分析的数据来自1999和2001两年分别在英格兰、威尔士和苏格兰三地的跨地区对比调查，包括5298个观测值。2000年英国国会将权力下放给新成立的威尔士议会和苏格兰国会，此研究通过对比权力下放前和下放后国民身份认同感的变化，反映权力下放带来的影响。n2、变量包括：性别、年龄、权力下放前后（Year）、居住国家、宗教信仰（RELIG）、教育程度、社会阶级、地区认同感（Minorid）。n3、解题思路：我们所关心的最重要的问题是：权力下放后，人们的地区认同感是否降低？本节是以地区认同感（Minorid）作为因变量，来看其他变量对其影响。25.七、多项对数比率回归n 我们研究的现象常是多分类的，如职业的选择等，这时需要用多项对数比率回归处理。n 多项对数比率回归是简单对数比率回归的扩展，由一组对数比率方程组成。n 常用的做法是基准类比法，即先选出基准类，然后将它的概率与其它各类的概率进行对比。n 假如要研究一个或一组自变量X如何影响人们对J类职业选择，用P1，P2Pj表示各类职业的概率，那么多项对数比率回归就可表示为:26.需要注意的是：1)就系数解释和检验而言，多项对数比率回归和简单对数比率回归相同。2)方程组在统计上不独立，必须同时估算，不可一一求解。27.nSPSS上的应用：n1）AnalyzeRegressionMultinomial Logistic n2）Dependent用于选入无序多分类的因变量n3）Factor 用于选入分类自变量，可以是有序或无序多分类，系统会自动生成哑变量。n4）Covariates用于选入连续型的自变量。n选择系统默认值，点击OK钮，运行所选命令n5）结果解释n 数据汇总与模型的似然比检验。n 拟合优度检验（Pearson，Deviance检验）。n 参数估计结果。28.八、定序变量对数比率当因变量是定序变量，变量值之间具有高低之分时，在设计logit模型时，就应考虑到其中所包含的信息。通常有三种处理方法：邻类比、升级比和累进比。n1、邻类比邻类比是将所有相邻两类的概率两两相比，如果变量含有J个有序类别，就可得到J-1个不重复对数比率方程。假如用P1，P2Pj表示一个定序变量由低到高各级类别的概率，设X是一个或一组自变量，那么对数邻类比回归就是：29.n 对于定序变量，常常假设升级的作用是一样的，即在方程组中，各个方程的斜率项是相同的，1 1=2 2=j-1 j-1,上式可表示为：30.2、升级比n 用P1，P2，Pj表示一定序变量由低到高各级类别的概率，那么对数升级比回归就是：31.n 书中的例子是关于性别与高升学率的关系。将学校依等级高低分为小学、初中、高中和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比率，还应包括大学毕业生，因为他们也完成了初中到高中的升级过程。n 升级比在统计上是各自独立的，因而可以照简单对数比率回归一一估算。加总各独立升级比率回归的对数似然比和自由度，即总模型的对数似然比和自由度。32.对数升级比回归的编码示例教育程度升小学升初中升高中升大学小学以下0-小学以下0-小学以下0-小学10-小学10-小学10-初中110-初中110-初中110-高中1110高中1110高中1110大学1111大学111133.3、累进比34.对数累进比率回归示例收入等级分析（Nee 1991）自变量模型（1）模型（2）进顶层P1/(p2+p3)避免底层（p1+p2)/p3进顶层P1/(p2+p3)避免底层（p1+p2)/p3截距-.525*.865*-8.244*-3.500*教育-.238*.155*户首年龄-.207*.127*户首年龄平方-.002*-.001*成年劳动力-.613*.242*子女数目-.214.204*现任干部1.515*1.470*1.2631.192前任大队干部1.205-.128.810-.554前任小队干部1.339*.930*1.302*.965*企业家1.697*.905*1.346*.776*样本数576576521521-2logL1053.7869.2自由度81835.n若假设1 1=2 2=j-1j-1,则对数升级方程组可简化方程如下：nSPSSSPSS中的（ordinal logistic regression)ordinal logistic regression)就是截矩项都相等的累进比对数回归模型。36.nSPSS操作程序n1、选择logistic回归程序：n点击主菜单中的Analyzen然后点击Regressionn再点击Ordinal，屏幕上出现对话窗口n2、选定模型nDependent选择一个有序分类因变量。nFactor选择若干分类自变量。nCovariates用于选入连续型的自变量。n择系统默认值，点击OK钮，运行所选命令n结果解释n数据汇总与模型的似然比检验。n拟合优度检验（Pearson，Deviance检验）。n参数估计结果。37.

展开阅读全文