收藏 分销(赏)

解释概率模型Logit-Probit以及其他广义线性模型.ppt

上传人:快乐****生活 文档编号:1864624 上传时间:2024-05-10 格式:PPT 页数:56 大小:5.51MB
下载 相关 举报
解释概率模型Logit-Probit以及其他广义线性模型.ppt_第1页
第1页 / 共56页
解释概率模型Logit-Probit以及其他广义线性模型.ppt_第2页
第2页 / 共56页
解释概率模型Logit-Probit以及其他广义线性模型.ppt_第3页
第3页 / 共56页
解释概率模型Logit-Probit以及其他广义线性模型.ppt_第4页
第4页 / 共56页
解释概率模型Logit-Probit以及其他广义线性模型.ppt_第5页
第5页 / 共56页
点击查看更多>>
资源描述

1、解释概率模型主讲人:xxx2018.12.171目录4123876549介绍广义线性模型和对其系数的解释二分的logit和probit模型序列logit和probit模型有序logit和probit模型多类别logit模型条件logit模型泊松回归模型总结2一、介绍 在社会学家的工具箱里,最基本的统计方法就是对一个连续的线性的因变量(或者可以转化成线性的)进行回归分析。然而很多社会科学家研究的对象是无法用经典的回归模型来分析的,因为很多的态度、行为、特点,决定以及事件(无论本质上是连续的或者不连续的)是用离散的.虚拟的、序列的或者简单来说,非连续的方法来测量的。划分处理此类数据的一些统计模型常

2、常根据数据的种类来代表和讨论,比如“二分数据分析”、“序列数据分析”、“类别数据分析”或者“离散选择分析”,或者作为一个特别的模型,比方说logit或者probit 模型。这些相关联的统计方法的共同特点就是它们都是对某事件的概率来建模。因此,在本书里,我将所有分析事件概率的统计模型统一称为“概率模型”。我们讨论的概率模型包括二分的,序列的,有序的logit和probit,多类别logit,条件logit,以及泊松回归模型。由于解释上的一些困难,有些社会学家对于这些概率模型存有疑虑,由此导致他们逃避选择这种概率模型,转而选择一些更加熟悉却未必合适的方法,比如线性回归。本书的目的就是展示如何解释从

3、各种概率模型中得出的结果。3二、广义线性模型和对其系数的解释45三、二分的logit和probit模型6logit模型7解释logit模型我们基于这样一个例子做解释8对或转化后的的边际效应9对或转化后的的边际效应利用这种解释,控制了其他条件后,白人发生性行为的比数是黑人的0.269倍。这个估计值比我们之前计算出来的观察到的比数比0.282略低。如果在模型里包括了性别和种族的相互作用的话,观察到的和估计出来的两者之间的比数比的差就会消失。10给定自变量后的预测概率这些预测的概率告诉我们每一组里面有多少成员有过性行为,给出了一个简单、直观的理解。基于logit 模型,预测大约55%的黑人男性有过性

4、行为,白人女性青少年有过性行为仅为大约15%。11发生某事件概率的边际效应我们去看解释变量对发生某事件的概率所带来的边际效应。可以用下面的等式来表示:12Probit模型Probit关系模型:概率表示:13解释Probit模型14给定自变量后的预测概率与logit模型进行对比,预测概率基本相同,结论相似。对某事件的边际效应与logit模型解释类似,并且对于二分变量来讲,仍然会夸大边际效应。probit模型计算的预测概率如下:15对比两个模型有很多相似之处,在大部分情况下,这两个都能给出一样的结论。实际上,我们可以把从一个模型得出的估计结果转换到另外一个模型得出的估计结果。如果我们把probit

5、估计乘以一个数,就可以得出一个对应着logit估计值的近似。这个数值一般被认为是/3=1.814(Aldrich&Nelson,1984)。雨宫(Amemiya,1981)认为,值为1.6更接近真实数值。最准确的值其实是在这两个值之间或接近这两个值。在一些特殊情况logit和probit模型得出的估计是差得非常远的,这样就一定要去考虑使用最合适的模型了。对于尾端比重很大的分布来说,我们更应该考虑logit模型。16四、序列logit和probit模型有时,一些因变量的结果是多样的,但它们并不是一些完全离散的毫无关联的类别。这些反应的类别可以看做一系列阶段。晚期的响应是嵌套在早期的响应里面的。例

6、如,结婚的决定是分两个阶段的:一个人是否计划结婚,然后就是这个婚姻是否会在结束了某种教育程度之前开始(例如完成高中或者大学学历)。y=1,如果某个人没有完成高中教育y=2,如果某个人完成高中但没有完成大学教育y=3,如果某个人完成了大学教育但没有一个专业学历y=4,如果某个人拥有一个专业学历17相对应的概率:18有时候,所得的结果并不仅仅是很有序地分布在决策树的某一个分支上。马达拉(Maddala,1983)讨论了克拉格和尤勒(Cragg&Uhler,1975)关于私家车需求的研究模型,提供了另外一种做决定的次序。模型包括了一系列二分的选择:y1=1,如果此人购买了一辆新车y1=2,如果此人没

7、有购买新车y2=1,如果此人购买了一辆新车去代替原来的旧车y2=2,如果此人购买了一辆新车还保留原来的旧车y3=1,如果此人没有购买新车但卖掉了旧车y3=2,如果此人既没有购买新车也没有卖掉旧车19这里有四个值得关注的概率:P1=换了一辆车的概率P2=增加一辆车的概率P3=卖掉一辆车的概率P4=没有任何改变的概率20相对应的概率21在这个序列模型里,关注的概率表达为:22序列logit模型特点:其中每一个阶段都有一个二分的logit模型。序列模型里面很重要的一点就是,选择的概率在每一个阶段都应该与在其他阶段里面的选择概率互相独立。即结果y1,y2等都应该在概念上和统计学上互相独立。同时,假设的

8、整个次序也可能是根据理论所搭建出来的模型之一。例如,研究者也许会假设一个市民决定是否会进行投票,然后再去决定选择某一个候选人,但是这个次序反过来也是可行的,因为这两个决定很可能是同时或者互相交叉着做出的。2324对或转化后的的边际效应 无论是否转化过,序列模型在每一个阶段都有它自己的。因此,对或者转化过的的边际效应都要分别针对每一个阶段分开解释。因此这和对于某个阶段的特定二分logit 或probit模型的解释是一样的。给定自变量后的预测概率2526发生某事件概率的边际效应2728五、有序logit和probit模型第4章里面介绍的模型I只是处理了一种多选项的回答序列回答。有些回答的分类的确是

9、有顺序的,但却没有某种特定间隔。社会科学里面包括工作技能水平、教育获得的水平.雇佣状态(失业,兼职,全职)。这样的回答通常都被编码为0,1,2,3等(或者1,2,3,4等)。在这些回答选项之间可以看出一一个清楚的排列,但是每两个不同的相邻类别的回答却很难被认为是平均的或者相等的。这一类可排序的回答选项无法简单地用经典的回归来建模。普通线性回归不太合适,因为因变量无间距的特性选项之间的间隔没有唯一的尺度。而且,尽管下一章里面多类别logit模型可以拿来用,却无法表现出这个因变量有顺序的特性,因此也就无法利用因变量里面所有可用的信息。因此在分析此类数据时,广为应用的是有序logit 和probit

10、模型。2930模型类别概率:有序Probit模型5.4第一个阈值参数常态化为0,没有这种常态化,因为阈值总是比类别的数目少一,我们需要估计J-1个。常态化后,我们只需估计J-2个。31有序logit模型在logit的情况下,我们有:对比:有序logit和probit模型的区别仅仅是它们分布函数的区别3233在上的边际效应 格林讨论了一个用有序probit模型的估计看海军新兵的任务安排。因变量是一个有序的回答,分成三类,海军新兵被分配到的任务是“中级技巧性的”“高级技巧性的”和“特级技巧性的”。这里只有一个估计值,因为第一个被常态化为0之后J一2=3-2=1。让我们来看一看两个决定因素的影响一个

11、是二分变量,另外一个是连续变量。婚姻状态对分配任务的影响教育对分配任务的影响婚姻状况的logit 估计值大约是-0.768。将其取自然指数得出0.464,也就是对比数上的估计的影响。这个边际效应说明对于人伍时已婚的人来说,在其他条件一样的情况下,分配给他们特级技巧性任务而非高等或者中等技巧性任务的比数大约是未婚人士分配到此类任务的0.464倍。类似地,已婚新兵被分配到一个特级技巧性任务而非高级或者中级技巧性任务的比数是未婚的0.464倍。新兵自身教育logit估计的值是0.304,取了自然指数之后对应的比数就是1.355。保持其他所有的条件不变,教育每增多一年,分配到一个高级技巧性的或者特级技

12、巧性的而非中级技巧性的任务的比数就增加1.355倍。在相同条件下,教育每增长一年,得到一个特级或者高级技巧性任务是得到一个中级技巧性任务的比数的1.355倍。34给定自变量后的预测概率35发生某事件概率的边际效应对事件概率的边际效应:利用上面的公式我们可以得到在这个例子中的边际效应如右图所示可以看出:AFQT得分,用偏导数和用预测概率差两个方法都能给出基本相同的结果。(AFQT是连续变量);如果计算入伍时的婚姻状况可以看出,用两种方法计算出被分配到高级任务的概率减少了大约相差5%。(入伍时的婚姻状况是二元变量)在有二分自变量的时候,使用偏导数的方法产生的偏差不容忽视。预测的概率加起来不变(等于

13、1)说明了对概率的影响是零和博弈。通过在不同类别上造成的影响的互相抵消,对概率造成的边际效应加起来应该是零。36六、多类别logit模型第4章和第5章讨论的分析多种回答选项的模型里,这些回答选项要么有一个固有的顺序,要么就有一个很自然的次序。但是在其他多项的选择模型当中,因变量的类别是绝对离散的、名义的,或者没有顺序的。当数据属于或者被认为属于这一类,就应该使用多类别logit模型。有时我们不确定选项分类是不是有序的或者序列的。如果不确定,都要使用多类别logit模型。多类别logit模型:6.16.237等式6.1和等式6.2可以推出如下:多类别logit的关系函数:二分logit模型和多类

14、别logit 模型之间惊人的相似意着:1.一个多类别logit模型里面的概率可以用类似二分logit模型的方法来计算,仅仅是对很多套的处理要进行一些改变。2.此外,logit(比数对数)和比数的两者的含义在两个模型里面是完全一样的。在二分的情况下,比较是在类别1和类别2之间进行(或者第一个与最后一个)的。在多选项的情况下,比较是在类别j和类别J之间进行(或者任何两个类别,除了最后一个与最后一个)的。在使用多类别logit模型时,一个重要的问题就是在无关选择之间独立性的假设,或者称做IIA。简单来说,IIA的特性明确了每任意两个选择(回答类别)的概率的比例都不应系统性地受到其他任何选择的影响。这

15、是一个非常重要的前提假设,每当使用本章里面定义的多类别logit模型的时候,都要给予这个前提谨慎的考虑,如不满足我们就不应使用此模型。38解释多类别logit模型39对或转化后的的边际效应二分变量:婚姻状况连续变量:年龄对比为了避孕而进行了绝育手术和没有进行绝育手术,婚姻状况变量的估计值为-2.80。取指数后所得出的结果是0.061。相较不去绝育而言,未婚女性做避孕手术的比数只是已婚女性做这个手术比数的0.061倍40给定自变量后的预测概率我们可以根据等式6.1和等式6.2计算出预测概率,如右图,我们也可以画出概率的条形图如下图。41发生某事件概率的边际效应对涉及平方项的变量的边际效应:应用到

16、白人女性生育过子女的个数对绝育手术概率的边际效应可得右上图。与之前的序列logit模型和二分logit模型相比,仍然是一个零和博弈,即改变量的总和为零。42七、条件logit模型第6章里面讨论的多类别logit模型的一个变体是条件logit模型,处理的是特定选择的一些特性。在概率模型里,解释变量分为两类。到目前为止,所讨论的模型使用的解释变量对于任何回答选项来说都是一样的。人口学的变量,如年龄、种族和民族背景,性别和社会经济的变量,如教育、收入和职业,都不会由于个人所回答的选项不同而变化;它们的取值只在人与人之间产生变化。另外一种解释变量针对具体的选择,基于回答选项的不同,即使是同一个人,变量

17、的取值也不一样。条件logit模型第一次应用于对交通的研究,研究者们研究的是通勤人员去上班所选择的交通手段,例如机动车、地铁,当然也包括交通的特性,如通勤时间、花费,甚至是舒适度。针对某个具体的选择,这些自变量的取值都不同,这些全是某个或者其他选择的特性。当解释变量有讨论的那些特点时,我们就需要一个条件。条件logit模型:43模型条件logit模型估计的是一系列取决于选择种类的变量在一个没有顺序的回答类别上的影响。等式如下:7.1条件logit模型的logit形式:混合模型:44解释条件logit模型45对或转化后的的边际效应46给定自变量后的预测概率利用等式7.1和表7.1,7.2的数值,

18、计算出五种交通工具的概率如右图,其中较低的步行时间设定为0,0,10,0,10。较高的步行时间设定2,2,20,1,20。47发生某事件概率的边际效应右图仅仅了处理步行时间这个解释变量,为了表示其他变量的边际效应,我们需要再增加表格。这些边际效应实际上还是很吸引人的。对于走贝利桥的司机来说,如果一个经过贝利桥的私家车司机步行的时间增加1分钟,选择此交通方式的概率就会下降大约0.0067,相对来说,选择另外四条路线的机会就会升高,因为人们更可能选择其他方式了。搭私家车的乘客通过贝利桥的概率就会增加0.0012,乘坐渡轮的概率增加0.0046,通过利斯顿开车的慨率增加0.0001,通过搭巴士经过贝

19、利桥的概率增加大约0.0008。跟多类别logit模型一样,纵贯不同的回答类别的边际效应会互相抵消。48八、泊松回归模型有时,我们的因变量看上去是连续的,我们常常错误地使用多元线性回归来处理该问题,例如城市中的日犯罪量,在一个给定时间段里的某政治事件,比如总统选举,给定时间里发生的国际事件,以及新成立的社会组织等。所有这些都可以用一个正的数字来表示,而且这些事件都是比较少见的,并假设是通过泊松过程来获得的。对于这样的数据,一个泊松回归模型才是合适的。泊松分布的概率密度函数:泊松回归模型的一般表示:包含曝光变量的泊松回归模型:8.3大部分情况下,我们不能假设遭遇风险的人口或者观察的间隔是常数。很

20、明显,如果我们观察的时间足够长,罕见事件的数目也会更多。所以我们要包括一个固定的变量n,来反映在给定的泊松回归模型里暴露于此事件的量。称为曝光变量。(曝光变量应该至少比事件数量的变量大10到100倍)8.28.14950对或转化后的的边际效应上次的任命带来的影响常识告诉我们,之前任命太多次应该会降低新任命的可能。这一点从估计中-0.2184的值可以看出来。由厄尔默的数据知,过去的平均一年任命数量是0.5131。前六年任命的数量带来的影响是(0.5131)(-0.2184)=-0.1121,说明其他保持不变的情况下,在前六年里面每增加一个任命,会让今年任命的数量的期望值下降大约0.1121。军方

21、百分比增长的影响军方比例上升带来的影响比较有限。其他保持不变的情况下,人口中有军方关系的比例增加1%,会使得期望的任命数量增加大约0.0024,因为(0.5131)*(0.004626)=0.0024(军方增加的估计值除以100,因为表8.2给出的是一个百分点的变化)。但这只反映了1%的增加。51给定自变量值后的预测y值新政府成员51015202530预测数量0.1920.2390.2820.3160.3360.33852给定解释变量值后预测Y=y的概率某事件概率的边际效应:8.653九、总结54Thank you.感谢聆听,批评指导55此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服