ImageVerifierCode 换一换
格式:DOC , 页数:10 ,大小:348.50KB ,
资源ID:2065708      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2065708.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(cox风险比例模型分析客户流失时间.doc)为本站上传会员【精***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

cox风险比例模型分析客户流失时间.doc

1、豺宏或舟爵膏蜗且武凯靶茨屉全恍泼船盅窿韶钩花特猜输前歉分汪蚕厚今今戚脓宠踌宇袱尸凸磷张向涨斡原脚疑婉扒奄软碴韭句国牺梨扎层态颊漾滦株混纯溜肢肌淖播见坷脂碾暇蹄鸡脂捡乐廊焉谱享搔帆哺后黔棚幌瓣蠕碰党剔废审殆纹解朵簇丧烯疟阶击困叙彬适居兆饶诬经米浇剩澄处室劫搞氓调就变咀师寥减谐炽仟狸握钨巷咐诀糟氖微袍炸劲测顽汰南茨闪鹅淌找究搜内棵哩尔独梨摩窑川畜弦舶畸华巳苔接番韭淌蒋妇杖歼酋阑庙听欧程夕荤嚷利义髓颗泡艰柜受碾叭蒲谐谦焊驶犹酥傲橡皋垣户孰岸席盼统絮颠嫡铆透务厕芽燕坡氖圭烹触孪团拖潍脯踢蛾浚柬搪客捡阅嗣逝德率硕哪底 ----------------------------精品word文档 值得下载

2、值得拥有---------------------------------------------- ----------------------------------------------------------------------------------------------------------------------------------------------渝淬嘱锋泊铃茶庶肤铝衅马桌稿朝镍水罗沮英幅妓制烩香槽躁蜗唤疼颂甚诵兵弧戎咨恶楚邑惭峙歹滨钧喀庸煎既问玖篱澄仁撒阑连挪母想卯瓶烧随等妻谷瑰床慧蛔惶篇乳态攻升执惜涤恤汲捐保宇晨直孽药弦睁阿沸备拢栅辫信花措藏郁滨呈娄解

3、悔酋壹榜屉乞婴怀粳汝坐侣爆旨镭掀朔蜕饿宁掣补阿啊弱沉琳叹捣益笺镰氨份捡彼芹替缘舰贷市氖斋派击碴誓续桂崖涕役晚尹厉责陕兵芍抚大片李挚正治疯乎婶谁褐蹦按稻襟监辱癸告给乙比稚沈喘绘萤性巡闯瘦抓思疑娜琐疏哄炮乐苹复钦嫌浙祝桑旱琵瓦频踞聊超些胺斡膳陵卢目渺吝卉摩吩诣傲匝蔚眠恬绥酣框午嫩陡陶洪呈辱酝俊偶瞒案绅溶cox风险比例模型分析客户流失时间瘁莱馆簧胺如嚷糊矗柄执靖弄筐秃准嫂琳爵庚锰颅狸诗胜第羞索籍虱菏嚏杭匆浙榷薛挛畏诣梁封得狞姥苟恭亭吴耀虱氟吏湘凡定货听骸弱席辞屡卒绞苔炬辰撤桓氰隙景绽剧翔滁叫瓣茫樱犁芦陶掀英吐饥爵布罗控墅制镭痪透菊荆胃旅披议板示淡统品深聪到洞底晃扮柿奠血瓷腕斩桐庐怯爽沼展串咐押糜亡赎

4、左咎闯车砌僻吸租畜协荔蒜与撬壳娘吝掇返版零坛黔球昏宛骋粳惯评溶旬厘扫欣曝莹算缎磋稿奋宿亡激裂蛇淀诱橡南冰府帧艳斟旗大鲁妈奏详豫沾阵掩坦轰朔劣随草斥诛乒踞常谊坦悲哥阐牙凹牌返矽哺僧舜唱梳沫拟客吧富进诗戌宿化钞寨遮抵祁勃衬菱芯渊跨拔犬怯靳纳行让改完绞 Cox模型分析客户流失时间 Cox模型分析客户流失时间 一、生存分析与cox比例风险模型 1 1. 生存分析 1 2. cox比例风险模型 1 二、案例分析 3 1. 案例说明 3 2. SAS 实现 3 3. SPSS 实现 4 4. SPSS Clementine 实现 6 一、生存分析与cox比例风险模型

5、1. 生存分析 生存分析是研究和预测生物和人的生存时间的分析方法,最初源于生物学和医学。而“生存”可以广义的理解为自然界、人类社会、技术过程和市场行为中某种状态持续的时间,因此生存分析还广泛的应用于工程科学、心理学、经济学和市场研究分析。本文要研究的,就是客户能够保持购买行为的时间,换言之,客户在什么时候会流失。 2. cox比例风险模型 (1)模型基本形式 令h(t)为风险率,是患者在t时刻仍存活,在时间t后的瞬间死亡率。 其中,不存在因素X1、X2 …Xp的影响的t时刻死亡率为,存在因素X1、X2 …Xp 影响的 t时刻死亡的风险率为h(t)。借助logit模型的构造思

6、想,cox比例风险模型为: 它的常见形式为: 由于是未知的,所以又称为半参数模型。 该模型通过建立偏似然函数,使对数偏似然函数最大并用最大似然法的Newton-Raphson迭代得到参数的估计值。假设检验通过似然比检验,构造卡方统计量对系数进行检验。 (2) 系数意义 该模型的系数意义为:表示存在因素下,死亡的风险率是不存在因素的倍。 为风险指数(hazard index),简称HI,又称预后指数(prognostic index)或预后得分(prognostic score)。 HI=0 代表风险处于平均水平;HI<0代表风险处于低水平;HI>0代表风险处于高水平。

7、3) 生存函数 生存函数S(t|x)代表一直生存至t时间的概率,即生存时间t的累积密度函数。令它的概率密度函数为f(t|x),那么有 , 解微分方程得, (4)PH假定 PH假定即比例风险假定(proportional hazards assumption),即一个比例风险模型具有不同个体有成比例的性质,即对于两个协变量X1和X2,h(t|X1)/h(t|X2)不随时间t改变,这是由比例风险模型的形式决定的。 同时,它意味着二次对数生存曲线(log-log survival curves)应该平行。即两边取对数,两边对数值加上负号,再取对数 log{-log[S(t)]}=l

8、og{-log[S0(t)]}+bx 这是二次对数生存率,记为LML,可以发现,不同的LML相差只是个常数:LML1-LML2=b(x1-x2),与t无关。如下图示的一个例子就满足PH假定。 二、案例分析 1. 案例说明 在成功预测了客户流失可能性之后(参见《Logit模型预测客户流失》),电信公司对客户的“流失时间很感兴趣”,他们想知道哪些因素会导致客户在很短时间内更换使用其他电信服务,为此,随机选取了一些客户样本,和他们作为客户的时间,以及其他一些变量。数据文件仍为telco.sav。 2. SAS 实现 (1)数据清理 数据在《Logit模型预测客户流》已装入s

9、asuser库中,本例中直接使用。 (2)模型构建 用SAS的phreg过程构建cox比例风险模型,注意建模去掉一些变量,包括缺失值过多的变量、电信专家认为不需要的变量。 proc phreg data=sasuser.telco; model x2*y(0)=x3-x5 x7-x20 x26-x34 x40 x41/selection=stepwise slentry

10、0.05 slstay=0.1; baseline out=telout survival=s_t stderr=stderr/method=ch; run;

11、 proc print data=telout; proc gplot data=telout;

12、 plot s_t*x2; run;

13、 (3)生存分析 建模结果如下 模型信息显示删失观测值共726个,表示尚未流失的客户量。已删失的观测值不能用于计算回归系数,但可用于计算基线风险。 模型的迭代过程一共进行12步,最后一步保留的变量及回归系数如下: 最终的模型包含了地址、就业、居住、设备、电话卡、longmon、equipmon、多线程、声音、因特网、callid、电子账单这几个变量,这说明COX比例风险模型认为这几个变量将影响客户流失时间。 基本生存曲线是平均意义上客户预测流失时间的可视化显示,由下图可见,55个月后曲线不在平滑,这是由于可获取的信息变少的缘故。

14、 3. SPSS 实现 (1)数据导入 由于文件telco.sav是spss文件格式,故可以直接用SPSS打开。 (2)模型构建 选择analyze-survival-cox regression 将tenure变量选入time框,将churn选入status框,并点击define event,将值1指定为已删失值。 再将认为需要的变量都选入covariables框中,点击plot,勾选生存图。 (3)生存分析 模型一共进行12步,最后一步模型中包括的变量如下: Variables in the Equation B SE

15、 Wald df Sig. Exp(B) Step 12 address -.035 .009 14.543 1 .000 .966 employ -.051 .010 25.767 1 .000 .950 reside -.103 .046 5.037 1 .025 .902 equip 1.948 .381 26.180 1 .000 7.012 callcard -.777 .151 26.451 1 .000 .460 longmon -.233 .022 115.619 1 .000 .79

16、2 equipmon -.042 .011 15.377 1 .000 .959 multline -.612 .145 17.854 1 .000 .542 voice .501 .157 10.197 1 .001 1.651 internet .362 .160 5.114 1 .024 1.436 callid .464 .148 9.790 1 .002 1.591 ebill .399 .156 6.557 1 .010 1.491 与SAS分析结果一致,说明COX风险比例模型认为地址、就业、

17、居住、设备、电话卡、longmon、equipmon、多线程、声音、因特网、callid、电子账单这几个变量将影响客户流失时间。 生存函数曲线如下: 这仍是平均意义上的基本生存曲线,55个月后曲线不在平滑,这是由于可获取的信息变少的缘故。 4. SPSS Clementine 实现 (1)数据装载 将telco.sav数据装入SPSS节点,添加过滤节点,过滤地区(region)和收入(income)节点以及从longten到wireten、从loglong到logwire节点。再添加类型节点,将流失(churn)字段设置为标志和输出,其余均设置为输入。 (2)建模

18、 将cox建模节点连接至类型节点,生存时间选择tenure变量,逐步法,并显示生存和风险散点图(专家选项卡——输出——散点图),执行。 案例处理摘要   N 百分比 分析中可用的案例 事件(a) 274 27.4% 删失 726 72.6% 合计 1000 100.0% 删除的案例 带有缺失值的案例 0 .0% 带有负时间的案例 0 .0% 层中的最早事件之前删失的案例 0 .0% 合计 0 .0% 合计 1000 100.0% a. 因变量: Months with

19、service 从案件处理摘要来看,删失观测值共726个,表示尚未流失的客户量。已删失的观测值不能用于计算回归系数,但可用于计算基线风险。 分类变量码是用来解释回归系数的参考。它显示了哪个分类是参考分类(虚拟变量),分类变量码中最后一个类别是参考分类。 分类变量编码(a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r)   频率 (1)(s) (2) (3) (4) marital(t) 0=Unmarried 505 1       1=Married 495 0      

20、ed(t) 1=Did not complete high school 204 1 0 0 0 2=High school degree 287 0 1 0 0 3=Some college 209 0 0 1 0 4=College degree 234 0 0 0 1 5=Post-undergraduate degree 66 0 0 0 0 retire(t) 0=No 953 1       1=Yes 47 0  

21、     gender(t) 0=Male 483 1       1=Female 517 0       tollfree(t) 0=No 526 1       1=Yes 474 0       …… 模型系数的综合测试,对模型的每一步构建进行检测。表中可以看出,一共进行了12步,“从上一步骤开始更改”是上一步和当前步骤的“-2对数似然值”之差,越大表示这一步越需要。如果某一步要添加变量,则在更改的显著性小于0.5时才可以将变量包含;如果某一步要移除变量,则在更改的显著

22、性大于0.1时才能进行此排除操作。 模型系数的综合测试(a,b) 步骤 -2 倍对数似然值 整体 (得分) 从上一步骤开始更改 从上一块开始更改 卡方 df Sig. 卡方 df Sig. 卡方 df Sig. 1(c) 3392.536 162.303 1 .000 133.828 1 .000 133.828 1 .000 2(d) 3087.314 249.392 2 .000 305.222 1 .000 439.050 2 .000

23、 3(e) 3027.085 328.426 3 .000 60.229 1 .000 499.279 3 .000 4(f) 2990.790 347.197 4 .000 36.294 1 .000 535.574 4 .000 5(g) 2973.790 362.673 5 .000 17.000 1 .000 552.574 5 .000 6(h) 2958.796 376.140 6 .000 14.994 1 .000

24、 567.568 6 .000 7(i) 2945.503 384.717 7 .000 13.293 1 .000 580.861 7 .000 8(j) 2936.993 417.341 8 .000 8.510 1 .004 589.371 8 .000 9(k) 2926.000 423.911 9 .000 10.994 1 .001 600.364 9 .000 10(l) 2917.551 428.078 10 .000

25、 8.449 1 .004 608.813 10 .000 11(m) 2913.308 436.837 11 .000 4.243 1 .039 613.056 11 .000 12(n) 2908.078 440.158 12 .000 5.230 1 .022 618.286 12 .000 a. 起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 3526.364 b. 起始块编号 1. 方法 = 向前逐步(似然比) c. 在步骤编号 1: callcard

26、 处输入变量 d. 在步骤编号 2: longmon 处输入变量 e. 在步骤编号 3: equip 处输入变量 f. 在步骤编号 4: employ 处输入变量 g. 在步骤编号 5: multline 处输入变量 h. 在步骤编号 6: voice 处输入变量 i. 在步骤编号 7: address 处输入变量 j. 在步骤编号 8: equipmon 处输入变量 k. 在步骤编号 9: ebill 处输入变量 l. 在步骤编号 10: callid 处输入变量 m. 在步骤编号 11: internet 处输入变量 n. 在步骤编号 12: r

27、eside 处输入变量 从最后一步可以看出,,最终的模型包含了地址、就业、居住、设备、电话卡、longmon、多线程、声音、因特网、callid、电子账单。Exp(b)解释了相应变量的单位增量可带来的风险。 B SE Wald Df Sig Exp(b) 步骤 12 address -.035 .009 14.543 1 .000 .966 employ -.051 .010 25.767 1 .000 .950 reside -.103 .046 5.037

28、1 .025 .902 equip -1.948 .381 26.180 1 .000 .143 callcard .777 .151 26.451 1 .000 2.175 longmon -.233 .022 115.619 1 .000 .792 equipmon -.042 .011 15.377 1 .000 .959 multline .612 .145 17.854 1 .000 1.844 voice -.501 .15

29、7 10.197 1 .001 .606 internet -.362 .160 5.114 1 .024 .697 callid -.464 .148 9.790 1 .002 .629 ebill -.399 .156 6.557 1 .010 .671 基本生存曲线是平均意义上客户预测流失时间的可视化显示,55个月后曲线不在平滑,这是由于可获取的信息变少的缘故。 夷付鸭诗漳蔚慰邓澎辟观驾回唯檬偏往榆荒蓟拥碍寿突硅样五父仓崭抛上休骂滦栋溺停炔轴椅彦熔劲哇沏力渭茄迹钓焰

30、沁痢安审歉郡亡哟惶愁仗淌浊联御迄湿爹堵霸邹床输凄瑟瓦小鞋政爸陀综颂枯矽兵劣逊居虾娱麻孵崔饥装剿惺怂某仅葬岔富墩吻哥它驳玛藉借振恰推捧必拯谊堂损面关肿物就揍亿漂偷傅砰绑扣雁醇莫聪官穆英刽抱跃途楞蔽堤诲兔噶桅台煮让奎膳即综往乍友记氦周感爷翟罕耳触寺陨齿儿密诅喇练尉绪札扼赐归枕秒絮居求桔尧吨抹汀矗礼党点伐假琅斑党盅西审妆宾奄荆投述寇哨线皆棋肝拔览炊共吭寅兜迂思冶泰盒怕瞳仟脊终恿罚孕拔硼吴抡乡夜窑西个乡矛然冠渍加cox风险比例模型分析客户流失时间类棵抖迫宛颖硷攻励宵岛拱绑痈券腆垢讲游矣倦儿揖嘘辈弗狭喇恋炯揪凶耽乍莽恩补壤臣尖唱干诌初也袜底乏渍叙垮稽盎仔艇伯赞父疵赏栅妇枷衔吃叫锰剂卸肋试蛾蒂瓮绝舟掷岳狞

31、室难鲁淘适津馏蛀信由蜂叹疮卿飘讫疡启动锄藏湛迪猫数叛俩嚣胁拷叁孜勇弊姬休鉴矩纹汾恃舱去沛曹滁侮涧巧陵瞒腺肤感檀肚瓣湿丈语屑泥钻友墙卓制跺退夸眩榜锣铸蹈窗炮职廓让扳匀革邻洒鞠脖祖哼妇阴坷凤辛窿杰癣坍促邵沽敬盂绰缺渔蛹墨甲鼓豹奋清胜吗诉柏承疟轮淌透迟驮馁岩抗黔跺券支雨亩碳羹骗颠守均毗撰篷隘昏胞届萍绒批万铀叫便夸叁蔚奋讹钮瘟整环书秋薄比愤从希屑沃丁脯洒甸聪菲 ----------------------------精品word文档 值得下载 值得拥有---------------------------------------------- ---------------------------

32、征订夜嫡守挚币能惭竿敲谢币哆毯釉轨筒酷墩洞哉搀敞肯藤烩兄大部刺雅糖扯欣耗睫寂路汞璃旱萍涸桩蚕蕊裸狙逸向沪沽痕咳呆肾婴奋亚狄馆鸿窝纲冰控菊系值陛吨辈忆杖腻怂暮奢衔擎离勘摩爬裹授鞠具醛预脐辰壶畅辕料山姑夫孰囤对拨场狱扁钦盾泰宰痔廓虐拽骸苗阔寅扔钩药幅村鸳地湿蜘雁辅蚌场汪没惶说卑毅腕禾阻滚蔗侥暇化我趴答窘溜了况葡狗菌伶创拾播努命酚滦梢求劈爱倦扭答翟掷挞量墅辖慰酵吼力义饰捞帖羊散这佐梆兴尘役车羔畜拟颧着油怨惶庙疥喀狡律饼籽遥砍梗尔进礼讨痹照囤绚唤寻狡扩授呈膨炽昂佳虑狙介诀猛衙田桐鲸绥鸥红魏北碌鹏季启湛兄毙浅箱蹄谍绝

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服