收藏 分销(赏)

基于spssclementine的C&RTree操作演示.ppt

上传人:天**** 文档编号:2438910 上传时间:2024-05-30 格式:PPT 页数:22 大小:6.24MB
下载 相关 举报
基于spssclementine的C&RTree操作演示.ppt_第1页
第1页 / 共22页
基于spssclementine的C&RTree操作演示.ppt_第2页
第2页 / 共22页
基于spssclementine的C&RTree操作演示.ppt_第3页
第3页 / 共22页
基于spssclementine的C&RTree操作演示.ppt_第4页
第4页 / 共22页
基于spssclementine的C&RTree操作演示.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、C&Rtree分类与回归树By黎焯婷2024/5/22 周三12024/5/22 周三2定义:分 类 与 回 归 树 CART(Ciassification and RegressionTrees)是分类数据挖掘算法的一种。它描述给定预测向量值X后,变量Y条件分布的一个灵活的方法。该模型使用了二叉树将预测空间递归划分为若干子集,Y在这些子集的分布是连续均匀的。树中的叶节点对应着划分的不同区域,划分是由与每个内部节点相关的分支规则(SpittingRules)确定的。通过从树根到叶节点移动,一个预测样本被赋予一个惟一的叶节点,Y在该节点上的条件分布也被确定。CART模型最早由Breman等人提出

2、并己在统计学领域普遍应用。2024/5/22 周三32024/5/22 周三4分类回归树的优点:(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;(2)在面对诸如存在缺失值、变量数多等问题时C&RT显得非常稳健(robust);(3)估计模型通常不用花费很长的训练时间;(4)推理过程完全依据属性变量的取值特点(与C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型);(5)比其他模型更易于理解从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成IFTHEN的形式;(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;(7

3、)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分;(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。2024/5/22 周三5CART算法主要涉及两个过程:1.决策树的生长过程2.决策树的剪枝过程CART的主要思路:2024/5/22 周三6C&RT的生长:决策树生长的核心是确定决策树的分枝准则该准则涉及到两方面问题:1.如何从众多的属性变量中选择一个当前的最佳分支变量;2.如何从分支变量的众多取值中找到一个当前的最佳分割点(分割值)。2024/5/22 周三7决策树停止生长的条件:(1)节点达到完全纯性

4、;(2)节点中样本的所有属性变量有相同的取值;(3)数树的深度达到用户指定的深度;(4)节点中样本的个数少于用户指定的个数;(5)异质性指标下降的最大幅度小于用户指定的幅度。2024/5/22 周三8模型评价:2024/5/22 周三9C&RT的实际操作1.打 开 Clementine 12.0软 件,然 后 在“源”中 选 择“SPSS文 件”,并拖到版面上。2.然 后 双 击“SPSS文 件”,在 导 入 文 件 中 选 择“Demos”中 的“NewsChan.sav”文件,最后应用,确定。(这份数据是根据“教育程度、性别、年龄、观看电视的时间、家里的小孩数、收入”等因素来分析目标消费群

5、体是否是选择订阅“新闻频道”。)3.在“输出”一栏里选择“表”,并把它与SPSS文件连接,然后执行,就可以对初步的数据进行查看。4.接入type节点,即在“字段选项”中选择“类型”,并把其与SPSS文件连接,双击“类型”,进入类型编辑,把字段“NEWSCHAN”的方向改为“输出”,其余的均为“输入”。2024/5/22 周三102024/5/22 周三115.接入分类回归树模型,在“建模”中选择“C&R树”,双击进入编辑。6.在模型编辑中选择“启动交互会话”的输出方式。(如左图)2024/5/22 周三127.在专家编辑中,选择“专家”模型,并把“最小杂质改变”改为“0.003”;然后选择“使

6、用标准误规则”,并把乘数设为“1”。(如右图)8.点击在同个编辑页面中的选项“正在停止”,然后进入停止标准页面,选择“使用绝对值”一项,并把“父分支中的最小记录数”改为“25”,把“子分支.”改为“10”,最后确定并执行。(如左图)2024/5/22 周三139.进入“交叉树”编辑页面,这里我们可以看到原始节点。在上面选栏中的“树”里选择“生长树并修剪”。最后会得出如右图的决策树。在此页面中,我们也可以查看“增益、风险、注解”等内容的相关信息。2024/5/22 周三1410.还是在交叉树这个编辑页面中,在“生成”栏中选择“生成模型”。然后确定,在原版面中就会出现这个模型,把它连接在“类型”上

7、,我们就可以用它来预测。11.双击“模型”可以看到所有剪枝以后的规则。2024/5/22 周三1512.在“输出”中选择“表”,连接模型节点,从而导出剪枝后的数据。13.在弹出来的表中可以看到可根据模型节点得到预测值(如右图)。其中最后一栏为置信度数据。2024/5/22 周三1614.最后,可以在“交叉树”编辑页面中,产生“选择节点”。我们选择节点2来作为例子,点击节点2,然后在“生成”中选择“选择节点”,最后会在版面中出现“已生成”的图标。2024/5/22 周三1715.将基于节点2的“选择节点”与“类型”连接,再连上一个“输出”中的数据“表”(如左下图)。最后选择执行,就会弹出一个数据表格,表格是代表你所选择的节点的条件来组成的,例如我们选择的是40.5岁以上的人对于是否选择订制“新闻频道”,因此这份表就是代表所有40.5岁以上的目标人群的数据(如右下图)。2024/5/22 周三18最终流:2024/5/22 周三19P.S:如果大家还有不明白的话,可以到这里观看教学视频或者找我。http:/ 周三20THANKS!2024/5/22 周三212024/5/22 周三22

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服