ImageVerifierCode 换一换
格式:DOC , 页数:19 ,大小:14.71MB ,
资源ID:3808818      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3808818.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(决策树算法总结讲课教案.doc)为本站上传会员【a199****6536】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

决策树算法总结讲课教案.doc

1、 决策树算法总结 精品文档 决策树 研发二部 收集于网络,如有侵权请联系管理员删除 文件状态: [ ] 草稿 [ ] 正式发布 [ ] 正在修改 文件标识: 当前版本: 1.0 作者: 张宏超 完成日期: 2019年3月8日 目录 1. 算法介绍 1 1.1. 分支节点选取 1 1.2. 构建树 3 1.3. 剪枝 10 2. sk-learn中的使用 12 3. sk-learn中源码分析 13 1. 算法介绍 决策树算法是机器学习

2、中的经典算法之一,既可以作为分类算法,也可以作为回归算法。决策树算法又被发展出很多不同的版本,按照时间上分,目前主要包括,ID3、C4.5和CART版本算法。其中ID3版本的决策树算法是最早出现的,可以用来做分类算法。C4.5是针对ID3的不足出现的优化版本,也用来做分类。CART也是针对ID3优化出现的,既可以做分类,可以做回归。 决策树算法的本质其实很类似我们的if-elseif-else语句,通过条件作为分支依据,最终的数学模型就是一颗树。不过在决策树算法中我们需要重点考虑选取分支条件的理由,以及谁先判断谁后判断,包括最后对过拟合的处理,也就是剪枝。这是我们之前写if语句时不会考虑的

3、问题。 决策树算法主要分为以下3个步骤: 1. 分支节点选取 2. 构建树 3. 剪枝 1.1. 分支节点选取 分支节点选取,也就是寻找分支节点的最优解。既然要寻找最优,那么必须要有一个衡量标准,也就是需要量化这个优劣性。常用的衡量指标有熵和基尼系数。 熵:熵用来表示信息的混乱程度,值越大表示越混乱,包含的信息量也就越多。比如,A班有10个男生1个女生,B班有5个男生5个女生,那么B班的熵值就比A班大,也就是B班信息越混乱。 基尼系数:同上,也可以作为信息混乱程度的衡量指标。 有了量化指标后,就可以衡量使用某个分支条件前后,信息混乱程度的收敛效果了。

4、使用分支前的混乱程度,减去分支后的混乱程度,结果越大,表示效果越好。 #计算熵值 def entropy(dataSet): tNum = len(dataSet) print(tNum) #用来保存标签对应的个数的,比如,男:6,女:5 labels = {} for node in dataSet: curL = node[-1] #获取标签 if curL not in labels.keys(): labels[curL] = 0 #如果没有记录过该种标签,就记录并初始化为0

5、 labels[curL] += 1 #将标签记录个数加1 #此时labels中保存了所有标签和对应的个数 res = 0 #计算公式为-p*logp,p为标签出现概率 for node in labels: p = float(labels[node]) / tNum res -= p * log(p, 2) return res #计算基尼系数 def gini(dataSet): tNum = len(dataSet) print(tNum) # 用来保存标签对

6、应的个数的,比如,男:6,女:5 labels = {} for node in dataSet: curL = node[-1] # 获取标签 if curL not in labels.keys(): labels[curL] = 0 # 如果没有记录过该种标签,就记录并初始化为0 labels[curL] += 1 # 将标签记录个数加1 # 此时labels中保存了所有标签和对应的个数 res = 1 # 计算公式为-p*logp,p为标签出现概率 for n

7、ode in labels: p = float(labels[node]) / tNum res -= p * p return res 1.2. 构建树 ID3算法:利用信息熵增益,决定选取哪个特征作为分支节点。分支前的总样本熵值-分支后的熵值总和=信息熵增益。 A:10个 B:10个 特征T1 A:5个 B:8个 A:5个 B:2个 A:10个 B:10个 特征T2 A:3个 B:9个 A:7个 B:1个 T1的信息熵增益:1 – 13/20*0.961 - 7/20*0.863 = 0.073 T2的信息熵

8、增益:1 – 12/20*0.812 - 8/20*0.544 = 0.295 所以使用T2作为分支特征更优。 ID3算法建树: 依据前面的逻辑,递归寻找最优分支节点,直到下面情况结束 1. 叶节点已经属于同一标签 2. 虽然叶节点不属于同一标签,但是特征已经用完了 3. 熵小于预先设置的阈值 4. 树的深度达到了预先设置的阈值 ID3算法的不足: 1. 取值多的特征比取值少的特征更容易被选取。 2. 不包含剪枝操作,过拟合严重 3. 特征取值必须是离散的,或者有限的区间的。 于是有了改进算法C4.5 C4.5算法:基于ID3算法进行了改进,首先,针对ID3的

9、不足1,采用信息增益率取代ID3中使用信息增益而造成的偏向于选取取值较多的特征作为分裂点的问题。针对ID3的不足2,采用剪枝操作,缓解过拟合问题。针对ID3的不足3,采用将连续值先排列,然后逐个尝试分裂,找到连续值中的最佳分裂点。 信息增益率的计算:先计算信息增益,然后除以spliteInfo。spliteInfo为分裂后的子集合的函数,假设分裂后的子集合个数为sub1和sub2,total为分裂前的个数。spliteInfo = -sub1 / total * log(sub1 / total) – sub2 / total * log(sub2 / total) #index:

10、特征序号 #value:特征值 #该方法表示将index对应特征的值为value的集合返回,返回集合中不包含index对应的特征 def spliteDataSet(dataSet, index, value): newDataSet = [] for node in dataSet: if node[index] == value: #[0,index)列的数据 newData = node[:index] #[index+1,最后]列的数据 newData.ext

11、end(node[index + 1:]) newDataSet.append(newData) return newDataSet; #选择最优分裂项 def chooseBestFeature(dataSet): #特征个数 featureNum = len(dataSet[0]) - 1 #计算整体样本的熵值 baseEntropy = entropy(dataSet) print("baseEntropy = %f"%(baseEntropy)) #保存最大的信息增益率 maxInfoGain

12、Ratio = 0.0 bestFeatureId = -1 for i in range(featureNum): #获取特征所有可能的值 featureValues = [] for node in dataSet: featureValues.append(node[i]) print(featureValues) #将特征值去除重复 uniqueFeatureValues = set(featureValues) print(uniqu

13、eFeatureValues) #按照i特征分裂之后的熵值 newEntropy = 0.0 #分裂信息 spliteInfo = 0.0 #按照i所表示的特征,开始分裂数据集 for value in uniqueFeatureValues: #当i属性等于value时的分裂结果 subDataSet = spliteDataSet(dataSet, i, value) print(subDataSet)

14、 #计算占比 p = float(len(subDataSet)) / float(len(dataSet)) newEntropy += p * entropy(subDataSet) spliteInfo += -p * log(p, 2) #计算信息增益 infoGain = baseEntropy - newEntropy #计算信息增益率 if spliteInfo == 0: continue infoGa

15、inRatio = infoGain / spliteInfo if infoGainRatio > maxInfoGainRatio: maxInfoGainRatio = infoGainRatio bestFeatureId = i return bestFeatureId C4.5算法的不足: 1. 如果存在连续值的特征需要做排序等处理,计算比较耗时 2. 只能用于分类使用 于是有了CART算法 CART算法:也是基于ID3算法优化而来,支持分类和回归,使用基尼系数(分类树)或者均方差(回归树)替

16、代熵的作用,减少运算难度。使用二叉树代替多叉树建模,降低复杂度。 基尼系数的计算: 均方差的计算: 计算举例,假设有如下数据源 看电视时间 婚姻情况 职业 年龄 3 未婚 学生 12 4 未婚 学生 18 2 已婚 老师 26 5 已婚 上班族 47 2.5 已婚 上班族 36 3.5 未婚 老师 29 4 已婚 学生 21 如果将婚否作为标签,该问题是一个分类问题,所以使用基尼系数 假设使用职业作为特征分支,对于看电视和年龄,都是连续数据,需要按照C4.5的算法排序后处理,这里先分析简单的按照职业开

17、始划分。 又因为,CART算法的建模是二叉树,所以,针对职业来说,有以下组合,学生|非学生,老师|非老师,上班族|非上班族,到底怎么划分,就要通过基尼系数来判断了。 gini = 3 / 7 * (1 – 2 / 3 * 2 /3 – 1 / 3 * 1 / 3) + 4 / 7 * (1 – 3 / 4 * 3 / 4 – 1 / 4 * 1 / 4) = 0.4 gini = 2 / 7 * (1 – 1 / 2 * 1 / 2 – 1 / 2 * 1 / 2) + 5 / 7 * (1 – 2 / 5 * 2 / 5 – 3 / 5 * 3 / 5) = 0.49 gini =

18、2 / 7 * (1 – 1 * 1) + 5 / 7 * (1 – 3 / 5 * 3 / 5 – 2 / 5 * 2 / 5) = 0.34 所以,如果选择职业来划分,那么首先应该按照上班族|非上班族划分 如果将年龄作为标签,该问题是一个回归问题,所以使用均方差 同样,先考虑使用职业来划分 mean = 开方(12 * 12 + 18 * 18 + 21 * 21 – 3 * 17 * 17) + 开方(26 * 26 + 47 * 47 + 36 * 36 + 29 * 29 – 5 * 32.5 * 32.5) = 34.71 其他情况略。 可以看到选择分裂

19、属性这一步骤会比较麻烦,首先要遍历所有特征,找到每一个特征的最优分裂方法,然后在选择最优的分裂特征。 功能 树结构 特征选取 连续值处理 缺失值处理 剪枝 ID3 分类 多叉 信息增益 不支持 不支持 不支持 C4.5 分类 多叉 信息增益率 支持 支持 支持 CART 分类/回归 二叉 基尼系数(分类) ,均方差(回归) 支持 支持 支持 1.3. 剪枝 CCP(Cost Complexity Pruning)代价复杂性剪枝法(CART常用) REP(Reduced Error Pruning)错误降低剪枝法 PEP(

20、Pessimistic Error Pruning)悲观错误剪枝法(C4.5使用) MEP(Minimum Error Pruning)最小错误剪枝法 这里以CCP为例讲解其原理 CCP选择节点表面误差率增益值最小的非叶子节点,删除该节点的子节点。若多个非叶子节点的表面误差率增益值相同,则选择子节点最多的非叶子节点进行裁剪。 表面误差率增益值计算: R(t)表示非叶子节点的错误率,比如,总样本20,在A节点上a类5个,b类2个,所以可以认为A节点代表的是a类,那么错误率就是2 / 7 * 7 / 20 R(T)表示叶子节点的错误率累积和 N(T)表示叶子节点的个数 剪枝步骤

21、 1. 构建子树序列 2. 找到最优子树,作为我们的决策树(交叉验证等) 举例: t1是根节点 t2,t3,t4,t5是非叶子节点 t6,t7,t8,t9,t10,t11是叶子节点 首先我们计算所有非叶子节点误差率增益值 t4: (4/50 * 50/80 – 1/45 * 45/80 – 2/5 * 5/80) / (2 – 1) = 0.0125 t5: (4/10 * 10/80 – 0 - 0) / (2 - 1) = 0.05 t2: (10/60 * 60/80 – 1/45 * 45/80 – 2/5 * 5/80 – 0

22、 - 0) / (4 - 1) = 0.0292 t3: 0.0375 因此得到第1颗子树:T0 = t4(0.0125),t5(0.05),t2(0.0292),t3(0.0375) 比较发现可以将t4裁剪掉 得到第2颗子树 t5: 0.05 t3: 0.0375 t2: (10/60 * 60/80 – 4/50 * 50/80 – 0 - 0) / (3 -1) = 0.0375 此时t2与t3相同,那么裁剪叶子节点较多的,因此t2被裁剪 得到第3颗树 然后对上面3颗子树进行验证,找到效果最后的作为剪枝之后的决策树。 2. sk-learn中的使用 f

23、rom sklearn.datasets import load_iris from sklearn import tree import pydotplus import graphviz iris = load_iris() clf = tree.DecisionTreeClassifier() clf.fit(iris.data, iris.target) dot_data = tree.export_graphviz(clf, out_file=None) graph = pydotplus.graph_from_dot_data(dot_data) graph.write_pdf(

24、"iris.pdf") 3. sk-learn中源码分析 主要分析tree的相关函数代码,使用pycharm下载sklearn包中tree文件,引用了_tree.pxd,pxd相当于头文件,其实现在_tree.pyd中,pyd是加密文件,无法查看。从github上下载源码中有_tree.pyx相当于c文件,因此可以查看。 .pxd:相当于.h .pyx:相当于.c .pyd:相当于dll tree.DecisionTreeClassifier() 创建分类决策树对象 DecisionTreeClassifier继承BaseDecisionTree clf.fit(ir

25、is.data, iris.target) 建树 DecisionTreeClassifier直接使用了父类BaseDecisionTree的方法 super().fit( X, y, sample_weight=sample_weight, check_input=check_input, X_idx_sorted=X_idx_sorted) 查看DecisionTreeClassifier的fit,学习建树过程 代码前面是对参数的校验之类的工作 criterion:表示选择分裂

26、节点的准则,CLF表示分类使用gini系数、熵等,REG表示回归使用均方差等。他们的定义在 对于这些准则的计算,在_criterion.Gini或者其他文件中实现,使用Cpython实现的。以Gini的计算为例 同理,分裂的规则定义在splitter中,具体实现也是在Cpython中 最后是构造器,这也是面向对象设计模式中的一种设计模式,构造器模式。思想是,构造器中根据加入的原料,产出不同的东西。 builder = DepthFirstTreeBuilder (优先深度) builder = BestFirstTreeBuilder (优先最优) 他们的代码实现在_tree.pyx中

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服