1、数据仓库与数据挖掘技术 第六章 决策树 作者: 日期:2 个人收集整理 勿做商业用途第6章 决策树方法6。1信息论的基本原理6。1.1信息论原理6。1。2互信息的计算1. 定义2。 出现概率3. 条件概率4。 子集概率5。 子集条件概率6。 信息熵7. 互信息6。2常用决策树算法6.2。1ID3算法1。 基本思想图61ID3决策树2. 主算法图62ID3算法流程3。 建树算法4. 实例计算6。2.2C4.5算法1. 信息增益比例的概念2. 连续属性值的处理3. 未知属性值的处理4. 规则的产生5. 案例计算图63天气结点及其分支图64C4。5算法形成的决策树6.3决策树剪枝6。3。1先剪枝6.
2、3.2后剪枝6。4由决策树提取分类规则6。4.1获得简单规则图6-5决策树6.4.2精简规则属性6。5利用SQL Server 2005进行决策树挖掘6。5。1数据准备6。5.2挖掘模型设置6。5.3挖掘流程图6-6选择数据挖掘技术图6-7选择数据源视图图6-8指定表类型图6-9指定定型数据图6-10指定列的内容和数据类型图6-11完成数据挖掘结构的创建6.5.4挖掘结果分析图612挖掘得到的“次级”决策树图613挖掘得到的依赖关系图图614“余额”结点的依赖关系图图6-15与“余额”结点链接强度最强结点示意图6.5。5挖掘性能分析图6-16列映射图图617属性“次级”的预测提升图习题61。 概率分布0:0625;0:0625;0:125;0:5的熵是多少?2。 汽车保险例子.假定训练数据库具有两个属性: 年龄和汽车的类型。年龄-序数分类.汽车类型分类属性.类L: 低(风险),H: 高(风险)。使用ID3算法做出它的决策树。3. 简述ID3和C4.5算法之间的异同。4. 简述决策树剪枝的步骤。5。 练习SQL Server 2005决策树挖掘模型的构建。