资源描述
数据仓库与数据挖掘技术 第六章 决策树
———————————————————————————————— 作者:
———————————————————————————————— 日期:
2
个人收集整理 勿做商业用途
第6章 决策树方法
6。1信息论的基本原理
6。1.1信息论原理
6。1。2互信息的计算
1. 定义
2。 出现概率
3. 条件概率
4。 子集概率
5。 子集条件概率
6。 信息熵
7. 互信息
6。2常用决策树算法
6.2。1ID3算法
1。 基本思想
图6—1ID3决策树
2. 主算法
图6—2ID3算法流程
3。 建树算法
4. 实例计算
6。2.2C4.5算法
1. 信息增益比例的概念
2. 连续属性值的处理
3. 未知属性值的处理
4. 规则的产生
5. 案例计算
图6—3天气结点及其分支
图6—4C4。5算法形成的决策树
6.3决策树剪枝
6。3。1先剪枝
6.3.2后剪枝
6。4由决策树提取分类规则
6。4.1获得简单规则
图6-5决策树
6.4.2精简规则属性
6。5利用SQL Server 2005进行决策树挖掘
6。5。1数据准备
6。5.2挖掘模型设置
6。5.3挖掘流程
图6-6选择数据挖掘技术
图6-7选择数据源视图
图6-8指定表类型
图6-9指定定型数据
图6-10指定列的内容和数据类型
图6-11完成数据挖掘结构的创建
6.5.4挖掘结果分析
图6—12挖掘得到的“次级”决策树
图6—13挖掘得到的依赖关系图
图6—14“余额”结点的依赖关系图
图6-15与“余额”结点链接强度最强结点示意图
6.5。5挖掘性能分析
图6-16列映射图
图6—17属性“次级”的预测提升图
习题6
1。 概率分布[0:0625;0:0625;0:125;0:5]的熵是多少?
2。 汽车保险例子.假定训练数据库具有两个属性: 年龄和汽车的类型。
年龄-—序数分类.
汽车类型——分类属性.
类——L: 低(风险),H: 高(风险)。
使用ID3算法做出它的决策树。
3. 简述ID3和C4.5算法之间的异同。
4. 简述决策树剪枝的步骤。
5。 练习SQL Server 2005决策树挖掘模型的构建。
展开阅读全文