1、决策树模型(应用)决策树模型是一种以决策树这种数据结构为基础的分类、预测模(一个类似于流程图的树结构)目的:分类(布尔型)、预测 定义:一种逼近离散值目标函数的方法1 年龄 月收入 性别 月收入 性别 买不买 买不买不买不买 买15到3035到60大于60男女男女大于5000小于等于5000大于5000小于等于5000客户分类 决策树根节点属性节点类节点2信息论中的一个度量标准 熵(Entropy):刻画任意样例集合的纯度或者是刻画系统的混乱程度,熵越大,系统越混乱。1、熵的计算:给定一个样例集合的S,P为类别占S的比例。两类:Entropy(S)=-Plog2P-P_log2P_多类:Ent
2、ropy(S)=-Pilog2Pi例:设S有个样例集,其中九个正类,五个负类即9+,5-Entropy(S)=-9/14log2(9/14)-5/14_log2(5/14)=0.9402、信息增益(information gain):衡量一个属性分类实例的能力。Gain(S,A)=Entropy(S)-|Sv|/|S|Entropy(Sv)(Sv是属性A可能的取值)3名校研究生入学时导师需要根据一些列因素确定是否招收一个学生 服从调剂方向本科学历 是否本校入学成绩是否招收1不调不好不知良yes2不调不好否良No 3调不好否良yes4调好否中yes5调好不知优yes6不调好是优no 7调好是优n
3、o8调好是中no9调不好是良yes10调不好否中yes11不调不好是中yes12不调好不知中yes13调不好不知优yes14不调好否中no15调好是中no16不调不好否中noS=9+,7-Entropy(S)=0.988691、调剂:调、不调S调:6+,3-S不调:3+,4-Entropy(S调)=0.91829Entropy(S不调)=0.985226Gain(S,调剂)=0.04112、本科学历:好、不好S好:3+,5-S不好:6+,2-Entropy(S好)=095442Entropy(S不好)=08112Gain(S,本科学历)=0.10593、计算得Gain(S,是否本校)=0.26
4、94、计算得Gain(S,入学成绩)=0。03589由于属性是否本校的信息增益均是大于其他属性的信息增益,故而选择其作为根节点属性。4 是否本校?yes否不知是【6,7,8,9,11,15】【2,3,4,10,14,16】5 服从调剂方向本科学历 是否本校入学成绩是否招收1不调不好不知良yes2不调不好否良No 3调不好否良yes4调好否中yes5调好不知优yes6不调好是优no 7调好是优no8调好是中no9调不好是良yes10调不好否中yes11不调不好是中yes12不调好不知中yes13调不好不知优yes14不调好否中no15调好是中no16不调不好否中noEntropy(S是)=0.9
5、1829 Gain(S是,调剂)=0.91829-2/61-4/60.8112=0.044Gain(S是,本科学历)=0.91829Gain(S是,入学成绩)=0.459(S是中本科学历)相对于其他属性信息增益更大Entropy(S否)=1 Gain(S是,调剂)=1Gain(S是,本科学历)=0Gain(S是,入学成绩)=0(S否中调剂)相对于其他属性信息增益更大62024/5/21 周二7 是否本校?本科学历?调剂 yes否不知是【6,7,8,9,11,15】【2,3,4,10,14,16】no no yes yes不调调不好好8构建决策树模型的过程:1、哪一个属性放在根节点测试?2、根据
6、根节点属性可能的所有值产生对应的分支。3、把训练样例排列到属性之下的分支节点。4、重复整个过程,直到构造出的决策树能完美的分类样例或所有属性已被使用。9模型具体的应用:决策树模型在客户关系管理系统中的应用(客户分类)例:某公司某年客户数据资料350条作为实验数据,并选取记录中的5个属性(年龄、月收入、住址、销售网点距离、性别、购买行为周期性)作为决策属性。最终生成的决策树模型示意图如下:利用剩下的50条数据记录对该决策树的分类准确率做分析,于是可以得到混淆矩阵如下:忠诚客户不忠诚客户忠诚客户304不忠诚客户316分类准确度为(30+16)/50=92。可以通过优化决策树模型,和使用更大规模训练数据的使用,可以进一步得到更令人满意、更高准确度的决策树模型。10 销售网点距离 月输入 性别 性别 性别 年龄 年龄 .购买行为周期性 月收入 月收入 0 0 0 1 1 0 0 0 0 0 0 010km06035-6015-356015-6015-30男女男女男女50005000 5000=500011其他应用:决策树模型的商业银行基金客户分类研究决策树模型在突发公卫卫生事件风险评估中的应用决策树在油田公司项目决策中的应用谢谢122024/5/21 周二13