收藏 分销(赏)

医学数据挖掘290页教学课件全书电子教案.ppt

上传人:天**** 文档编号:7491305 上传时间:2025-01-06 格式:PPT 页数:290 大小:6.05MB
下载 相关 举报
医学数据挖掘290页教学课件全书电子教案.ppt_第1页
第1页 / 共290页
医学数据挖掘290页教学课件全书电子教案.ppt_第2页
第2页 / 共290页
医学数据挖掘290页教学课件全书电子教案.ppt_第3页
第3页 / 共290页
医学数据挖掘290页教学课件全书电子教案.ppt_第4页
第4页 / 共290页
医学数据挖掘290页教学课件全书电子教案.ppt_第5页
第5页 / 共290页
点击查看更多>>
资源描述

1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第

2、四级,第五级,*,第1章 医学数据挖掘概述,一、问题的提出,随着医院数字化仪器的增加、医院信息系统、电子病历和电子健康档案的使用,医院的计算机中逐渐积累了大量的数据,其量与日俱增。这些数据中蕴藏着的丰富的二次信息和业务知识,如何将它们有效的分析和挖掘出来,用以提高医院的服务质量和医疗水平,是医院的管理者和医生越来越关心的问题。,当面对越来越多迅速膨胀的大型数据库时,医生们渴望去理解数据中包含的信息,盼望获得有价值的知识!,数据挖掘与知识发现,原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要。数据挖掘概念的提出,使人们有能力克服这些困难,去发掘出蕴藏在数据中的信息和知识。数据挖

3、掘是目前国际上数据库和信息决策领域的最前沿研究方向之一。,数据挖掘与知识发现是存在交叉的两个概念。,数据挖掘是知识发现的一个阶段,而且是核心阶段。知识发现,就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息。,如果把知识发现理解为一个过程或系统,数据挖掘是这一过程或系统的一个可自动执行的工具。,从下图看出,知识发现是需要人工参与的多环节的过程。,*挖掘算法是数据挖掘重要的组成部分。为解决特定的问题,一种或多种算法需要被选择、编译,在适于挖掘的数据环境下实施挖掘任务。,1.1数据挖掘概念,1.1.1数据挖掘的产生,如何使人们能够快速有效地获取自己所需的知

4、识,成为广大信息工作者的重要研究课题。正是这种需求催生了一门目前在信息领域里最为活跃、最令人激动的领域,数据挖掘和知识发现。,数据挖掘技术在医学领域中的应用越来越广泛(1),在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面获得可喜成果。,南加州大学脊椎病医院利用Information Discovery 进行数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等领域。,数据挖掘技术在医学领域中的应用越来越广泛(2),数据挖掘在医学上的应用有其自身的优势,医学系统收集到的数

5、据大多是实际诊断和运作数据真实可靠、不受其他因素影响的,这对于不断提高挖掘的质量是有利的条件。,随着电子病历的推广,用计算机存储病案在医院已经比较普遍。如果各医院将收集的数据进一步汇总,从些数据中发现各种疾病之间的相互关系、各种疾病的发展规律,分析各种治疗方案的治疗效果,对疾病的诊断、治疗和医学研究都非常有价值。,1.1.2 数据挖掘的定义,数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:,(1)数据准备,,(2)数据挖掘,,(

6、3)结果表达和解释。数据挖掘可以与用户或知识库交互。,可以从几个方面来了解数据挖掘。,1.商业企业角度,2.技术实现角度,3.数据挖掘与传统分析方法的区别,4.数据挖掘和数据仓库,5.数据挖掘和OLAP,6.数据挖掘,机器学习和统计,1.2 数据挖掘的任务,数据挖掘可以解决大量的医学研究问题。基于这些医学问题的性质,把这些问题分成下面几种数据挖掘任务。,1.分类,分类是最常见的数据挖掘任务之一。疾病的诊断过程实际上就是一个疾病分类的过程,患者根据症状特征及不适部位定位到具体疾病类的具体疾病,这一过程与现实中的分类过程十分相似。,2.,聚类,“,物以类聚,”,,它基于一组属性对事例进行分组。在同

7、一个聚类中的事例或多或少有相同的属性值。,例如,通过对医药市场的聚类分析,构成多因素投资组合矩阵。依据市场吸引力的大、中、小,竞争能力的强、小、弱,分为9个区域,组成三种战略地带。,3.关联规则,起源:超市购物篮,形式:XY(啤酒=尿布),基本测度:,支持度(Dsupp),置信度(Dconf),在原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒

8、。,产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,4.回归,回归任务类似于分类任务,最大的区别是在回归任务中可预测属性是连续的。回归技术在统计学领域已经广泛研究了几个世纪。线性回归和逻辑回归是最常用的回归分析方法。其它的回归分析技术包括回归树和神经网络。,回归任务能解决很多医学问题。例如,医生可以通过身高、体重、肺活量、胸围、肩宽、盆肩宽、脉搏、收缩压、舒张压等各项指标预测病人的健康情况。,1.3数据挖掘技术,数据挖掘任务的完成需要相应的数据挖掘技术。目前的数据挖掘算法主要来自3个领域:统计学、机器学习(人工智能)和数据库

9、。,数据挖掘的焦点是自动或半自动的挖掘模式。有些机器算法应用于数据挖掘,比如神经网络、遗传算法等。,数据库技术是数据挖掘的第三种技术来源。因为数据挖掘需要处理大量数据,如何对大量数据进行处理,需要数据库技术。,本书着重介绍决策树算法、时序与回归算法、神经网络、关联规则和聚类分析,并结合数据挖掘工具,SQL Server Business Intelligence Development Studio进行介绍。,1.4 数据挖掘工具,SQL Server 2005,1.5数据挖掘技术在医学领域中的应用特点、现状及展望,1.医学数据的特点以及医学数据挖掘的独特性,医学信息蕴含了医疗过程和医患活动的

10、全部数据资源,既有有关临床的医疗信息又有医院管理的信息,尤其是前者反映了医学的独特性。这些信息具有模式的多态性(纯数据、图像、信号、文字记录等)、不完整性(疾病信息的客观不完整和描述疾病的主观不完整)、较强时间性、复杂性和冗余性。加之其低数学特征、非规范化形式以及医患信息的不对称和医学资料涉及较多的伦理、法律问题,从而决定了医学数据挖掘的独特性。,2.数据挖掘在医学领域中的应用现状,基础医学领域:,疾病的临床诊断和治疗方面,流行病学研究和医学统计方法学方面:,医院和卫生事业管理方面:,其它:,(Methodology&Practice),第2章 数据挖掘方法和最佳实践,一、问题的提出,数据挖掘

11、的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。,2.1为什么需要方法,数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:,获取了不真实的知识;,获取了真实但无用的知识。,这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖

12、掘人员需要了解如何避免这些常见的陷阱。,2.1.1获取不真实的知识,获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。,心脏形态B超检查数据的,“,病变形态分类,”,是将二维超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(Minimum Distance Clusters)的方法将心脏形态分成不同的类型。,例如,高血压病程与心脏形变,从聚类分析结果中可以看出,随着高血压病程的持续,心脏的形态变化日益严重,且某些节段的厚度与病程的关系十分密切。,都是是向心性肥厚吗?,2

13、.1.2获取真实但无用的知识,1.获取已知的知识,获取,已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。,建立了一棵决策树,嗓子痛,链球菌感染咽炎,发烧,过敏,感冒,yes,yes,no,no,2.获取不能使用的知识,卫生监督中的“知信行”模型,知:,知识和学习,是基础;(,信:,信念和态度,是动力),;,行:,产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。,。,培训次数增加,以上结果表明经培训后,知识得分下降,

14、数据挖掘方法论的目的是避免获得不真实的知识,以及任何没有用的知识。更积极的理解是,数据挖掘方法论的目标是确保数据挖掘得到稳定的模型,以便将该模型用于要解决的社会、企业和医学问题。,2.2假设测试,1.产生假设,例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均为优秀。,2.测试假设,假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。,(,“知信行”模型,),2.3 数

15、据挖掘的方法,进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。,为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。,数据挖掘的方法可以简单的概括为5个步骤,定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。,数据准备:数据准备包括:选择数据-在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。,数据挖掘和建模:根据数据功能的类型和和数据的特点选择相

16、应的算法,在净化和转换过的数据集上进行数据挖掘。,结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。,模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。,(亦可参照书上细化的11个步骤),小结,这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。,实际上,所有发现的模型和知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,第三章 决策树,28,本章要点,一、引言,二、什么是决策树,三、决策树的建立

17、(ID3算法),四、Microsoft SQL Server 2005实践决策树,五、决策树的数据准备,29,你能判定他/她买计算机的可能性大不大吗?,姓名,年龄,收入,学生,信誉,电话,地址,邮编,买计算机,张三,23,4000,是,良,281-322-0328,2714 Ave.M,77388,买,李四,34,2800,否,优,713-239-7830,5606 Holly Cr,78766,买,王二,70,1900,否,优,281-242-3222,2000 Bell Blvd.,70244,不买,赵五,18,900,是,良,281-550-0544,100 Main Street,70

18、244,买,刘兰,34,2500,否,优,713-239-7430,606 Holly Ct,78566,买,杨俊,27,8900,否,优,281-355-7990,233 Rice Blvd.,70388,不买,张毅,38,9500,否,优,281-556-0544,399 Sugar Rd.,78244,买,一、引例,30,决策树的用途(一),31,决策树的用途(二),计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低

19、,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,假定公司,收集,了左表数据,那么对于任意给定的客人(测试样例),你能帮助公司将这位客人归类吗?,即:你能预测这位客人是属于“买”计算机的那一类,还是属于“不买”计算机的那一类?,又:你需要多少有关这位客人的信息才能回答这个问题?,决策树可以帮助你解决好这个问题,32,决策树的用途(二),计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青

20、,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,谁在买计算机?,他/她会买计算机吗?,年龄?,学生?,信誉?,买,青,中,老,否,是,优,良,不买,买,买,不买,33,决策树的用途(二),一棵很糟糕的决策树,收入?,学生?,青,中,否,是,高,低,中,信誉?,良,优,年龄?,不买

21、,买,买,不买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,34,二、什么是决策树,决策树是一个类似于流程图的树状结构,是一种用来表示人们为了作出某一个决策而进行的一系列判断过程的树形图,这种

22、方法用于表现“在什么条件下会得到什么值”之类的规则。,12:29:45,年龄?,学生?,信誉?,买,青,中,老,否,是,优,良,否,买,买,否,35,三、决策树的建立,1.决策树建立的关键,2.对测试样例的信息期望(The expected information needed to classify a given sample(中文可能称:评价函数),信息期望,的分析与计算,平均信息期望,信息期望的减少,(Gain),3.决策树建立步骤(例),12:29:46,36,1.决策树建立的关键,1、决策树建立的关键,12:29:47,树根?,建立一个好的决策树的关键是决定树根和子树根的属性,计数

23、,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,37,1.决策树建立的关键,12:29:47,年龄,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不

24、买,128,青,中,否,良,不买,64,青,低,是,良,买,64,青,中,是,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,128,中,高,否,良,买,64,中,低,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,计数,年龄,收入,学生,信誉,归类:买计算机?,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,132,老,中,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,38,2.对测试样例的信息期望,张三属于哪一类?为了回答该问题,对张三的信息期望值是多少?,12:29:48,年龄,计数,年龄,收入,学生,信誉,归类:

25、买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,青,中,否,良,不买,64,青,低,是,良,买,64,青,中,是,优,买

26、,计数,年龄,收入,学生,信誉,归类:买计算机?,128,中,高,否,良,买,64,中,低,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,计数,年龄,收入,学生,信誉,归类:买计算机?,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,132,老,中,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,39,2.对测试样例的信息期望,12:29:49,年龄,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,

27、买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,青,中,否,良,不买,64,青,低,是,良,买,64,青,中,是,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,128,中,高,否,良,买,64,中,低,是,优,买,32,中,中,否,优,买,32,中,高,

28、是,良,买,计数,年龄,收入,学生,信誉,归类:买计算机?,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,132,老,中,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,平均信息期望?,信息期望的减少?,信息期望?,40,2.对测试样例的信息期望,让我们称所需要研究的属性为“分类属性”。假设该属性共分m类,而它们每一类在数据表中计数的总和分别为s,1,s,2,s,m,。,令 s=s,1,+s,2,+s,m,那么对于任一样例,决定它所属类别的信息期望可以用下面的公式来计算:,I(s,1,s,2,s,m,)=-p,i,log,2,(p,i,),其中

29、 p,i,=s,i,/s,12:29:50,i=1,m,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,信息期望?,41,例:左表,分类属性:买计算机?,该属性共分两类(m=2):买/不买,s,1

30、,=641,s,2,=383,s=s,1,+s,2,=1024,p,1,=s,1,/s=641/1024=0.6260,p,2,=s,2,/s=383/1024=0.3740,I(s,1,s,2,)=I(641,383),=-(p,1,log,2,(p,1,)+p,2,log,2,(p,2,),=0.9537,2.对测试样例的信息期望,12:29:50,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128

31、,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,信息期望?,42,2.对测试样例的信息期望,讨论:“买”/“不买”计算机的人数之间的比例对于信息期望值的影响,I(641,383)=0.9537,I(512,512)=I(4,4)=1,I(51,973)=I(973,51)=0.2856,I(0,1024)=I(256,0)=0,I(128,256)=0.9183,I(257,127)=0.9157,信息期望的数值与分类属性中各类计数之间

32、的比例有关,信息期望的数值与计数总数无关,12:29:51,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,63,老,中,否,优,不买,1,老,中,否,优,买,信息期望?,43,2.对测试样例的信息期望,12:29:52,信息期望的减少(又称Gai

33、n),=信息期望 平均信息期望,基于节点数据表,基于该节点的所有直系分支数据表,44,2.对测试样例的信息期望,平均信息期望,E,是节点各直系分支的信息期望值的加权总和,1)假定选择年龄作树根节点,则:,青年组:I(128,256)=0.9183,中年组:I(256,0)=0,老年组:I(257,127)=0.9157,青年组比例:(128+256)/1024=0.375,中年组比例:256/1024=0.25,老年组比例:(257+127)/1024=0.375,平均信息期望(加权总和):,E(年龄)=0.375*0.9183,+0.25*0+0.375*0.9157=0.6877,Gain

34、(年龄)=I(641,383)-E(年龄),=0.9537 0.6877=0.2660,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,青,中,否,良,不买,64,青,低,是,良,买,64,青,中,是,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,128,中,高,否,良,买,64,中,低,是,优,买,32,中,中,否,优,买,32,中,高,是,良,买,计数,年龄,收入,学生,信誉,归类:买计算机?,60,老,中,否,良,买,64,老,低,是,良,买,64,老,低,是,优,不买,132,老,中,是,良,买,63,老,中,否

35、,优,不买,1,老,中,否,优,买,平均信息期望?,45,2.对测试样例的信息期望,2)假定选择收入作树根节点,则:,高收入组:I(160,128)=0.9911,中收入组:I(289,191)=0.9697,低收入组:I(192,64)=0.8133,高收入组 比例:288/1024=0.2813,中收入组比例:480/1024=0.4687,低收入组比例:256/1024=0.25,平均信息期望(加权总和):,E(收入)=0.2813*0.9911,+0.4687*0.9697,+0.25*0.8133=0.9361,Gain(收入)=I(641,383)-E(收入),=0.9537 0.

36、9361=0.0176,计数,年龄,收入,学生,信誉,归类:买计算机?,60,老,中,否,良,买,128,青,中,否,良,不买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,中,否,优,买,63,老,中,否,优,不买,1,老,中,否,优,买,平均信息期望?,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,32,中,高,是,良,买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,64,青,低,是,良,买,46,2.对

37、测试样例的信息期望,3)假定选择学生作树根节点,则:,学生组:I(420,64)=0.5635,非学生组:I(221,319)=0.9761,学生组比例:484/1024=0.4727,非学生组比例:540/1024=0.5273,平均信息期望(加权总和):,E(学生)=0.4727*0.5635,+0.5273*0.9761,=0.7811,Gain(学生)=I(641,383)-E(学生),=0.9537 0.7811=0.1726,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,64,青,高,否,优,不买,128,中,高,否,良,买,60,老,中,否,良,买,

38、128,青,中,否,良,不买,32,中,中,否,优,买,63,老,中,否,优,不买,1,老,中,否,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,老,低,是,良,买,64,老,低,是,优,不买,64,中,低,是,优,买,64,青,低,是,良,买,132,老,中,是,良,买,64,青,中,是,优,买,32,中,高,是,良,买,平均信息期望?,47,2.对测试样例的信息期望,4)假定选择信誉作树根节点,则:,良好组:I(480,192)=0.8631,优秀组:I(161,191)=0.9948,良好组比例:672/1024=0.6563,优秀组比例:352/1024=0.3437,

39、平均信息期望(加权总和):,E(信誉)=0.6563*0.8631,+0.3437*0.9948,=0.9048,Gain(信誉)=I(641,383)-E(信誉),=0.9537 0.9048=0.0453,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,优,不买,64,老,低,是,优,不买,64,中,低,是,优,买,64,青,中,是,优,买,32,中,中,否,优,买,63,老,中,否,优,不买,1,老,中,否,优,买,计数,年龄,收入,学生,信誉,归类:买计算机?,64,青,高,否,良,不买,128,中,高,否,良,买,60,老,中,否,良,买,64,老,低,是,良,买,

40、128,青,中,否,良,不买,64,青,低,是,良,买,132,老,中,是,良,买,32,中,高,是,良,买,平均信息期望?,48,2.对测试样例的信息期望,决定树根节点,E(年龄)=0.6877,Gain(年龄)=0.2660,E(收入)=0.9361,Gain(收入)=0.0176,E(学生)=0.7811,Gain(学生)=0.1726,E(信誉)=0.9048,Gain(信誉)=0.0453,49,3.决策树建立步骤,1)决定分类属性,2)对目前的数据表,建立一个节点N。,3)如果数据表中的数据都属于同一类,N就是树叶,在树叶上标上所属的那一类。,4)如果数据表中没有其他属性可以考虑,

41、N也是树叶,按照少数服从多数的原则在树叶上标上所属类别。,5)否则,根据平均信息期望值E或Gain值选出一个最佳属性作为节点N的测试属性。,6)节点属性选定以后,对于该属性的每一个值:,从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏。,如果分支数据表非空,则运用以上算法从该节点建立子树。,50,年龄,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,128,中,否,良,不买,64,低,是,良,买,64,中,是,优,买,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,

42、64,低,是,优,不买,132,中,是,良,买,63,中,否,优,不买,1,中,否,优,买,青 中 老,树叶,计数,收入,学生,信誉,归类:买计算机?,128,高,否,良,买,64,低,是,优,买,32,中,否,优,买,32,高,是,良,买,3.决策树建立步骤,51,12:29:53,年龄,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,128,中,否,良,不买,64,低,是,良,买,64,中,是,优,买,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64,低,是,优,不买,132,中,是,良,买,63,中,否,

43、优,不买,1,中,否,优,买,青 中 老,买,3.决策树建立步骤,52,平均信息期望(加权总和):,E(收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592,Gain(收入)=I(128,256)-E(收入)=0.9183 0.4592=0.4591,平均信息期望?,信息期望?,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,128,中,否,良,不买,64,低,是,良,买,64,中,是,优,买,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,计数,收入,学生,信誉,归类:买计算机?,1

44、28,中,否,良,不买,64,中,是,优,买,计数,收入,学生,信誉,归类:买计算机?,64,低,是,良,买,青年组数据表分析:,1.假定选择收入作节点,I(128,256)=0.9183,I(0,128)=0,比例:128/384=0.3333,I(64,128)=0.9183,比例:192/384=0.5,I(64,0)=0,比例:64/384=0.1667,3.决策树建立步骤,53,平均信息期望(加权总和):,E(学生)=0.3333*0+0.6667*0=0,Gain(学生)=I(128,256)-E(学生)=0.9183 0=0.9183,结论:不需要考虑属性信誉,决定选择属性学生,

45、信息期望?,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,128,中,否,良,不买,64,低,是,良,买,64,中,是,优,买,青年组数据表分析:,2.假定选择学生作节点,I(128,256)=0.9183,I(128,0)=0,比例:128/384=0.3333,I(0,256)=0,比例:256/384=0.6667,计数,收入,学生,信誉,归类:买计算机?,64,高,否,良,不买,64,高,否,优,不买,128,中,否,良,不买,计数,收入,学生,信誉,归类:买计算机?,64,低,是,良,买,64,中,是,优,买,平均信息期望?,3.决策树建立

46、步骤,54,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64,低,是,优,不买,132,中,是,良,买,63,中,否,优,不买,1,中,否,优,买,青 中 老,买,否 是,树叶,年龄,计数,收入,信誉,归类:买计算机?,64,高,良,不买,64,高,优,不买,128,中,良,不买,计数,收入,信誉,归类:买计算机?,64,低,良,买,64,中,优,买,学生,3.决策树建立步骤,55,年龄,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64,低,是,优,不买,132,中,是,良,买,63,中,否,优,不买,1,中,

47、否,优,买,青 中 老,买,否 是,买,不买,学生,3.决策树建立步骤,56,平均信息期望(加权总和):,E(收入)=0.3333*1+0.6667*0.8050=0.8700,Gain(收入)=I(257,127)-E(收入)=0.9157 0.8700=0.0457,12:29:54,信息期望?,老年组数据表分析:,1.假定选择收入作节点,I(257,127)=0.9157,I(64,64)=1,比例:128/384=0.3333,I(193,63)=0.8050,比例:256/384=0.6667,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64

48、,低,是,优,不买,132,中,是,良,买,63,中,否,优,不买,1,中,否,优,买,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,132,中,是,良,买,63,中,否,优,不买,1,中,否,优,买,计数,收入,学生,信誉,归类:买计算机?,64,低,是,良,买,64,低,是,优,不买,平均信息期望?,3.决策树建立步骤,57,平均信息期望(加权总和):,E(学生)=0.6771*0.8051+0.3229*0.9998=0.8680,Gain(学生)=I(257,127)-E(学生)=0.9157 0.8680=0.0477,12:29:54,老年组数据表分析:,2.假定

49、选择学生作节点,I(257,127)=0.9157,I(196,64)=0.8051,比例:260/384=0.6771,I(61,63)=0.9998,比例:124/384=0.3229,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64,低,是,优,不买,132,中,是,良,买,63,中,否,优,不买,1,中,否,优,买,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,63,中,否,优,不买,1,中,否,优,买,计数,收入,学生,信誉,归类:买计算机?,64,低,是,良,买,64,低,是,优,不买,132,中,是,良,买,平均信息期望

50、?,3.决策树建立步骤,信息期望?,58,平均信息期望(加权总和):,E(,信誉,)=0.6667*0+0.3333*0.0659=0.0220,Gain(,信誉,)=I(257,127)-E(,信誉,)=0.9157 0.0220=0.8937,结论:决定选择属性信誉,12:29:55,信息期望?,老年组数据表分析:,3.假定选择信誉作节点,I(257,127)=0.9157,I(256,0)=0,比例:256/384=0.6667,I(1,127)=0.0659,比例:128/384=0.3333,计数,收入,学生,信誉,归类:买计算机?,60,中,否,良,买,64,低,是,良,买,64,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服