收藏 分销(赏)

See5使用说明.pptx

上传人:精**** 文档编号:12707098 上传时间:2025-11-30 格式:PPTX 页数:20 大小:562KB 下载积分:10 金币
下载 相关 举报
See5使用说明.pptx_第1页
第1页 / 共20页
See5使用说明.pptx_第2页
第2页 / 共20页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2011-9-13,#,小暖,See5,使用说明,安装成功后,,See5-demoSamples,提供了几组数据可供使用:,.data,:训练使用数据,.names,:,训练数据的说明文档,.test,:评价使用数据,以,Samples,中的实验为例,使用数据为,anneal.,data,,,anneal,.names,,,anneal,.test,。,文档介绍,对,anneal.data,中数据的说明,主要有用信息为实例个数,属性个数,属性信息说明和待分类别说明。,-,在,data,文件中表示为,N/A,Anneal.names,此文档中保存了即将用于分类的数据,格式严格遵照,anneal.names,中的描述。,在试用版中,能够处理的实例个数不超过,400,条。,按照,names,文档中的说明,每条实例应该有,38,条属性。但是真实情况是多出了一条。,这,条被认为是该实例的真实类别,但不用于分类,只用于评价。,Anneal.test,是格式,与,data,相同,用于精度评价的文档。,Anneal.data,界面介绍,数据导入;,构建分类器;,停止分类;,查看输出结果;,使用分类器;,相互,参照;,相关文档,(蓝色表示存在,灰色表示不存在),导入,anneal.data,文件后,点击按钮 ,弹出有图所示对话框。对话框中的默认选项足以满足分类要求。可勾选处将在后续讲解。点击,OK,,生成分类树。,根据勾选不同选项,得到的,output,文件内容会有所改变。将在后续讲解。,使用流程,Anneal.out,叶子的层数,错误率,=1/400,Anneal.tree,暂时还没看明白,1.,(,n,lift x),n:,根据规则分到该类别的,训练样本数;,m:,被错分的训练样本数。,2.,分类的可信度,对于一个实例来说,可能有多条规则都对其适用。在这种情况下,,SEE5,采用了一种投票的方式。在所有使用规则中投票,以可信度作为权重。计算综合后,以投票最高的类为准。,通常规则数会小于叶子层数,本例数为,7,和,13,。,rulesets,1,2,通常规则集分类器的适用性会优于决策树。,(,以误差的相对大小来衡量,),本例,中:,此外,属性使用率也有所区别。,在后者中,只要有某个条件,适用于某一实例,这个条件,中的属性就会被使用到。,rulesets,method,Training data(%),Test data(%),Decision tree,0.3,1.5,Rulesets classifier,0.8,2.0,Decision tree,Rulesets,Adaptive boosting,:自适应提升。为一次分类生成多个分类器,由分类器进行投票得到最终分类结果。在初次生成分类器后,系统检测到错分的实例,并在下一次构造分类器时对这些错分实例给予更大关注(权重),在多次重复操作后得到最优的分类器。,Trail,:构造分类器个数。,boosting,与决策树分类精度相同,在前边两种分类方法中,都只用到了部分属性。此选项能够自动选择有用的属性来构造,decision tree,或,rulesets,。,剔除了,29,个属性,剩余被,采用属性按照重要性依次,排列。属性前的百分数,,例如,567%,代 表若该属性,family,被剔除,则分类精,度会变为原精度,1.5%,的,567%,倍。,Winnow attibutes,在某些应用中,我们希望分类的决定能随着属性值的变化而更缓慢的变化。此选项将阈值分割,为三个变量,下界,lb,,,上界,ub,和中间值,t,。,有,图中的表示形式为,=ub(t),或,=lb(t),。,对于某些情况来说,上下界,不一定非要关于中间值对称。,Softening thresholds,决策树的生成主要分为两个步骤:首先构造一个最接近训练数据的树,然后修剪掉那些误差相对较大的分支。修剪过程首先针对每一颗子树决定是否用叶子或者分支代替它,然后再全局考虑决策树的性能。,Pruning CF,的含义还不清楚,修剪的限定,条件是当,value50%,,则后者与前者互补;,若,x%50%,,则后者与前者大小相同。,Lock sample,能够使每次使用的子集固定不变。,Sampling from large,datasets,将训练数据分为,n,个大小相同,分布相似的子集。每次选定一个子集,利用余下数据构造分类器,再用选定自己作为检测数据。,Mean:,平均误差,SE:the standard errors of the means,Cross-validation,trials,该选项能够显示分类树与相关数据的联系。例如,选择,.data,得到:,Cross-Referencing Classifiers and,Data,决策树,.data,中各实例的分类结果。,点击,?,,弹出属性列表;,#n,代表实例标号;,最后一列为分类结果,绿色代表分类正确,红色代表分类错误。,单击某条实例,得到该实例,的分类子树。,单击某条规则,/,叶子,得到对,应被分类的实例编号。,需要注意的是,有时方框内的数据带有小数部分。这事因为某些实例的属性为空,导致在其他某些分类规则下,该实例也被分类。,Cross-Referencing Classifiers and Data,以上为个人对,SEE5,的一些总结。认识比较浅显,主要目的是为了整理所学到的东西。,PPT,中还残留了一些问题,若有兴趣讨论或帮助我解答,感激不尽。,邮箱:,wuxian,谢谢观看!,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服