你正在下载：《

数据挖掘模型选择.ppt

》 [预览]

格式：PPT ，页数：24 ，大小：6.92MB ,
资源ID：1893291 下载积分：10 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/1893291.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（数据挖掘模型选择.ppt）为本站上传会员【精***】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

数据挖掘模型选择.ppt

1、模型评估与选择泛化误差 vs 经验误差泛化误差：在“未来”样本上的误差经验误差：在训练集上的误差，亦称“训练误差”训练数据模型新样本数据新样本属于什么类别？过拟合 vs 欠拟合模型选择三个关键问题：如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验评估方法关键：怎么获得“测试集”？原则：测试集与训练集“互斥”常见方法：留出法（hold-out）交叉验证法（cross validation）自助法（bootstrap）留出法保持数据分布一致性（例如：分层采样）多次重复划分（例如：100次随机划分）测试集不能太大、不能太小（例如：1/51/3）K-折交叉验证法当K=m时

2、则得到“留一法”（leave-one-out,LOO）自助法基于“自助采样”（bootstrap sampling）Pull up by your own bootstraps有放回采样、可重复采样训练集与原样本集同规模数据分布有所改变约有36.8%的样本不出现包外估计：out-of-bag estimation模型选择三个关键问题：如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验性能度量性能度量（performance measure）是衡量模型泛化能力的评价标准，反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的，不仅取决于算法和

3、数据，还取决于任务需求。性能度量回归任务分类任务错误率与精度查准率、查全率与F1性能度量错误率与精度错误率精度性能度量查准率与查全率查准率：precision，准确率，P预测结果中是正例的比率查全率：recall，sensitivity,召回率，R所有的正例中被正确预测出的比列True Positive Rate,TPR,(Sensitivity)True Negative Rate,TNR,(Specificity)Positive Predictive Value,PPVFalse Positive Rate,FPRFalse Negative Rate,FNRFalse Discover

4、y Rate,FDRPR图：学习器A优于学习器C学习器B优于学习器C学习器A？学习器B平衡点(BEP)（Break-Even Point,）学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C性能度量F1度量性能度量ROC与AUC集成学习定义：通过构建并结合多个学习器来完成学习任务，又称为：多分类学习器系统、基于委员会的学习等。两大类个体学习器间存在强依赖关系，必须串行生产的序列化方法：Boosting个体学习器间不存在强依赖关系，可同时生成的并行化方法：Bagging and Random Forest集成学习随机森林Bagging 策略bootstrap aggregation 从

5、样本集中重采样(有重复的)选出n个样本在所有属性上，对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次，即获得了m个分类器将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本；从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；重复以上两步m次，即建立了m棵CART决策树这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类投票机制简单投票机制一票否决(一致表决)少数服从多数有效多数(加权)阈值表决贝叶斯投票机制但也可以使用SVM、Logistic回归等其他分类器，习惯上，这些分类器组成的“总分类器”，仍然叫做随机森林。此课件下载可自行编辑修改，供参考！感谢您的支持，我们努力做得更好！