《R语言》课件第10章数据评估.pdf

资源描述

大数据应用人才培养系列教材第十章数据评估1 0.1数据集10握混淆矩阵1 0.3 风险图10/ROC曲线习题10.1数据集第十章模型评估训练数据集是用于建模的，所以通常情况下，在训练数据集上模型执行得很好。但个结论并不能真的说明模型好，我们更希望知道模型对看不见的数据有怎样的表现。为了回答这个问题，需要把模型应用到数据上。这样做之后，将得到模型的总体错误率。简单的做法就是把观察数据按比例划分,对比模型结果和实际结果差异。使用验证数据集测试模型的性能，同时微调模型。因此，建立一个决策树之后，我们要在验证数据集再一次检查模型的性能。我们可能会改变一些用于构建决策树模型的参数调节选项。基于模型在验证数据集性能与旧模型对比，得到一个最终的模型性能的偏差彳古计。10.1数据集第十章模型评估测试数据集是一个在建模阶段没有使用过的数据集。一旦根据验证数据集确定了最好的模型，那么在测试集上对模型的性能评估。然后，在任何新的数据集上估计模型预期的性能。Data标签的第四个选项是使用全集评估模型（联合训练、验证和测试数据集）。这中策略似乎只对玩具项目有用，而不能精确的评估模型的性能。在Data*示签中，作为数据源的另一个选项是通过输入提供选择。当打分（Score）选为评价的类型时才使用。在这种情况下，弹出一个窗口允许直接输入数据。Data标签数据源的最后两个选项，一个是CSV文件，另一个是 RDataseto它们允许数据从一个CSV文件加载到R中，作为模型评估数据集。10.1数据集第十章模型评估模型性能评价是通过交叉验证完成的。事实上，R中一些算法就是执行交叉验证来评估，决策树算法使用的rpart()就是一个例子。交叉验证的概念很简单。给定一个数据集，随机分割10份，使用其中的9份来建模，用最后的那1份度量模型的性能，重复选择不同的 9份构成训练集，余下的那1份用作测试，需要重复10次，10次测试的平均作为最后的模型性能度量。大数据应用人才培养系列教材第十章数据评估1 0.1数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题 10.2混淆矩阵第十章模型评估二分类混淆矩阵实际正例反例合计正例反例合计真阳(TP)假阳(FP)预测正例数(TP+FP)假阴(FN)真阴(TN)预测反例数(FN+TN)实际正例数(TP+FN)实际反例数(FP+TN)总样本数 TP+FP+FN+TNTP(真阳性)表示阳性样本经过正确分类之后被判为阳性。TN(真阴性)表示阴性样本经过正确分类之后被判为阴性。FP(假阳性)表示阴性样本经过错误分类之后被判为阳性。FN(假阴性)表示阳性样本经过错误分类之后被判为阴性。10.2混淆矩阵第十章模型评估二分类混淆矩阵混淆矩阵是将每个观测数据实际的分类与预测类别进行比较。混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了观测数据的真实归属类别，每一行的数据总数表示该类别的观测数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。这些指标通常对区分误分类错误类型有用。例如，在weather 数据集中。假阳性将预测明天会下雨，但事实上并非如此。结果是,我可能会带伞，但没有用到。假阴性预测结果是明天没有雨，但实际下了，如果依据模型的预测，你不需要带雨伞，不幸的是遇到大雨，你被淋湿了。在这个例子中，假阳性比假阳性更重要。10.2混淆矩阵第十章模型评估模型评价指标TP+TNaccuracy=-TP+TN+FP+FNsencitivity 二TPTP+FNspecificity=TNTN+FP 10.2混淆矩阵第十章模型评估模型评价指标FN+FPerror=-TP+TN+FP+FNFN mis-judgement=-TN+FNrecall=TP+FNTP+FP+TN+FN 10.2混淆矩阵第十章模型评估多分类混淆矩阵类类类实晟、123类14352类22453类30149-从表可以看出，第三行第三列中的43表示有43个实际归属第一类的实例被预测为第一类，同理，第四行第三列的2表示有2个实际归属为第二类的实例被错误预测为第一类。每一行之和为50,表示 50个样本，第三行说明类1的50个样本有43个分类正确，5个错分为类2,两个错分为类3。大数据应用人才培养系列教材第十章数据评估10；数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题10.3风险图第十章模型评估风险图的作用在决策中，个性、才智、胆识、经验等主观因素使不同的决策者对相同的益损问题（获取收益或避免损失）做出不同的反应；即使是同一决策者，由于时间和条件等客观因素不同，对相同的益损问题也会有不同的反应。决策者这种对于益损问题的独特感受和取舍，称之为效用。效用曲线就是用来反映决策后果的益损值对决策者的效用（即益损值与效用值）之间的关系曲线。通常以益损值为横坐标，以效用值为纵坐标，把决策者对风险态度的变化在此坐标系中描点而拟合成一条曲线，称为风险图。风险图也称为累计增益图（cumulative gain chart）,提供另外一种度量二分类模型的视角。10.3风险图第十章模型评估实验指导10.3风险图第十章模型评估实验指导Risk Chart Decision Tree weather.csv validate Ra in Tomorrow(次)SOUEUUOJJod20-o-Risk Scores100040 60Caseload(%)Weather数据集风险图10.3风险图第十章模型评估实验指导Risk Chart Decision Tree audit.csv validate TARGET_Adjusted(上)soUEUUOJJSd40 00Caseload(%)audit数据集风险图10.3风险图第十章模型评估实验指导假设我们的资金允许审计5000名纳税人，如果我们随机选取50%,则希望感兴趣的执行利率也为50%。随机选择就是风险图的对角线，随机加载50%的案例（50000）,其性能也就是50%（发现只有一半的案例是我们感兴趣的），这是风险图基线。面我们用随机森林模型预测可能需要调整申报表的纳税人，对于每个纳税人，该模型纳税人需要调整纳税表的概率，有较高概率的纳税人要优先审计，基于这样的选择，概率高的其风险打分也较高。虚线表示使用优先审计策略得到的模型性能。对50%的案例其性能接近90%,即希望识别出90%的需要调整纳税表的纳税人。浅实线表明如果简单地随机选择纳税人，其性能几乎提高了 2倍。10.3风险图第十章模型评估实验指导因此，模型提供了相当明显的效益。注意，我们不是对错误率特别关注，而是关注使用排序或优先级后模型获得的利益。深实线与虚线很接近，它表明模型风险的大小，它是基于图 10.4所示的风险变量，记录了对纳税申请表任何调整需要的花费。八risk性能曲线并不能适用任何模型，根据经验risk性能曲线接近Target性能曲线或位于Target性能曲线之上。如果是后者,在过程的早期，模型是偶尔能识别到高风险的案例，这是有用的结果。大数据应用人才培养系列教材第十章数据评估10：数据集1012混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题10.4 ROC曲线第十章模型评估什么是ROC曲线受试者工作特征曲线（receiver operating characteristic curve,简称ROC曲线），又称为敏感曲线，得此名的原因在于曲线上各点反映着相同的敏感性，它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感度=TP/（TP+FN）为纵坐标，假阳性率（1-特异度）为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点，必须将试验结果分为两类，再进行统计分析。ROC曲线的评价方法与传统的评价方法不同，无须此限制，而是根据思维，允许有中间状态，可以把试验结果划分为多个有序分类，如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此，ROC曲线评价方法适用的范围更为广泛。10.4 ROC曲线第十章模型评估 ROC曲线的作用(1)ROC曲线能很容易判断边界值的分类能力。(2)选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值，其假阳性和假阴性的总数最少。(3)两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时，可将各试验的ROC曲线绘制到同一坐标中，以直观地鉴别优劣，靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较，哪一种试验的AUC 最大，则哪一种试验的诊断价值最佳。10.4 ROC曲线第十章模型评估实验指导ROC Curve Decision Tree churnTrain validate churn1.00-1.00-ROC Curve Random Forest churnTrain validate chum0.75-50o.g(sod 8己1o.方江8usod 8己 1o.oo-0.25AUC=0 890.50 False Positive RateAUC=0 890.50False Positive Rate1.00ROC Curve Linear churnTrain validate chumAUC=0 820.000.25 0.50 0.75 1.00False Positive Rate大数据应用人才培养系列教材第十章数据评估10：数据集10:2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题习题:1.FP表达的含义_。A表示阳性样本经过正确分类之后被判为阳性；B表示阴性样本经过正确分类之后被判为阴性；C表示阴性样本经过错误分类之后被判为阳性；D表示阳性样本经过错误分类之后被判为阴性；2.ROC曲线又称作_。A敏感曲线B成本曲线C Lift曲线D特异性曲线3.模型评估常用到得方法有：混淆矩阵、风险矩阵、成本曲线、Lift曲线、ROC曲线、_等方法。4.p-value常用至加勺标签:;_;_等。5.模型评估的度量参数有：度量，准确率、识别率，错误率、误分类率，敏感度、真正例率、_特效型、真负例率，精度(precision)，吩数，Fb、其中b是非负实数6.混淆矩阵评价有6个指标分别为_。7.分别用公式表达准确度，灵敏度，特异性，错误率，误判率，并解释其含义。8:ROC曲线作用？感谢聆听

展开阅读全文

《R语言》课件 第10章 数据评估.pdf

《R语言》课件第10章数据评估.pdf