《R语言》课件第6章数据探索.pdf

资源描述

大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析6.3 不一致数据分析6.4 统计分析习题6.1缺失值分析第六章数据探索在建模之前，可以通过数据探索来获得关于数据的基本认识。数据探索可以帮助我们了解数据的形状，数据的边界（最值），数值特性和散布程度，发现有问题的数据，缺失的数据，噪声，有偏的分布。数据探索是数据分析项目的基本步骤之一，通过探索得到的数据变量概括和可视化的图形结果，让我们对数据集有一个基本的理解，并选定合适的变换工具做进一步的分析。6.1缺失值分析第六章数据探索与缺失值相关的几个概念(DFLASE(假)FALSE表示逻辑假，是存在的真实值。计算时FALSE被当做0。(2)NA(缺失值)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进行函数操作的时候，该NA参与运算，如。x-c(l/2,3,NA,4);mean(x)1 NA如果想去除NA的影响，需要显式告知mean方法，如 mean(xzna.rm=T)o(3)NULLNULL表示未知的状态,它不会在计算之中。例如，x irissample(l:nrow(iris)z 6),1 dim(iris)#查看它的样本数和变量数1 150 5sum(complete.cases(sleep)#查看完整样本个数library(VIM)xcolnames(x)aggr(x)#缺失值可视化6.1缺失值分析第六章数据探索I(X缺失值检测 1AAS S U O A E W q E。AAQ.IdAAS-_ co。soEo000 S6WSS-E JO uotodoQ-大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析63不一致数据分析6.4 统计分析习题 6.2异常值分析第六章数据探索异常值（离群点）是指测量数据中的随机错误或偏差，包括错误值或偏离均值的孤立点值。在数据处理中，异常值会极大的影响回归或分类的效果。为了避免异常值造成的损失，需要在数据预处理阶段进行异常值检测。另外，某些情况下，异常值检测也可能是研究的目的，如数据造假的发现、电脑入侵检测等。6.2异常值分析第六章数据探索箱线图检测离群点在一条数轴上，以数据的上下四分位数（Q1-Q3）为界画一个矩形盒子（中间50%的数据落在盒内）；在数据的中位数位置画一条线段为中位线；默认延长线不超过盒长的1.5倍，延长线之外的点认为是异常值（用。标记）。6.2异常值分析第六章数据探索箱线图检测离群点检测数据的异常值使用函数是553$()函数实现，数据仍采用622节数据，执行如下代码得到下图。yboxplot(xz2)#绘制箱线图想查看具体的异常值，执行如下代码：y$out1 4.4 4.1 4.2 2.0想查看置信区间，执行如下代码：y$conf1 2.9 3.1 6.2异常值分析第六章数据探索散点图检测离群点#寻找a为异常值的坐标位置aa1 16 33 34 61#寻找b为异常值的坐标位置bb1 132dfplot(df)#绘制x,y的散点向p2points(dfp2l,col=red,pch=,x,cex=2)#标记异常值 6.2异常值分析第六章数据探索散点图检测离群点 6.2异常值分析第六章数据探索 LOF方法检测异常值局部异常因子法(LOF法)，是一种基于概率密度函数识别异常值的算法。LOF算法只对数值型数据有效。算法原理：将一个点的局部密度与其周围的点的密度相比较,若前者明显比后者小(LOF值大于1),则该点相对于周围的点来说就处于一个相对比较稀疏的区域，这就表明该点是一个异常值。R语言实现：使用DMwR包中的函数lofactor(),基本格式为:lofactor(data k)其中，data为戴值型数据集；k为用于计算局部异常因子的邻居数量。6.2异常值分析第六章数据探索 LOF方法检测异常值 library(DMwR)out.scores plot(density(out.scores)#绘制LOF值的概率密度图(如图6.5)#LOF值排前6的数据作为异常值，提取其样本号 order(out.scores,decreasing=TRUE)l:61 33 9 11 45 20 34 6.2异常值分析第六章数据探索 LOF方法检测异常值density.default(x=out.scores)N=50 Bandwidth=0.0218 6.2异常值分析第六章数据探索聚类方法检测异常值通过聚成类，将那些不属于任何一类的数据作为异常值。执行如下代码，得到如图6.6。kk$cluster#输出聚类结果#centers返回每个样本对应的聚类中心样本 centers#计算每个样本到其聚类中心的距离distances#找到距离最大的6个样本，认为是异常值out out#异常值的样本号1 118 119 123 99 132 94大数据应用人才培养系列教材第六章数据探索6；缺失值分析6ZT常分析6.3 不一致数据分析6.4 统计分析习题6.3不一致数据分析第六章数据探索作为一位数据分析人员，应当警惕编码使用的不一致问题和数据表示的不一致问题，如格式不一致（日期“2018/05/25 和25/05/2018）、类型不一致、命名不一致等。编而不一致和数据表示不一致的问题通常需要人工检测，当发现一定规律时可以通过编程进行替换和修改。若存在不一致的数据是无意义数据，可以使用缺失值处理方法进行相应处理。数据矛盾（不一致）还可能是由于被挖掘的数据来自不同的数据源，对于重复存放的数据未能进行一致性更新造成的，类似于数据库参照完整性。例如，两张表中都存放了用户电话号码，但在用户的电话号码发生给变时，只更新了一张表中的数据，那么这两张表就有了不一致的数据。这要借助数据库的完整性理论。大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析6.3 不一致数据分析6.4 统计分析习题 6.4统计分析第六章数据探索分布分析Q)定量数据的分布分析方法1:直方图将数据取值的范围分成若干等距区间，考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数，这种直方图可以估计总体的概率密度。在R语言中，使用hist()函数画出样本的直方图。方法2:核密度图与直方图相配套的是核密度图，其目的是用已知样本，估计其密度，执行下面代码得到图6.6。set.seed(1234)xhist(x,breaks=10,freq 二 FALSE,col=gray)lines(density(x)zcol=redzlwd=2)6.4统计分析第六章数据探索分布分析Histogram of x 6.4统计分析第六章数据探索分布分析方法3:茎叶图与直方图比较，茎叶图更能细致地看出数据分布结构。R语言中使用 stem。函数绘制茎叶图，如：stem(islands)The decimal point is 3 digit(s)to the right of the|0 000000000000000000000000000001111112223382 074 6 85 8 410 5121416 0在茎叶图中，纵轴为测定数据，横轴为数据频数，数据的十分位表示茎，作为纵轴的刻度；个位数作为叶，显示频数的个数，作用与直方图类似。6.4统计分析第六章数据探索分布分析(2)定性数据的分布分析对于定性变量，常常根据分类变量来分组，可以采用饼图来描述定性变量的分布。饼图的每一个扇形部分代表每一类型的百分比或频数，根据定性变量的类型数目将饼形图分成几个部分，每一部分的大小与每一类型的频数成正比。6.4统计分析第六章数据探索对比分析对比分析原理数据的趋势变化独立的看，其实很多情况下并不能说明问题，比如如果一个企业盈利增长10%,我们并无法判断这个企业的好坏，如果这个企业所处行业的其他企业普遍为负增长，则5%很多，如果行业其他企业增长平均为50%,则这是一个很差的数据。对比分析，就是给孤立的数据一个合理的参考系，否则孤立的数据毫无意义。6.4统计分析第六章数据探索对比分析(2)常用对比分析方法同比。同比(year-on-year)就是今年第n月与去年第n 月比，即同期相比。同比发展速度主要是为了消除季节变动的影响，用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。如，本期2月比去年2月，本期6月比去年6月等。其计算公式为：(本期数-同期数)/|同期数|xl00%。环比。年报的同比分析就是用报告期数据与上期或以往几个年报数据进行对比。它可以告诉投资者在过去一年或几年中，上市公司的业绩是增长还是滑坡。但是，年报的同比分析不能揭示公司最近6个月的业绩增长变动情况，而这一点对投资决策更富有指导意义。6.4统计分析第六章数据探索对比分析定基比。定基比的算法是环比指数的乘积，比如你要求 2012年8月的定基比，那么，你就要知道2012年1-8月份的环比指数，然后得出的乘积就是定基比，别忘了。三者之间关系。统计指标按其具体内容、实际作用和表现形式可以分为总量指标（同比）、相对指标（环比）和平均指标（定基比）。同比和环比，这两者所反映的虽然都是变化速度，但由于采用基期的不同，其反映的内涵是完全不同的；一般来说，环比可以与环比相比较，而不能拿同比与环比相比较；而对于同一个地方，考虑时间纵向上发展趋势的反映，则往往要把同比与环比放在一起进行对照。6.4统计分析第六章数据探索对比分析对比的参照物不同，得到的判断结论也就不同孩子考试考了95分，家长很高兴，因为知道满分是100分,有参照物。最近一次考试考了80分，家长会发火，因为过去的 95分成了新参照物。后来一问，发现这次卷子出难了，孩子已经是班级第一了，就又转怒为喜，这里其他孩子就成了参照物。6.4统计分析第六章数据探索统计量分析Q)集中趋势度量均值中位数众数(2)离中趋势度量极差标准差变异系数四分位数间距 6.4统计分析第六章数据探索周期性分析周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节周期性趋势，相对较短的有月度周期性趋势、周度周期性趋势，甚至更短的天、小时周期性趋势。例如，要对某单位用电量进行预测，可以先分析该用电单位日用电量的时序图，以此来直观地估计其用电量变化趋势。6.4统计分析第六章数据探索相关分析（1）相关系数y（国一三）（筋一 y）i=1 6.4统计分析第六章数据探索相关分析(2)相关分类完全正线性相关完全负线性相关大数据应用人才培养系列教材第六章数据探索6缺失值分析6：2异常值分析62不一致数强分析6.4统计分析习题习题:1.判断是否有缺失值的函数是_O2.对于缺失数据通常有三种应付手段：_和_o3.检测数据的异常值是使用函数_；如何判定离群？4 在田五中诵堂他田东画,右图5:当对赢进彳亍批量操南厂可以通过痣ii数返回值进行约束，根据是否提示错误判断、是否存在数据不一致问题，可以通过_函数。感谢聆听

展开阅读全文

《R语言》课件 第6章 数据探索.pdf

《R语言》课件第6章数据探索.pdf