资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2,*,1,第二节,R,与数据描述性分析,描述统计分析,推断统计分析,绘制统计图型,编制统计表格,计算描述统计量,参数估计,假设检验,数据建模,数据挖掘,数据的统计分析,张金龙 R初步,2010-6-3,2,2.1,用统计量描述数据,R,基本统计分析函数,命令,解释,max(x),返回向量,x,中最大元,min(x),返回向量,x,中最小元,which.max(x),返回,x,最大元的下标,which.min(x),返回,x,最小元的下标,mean(x),计算样本,x,的均值,median(x),计算样本,x,的中位数,var(x),计算样本,x,的方差,sd(x),计算样本,x,的标准差,fiveenum(x),计算样本,x,的五数概括,quantile(x,pro=c(),计算样本,x,的常用分位数(默认五数概括),summary(x),计算样本,x,的(五数概括,+,均值),张金龙 R初步,2010-6-3,3,sum(x)(cumsum(x),给出样本,x,的总和,(,积累和),mad(x),计算中位绝对离差,1.4826median(abs(x-median(x),range(x),返回向量,c(min(x),max(x),或,(min(x)-max(x),IQR(x),计算样本,x,的四分位数极差,sort(x),sort(x),按升序排序,选项,decreasing=TRUE,表降序,skewness(x),样本的偏度系数(需加载,fBasics,程序包),kurtosis(x),样本的峰度系数(需加载,fBasics,程序包),basicStats(x),fBasics,包中的命令,计算常用的统计量,Stat.desc(x),Pastecs,包中命令,计算多个统计量和均值置信区间,Describe.by(x),psych,包,Hmise,包中命令,计算常用的统计特征量,var(x,y),,,cov(x,y),计算样本,x,y,的协方差或协方差矩阵,cor(x,y),计算样本,x,y,的相关系数,col(row)means(x),矩阵,x,行,(,列,),均值,scale(x,center=T),对矩阵或数据框,x,中心化,,(,+scale=T),标准化,aggregate(x,by,fun),对数据框,x,的指定分组变量按指定函数统计分析,apply(s,t,lpply),对矩阵(列表或向量、因子)指定分组变量使用函数,张金龙 R初步,2010-6-3,4,张金龙 R初步,2010-6-3,5,2.1.1,一维数据分布的特征,数据水平,(,位置,),数据差异,(,分散程度,),分布形状,(,偏态和峰态,),张金龙 R初步,2010-6-3,6,(一),水平的度量,(数据的“位置”),1.,均值,mean(),消除了观测值的随机波动,易受极端值的影响,2.,中位数,median(),m,e,50%,50%,排序后处于中间位置上的值。,不受极端值影响,张金龙 R初步,2010-6-3,7,其中,x,(,i,),是第,i,个顺序统计量的样本值,按升序排列为:,x,(1),x,(2),x,(,n,),在,R,中,,sore(),给出样本的次序统计量的观察值。,sore(x):,数据按升序排列,decreasing=TRUE,为降序。,sore(x,na):,有缺失值的数据,不处理缺失数据。,sore(x,na.last=T):,排序保留缺失数据,排在最后。,sore(x,na.last=F):,排序保留缺失数据,排在最前。,与,sore(x),相关的函数:,order(),给出排序后的下标。,rank(),给出样本的秩统计量。,张金龙 R初步,2010-6-3,8,set.seed(1);z=sample(1:100,9);z#,设置种子,在,1100,中任取,9,个数,比较与,sample(1:100,9,rep=T),和,去掉,set.seed(1),的不同,1 27 37 57 89 20 86 97 62 58,sort(z),1 20 27 37 57 58 62 86 89 97,sort(z,decreasing=TRUE),1 97 89 86 62 58 57 37 27 20,order(z),1,5 1 2 3 9 8 6 4 7,zorder(z),1 27 37 57 89 20 86 97 62 58,which(z=max(z),#,给出最大值下标,等价于,which.max,1 7,which(z=median(z)#,给出中位数下标,19,例,2.1,(排序,次序统计量的样本值,最大值、中位数下标,),张金龙 R初步,2010-6-3,9,3.,众数,(mode),:,一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,m,o,m,o,在,R,中,样本,x,的众数如下计算:,which(table(x)=max(table(x),例,2.1,x-c(2,2,4,4,4,6,6,6,8),table(x,),#,x,的频数表,max(table(x),#,众数出现的次数,which(table(x)=max(table(x),#,众数在,table(x),第几个,:4,6.,张金龙 R初步,2010-6-3,10,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,众数、中位数和平均数的关系,均值是观测值的,重心,:,对称分布或接近对称分布时代表性较好,中位数是观测值的,中心,:,数据分布偏斜程度较大时代表性接好,众数是观测值的,重点,:,偏斜程度较大且有明显峰值时代表性较好,张金龙 R初步,2010-6-3,11,4.,分位数,quantile(),p,分位数,上四分位数,下四分位数,1st Qu,3st Qu,、,quantile(x):,给出,0%,,,25%,,,50%,,,75%,,,100%,分位数。,quantile(x,,,prob=seq(0,1,0.2),na.rm=TRUE):,给出,0%,,,20%,,,40%,,,60%,,,80%,,,100%,分位数,且可,处理缺失值。,quantile(x,,,(0,25,0.75):,给出,25%,,,75%,分位数。,张金龙 R初步,2010-6-3,12,5.,最大,值,max(),与最小值,min(),6.,五数概括,fiveenum(x),或,quantile(x),Min,1st Qu,Median,3st Qu,Max,7.,描述统计量,summary(),Min.1st Qu.Median Mean 3rd Qu.Max,.,8.,截尾,trimmed,(),比如:,Trimmed,=0.2,基于中间,60%,的数据,最高和最低,20%,的数值被忽略,张金龙 R初步,2010-6-3,13,占,25%,数据量位置的分位数,50%,位置的分位数,占,75%,数据量位置的分位数,最 大观测值,最 小观测值,中位数,上四分位数,下 四分位数,(1st Quartile,),(,3st quartile,),有,50%,的观测值小于中位数,有,50%,的观测值位于上下四分位数之间,有,50%,的观测值大于中位数,四分位数,五数概括,按照位置来确定四分位数,m,e,X,(n),X,(1),张金龙 R初步,2010-6-3,14,(二),差异的度量,(,数据的“尺度”),1.,方差,var(),2.,标准差,sd(),3.,变异系数,CV,=100,sd()/mean(),对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,张金龙 R初步,2010-6-3,15,4.,样本矫正平方和,CSS=,CSS-sum(x-mean(x)2),CSS,5.,样本未矫正平方和,USS=,USS-sum(x2),USS,6.,极差,rang=,max(,x,)-,min(,x,)=,x,(n),-,x,(1),R,上四分位数,+1.5,(上四分位数,-,下四分位数),x,上四分位数,+3,(上四分位数,-,四百分位数),x,下四分位数,-3,(上四分位数,-,四百分位数),10,.,异常,(,极端,),值,8,.,标准误,SE.mean:,SE.mean,-,sd(,x,)/n0.5,盒型图中有显示,9,.,中位数,绝对离差函数,mad():,mad(x)=1.4826*median(abs(x-median(x),该数约等于,1/qnorm(3/4),保证正态或大样本下对标准差估计的一致性,张金龙 R初步,2010-6-3,17,(三),分布形态的度量,左偏分布,偏态,右偏分布,扁平分布,尖峰分布,与标准正态分布比较!,峰态,Sk0,K0,张金龙 R初步,2010-6-3,18,1,.,偏度系数,skewness(),2,.,峰度系数,kurtosis,(),需加载包:,fBasics,Pastecs,psych,等,对分布曲线尖削程度的测度,K0,尖峭,对分布偏斜方向和程度的测度,Sk,0,右偏,张金龙 R初步,2010-6-3,19,2.1.2,多维数据的特征分析,对多维数据,可认为来自多元总体,除了分析各个,分量的取值特征,这些是进行比较或区分的根据,更重要的分析各分量之间的相关关系,对多元数据的相关分析,是多元统计分析的基础。,假设,n,元数据集,张金龙 R初步,2010-6-3,20,20,1.,样本均值,mane(),矩阵形式,其中,张金龙 R初步,2010-6-3,21,21,2.,样本协方差矩阵,cov(),s,jk,=,s,kj,,,cov(X),是对称矩阵。,张金龙 R初步,2010-6-3,22,22,3.,样本相关系数矩阵,cor(),其中,张金龙 R初步,2010-6-3,23,23,4.,数据的中心化和标准化处理,中心化:,标准化:,其中,scale(x,center=T),scale(x,center=T,,,scale=T),此时,张金龙 R初步,2010-6-3,24,例2.3,a,which(table(a,6)=median(table(a,6),#,频数中位数对应地区或国家,Austria Lebanon Netherlands Philippines,3 29 34 39,which(table(a,6)=max(table(a,6),#,频数最大值对应地区或国家,United States,58,张金龙 R初步,2010-6-3,29,2,.library(psych),describe(a),vars n mean sd median trimmed mad min,Rank 1 1223 596.58 342.25 601.0 597.73 452.19 1,Name*2 1223 611.76 352.88 612.0 611.83 453.68 1,Net.Worth 3 1223 3.73 5.11 2.1 2.60 1.26 1,Age 4 1191 62.39 13.61 62.0 62.24 4.83 0,Source*5 1223 266.03 138.99 262.0 268.16 174.95 1,Country.of.Citizenship*6 1223 38.54 19.88 43.0 40.18 22.24 1,max range skew kurtosis se,Rank 1153 1152 -0.01 -1.21 9.79,Name*1222 1221 0.00 -1.20 10.09,Net.Worth 69 68 5.39 44.75 0.15,Age 101 101 -0.10 0.30 0.39,Source*519 518 -0.10 -1.12 3.97,Country.of.Citizenship*59 58 -0.44 -1.41 0.57,该函数可对多组数据的描述统计量同时进行概述,注意结果合理性,*,号的不适合用,张金龙 R初步,2010-6-3,30,library(psych),describe(a,3:4),vars n mean sd median trimmed mad min max,Net.Worth 1 1223 3.73 5.11 2.1 2.60 1.26 1 69,Age 2 1191 62.39 13.61 62.0 62.24 14.83 0 range skew kurtosis se,Net.Worth 68 5.39 44.75 0.15,Age 101 -0.10 0.30 0.39,3.,aggregat(x,by,fun),aggregate(a,3,list(a,6),mean),#,计算不同国家富豪平均财富,X,为数据框,by,指定分类变量,Fun,指出统计函数,比如,mean,另有,apply,tapply,sapply,lapply,等函数也用来处理多组数据的描述统计,4.,cov(),cor(),#,多元数据相关性分析,张金龙 R初步,2010-6-3,31,二、频数(率)表描述数据,适合数据类型:,1.,离散值变量,.,2.,定性变量(分类数据),.,3.,连续值变量离散化(分组),.,命令,解释,table(),样本的频数表,多类别因子的,k,维频数表(列联表),xtabs(formula,data),根据公式或数据框或矩阵创建一个列联表,prop.table(),(*,100,),频数表转化为频率(百分比),margin.table(table,),边际频数表,addmargin(table,),边际累加频数表,prop.table(table,),边际频率表,ftable(table,),紧凑多维频数表,R,中常用频数,频率表即列联表函数,张金龙 R初步,2010-6-3,32,library(MASS),quine,attach(quine),table(Age),table(Sex,Age);tab=xtabs(Sex+Age,quine);unclass(tab),tapply(Days,Age,mean),tapply(Days,list(Sex,Age),mean),张金龙 R初步,2010-6-3,33,1.,离散值数据,table(a,4)#,富豪年龄频数表,0 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44,3 2 1 1 2 1 1 1 2 3 2 1 5 8 13 9 5 14 21,45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63,21 24 24 30 27 29 26 29 26 26 28 31 32 37 30 41 29 36 24,64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82,28 25 36 30 36 28 32 27 20 18 27 24 18 21 14 17 12 19 15,83 84 85 86 87 88 89 90 91 92 93 94 96 101,14 15 13 15 6 12 7 2 5 4 1 3 1 1,例,2.4,b table(b,4)#花费时间频数表,0,1,2,3,4,5,6,7,8,9,10,12,15,363,244 167 63,22,71,3,3,1,2,1,张金龙 R初步,2010-6-3,34,2.,定性或分类数据,table(b,6,b,7),#“学校层次”与“,是否找到工作,”,频数表,1 2,3,0,90 132 42,1,99 380 212,prop.table(table(b,6,b,7)*100,#,相应频率表,1 2 3,0,9.424084 13.821990 4.397906,1,10.366492 39.790576 22.198953,prop.table(table(b,1,b,6),#“,性别”与“是否找到工作频率,0 1,1,0.1204188 0.3026178,2,0.1560209 0.4209424,张金龙 R初步,2010-6-3,35,3.,连续值数据分组,s-factor(cut(b,3,breaks=0+20*(0:7),table(s),s,(0,20 (20,40 (40,60 (60,80(80,100,485 365 91 5 7,b$cl-s;b;,table(b,5,b,11),张金龙 R初步,2010-6-3,36,R,中数据分布相关的基本作图函数,命令,解释,pie(x),饼图,boxplot(x),箱形图,polygon(x,y),绘多边形,hist(x,breaks=“”,freq=T,),频率直方图,(,分组组距,频率,(,数,),标题,坐标,.,填充色等,),barplot(x),x,的条形图,density(x,),直方图上核密度估计曲线,ecdf(x),经验分布函数,stem(x),茎叶图,p,plot(x,y,),散点图,par(mfrow=c(,),根据向量,c(,),按行分割图形,par(mfcol=c(,),根据向量,c(,),按列分割图形,stars(x),星图,2.2,用图形描述数据分布,张金龙 R初步,2010-6-3,37,利用图表表示数据时,首先要确定数据所属类型是定性数据还是定量数据,定性数据常用的图形表示:,条形图,饼图,定量数据常用的图形表示:,直方图,茎叶图,箱线图,散点图,核密度估计图,雷达、星形图,脸谱图,小提琴图,张金龙 R初步,2010-6-3,38,2.2.1.,直方图,hist(),hist(x,breaks=Sturges,freq=T,probability=!freq,),break,规定了直方图的组距,(,必须覆盖数据的范围,),;,freq,是逻辑变量,,TRUE,是频率直方图,,FALSE,是密度直方图;,probability,和,freq,相反,,par(mfrow=c(1,3),hist(a$Net.Worth),hist(a$Net.Worth,freq=F,,,col=“red”),hist(a$Net.Worth,freq=F,xlab=Net.Worth,),张金龙 R初步,2010-6-3,39,2.2.2.,核密度估计,density(),用,density(),函数可以绘制与直方图配套的核密度估计。,density,的一般用法为:,density(x,bw=nrd0,adjust=1,kernel=c(gaussian,),window=kernel,width),bw,是带宽,默认值,R,画出光滑图形;,kernel,是核函数;,adjust,表示实际带宽是,adjust*bw,。,张金龙 R初步,2010-6-3,40,w-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72),hist(w,freq=F);,lines(density(w),col=blue),x-44:76;lines(x,dnorm(x,mean(w),sd(x),col=red),张金龙 R初步,2010-6-3,41,若要在,R,中画出经验分布函数,则用,plot,函数:,plot(ecdf(x),ylab=Fn(x),verticals=FALSE,col.01line=gray70),verticals,是逻辑变量,,TRUE,时表示画竖线,否则不画竖线;,col.01line,是,0-1,线的颜色。,plot(ecdf(w),verticals=T),;,x boxplot(x,),boxplot(x,range=1.5,width,varwidth,notch=FALSE,outline=TRUE,horizontal=FALSE,add=FALSE,at=NULL),boxplot(formula,data,subset,na.action=NULL);,x,是数据构成的数值型向量;,range,控制了,“,触须,”,的范围,(,默认值,1.5),;,notch,=TRUE,时,箱线图带有切口;,outline,是逻辑变量,,TRUE,时标出异常点;,horizontal,是逻辑变量,,TRUE,表示把箱线图绘制成水平状;,add,是逻辑变量,,TRUE,时表示在原图上画图,否则替换一张图。,fomular,是公式;,data,给出了公式作用的对象;,subset,是可选参数,给定要绘制的数据子集;,na.action,表示对,NA,数据作出处理,默认值为,NULL,,即忽略,NA,数据。,张金龙 R初步,2010-6-3,43,#,提取,a,的四个子集,分别包含一下四个国家相关数据,china-subset(a,a,6=China|a,6=Hong Kong ,select=c(1,2,3,4,5,6),US-subset(a,Country.of.Citizenship=United States,select=c(1,2,3,4,5,6),Japan-subset(a,Country.of.Citizenship=Japan,select=c(1,2,3,4,5,6),Russia A B boxplot(A,B,names=c(A,B),col=c(red,blue);,boxplot(A,B,notch=T,outline=T,names=c(“A”,“B”),col=c(3,5),张金龙 R初步,2010-6-3,45,2.2.5,茎叶图,茎叶图,stem(),可以细致地看出数据分布的结构。,stem(),的一般用法为:,stem(x,scale=1,width=80,atom=1e-08),scale,控制了茎叶图的长度,默认值是,1,,如果,scale=2,,则表示将,0-9,这,10,个个位数分成两段,,04,为一段,,59,为一段;,width,是绘图的宽度;,atom,是容差,一般选择默认值即可,。,张金龙 R初步,2010-6-3,46,x stem(x);,stem(x,scale=2),The decimal point is 1 digit(s)to the right of the|,2|5,3|,3|,4|,4|5,5|04,5|5,6|14,6|8,7|2,7|5589,8|13444,8|5667999,9|0112,9|,10|0,The decimal point is 1 digit(s),to the right of the|,2|5,3|,4|5,5|045,6|148,7|25589,8|134445667999,9|0112,10|,0,张金龙 R初步,2010-6-3,47,stem(x,scale=0.5);,#scale,也可以是小数,等于,0.5,时,表示将,0-9,这,10,个个位数分成,1/2,段,即,20,个数为一段,The decimal point is 1 digit(s)to the right of the|,2|5,4|5045,6|14825589,8|1344456679990112,10|0,张金龙 R初步,2010-6-3,
展开阅读全文