收藏 分销(赏)

多元统计分析及R语言建模-全书全套教学教程电子教案教学设计.pptx

上传人:丰**** 文档编号:9438675 上传时间:2025-03-26 格式:PPTX 页数:333 大小:3.48MB
下载 相关 举报
多元统计分析及R语言建模-全书全套教学教程电子教案教学设计.pptx_第1页
第1页 / 共333页
多元统计分析及R语言建模-全书全套教学教程电子教案教学设计.pptx_第2页
第2页 / 共333页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/6/5,幻灯片编号,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/6/5,幻灯片编号,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/6/5,幻灯片编号,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/6/5,幻灯片编号,第,1,章 多元统计分析概述,多元统计分析及,R,语言,建模,-,1,-,多元统计分析及,R,语言,建模,1,多元统计分析概述,内容与要求,内容:,多元分析基本内容,以及本课程的主要安排。相关的补充知识和将要涉及的计算软件程序。,要求:,要求学生了解多元分析的基本内容及应用领域,并掌握一些基本概念。对统计分析软件有一个基本认识。,多元统计分析及,R,语言,建模,多元统计分析概述,1.1 多元统计分析的历史,1,多元统计分析概述,多元统计分析的历史,现实生活中,受多种指标共同作用和影响的现象大量存在。,在经济生活中,受多种指标(随机变量)共同作用和影响的现象大量存在。,多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。,1.2,多元统计分析的用途,多元统计分析的用途,进行数值分类,构造分类模式,3,变量之间相依性分析,1,构造预测模型,进行预报控制,2,简化系统结构,探讨系统内核,4,如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。,1,多元统计分析概述,多元统计分析的内容,多元数据的数学表示,1,多元数据的直观分析,2,多元线性相关分析,3,多元线性回归分析,4,广义和一般线性模型,5,判别分析,6,聚类分析,7,主成分分析,8,因子分析,9,对应分析,10,典型相关分析,11,多维标度法,12,综合评价法,13,1.3,多元统计分析的内容,1,多元统计分析概述,1.4,统计分析软件及应用,S-PLUS,SAS,SPSS,著名统计分析软件,组合软件系统,入门比较困难,操作简单,无须编程,方便的数据接口,灵活的功能模块组合,操作界面简单,全面的统计模型和分析手段,很强的图形处理能力,兼容性极好,1,强大的统计分析软件,1,多元统计分析概述,3,多元数据直观表示及R使用,1.4,统计分析软件及应用,MATLAB,数值分析,数值和符号计算,工程与科学绘图,控制系统的设计与仿真,数字图像处理技术,数字信号处理技术,通讯系统设计与仿,财务与金融工程,2,完整的数值计算软件,02,03,1.4,统计分析软件及应用,R,3,免费的数据分析软件,01,功能强大,免费,开源,前景广阔,1,多元统计分析概述,1.5 R,语言系统的设置,优点,缺点,自由软件,统计功能强大,可以看作Splus的免费版本,是统计研究的首选,初学较为麻烦,需一定编程经验,1,多元统计分析概述,R,软件优缺点,1.5 R,语言系统的设置,1,多元统计分析概述,调整窗体位置,#,三窗口排列,语句编程窗口,命令结果窗口,图形显示窗口,#Rstudio,界面,R,里面有什么,?,Packages,(每个都有大量数据和可以读写修改的函数,/,程序),base The R base package,boot Bootstrap R(S-Plus)Functions(Canty),class Functions for classification,cluster Functions for clustering(by Rousseeuw et al.),ctest Classical Tests,eda Exploratory Data Analysis,foreign Read data stored by Minitab,SAS,SPSS,.,grid The Grid Graphics Package,KernSmooth Functions for kernel smoothing for Wand&Jones(1995),lattice Lattice Graphics,lqs Resistant Regression and Covariance Estimation,MASS Main Library of Venables and Ripleys MASS,methods Formal Methods and Classes,mgcv Multiple smoothing parameter estimation and GAMs by GCV,Packages(,继续),modreg Modern Regression:Smoothing and Local,Methods,mva Classical Multivariate Analysis,nlme Linear and nonlinear mixed effects models,nls Nonlinear regression,nnet Feed-forward neural networks and multinomial log-linear models,rpart Recursive partitioning,spatial functions for kriging and point pattern analysis,splines Regression Spline Functions and Classes stepfun Step Functions,including Empirical Distributions,survival Survival analysis,including,penalised,likelihood.,tcltk Interface to Tcl/,Tk,tools Tools for Package Development and Administration,ts Time series functions,所有这些,Packages,都是在,base package,上添加的,Base,包含所有固有的应用和数据,而其他的,packages,包含各统计学家自己发展的方法和数据。,希望你是下一个加盟这些,packages,的作者之一。,第2章 多元数据的数学表达及R使用,多元统计分析及,R,语言,建模,多元统计分析及,R,语言,建模,2,多元数据的数学表达及R使用,内容与要求,内容:,多元数据的基本格式,如何收集和整理多元统计分析资料、数据的数学表达、数据矩阵及R表示、数据的R语言表示、R调用多元的数据和多元的数据的简单R语言分析。,要求:,要求学生熟练如何收集和整理多元统计分析资料、数据的数学表达、掌握多元数据的数字特征的解析表达式、数字特征的基本性质。熟悉有关统计软件。利用统计软件来练习矩阵的有关计算。练习在已给数据下,求样本均值、样本离差阵、样本协差阵等。,多元统计分析及,R,语言,建模,2,多元数据的数学表达及R使用,2.1 如何收集和整理多元分析资料,2,多元数据的数学表达及R使用,多元分析资料的一般格式,矩阵化表示,2.1 如何收集和整理多元分析资料,2,多元数据的数学表达及R使用,举例,【例,2.1,】为了了解股民的投资状况,研究股民的股票投资特征,我们在2002年组织统计系本科生进行小范围的“股民投资状况抽样调查”。本次调查的抽样框主要涉及广东省的6个城市(广州、深圳、珠海、中山、佛山和东莞,其中,广州、深圳各100份,其他城市各80份),共发放问卷520份,回收有效问卷514份。问卷中设计了18个问题。为了简化分析,本例只考虑:年龄、性别、风险意识、是否专兼职、职业状况、教育程度和投资结果共7个变量进行分析。,#,本例性别、风险、专兼职、职业、教育和结果为定性变量,年龄是定量变量,有时为了分析问题方便,也可将其定量化,例如,年龄(,age,):,19,岁以下(,1,);,20,至,29,岁(,2,);,30,至,39,岁(,3,);,40,至,49,岁(,4,);,50,至,59,岁(,5,);,60,岁 及以上(,6,);缺失(,*,)。,性别(,sex,),:,男(,1,),女(,2,)。,风险(,risk,):有(,1,);无(,2,)。,专兼职(,post,):专职(,1,);业余(,2,)。,职业(,career,):干部(,1,);管理(,2,);,3,科教(,3,);金融(,4,);工人(,5,);农民(,6,);个体(,7,);无业(,8,)。,教育(,edu,):文盲(,1,);小学(,2,);中学(,3,);高中(,4,);中专(,5,);,大专(,6,);大学(,7,);研究生(,8,)。,投资结果(,result,):赚钱(,1,);不赔不赚(,2,);赔钱(,3,)。,2.2,数据的表达,2,多元数据的数学表达及R使用,方差,样本均值和方差,一元数据,多元数据,期望,期望,协方差,数据的表达,2.3,数据矩阵,2,多元数据的数学表达及R使用,在R中可以用函数c()来创建向量:,在R中结果输出如下:,2.3,数据矩阵,2,多元数据的数学表达及R使用,#,将向量按列和并,rbind(x1,x2),#利用x1数据创建矩阵,matrix(x1,nrow=3,ncol=4),#创建按照行排列的矩阵,matrix(x1,nrow=3,ncol=4,,,byrow=T),2.3,数据矩阵,2,多元数据的数学表达及R使用,#创建两个相同的矩阵,A=B=matrix(1:12,nrow=3,ncol=4),#,矩阵转置,t(A),#矩阵,加法,A+B,#矩阵,加法,A+B,2.3,数据矩阵,2,多元数据的数学表达及R使用,#,矩阵相乘,A=matrix(1:12,nrow=3,ncol=4),B=matrix(1:12,nrow=4,ncol=3),A%in%B,#,获取对角线元素,A=matrix(1:16,nrow=4,ncol=4),diag(A),#利用对角线元素创建对角矩阵,diag(diag(A),#创建3阶单位矩阵,diag(3),2.3,数据矩阵,2,多元数据的数学表达及R使用,#,求逆矩阵,A=matrix(rnorm(16),4,4),solve(A),#,求矩阵特征根与特征向量,A=diag(4)+1,A.e=eigen(A,symmetric=T),#,矩阵的Choleskey分解,A.c=chol(A),2.3,数据矩阵,2,多元数据的数学表达及R使用,#,矩阵奇异值分解,A=matrix(1:18,3,6),A.s=svd(A),#,矩阵的维数,A=matrix(1:12,3,4),dim(A),#,矩阵的行数,nrow(A),#,矩阵的行数,ncol(A),2.3,数据矩阵,2,多元数据的数学表达及R使用,#,矩阵按行求和,rowSums(A),#,矩阵按行求均值,colSums(A),#,矩阵按列求和,colSums(A),#,矩阵按列求均值,colSums(A),apply(),函数,apply(X,MARGIN,FUN,.),#,矩阵按行求和,apply(A,1,sum),#,矩阵按行求均值,apply(A,1,mean),#,矩阵按行求和,rowSums(A),#,矩阵按行求均值,colSums(A),2.3,数据矩阵,2,多元数据的数学表达及R使用,#,矩阵按列求和,apply(A,2,sum),#,矩阵按列求均值,aplly(A,2,mean),#,矩阵按列求方差,A=matrix(rnorm(100),20,5),aplly(A,2,var),#,矩阵按列求函数结果,B=matrix(1:12,3,4),apply(B,2,function(x,a)x*a,a=2),注意:apply(B,2,function(x,a)x*a,a=2)与B*2效果相同,此处旨在说明如何应用,apply函数。,2.4,数据的R语言表示数据框,2,多元数据的数学表达及R使用,数据框(,data frame,)是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。,分量必须是向量(数值,字符,逻辑)、因子、数值矩阵、列表或者其他数据框。,矩阵、列表和数据框为新的数据框提供了尽可能多的变量,因为它们各自拥有列、元素或者变量。,数值向量、逻辑值、因子保持原有格式,而字符向量会被强制转换成因子并且它的水平就是向量中出现的独立值。,在数据框中以变量形式出现的向量长度必须一致,矩阵结构必须有一样的行数。,数据框录入限制条件,数据框,2.4,数据的R语言表示数据框,2,多元数据的数学表达及R使用,#,由,x1,和,x2,构建数据框,X=data.frame(x1,x2),#,赋予数据框新的列标签,X=data.frame(身高=x1,体重=x2),2.5,多元数据的,R,语言调用,2,多元数据的数学表达及R使用,从剪切板读取,选择需要进行计算的数据块(比如上例中名为UG的数据),拷贝之。,在R中使用dat-read.table(clipboard,header=T),01,02,2.5,多元数据的,R,语言调用,2,多元数据的数学表达及R使用,从文本文件读取,#读取名为textdata的txt格式文档,X=read.table(textdata.txt),X=read.table(textdata.txt,header=T),第一行作为标题时,2.5,多元数据的,R,语言调用,2,多元数据的数学表达及R使用,读取,csv,格式和,excel,格式,读取,csv,格式,读取,excel,格式,X=read.csv(textdata.csv),1.,下载读取,excel,文件的包,“readxl”,2.,调用包:,library(readxl),3.,读取文件:,X=read_excel(“data.xls”),2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#身高的直方图,hist(x1),#身高,与体重散点图,plot(x1,x2),定量变量分析,2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#将剪切板数据读入数据框d2.1中,d2.1=read.table(clipboard,header=T),#,显示数据前,6,行,head(d2.1),定性变量分析,#,绑定数据,attach(d2.1),#,一维列联表,table(,年龄,),2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#,条形图,barplot(table(年龄),col=1:7),#,饼图,pie(table(,结果,),定性变量分析(单因素),2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#,以性别分组的年龄条图,barplot(table(年龄,性别),beside=T,col=1:7),#,以年龄分组的性别条图,barplot(table(性别,年龄),beside=T,col=1:2),定性变量分析(双因素),2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#,以年龄、性别排列的结果频数三维列联表,ftable(年龄,性别,结果),#,以性别、年龄排列的结果频数三维列联表,ftable(性别,年龄,结果),定性变量分析(三因素),2.6,多元数据的简单R语言分析,2,多元数据的数学表达及R使用,#ft=ftable(性别,结果,年龄),#,求,ft,的行和,rowSums(ft),定性变量分析(三因素),#,求,ft,的列和,colSums(ft),#,整理得,注意,detach(d2.1),当数据框不使用时,解除绑定!,第3章 多元数据直观表示及R使用,多元统计分析及,R,语言,建模,-,41,-,多元统计分析及,R,语言,建模,3,多元数据直观表示及R使用,内容与要求,内容:,包括条图、箱尾图、星相图、脸谱图、调和曲线图等图形及R语言使用,。,要求:,要求学生了解多元数据的直观表示方法及多变量图形的一些特点,并掌握一些复杂的多元数据的图示技术。,多元统计分析及,R,语言,建模,第,3,章 多元数据直观表示及R使用,3.1 数据直观分析简述,3,多元数据直观表示及R使用,说明与举例,说明:,图形有助于对所研究数据的直观了解,如果能把一些多元数据直接绘图显示,便可从图形一目了然看出多元变量之间的关系。,举例:,【例 3-1】为了研究全国31个省、市、自治区2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。,3.1 数据直观分析简述,3,多元数据直观表示及R使用,指标:,食品:人均食品支出(元/人),衣着:人均衣着商品支出(元/人),设备:人均家庭设备用品及服务支出(元/人),医疗:人均医疗保健支出(元/人),交通:人均交通和通讯支出(元/人),教育:人均娱乐教育文化服务支出(元/人),居住:人均居住支出(元/人),杂项:人均杂项商品和服务支出(元/人),数据:,数据来源:,2008中国统计年鉴,数据存储:,电子表格,mvstats4.xls,之【,d3.1,】,3.1 数据直观分析简述,3,多元数据直观表示及R使用,数据输入:数据,R,语言读取,#在mvstats4.xls:d3.1中选取A1:I32,拷贝,数据输出:,X=read.table(clipboard,header=T);X,直观分析:图示法,对上述数据直接做条图意义不大,通常需要对其统计量(如均值、中位数等)做直观分析。,3.2,均值条图及R使用,3,多元数据直观表示及R使用,条图:(,1,)样品(行)均值条图,#按行做均值条形图,barplot(apply(X,1,mean),#,修改横坐标位置,barplot(apply(X,1,mean),las=3),3.2,均值条图及R使用,3,多元数据直观表示及R使用,条图:(,2,)变量(列)均值条图,#按列做均值图条形,barplot(apply(X,2,mean),#按列做彩色均值图条形图,barplot(apply(X,2,mean),col=1:8),3.2,均值条图及R使用,3,多元数据直观表示及R使用,条图:(,2,)变量(列)中位数条图,#按列做中位数条形图,barplot(apply(X,2,median),col=1:8),#按列做均值饼图,pie(apply(X,2,mean),饼图:(,2,)变量(列)圆图,3.3,箱尾图及R使用,3,多元数据直观表示及R使用,箱尾图,用途,:,Tukey提出的箱尾图由箱子和其上引出的两个尾组成,这种图用来表示在一定,时间内一个班成绩的变化、物体位置的变化、原材料的变化、产品标准的变化等。,特征,:,箱尾图可以比较清晰地表示数据的分布特征,它由4部分组成。,R,语言函数,:,boxplot(X,.),3.3,箱尾图及R使用,3,多元数据直观表示及R使用,boxplot(X)#按列做,垂直箱线图,boxplot(X,horizontal=T)#水平,箱线图,3.4 星相图及R使用,3,多元数据直观表示及R使用,星相图,用途,:,它将每个变量的各个观察单位的数值表示为一个图形,个观察单位就有,个图,每个图的每个角表示每个变量。,特征,:,星相图是雷达图的多元表示形式。,R,语言函数,:,stars(X,draw.segments=FALSE,key.loc=NULL,.),3.4 星相图及R使用,3,多元数据直观表示及R使用,#,简单星相图,stars(X),3.4 星相图及R使用,3,多元数据直观表示及R使用,#带图例的星相图,stars(X,key.loc=c(17,7),3.4 星相图及R使用,3,多元数据直观表示及R使用,#带图例度彩色星相图,stars(X,key.loc=c(17,7),draw.segments=T),#,加载,aplpack,包,library(aplpack),#,按每行,7,个做脸谱图,faces(X,ncol.plot=7,),脸谱图:,运用样本各变量值构造脸的各部位,通过分析脸部位大小或形状来,分析各样本数据特征,3.4 星,脸谱图及R使用,3,多元数据直观表示及R使用,#,加载,mvstats,包,library(mvstats),plot.andrews(X),调和曲线图:,使用高维空间中的一个样本对应于二维平面上的一条曲线的方法,分析数据特征,3.6,调和曲线图及R使用,3,多元数据直观表示及R使用,直观表示图,均值条图,均值、中位数,箱尾图,调和曲线图,分位数,曲线特征,多元数据直观表示,-,小结,星相图,星相凸角,脸谱图,脸谱特征,第4章 多元相关与回归分析及R使用,多元统计分析及,R,语言,建模,-,59,-,多元统计分析及,R,语言,建模,4,多元相关与回归分析及R使用,内容与要求,内容:,变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法,。,要求:,在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。,多元统计分析及,R,语言,建模,第,4,章 多元相关与回归分析及R使用,本节内容,4.1,变量间的关系分析,1,简单相关分析的,R,计算,2,一元线性回归分析的,R,计算,4,多元相关与回归分析及R使用,4.1,变量间的关系分析,4,多元相关与回归分析及R使用,两变量线性相关系数,样本的线性相关系数:,离均差平方和与离均差积和:,4.1,变量间的关系分析,4,多元相关与回归分析及R使用,说明与举例,举例:,【例,4-1】(续例2-2,)身高与体重的相关关系分析。下面以例,2-2,的身高与体重数据分析。,先建立一个离均差积和函数:,4.1,变量间的关系分析,4,多元相关与回归分析及R使用,数据输入:读取身高与体重的数据,数据输出:,plot(x1,x2),直观分析:图示法,通过散点图看身高与体重的关系,x1=c(171,175,159,155,152,158,154,164,168,166,159,164),x2=c(57,64,41,38,35,44,41,51,57,49,47,46),4.1,变量间的关系分析,4,多元相关与回归分析及R使用,建立离均差乘积和函数:,数据输出:,lxyF),x 1 712077 712077 27427|t|),(Intercept)-1.19660 1.16126 -1.03 0.311,x 1.11623 0.00674 165.61|t|),(Intercept)23.5321088 4.5990714 5.117 2.47e-05*,x1 -0.0033866 0.0080749 -0.419 0.678,x2 1.1641150 0.0404889 28.751 2e-16*,x3 0.0002919 0.0085527 0.034 0.973,x4 -0.0437416 0.0092638 -4.722 7.00e-05*,Signif.codes:0*0.001*0.01*0.05.0.1 1,Residual standard error:2.79 on 26 degrees of freedom,Multiple R-squared:0.9997,Adjusted R-squared:0.9997,F-statistic:2.289e+04 on 4 and 26 DF,p-value:2.2e-16,summary(fm)#多元线性回归系数t检验,lm(formula=yx1+x2+x3+x4,data=yX),Residuals:,Min 1Q Median 3Q Max,-5.0229-2.1354 0.3297 1.2639 6.9690,多元统计分析及,R,语言,建模,4.3,多元相关分析,在相关分析中,研究较多的是两个变量之间的关系,称为,简单相关,;当涉及到的变量为三个或者三个以上时,称为,偏相关,或,复相关,。实际上,偏相关和复相关是对简单相关的一种推广。,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,设样本矩阵为:,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,此时任意两个变量间相关系数构成的矩阵为:,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,其中,r,ij,为任意两变量之间的简单相关系数:,多元统计分析及,R,语言,建模,4.3,多元相关分析,举例与说明,(续例4.4)财政收入与其他变量间的相关分析。,计算,财政收入,和,国民生产总值,及,税收,、,进出口贸易总额,、,经济活动人口,两两之间相关系数,,表4.9给出了相关系数的假设检验统计量。,首先我们计算变量两两间的相关系数,多元统计分析及,R,语言,建模,4.3,多元相关分析,#,多元数据相关系数矩阵,cor(yX),R,语言,代码,数据,输出,多元统计分析及,R,语言,建模,4.3,多元相关分析,函数说明,由于没有现成的进行相关系数矩阵的假设检验,,下面编写计算相关系数的值和值的函数corr.test()。,多元统计分析及,R,语言,建模,4.3,多元相关分析,library(mvstats),#多元数据相关系数检验,corr.test(yX),R,语言,代码,数据,输出,从,结果,可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。,多元统计分析及,R,语言,建模,4.3,多元相关分析,复相关,分析,在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓,复相关,,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是,复相关系数,。,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,假定回归模型为:,复相关,系数,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,复相关系数计算公式为:,复相关,系数,多元统计分析及,R,语言,建模,4.3,多元相关分析,多元统计分析及,R,语言,建模,4.3,多元相关分析,复相关系数:,决定,系数,决定系数:,多元统计分析及,R,语言,建模,4.3,多元相关分析,#显示多元线性回归模型决定系数,(R2=summary(fm)$r.sq),R,语言,代码,数据,输出,#显示多元数据复相关系数,(R=sqrt(R2),1 0.9997,1 0.9999,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,多元回归分析,主要用途,用于描述解释现象,这时希望回归方程中所包含的,自变量尽可能少一些,用于预测,这时希望预测的均方误差较小,用于控制,这时希望各回归系数具有较小的方差和,均方误差,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,变量,太多,容易引起的,问题,变量多增加了模型的复杂,计算量增大,估计和预测的精度下降,模型应用费用增加,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,解决方法,全部子集法,向后删除法,向前引入法,逐步回归法,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,全局最优法,从理论上说,自变量选择最好的方法是所有可能回归法,,即建立因变量和所有自变量全部子集组合的回归模型,,也称全部子集法。,对于每个模型,在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。,多元统计分析及,R,语言,建模,4.3,多元相关分析,举例与说明,【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:,x,1,x,2,x,3,x,4,。所有可能的模型可分为5组子集:,多元统计分析及,R,语言,建模,4.3,多元相关分析,举例与说明,例4.4数据的RSS与R2准则回归子集,:,多元统计分析及,R,语言,建模,4.3,多元相关分析,library(leaps)#加载leaps包,varsel=regsubsets(yx1+x2+x3+x4,data=yX),result=summary(varsel)data.frame(resultoutmat,RSS=resultrss,R2=result$rsq),R,语言,代码,数据,输出,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,R,2,和,RSS,准则优缺点,具有较大,R,2,的对较少自变量的模型应该是好的选择,,较大的意味着有好的拟合效果,而较少的变量个,数可减轻信息的收集和控制。,对于有个自变量的回归模型来说,当自变量子集在,扩大时,残差平方和随之减少。因此,如果按,RSS,“,愈,小愈好”和按,R,2,”,愈大愈好”的原则来选择自变量子,集,则毫无疑问应该选全部自变量,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,变量选择的常用准则,平均残差平方和,最小准则,误差均方根,MSE,最小准则,校正复相关系数平方(,Adjusted R,2,)准则,C,p,准则,AIC,准则,BIC,准则,多元统计分析及,R,语言,建模,举例与说明,表4.10例4.4数据的Cp与BIC准则回归子集,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,4.3,多元相关分析,data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic),R,语言,代码,数据,输出,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,全局择优法,的缺陷,如果自变量个数为4,则所有的回归有15个,当自变,量个数为10时,所有可能的回归为1023个,当自,变量数个数为50时,所有可能的回归为,1015个,当p,很大时,数字,2,p,大得惊人,有时计算是不可能的,于,是就提出了所谓逐步回归的方法,.,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,逐步回归分析,在作实际多元线性回归时常有这样情况,变量,x,1,x,2,.x,p,相互之间常常是线性相关的,即在,x,1,x,2,.x,p,中任何两个,变量是完全线性相关的,即相关系数为1,则矩阵,X,T,X,的秩,小于p,X,T,X,就无解。当变量,x,1,x,2,.x,p,中任有两个变量存,在较大的相关性时,矩阵,X,T,X,处于病态,会给模型带来很,大误差。因此作回归时,应选变量,x,1,x,2,.x,p,中的一部分,作回归,剔除一些变量。,逐步回归法,就是寻找较优子空,间的一种变量选择方法。,多元统计分析及,R,语言,建模,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,逐步变量选择的方法,向前引入法,向后剔除法,逐步筛选法,多元统计分析及,R,语言,建模,fm=lm(yx1+x2+x3+x4,data=yX),fm.step=step(fm,direction=forward),#向前引入法变量选择结果,R,语言,代码,数据,输出,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,fm.step=step(fm,direction=backward),#向后剔除法变量选择结果,R,语言,代码,数据,输出,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,fm.step=step(fm,direction=both),#逐步筛选法变量选择结果,R,语言,代码,数据,输出,4.4,回归变量的选择方法,多元统计分析及,R,语言,建模,第,5,章 广义与一般线性模型及,R,使用,多元统计分析及,R,语言,建模,第,5,章 广义与一般线性模型及,R,使用,多元统计分析及,R,语言,建模,第,5,章 广义与一般线性模型及,R,使用,基本内容,:,数据的分类与模型选择、广义线性模型概述、,Logistic,回归模型、对数线性模型、一般线性模型的计算。,基本要求,:,要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。,内容与要求,5.1,数据的分类与模型选择,5,广义与一般线性模型及,R,使用,5.1,数据的分类与模型选择,5,广义与一般线性模型及,R,使用,2.,模型选择方式,:基本公式,y,X,连续变量,0-1,变量,有序变量,多分类变量,连续伴有删失,连续变量,线性回归方程,logistic,回归模型,累积比数模型,对数线性模型,对数线性模型,多分类,logistic,回归模型,cox,比例风险模型,分类变量,实验设计模型(方差分析模型),连续变量,分类变量,协方差分析模型,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,表5.1 广义线性模型中的常用分布族,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,说明与举例,说明:,2,、,Logistic,模型,:函数形式,其中参数估计采用极大似然估计,。,举例:,对,45,名驾驶员的调查结果,其中四个变量的含义为:,x1:,表示视力状况,它是一个分类变量,,1,表示好,,0,表示有问题;,x,2,:年龄,数值型;,x3,:驾车教育,它也是一个分类变量,,1,表示参加过驾车教育,,0,表示没有;,y,:分类变量(去年是否出过事故,,1,表示出过事故,,0,表示没有)。,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,d5.1=read.table(clipboard,header=T)#,读取例,5.1,数据,logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1)#Logistic,回归模型,summary(logit.glm)#Logistic,回归模型结果,得到初步的,logistic,回归模型:,(,1,)建立全变量,logistic,回归模型:,程序与结果,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,logit.step-step(logit.glm,direction=both)#,逐步筛选法变量选择,由此得到新的,logistic,回归模型,:,(,2,)逐步筛选变量,logistic,回归模型:,summary(logit.step),#,逐步筛选法变量选择结果,程序与结果,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,pre1-predict(logit.step,data.frame(x1=1)#,预测视力正常司机,Logistic,回归结果,p1-exp(pre1)/(1+exp(pre1)#,预测视力正常司机发生事故概率,pre2-predict(logit.step,data.frame(x1=0)#,预测视力有问题的司机,Logistic,回归结果,p2-exp(pre2)/(1+exp(pre2)#,预测视力有问题的司机发生事故概率,c(p1,p2)#,结果显示,(,3,):预测发生交通事故的概率,程序与结果,5.2,广义线性模型,5,广义与一般线性模型及,R,使用,说明与举例,说明:,3,、,对数线性模型,:函数形式,式,2,含有交叉效应,举例:,某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。,满意,不满意,合计,高,53,38,91,中,434,108,542,低,111,48,159,合计,598,194,792,在,R,语言中,数
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服