数理统计上机报告-苏宏健.doc

资源描述

数理统计上机报告姓名：苏宏健班级：信计11-1 组别：成绩: . 合作者：指导教师：实验日期： 2013。11.24 。上机实验一：假设检验一、上机目的： 1. 进一步理解假设检验的基本思想，学会使用检验和进行统计推断。 2. 学会使用R软件进行假设检验的方法。二、上机实验的内容和实例这一部分讲述2种利用R实现的假设检验方法，F检验、t检验。 1． F检验如果想知道两组样本的方差是否相等。可以用两个样本方差相等的F检验。设两个正态总体的方差分别为和，如果在两总体中随机选取容量为和个独立样本，那么统计量服从自由度为-1和—1的分布。假设检验问题：，给定显著性水平，则拒绝域为: 。下面以一例介绍两个正态总体方差的F检验。例1、有甲、乙两个实验员,对同一实验的同一指标进行测定，两个测定的结果如下: 试验号 1 2 3 4 5 6 7 8 甲 4.3 3.2 3.8 3。5 3。5 4.8 3。3 3.9 乙 3.7 4。1 3。8 3。5 4.6 3。9 2。8 4.4 试问：甲乙的测定有无显著差异?取显著性水平α=0。05. 实验程序： x<-c（4。3，3。2,3。8，3。5,3.5,4.8,3.3,3.9） y<—c（3.7，4。1，3.8,3。8,4。6，3。9,2.8,4。4） sq1〈-var（x) sq2〈—var(y) F〈—sq1/sq2 n1〈—length（x） n2<-length（y) alpha<—0。05 F1〈—qf(alpha/2，n1-1，n2-1） F2<-qf(1-alpha/2，n1—1，n2-1） jieguo〈—list(F，F1,F2） jieguo 实验结果：有实验结果可以看出F1<F<F2，接受原假设，甲乙没有显著差异。检验 2。1 单个总体方差未知时均值的检验设单个正态总体方差未知时，如果在总体中随机选取容量为样本，则统计量服从自由度为的分布。假设检验：的拒绝域为: 。下面以一例介绍单个正态总体方差未知时均值的检验。例2、某型号玻璃纸的横向延伸率要求不低于65％，且其服从正态分布，现对一批该型号的玻璃纸测得100个数据如下： x％（横向延伸率) 35.5 37。5 39。5 41.5 43。5 45。5 47.5 49。5 51.5 53。5 55.5 57。5 59.5 61.5 63.5 频数 7 8 11 9 9 12 17 14 5 3 2 0 2 0 1 试问:该批玻璃纸的横向延伸率是否符合要求？(取显著性水平为α=0.05）实验程序： alpha<-0.05; x〈—rep(c （35.5，37。5,39.5，41。5,43。5,45.5,47。5,49.5，51。5，53.5，55。5，57.5，59。5,61.5，63.5)，c(7,8,11，9，9，12,17，14，5,3,2，0，2,0,1)); n<-100; sd1<-sd（x); xbar<-mean(x）; t〈-(xbar-65）/（sd1/sqrt（n))； tvalue〈—qt（alpha，n—1)；实验结果：有以上结果可以知道，t<tvalue拒绝原假设，认为该批玻璃纸的横向延伸率不符合要求. 2．2 两个总体方差相等未知时均值差的检验设两个正态总体的方差分别为和未知,但（如果验证两组样本的对应总体方差相等。可以用两个样本方差相等的F检验）, 如果在两总体中随机选取容量为和个独立样本，那么统计量服从自由度为的分布. 假设检验问题：（已知常数）给定显著性水平，则拒绝域为: . 例子如例1; 实验程序: alpha〈—0.05； n1〈—8； n2<—8; x〈-c（4。3,3.2，3.8,3.5,3。5，4.8,3.3，3.9）； y〈-c（3.7,4.1，3。8，3。8，4。6，3。9，2。8,4。4）； var1〈-var（x); xbar<—mean(x); var2〈—var(y）； ybar<-mean(y)； Sw2<-（（n1-1)＊var1+(n2-1）＊var2）/(n1+n2—2） t<-（xbar-ybar)/(sqrt（Sw2）＊sqrt（1/n1+1/n2))； t n<-16； linjie〈-qt（1-alpha/2,n—2） linjie 实验结果：实验结果t〈linjie，我们接受其假设,也就说明甲乙没有显著差异。三、实验小结: 上机实验一我们可以加深对假设检验的认识，同时了掌握常见假设检验方法的R解法。本实验重点涉及到假设检验的各个方面内容，使我们：（1)进一步了解F检验、t检验统计量的含义; (2)掌握F检验的R解法以及在实际问题中的应用; (3）了解2种类型t检验R解法以及多种应用；上机实验二：区间估计一、上机目的: 1．更深层理解数学期望和方差的置信区间的概念和思想，学习求正态总体的均值和方差的置信区间。 2．了解常用统计函数在R中的表示方法，运用在R中求出这些统计函数值，计算参数的置信区间. 二、上机实验的内容和实例 1、单个总体方差已知时均值的区间估计根据统计学原理，当总体呈正态分布，抽取的样本的平均值也呈正态分布．其平均数为总体平均数，方差为总体方差除以样本数,即。当总体不是正态分布，平均数的抽样分布也不是正态分布.但是根据统计学中的中心极限定理可知．如果从平均数为和方差为的总体中随机抽样，当样本容量大时,平均数的抽样分布接近正态分布N（，). 在实际应用中，如果样本数大于25，一般认为样本数足够大，样本平均数的抽样分布非常接近正态分布N（，)。这里为了进行区间估计，设来自正态总体样本,其中已知。因为统计量服从标准正态分布，所以，从而得出均值的置信度的置信区间为。 2、单个总体方差未知时均值的区间估计在现实的抽样调查中，通常不知道总体的方差是多少。如果方差不知道，上面的估计区间就不能用于总体平均数置信区间的估计。在统计学中,如果总体方差未知,用样本方差代替.此时即使总体是正态分布,样本平均数的抽样分布也不再是正态分布，而是自由度的t分布. 设来自正态总体样本,其中未知。因为统计量服从自由度的t分布，所以，从而得出均值的置信度的置信区间为。下面以一例介绍R下单个正态总体方差已知与未知时均值的区间估计的求法例1、随机的从一批钉子中抽取16枚，测得其长度为（单位:cm） 2。14 2.10 2.13 2.15 2。13 2.12 2.13 2。10 2。15 2。12 2.14 2.10 2。13 2.11 2.14 2.11 设钉子的分布为正态分布，分别对下列两种情况求出总体均值μ的90%置信度的置信区间。（1）已知σ=0.01cm；(2）σ未知。 (1) 实验程序： alpha<-0。1 sigma<-0。01 x<-c(2.14,2。10，2。13,2。15,2。13，2。12,2。13，2.10,2.15，2。12，2.14,2.10,2.13，2.11,2.14，2.11) n〈—length（x） xbar〈—mean(x） fws〈-qnorm(1-alpha/2,0，1，lower.tail = TRUE) left<—xbar-fws*sigma/sqrt（n） right<—xbar+fws*sigma/sqrt（n) 实验结果：其置信区间为（2。120888，2.129112）（2）实验程序： alpha<—0.1 x<-c（2。14,2。10,2.13，2.15，2。13,2.12，2.13,2.10，2.15,2.12，2.14，2。10,2。13,2.11,2。14,2.11) n<—length(x） xbar〈-mean(x） s〈—sd(x) fws〈-qt(1-alpha/2，n—1，lower.tail = TRUE) left〈-xbar-fws*s/sqrt（n) right〈—xbar+fws＊s/sqrt（n) 实验结果：其置信区间(2.117494，2。132506） 2、方差已知情况下，两总体平均数差值的区间估计方法两总体均值方差μ1-μ2的置信区间（1） σ1=σ2=σ未知取估计函数：其置信区间：（2） σ1=σ2=σ已知下面以一例介绍R下单个正态总体方差相等未知时均值之差的区间估计的求法例2、为了在正常条件下检验一种杂交作物的两种新处理方案，在同一地区随机的挑选8块地，在每块试验地上按两种方案种植植物，这8块地的单位面积产量分别是： 1 号方案产量 86 87 56 93 84 93 75 79 2 号方案产量 80 79 58 91 77 82 74 66 假设两种方案的产量都服从正态分布.试求这两个平均产量之差的置信度为95％的一个置信区间. 实验程序： alpha<-0。05 n1〈-8 n2<-8 x〈—c（86,87,56,93，84,93，75，79） y<—c（80,79,58,91,77，82，74，66） var1<-var(x） xbar〈-mean(x） var2<—var（y） ybar<—mean(y） Sw2<—（（n1—1）＊var1+（n2—1)*var2)/（n1+n2—2） fws<—qt(1-alpha/2,n1+n2—2) left〈-（xbar-ybar）-fws＊sqrt(Sw2)*sqrt(1/n1+1/n2） right<—(xbar—ybar）+fws*sqrt（Sw2）＊sqrt(1/n1+1/n2) 实验结果：其置信区间为（-6。187367，17。68737) 三、实验小结通过本次上机，我们掌握了几种常见的总体平均数和方差的区间估计以及两个总体的差值和比值的区间估计，具体包括： 1、总体方差已知情况下，总体均值的区间估计以及R的计算方法; 2、总体方差未知情况下，总体均值的区间估计以及R的计算方法； 3、总体方差已知情况下,两总体平均数差值的区间估计方法，以及R的计算方法。上机实验三：方差分析一、上机目的: 1、进一步理解方差分析的统计思想，学会使用方差分析进行统计推断。 2、学会利用R进行方差分析的方法。二、上机实验的内容和实例 R软件提供了方差分析方法:包括单因素方差分析、可重复双因素分析、无重复双因素分析.本次试验介绍两种. 1、单因素方差分析单因素方差分析可用于检验两个或两个以上总体平均值相等的零假设.检验假设总体是正态分布，总体方差是相等的，并且随机样本是独立的。下面以一例介绍R中“单因素方差分析”工具的使用例1、在入户推销上有5种方法，某大公司想比较这5种方法的效果有无显著差异，设计了一项实验：从应聘的且无推销经验的人员中挑选一部分人，将他们随机地分为5个组，每组用一种推销方法进行培训，培训相同时间后观察他们在一个月的推销额，数据如下表所示。(单位：千元) 组别推销额第1组 20。0 16。8 17.9 21.2 23.9 26.8 22。4 第2组 24。9 21.3 22.6 30。2 29.9 22。5 20。7 第3组 16。0 20.1 17.3 20。9 22.0 26。8 20.8 第4组 17。5 18。2 20。2 17.7 19。1 18。4 16.5 第5组 25。2 26。2 26.9 29。3 30。4 29。7 28.2 试求：这5种方法的平均推销额有无显著差异。（α=0.05) 实验程序： alpha<-0。05 Y=matrix（data =0， nrow = 5， ncol = 7） Y[1，]<-c(20.0,16。8,17.9，21。2，23。9，26.8,22。4） Y[2，］<-c(24。9,21.3,22.6,30.2,29。9，22.5，20。7) Y［3，］〈-c(16。0,20。1,17.3，20.9,22.0，26.8，20.8） Y［4,］<—c（17。5,18。2,20.2，17.7，19.1，18.4，16。5) Y［5，]〈-c（25.2,26.2，26.9，29。3,30.4,29.7,28.2) r<-5 t〈—7 n<-35 ybar<-mean(Y） ST〈-sum（Y^2）—n*ybar^2 h_sum<—rowSums（Y) SA〈-sum（h_sum^2)/t-n*ybar^2 Se〈-ST—SA Fvalue〈—（SA/（r—1）)/(Se/（n-r）) Fvalue linjie〈—qf(1-alpha,r-1，n-r) linjie 实验结果：因为F>linjie，我们知道这5种方法有显著差异 2、可重复双因素分析单因素试验是最简单的因素试验。在很多实际问题中，两个或者更多因素都可能对响应变量产生影响.为了方便起见,这里我们只考虑两个因素的完全平衡试验，两个以上的因素分析,原理与方法与两个因素分析基本一样. 下面以一例介绍R中重复双因素方差分析的R实现例2、下面记录了3位操作工分别在4台不同的机器上操作3天的日产量：机器操作工甲乙丙 A1 15 15 17 19 19 16 16 18 21 A2 17 17 17 15 15 15 19 22 22 A3 15 17 16 18 17 16 18 18 18 A4 18 20 22 15 16 17 17 17 17 假设个操作工在每台机器上的产量服从同方差正态分布，试在显著性水平0。05下检验； (1) 操作工之间的差异是否显著？ (2) 机器之间的差异是否显著？ (3) 操作工与机器之间的交互作用是否显著? 实验程序: chanliang〈-array（0， c（4，3，3）,dimnames = NULL） chanliang［，，1］[1,]<-c(15,19，16） chanliang[,,1]［2,]<-c(17,15，19） chanliang[，,1]［3,］〈-c（15,18,18） chanliang[，,1]［4，]<-c(18，15,17) chanliang[，,2］[1，]<—c（15,19,18) chanliang[，，2]［2，］〈—c（17，15,22) chanliang［，,2][3，］<—c（17,17,18) chanliang［，，2]［4,]<—c(20,16,17） chanliang[，,3］［1，]〈—c(17，16,21） chanliang［,，3］［2,]〈—c(17,15,22） chanliang[，，3]［3,]<—c（16，16，18) chanliang[,,3］[4,]〈—c(22，17,17） y〈-chanliang r<—4 s<—3 t<-3 n<—r*s*t ST2〈-sum(y^2)-n*(mean(y))^2 SA<-（sum（y［1，，]）^2+sum(y［2,，])^2+sum(y[3，，])^2+sum（y［4，,］）^2）/（s＊t)-n＊（mean（y))^2 SB〈-(sum(y［，1,］)^2+sum(y［，2,])^2+sum（y［，3,］)^2）/(r*t)-n＊(mean（y)）^2 y。。〈-y［，,1］+y[，，2]+y[,,3] SAB<-sum（y..^2）/t-n＊(mean(y))^2-SA-SB Se〈-ST2—SA—SB—SAB FA〈-（SA/（r—1）)/（Se/（r*s*（t—1））） qFA〈-qf（0。95,r-1,r＊s＊（t-1)） FA qFA FB<—（SB/（s—1)）/（Se/(r＊s*（t-1)）) qFB<—qf(0.95,s—1，r＊s*(t—1)） FB qFB FAB<—（SAB/（(r-1)*（s—1）)）/(Se/（r＊s*(t-1)）) qFAB〈-qf（0。95，（r-1）*（s-1),r*s＊(t-1）) FAB qFAB 实验结果: 有实验结果可以看出：操作工之间有显著差异,机器之间没有显著差异，操作工之间和机器之间的交互作用有显著差异三、实验小结在这一实验中,我们进一步了解方差分析的理论、方法。同时让我们熟悉了： 1、单因素方差分析以及R的计算方法； 2、可重复双因素方差分析以及R的计算方法；上机实验四:回归分析一、上机目的： 1、进一步理解线性回归的概念;理解相关系数、协方差、回归直线斜率、回归直线截距等统计概念;熟悉一元回归直线拟合函数； 2、学会对统计数据进行直线拟合并对拟合结果进行显著性检验； 3、学会利用R回归分析的方法； 4、本实验综合了多个知识点：线性回归模型；最小二乘估计法、极大似然估计法;参数假设检验等；二、上机实验的内容和实例一元线性回归分析，通过对变量x和y的一组观测数据求线性回归方程，并对x和y线性回归关系进行检验。而多元线性回归是随机变量y与多个x之间存在着某种相关关系。下面以一例介绍R下多元线性回归的求法例、研究同一地区土壤内所含植物可给态磷的情况，得到18组数据如下，其中 x1---—土壤内所含无机磷浓度 x2-—-—土壤内溶于K2CO3溶液并受溴化物水解的有机磷的浓度 x3—--—土壤内溶于K2CO3溶液但不溶溴化物水解的有机磷的浓度 y —---栽在20°C土壤内的玉米中可给态磷的浓度已知y和x1、x2、x3之间有以下关系: i=1,2,3……，18 各ε相互独立，均服从N（μ，)分布,是求出回归方程，并对方程及各个变量的显著性进行检验. 土壤样本 x1 x2 x3 y 1 0。4 53 158 64 2 0。4 23 163 60 3 3。1 19 37 71 4 0.6 34 157 61 5 4.7 24 59 54 6 1.7 65 123 77 7 9。4 44 46 81 8 10。1 31 117 93 9 11.6 29 173 93 10 12。6 58 112 51 11 10。6 37 111 76 12 23。1 46 114 96 13 23。1 50 134 77 14 21.6 44 73 93 15 23.1 56 168 95 16 1。9 36 143 54 17 26。8 58 202 168 18 29。9 51 124 99 实验程序: ＃# 1)回归方程及sigma2的估计 rd<—read.csv("H：/数理统计/zhiwu。csv"） y〈—rd$y x1<—rd$x1 x2〈-rd$x2 x3<-rd＄x3 X<—matrix(0, nrow = 18， ncol = 4） X[,1]<-rep(1，18） X[，2]〈-x1 X［,3]〈-x2 X［,4］〈—x3 beta<-solve（t（X）%*%X）%*％t(X)%*%y yhat<—X％*％beta ytidle<—y-yhat n〈-18 m〈—3 sigma2_hat〈-sum（ytidle^2)/（n-m—1) ## 2）回归效果是否显著 alpha〈—0.01 alpha<-0.1 ST<—sum((y—mean(y）)^2) y_hat<-X%＊%beta SE〈—sum(（y-y_hat)^2） SR〈-ST-SE F〈-(SR/m）/（SE/(n—m-1）) qvalue〈—qf（1-alpha/2，m,n—m-1) #＃ 3)回归系数的的检验 C〈—solve(t（X)%*%X) t1<-beta[2］/sqrt（C[2，2］＊sigma2_hat) t2〈-beta[3]/sqrt（C［3,3]*sigma2_hat) t3〈-beta［4］/sqrt(C[4，4］*sigma2_hat） tvalue〈-qt(1-alpha/2,n-m—1) tvalue beta F qvalue t1 t2 t3 实验结果：有结果可以看出：β0=43.7286 β1=1.7853 β2=-0.0843 β3=0.1610 故方程很容易得出:y=43。7286+1。7853x1—0.0843x2+0.1610x3 因为F>qvalue，即：回归方程的回归效果显著而且很容易看出只有β1的回归效果显著三、实验小结这次试验在我们的学习中有很重大的意义，无论是我们以后的教学还是研究都很有意义,我个人认为这次试验对我们的科学研究都起着不可估量的作用，回归试验让我们的方程有着更直观的认识，还有各种检验问题求解都有着极大的作用。

展开阅读全文