1、单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,STAT,SAS,软件与统计应用教程,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,STAT,STAT,SAS,软件与统计应用教程,第三章 区间估计与假设检验,3.1,区间估计与假设检验的基本概念,3.2,总体均值的区间估计与假设检验的,SAS,实现,3.3,总体比例的区间估计与假设检验的,SAS,实现,3.4,总体方差的区间估计与假设检验的,SAS,实现,3.5,分布检验,3.1,区间估计与假设检验的基本概念,3.1.1,区间估计,3.1.2,假设检验,3.1.1,区间估计,1.,点估计和区间估计,参数的估
2、计方法主要有两种:点估计和区间估计。,点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。,2.,参数的置信区间,在区间估计中,对于总体的未知参数,,需要求出两个统计量,1,(,X,1,,,X,2,,,.,,,X,n,),和,2,(,X,1,,,X,2,,,.,,,X,n,),来分别估计总体参数,的上限和下限,使得总体参数在区间(,1,,,2,)内的概率为,P,1,2,=1,其中
3、1,称为置信水平,而,(,1,,,2,),称为,的置信区间,,1,2,分别称为置信下限和置信上限。置信水平为,1,的含义是随机区间,(,1,,,2,),以,1,的概率包含了参数,。,3.,正态总体均值和方差的置信区间,参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。,正态总体参数的各种置信区间见表,3-1,。,被估参数,条件,枢轴量及其分布,参数的置信区间,单正态总体,2,已知,2,未知,2,已知,未知,正态总体参数的各种置信区间见表,3-1,。,其中,被估参数,条件,枢轴量及其分布,参数的置信区间,两正态总体,1-,2,两
4、样本独立,,1,2,2,2,已知,两样本独立,,1,2,=,2,2,=,2,未知,两样本独立,,1,2,未知,4.,总体比例与比例差的置信区间,实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记,和,P,分别表示总体比例和样本比例,则当样本容量,n,很大时(一般当,nP,和,n,(1,P,),均大于,5,时,就可以认为样本容量足够大),样本比例,P,的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表,3-2,所示。,待估参数,枢轴量及其分布,参数的置信区间,总体比例,两总体比例差,1,-,2,其中,P,1,,,P,2,为两个样本比例,3.1.2,假
5、设检验,1.,假设检验的基本原理,对总体参数进行假设检验时,首先要给定一个原假设,H,0,,,H,0,是关于总体参数的表述,与此同时存在一个与,H,0,相对立的备择假设,H,1,,,H,0,与,H,1,有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于,0.05,的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设,H,0,,接受,H,1,的决定;反之,若小概率事件没有发生,就没有理由拒绝,H,0,,从而应作出拒绝,H,1,的决定。,2.,假设检验的步骤,1),根据问题确立原假设,H,0,和备选假设,H,1,;,2),确
6、定一个显著水平,,它是衡量稀有性(小概率事件)的标准,常取为,0.05,;,3),选定合适的检验用统计量,W,(通常在原假设中相等成立时,,W,的分布是已知的),根据,W,的分布及,的值,确定,H,0,的拒绝域。,4),由样本观测值计算出统计量,W,的观测值,W,0,,如果,W,0,落入,H,0,的拒绝域,则拒绝,H,0,;否则,不能拒绝原假设,H,0,。,注意:在,SAS,系统中,是由样本观测值计算出统计量,W,的观测值,W,0,和衡量观测结果极端性的,p,值(,p,值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较,p,和,作判断:,p,,拒绝原假设,H,0,;,p,,不能拒
7、绝原假设,H,0,。,p,值通常由下面公式计算而得到。,p,=P|,W,|,W,0,|=2 P,W,|,W,0,|,(拒绝域为两边对称的区域时),p,=,minP,W,W,0,,,P,W,W,0,(拒绝域为两边非对称区域时),p,=P,W,W,0,(拒绝域为右边区域时),p,=P,W,W,0,(拒绝域为左边区域时),只需根据,SAS,计算出的,p,值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。,3.,正态总体均值和方差的假设检验,对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见
8、下表,3-3,至表,3-5,。,表,3-3,单正态总体,N(,2,),均值,的检验法,检验名称,条件,检验类别,H,0,H,1,检验统计量,分布,拒绝域,Z,检验,已知,双边检验,=,0,0,N(0,1),|,Z,|,Z,/2,左边检验,0,0,Z,Z,t,检验,未知,双边检验,=,0,0,t,(,n,1),|,t,|t,/2,(,n,1),左边检验,0,0,t,t,(,n,1),表,3-4,单正态总体,N(,2,),方差,2,的检验法,或,检验名称,条件,检验类别,H,0,H,1,检验统计量,分布,拒绝域,2,检验,已知,双边检验,左边检验,右边检验,未知,双边检验,左边检验,右边检验,表,
9、3-5,两正态总体的均值差与方差比的检验,名称,条件,类别,H,0,H,1,检验统计量,分布,拒绝域,Z,检验,两样本独立,,1,2,=,2,2,=,2,未知,双边检验,1,-,2,=0,1,-,2,0,t,(,n,1,+,n,2,2),左边检验,1,-,2,0,1,-,2,0,t,检验,成对匹配样本,,1,2,,,2,2,未知,双边检验,d,=0,d,0,左边检验,d,0,d,0,F,检验,两样本独立,,1,2,未知,双边检验,F,(,n,1,1,n,2,1),左边检验,右边检验,4.,总体比例与比例差的检验,当样本容量,n,很大时,可根据表,3-6,对总体比例与比例差进行假设检验。,表,3
10、6,总体比例与比例差的检验,检验名称,检验类别,H,0,H,1,检验统计量,分布,拒绝域,比例检验,双边检验,=,0,0,N,(0,,,1),|,z,|,z,/2,左边检验,0,0,|,z,|,z,两总体比例差检验,双边检验,1,=,2,1,2,N,(0,,,1),|,z,|,z,/2,左边检验,1,2,1,2,|,z,|,z,3.2,总体均值的区间估计与假设检验的,SAS,实现,3.2.1,使用,INSIGHT,模块,3.2.2,使用“分析家”,3.2.3,使用,TTEST,过程,3.2.1,使用,INSIGHT,模块,1.,总体均值的区间估计,【,例,3-1】,某药材生产商要对其仓库中的
11、1000,箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取,16,箱样本称重后结果如表,3-7,所示。,表,3-7 16,箱药材重量(单位:千克),设药材重量数据存放于数据集,Mylib.yczl,中,其中重量变量名为,weight,。求该仓库中每箱药材平均重量在,95%,置信水平下的置信区间。,50,50,56,51,49,53,47,52,53,53,49,53,55,48,50,55,步骤如下:,1),启动,INSIGHT,模块,并打开数据集,Mylib.yczl,;,2),选择菜单“,Analyze”“Distribution(Y,)”,;,3),在打开的“,Distrib
12、ution(Y,)”,对话框中进行区间估计的设置(如图)。,结果包括一个名为“,95,Confidence Intervals,(,95%,置信区间)”的列表,表中给出了均值、标准差、方差的估计值(,Parameter,)、置信下限(,LCL,)和置信上限(,UCL,),如图,3-2,所示。结果表明,根据抽样样本,该仓库中药材的平均重量以,95%,的可能性位于,50.08,千克至,52.92,千克之间。,2.,单样本总体均值的假设检验,【,例,3-2】,一家食品厂以生产袋装食品为主,每天的产量大约为,8000,袋,每袋重量规定为,100,克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。
13、现从某天生产的一批食品中随机抽取了,25,袋,测得每袋重量如表,3-8,所示。,表,3-8 25,袋食品的重量(单位:克),试从抽检的样本数据出发,检验变量,WEIGHT,的均值与,100,克是否有显著差异。假定表,3-8,数据存放在数据集,Mylib.spzl,中,重量变量名为,WEIGHT,。,112.5,101.0,103.0,102.0,100.5,102.6,107.5,95.0,108.8,115.6,100.0,123.5,102.0,101.6,102.2,116.6,95.4,97.8,108.6,105.0,136.8,102.8,101.5,98.4,93.3,设变量,W
14、EIGHT,的均值为,,问题是希望通过样本数据检验变量,WEIGHT,均值的如下假设:,H,0,:,=100,,,H,1,:,100,。,使用,INSIGHT,对均值进行检验的步骤如下:,1),首先启动,INSIGHT,,并打开数据集,Mylib.spzl,;,2),选择菜单“,Analyze”“Distribution(Y,)”,;,3),在打开的“,Distribution(Y,)”,对话框中选定分析变量,WEIGHT,;,4),单击“,OK”,按钮,得到变量的描述性统计量;,5),选择菜单“,Tables,(表)”“,Tests for Location,(位置检验)”;在弹出的“,Te
15、sts for Location”,对话框中输入,100,,单击“,OK”,按钮得到输出结果如图所示。,结果显示,观测值不等于,100,克的观测有,24,个,其中,19,个观测值大于,100,。,图中第一个检验为,t,检验,(Students t),,需要假定变量服从正态分布,检验的,p,值为,0.0105,,这个检验在,0.05,水平下是显著的,所以可认为均值与,100,克有显著差异。第二个检验,(Sign),是叫做符号检验的非参数检验,其,p,值为,0.0066,,在,0.05,水平下也是显著的,结论不变。第三个检验,(,Sgned,Rank),是叫做符号秩检验的非参数检验,其,p,值为,
16、0.0048,,在,0.05,水平下是显著的,结论不变。,3.,两样本总体均值的比较:成对匹配样本,在,INSIGHT,中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显著为,0,。,【,例,3-3】,由,10,名学生组成一个随机样本,让他们分别采用,A,和,B,两套试卷进行测试,结果如表,3-9,所示。,表,3-9 10,名学生两套试卷的成绩,试从样本数据出发,分析两套试卷是否有显著差异。,试卷,A,78,63,72,89,91,49,68,76,85,55,试卷,B,71,44,61,84,74,51,55,60,77,39,差值,7,19,11,5,17
17、2,13,16,8,16,步骤如下:,1),首先生成差值变量:,启动,INSIGHT,,并打开数据集,Mylib.sjdf,。选择菜单“,Edit”“Variables”“Other,”,,打开“,Edit Variables”,对话框,选择,A,为,Y,变量,,B,为,X,变量,然后选择变换(,Transformation,):,Y X,,如图,生成新的差值变量,d,;,2),然后对变量,d,的均值做如下假设:,H,0,:,d,=0,,,H,1,:,d,0,。,3),选择菜单,“,Analyze,”“,Distribution(Y),”;,在打开的,“,Distribution(Y)”,
18、对话框中选定分析变量,:,选择变量差值,d,,,单击,“,Y”,按钮,,,将变量,d,移到右上方的列表框中,;,4),单击“,Output”,按钮,在打开的对话框中选中“,Tests for Location,(位置检验)”复选框;,5),两次单击“,OK”,按钮,得到变量的描述性统计量;,6),选择菜单“,Tables,(表)”“,Tests for Location,(位置检验)”;在弹出的“,Tests for Location”,对话框中输入,0,,单击“,OK”,按钮得到输出结果如图所示。,结果显示三个检验的结论都是,p,值小于,0.05,,所以应拒绝原假设,即总体的均值与,0,有显
19、著差异。所以两套试卷有显著差异。,虽然,SAS,给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看,t,检验结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。,3.2.2,使用“分析家”,1.,总体均值的置信区间,【,例,3-4】,在“分析家”中求例,3-1,中每箱药材平均重量在,95%,置信水平下的置信区间。,步骤如下:,1),在“分析家”模块中打开数据集,Mylib.yczl,;,2),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,One Sample t te
20、st for a Mean,(单样本均值,t-,检验)”;,3),在打开的“,One Sample t test for a Mean”,对话框中设置均值的置信区间(如图,3-6,)。,3),在打开的“,One Sample t test for a Mean”,对话框中设置均值的置信区间(如图,3-6,)。,结果表明(下图),根据抽样样本,该仓库中药材的平均重量以,95%,的可能性位于,50.08,千克至,52.92,千克之间。,2.,单样本总体均值的假设检验,【,例,3-5】,使用“分析家”检验例,3-2,中食品重量是否符合要求。希望通过样本数据检验变量,WEIGHT,均值的如下假设:,H
21、0,:,=100,,,H,1,:,100,。,由于此时的方差未知,所以使用,t,检验法。步骤如下:,1),在“分析家”中打开数据集,Mylib.spzl,;,2),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,One Sample t test for a Mean,(单样本均值,t-,检验)”,打开“,One Sample t test for a Mean”,对话框;,4),按图,3-8,所示设置均值检验,单击“,OK”,按钮,得到结果如图左所示。;,显示结果(图右)表明,t,统计量的,p,值为,0.01050.05,,所以拒绝原假设
22、即认为总体的均值不等于,100,。,3.,两样本总体均值的比较:成对匹配样本,【,例,3-6】,使用“分析家”对例,3-3,中两套试卷检验有无显著差异。,这是一个(成对匹配)双样本均值检验问题,若,1,和,2,分别表示两套试卷的平均成绩,则检验的是:,H,0,:,1,2,=0,,,H,1,:,1,2,0,;,分析步骤如下:,1),在“分析家”中打开数据集,Mylib.sjdf,;,2),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,Two Sample Paired t-Test for a Mean,(均值的成对双样本,t-,检验)”;
23、3),在打开的“,Two Sample Paired t-Test for a Mean”,对话框中,按图左所示设置双样本均值检验,单击“,OK”,按钮,得到结果如图右所示,结果显示,无论两总体的方差是否相等,,t,统计量的,p,值,=0.0005 0.05,,所以在,95%,的置信水平下,拒绝原假设,两总体的均值有显著差异。,结果表明可以,95%,的把握认为两套试卷有显著差异。,4.,两样本总体均值的比较:独立样本,【,例,3-7】,为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些个工人进行操作试验,每个工人组装一件产品所需的时间如表,3-10,所示。试以,95
24、的置信水平推断两种方法组装产品所需平均时间有无差异。,表,3-10,两种方法组装产品所需的时间(单位:分钟),这是一个(独立)两样本均值检验问题,若,1,和,2,分别表示两种方法组装一件产品所需的平均时间,则检验的是:,H,0,:,1,2,=0,,,H,1,:,1,2,0,;,方法,1,28.3,30.1,29.0,37.6,32.1,28.8,36.0,37.2,38.5,34.4,28.0,30.0,方法,2,27.6,22.2,31.0,33.8,20.0,30.2,31.7,26.0,32.0,31.2,假定表,3-10,数据存放在数据集,Mylib.zzcpsj,中,将两个样本中
25、被比较均值的变量的观测值记在同一分析变量,F,下,不同的样本用一个分类变量,g,的不同值加以区分,而且分类变量,g,只能取两个值,否则无法进行。,分析步骤如下,:,1),在“分析家”中打开数据集,Mylib.zzcpsj,;,2),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,Two Sample t-Test for Mean,(两样本均值的,t-,检验)”;,3),在打开的“,Two Sample t-Test for a Mean”,对话框中,按图,3-12,所示设置双样本均值检验,单击“,OK”,按钮,得到结果如图,3-13,所示,
26、结果显示,由于,t,统计量的,p,值,=0.0433,,所以在,95%,的置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有,95%,的把握认为两种方法所需时间有差异。,3.2.3,使用,TTEST,过程,TTEST,过程可以执行单样本均值的,t,检验、配对数据的,t,检验以及双样本均值比较的,t,检验。,1.,语法格式,PROC TTEST,;,CLASS,;,VAR,;,PAIED,;,BY,;,RUN,;,其中,,PROC TTEST,和,RUN,语句是必须的,其余语句都是可选的,而且可调换顺序。,CLASS,语句所指定的分组变量是用来进行组间比较的;而,BY,语句所指定的分组
27、变量是用来将数据分为若干个更小的样本,以便,SAS,分别在各小样本内进行各自独立的处理。,VAR,语句引导要检验的所有变量列表,,SAS,将对,VAR,语句所引导的所有变量分别进行组间均值比较的,t,检验。,PAIED,语句用来指定配对,t,检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表,3-11,。,表,3-11,选项及其含义,变量名列表形式,产生的效果,a*b,a b,a*b c*d,a b,c d,(a b)*(c d),a c,a d,b c,b d,(a b)*(c b),a c,a b,b c,PROC TTEST,语句后可跟的选项及其表示的含义如表,3-
28、12,所示。,表,3-12,选项及其含义,选项,代表的含义,data=,等号后为,SAS,数据集名,指定,ttest,过程所要处理的数据集,默认值为最近处理的数据集,alpha=,等号后为,01,之间的任何值,指定置信水平,默认为,0.05,ci,=,等号后为“,equal,umpu,none,”,中的一个,表示标准差的置信区间的显示形式,默认为,ci,=equal,cochran,有此选项时,,ttest,过程对方差不齐时的近似,t,检验增加,cochran,近似法,h0=,等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为,0,2.,总体均值的置信区间,【,例,3-8】,仍然考虑
29、例,3-3,中的样本数据。假定其中数据使用如下数据步存放在数据集,sjcj,中,两套试卷得分的变量名分别为,A,和,B,。,data,sjcj,;,input A B;,cards;,78 71 63 44 72 61 89 84 91 74,49 51 68 55 76 60 85 77 55 39,;,run;,【,例,3-8】,仍然考虑例,3-3,中的样本数据。假定其中数据使用如下数据步存放在数据集,sjcj,中,两套试卷得分的变量名分别为,A,和,B,。,使用最简代码求均值、标准差的置信区间:,proc,ttest,data=,sjcj,;,run;,代码运行结果给出两个变量在,95%
30、置信水平下的均值、标准差的置信区间,以及对原假设,0,=0,所作的,t,检验的,p,值,如图所示。,3.,单样本总体均值的假设检验,在例,3-8,中增加原假设选项以及置信水平,代码如下:,proc ttest h0=70 alpha=0.01 data=sjcj;,var A;,run;,代码运行结果除了给出变量,A,在,99%,置信水平下的均值、标准差的置信区间外,还给出对假设,0,=70,,所作的,t-,检验的,p,值,如图,3-15,所示。,结果显示,t,统计量的,p,值,=0.5734,,不能拒绝(,57.34%,的把握)原假设:均值,=70,。,4.,配对两样本均值的假设检验,在例
31、3-8,中检验两套试卷有无显著差异,代码如下:,proc,ttest,data=,sjcj,;,paired A*B;,run;,代码运行结果给出了对原假设,1,2,=0,所作的,t,检验的,p,值,如图,3-16,所示。,结果显示,t,统计量的,p,值,=0.0005 0.05,,因此拒绝原假设。说明两套试卷有显著差异。,5.,独立两样本均值的假设检验,过程,TTEST,还可以用于进行独立双样本均值比较的,t,检验法。它的用法为,PROC TTEST DATA=;,CLASS;,VAR;,RUN;,使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分
32、类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。,【,例,3-9】,仍然考虑例,3-7,中的样本数据。假定其中数据使用如下数据步存放在数据集,zzcpsj,中:,data,zzcpsj,;,input f g$;,cards;,28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 2,37.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 2,36 1 31.7 2 37.2 1 26 2 38.5 1 32 2,34.4 1 31.2 2 28 1 30 1,;,run;,将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需
33、的时间值是记录在同一分析变量,f,之下,而两种方法的差别是由变量,g,的值加以区分的,所以,g,可作为分类变量。检验代码如下:,proc,ttest,data=,zzcpsj,;,class g;,var,f;,run;,检验结果如图所示。,在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的,F,统计量,其数值为,1.29,,相应的,p,值为,0.6779,0.05=,,所以不能拒绝方差相等的假设。,在方差相等的前提下,检验均值差异使用,Pooled,方法,对应统计量的,t,值为,2.16,,相应的,p,值为,0.0433,0.05=,,所以两种方法所需的时间是有显著差异的。,在异
34、方差的情况下,使用,Satterthwaite,法检验均值的差异。,3.3,总体比例的区间估计与假设检验的,SAS,实现,3.3.1,总体比例的置信区间,3.3.2,单样本总体比例的假设检验,3.3.3,两总体比例的比较,3.3.1,总体比例的置信区间,【,例,3-10】2004,年底北京市私家车拥有量已达到,129.8,万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取,36,位私人消费购车者,得到他们所购汽车的价格,见下表。,表,3-13,年底购车价格,(,单位:万元,),根据以上调查数据,试以,9
35、5,的置信水平推断该地区购买私家车在,15,万元以上的消费者占有的比例。,6.88,11.28,19.98,13.6,10.6,14.8,6.88,11.78,20.98,24.4,12.3,14.8,6.88,13.68,13.6,30.3,14.6,14.8,8.28,14.98,14.7,9.6,14.6,17.4,9.6,15.68,15.8,9.6,12.9,5.38,10.18,15.68,20.5,10.6,14.8,7.38,设购车价格数据存放在数据集,Mylib.gcjg,中,价格变量名为,price,。这是一个单样本比例的区间估计问题。由于在,SAS,中只能对两水平的分类变
36、量作比例的区间估计与检验,所以首先要按变量,price,生成一个新的分类变量。步骤如下:,1),在“分析家”中打开数据集,Mylib.gcjg,;,2),选择主菜单“,Edit,(编辑)”“,Mode,(模式)”“,Edit,(编辑)”,使数据集可以被编辑(修改);,3),选择主菜单“,Data,(数据)”“,Transform,(变换)”“,Recode Ranges,(重编码范围)”,打开“,Recode Ranges Information”,对话框并按图,3-18,(左)设置有关内容;,4),单击“,OK”,按钮,打开“,Recode Ranges”,对话框,按图,3-18,右所示生成
37、新变量,price_f,;,6),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,One Sample Test for a Proportion,(单样本比例检验)”;,7),在打开的“,One Sample Test for a Proportion”,对话框中,按图,3-19,设置比例的置信区间。,分析结果中包括变量的置信区间:按,95%,的置信水平变量,price,取值为“,15”,的比例在区间,(0.109,,,0.391),范围中(如图,3-20,),即可以,95%,的概率估计该地区所购买车辆在,15,万元以上的消费者所占比例在,
38、10.9%,39.1%,之间。,3.3.2,单样本总体比例的假设检验,【,例,3-11】,考虑例,3-10,中的数据,试检验总体中购买车辆在,15,万元以上者所占比例是否超过,30%,。,这是一个单样本比例检验问题,若,表示总体中购买车辆在,15,万元以上者所占比例,则检验的是:,H,0,:,0.3,,,H,1,:,0.05,,所以不能拒绝原假设。,结果表明购买车辆在,15,万元以上者所占比例在,95%,的置信水平下超过,30%,。,3.3.3,两总体比例的比较,【,例,3-12】2004,年底很多类型的国产轿车价格都比年中有所下降,为了对比,2004,年底与年中私家购车族购车价格的差异,在年
39、中新购车者中随机抽取,32,人,调查得到的价格数据如表,3-14,。,表,3-14,年中购车价格,(,单位:万元,),:,综合表,3-13,与表,3-14,的调查数据,试以,95,的置信水平推断该地区年底与年中购买私家车在,15,万元以上的消费者占有比例有无差异。,5.38,10.78,12.88,14.7,18.88,30.3,7.38,11.2,13.6,15,19.98,15.28,7.98,11.78,13.65,15.8,20.5,9.99,9.38,11.78,14.6,15.9,20.98,9.36,10.3,12.3,14.7,17,24.4,8.99,11.38,10.28,
40、这是一个双样本比例检验问题,若,1,和,2,分别表示总体中年底和年中购买私家车在,15,万元以上的消费者所占的比例,则检验的是假设:,H,0,:,1,2,=0,,,H,1,:,1,2,0,;,首先将,3-7,与表,3-8,的调查数据存入一个数据集,Mylib.gcjgQ,中,价格变量名为,price,,使用变量,period,以区别年中数据,(2),与年底数据,(1),。按例,3-10,中的步骤由,price,生成两水平分类变量,price_F,。图,3-23,所示即为数据集,Mylib.gcjgQ,中的部分数据。,然后,对上面假设进行检验,步骤如下:,1),在分析家中打开数据集,Mylib.
41、gcjgQ,后,,选择菜单“,Statistics”“Hypothesis,Tests”“Two,Sample Test for Proportion,(双样本比例检验)”,在对话框中,按图左设置双样本比例检验,分析结果如图右所示。,结果显示,由于,Z,统计量的,p,值为,0.5664,,所以在,95%,的置信水平下,不能拒绝原假设。即该地区,2004,年底与年中私家购车价格在,15,万元以上者所占比例无明显差异。,3.4,总体方差的区间估计与假设检验的,SAS,实现,3.4.1,总体方差的置信区间,3.4.2,单样本总体方差的假设检验,3.4.3,两样本总体方差的比较,3.4.1,总体方差的
42、置信区间,【,例,3-13】,表,3-15,所示为某中学,1980,年模拟高考数学的部分学生成绩,试估计本次模拟考试成绩的方差。,表,3-15,部分学生成绩,假定表,3-15,数据存放在数据集,Mylib.kscj,中,成绩变量名为,score,。分析步骤如下:,1),在“分析家”中打开数据集,Mylib.kscj,;,2),选择菜单“,Statistics,(统计)”“,Hypothesis Tests,(假设检验)”“,One Sample Test for a Variance,(方差的单样本检验)”;,100,96,96,90,92,100,100,90,99,92,100,98,10
43、0,97,97,95,94,100,3),在打开的“,One Sample Test for a Variance”,对话框中设置方差的置信区间(如图,3-26,)。,分析结果中包括方差的置信区间估计,如图,3-27,所示。,结果表明,本次模拟考试成绩方差在置信水平,95%,下的置信区间为,(7.1692,,,28.614),。,3.4.2,单样本总体方差的假设检验,【,例,3-14】,考虑例,3-13,中的模拟考试成绩,检验考试成绩是否太集中。,这是一个单样本方差检验问题,若,表示总体方差,则检验的是:,H,0,:,2,5,2,,,H,1,:,2,5,2,;,步骤如下:,1),选择菜单“,S
44、tatistics”“Hypothesis,Tests”“One,Sample Test for a Variance,(单样本方差检验)”,打开“,One Sample Test for a Variance”,对话框并按图设置;,2),单击“,OK”,按钮,得到结果。,结果(图左)显示,样本方差为,12.732,,由于,2,检验的,p,值,=0.9504,,所以不能拒绝方差,25,的原假设。,结果表明有,95%,的把握可以认为该模拟考试的成绩太过集中。,3.4.3,两样本总体方差的比较,【,例,3-15】,已知两只股票深发展(,000001,)和万科,A,(,000002,)在,2004,
45、年,6,月,21,个交易日的收益率如表,3-16,所示。试在,0.05,的显著水平下判断深发展的风险是否高于万科,A,?,表,3-16,深发展和万科,A,在,2004,年,6,月,21,个交易日的收益率,day,深发展,万科,A,day,深发展,万科,A,day,深发展,万科,A,20040601,0.0031,0.0099,20040610,-0.0022,0.0041,20040621,-0.0022,0.0131,20040602,0.0301,-0.0137,20040611,0,0.002,20040622,0.0033,0.028,20040603,-0.0231,-0.0139,
46、20040614,-0.0209,-0.0123,20040623,-0.0066,-0.0147,20040604,-0.0082,0.006,20040615,0.0461,0.0186,20040624,-0.0144,0.0085,20040607,-0.0228,-0.008,20040616,-0.0097,-0.002,20040625,-0.0056,-0.0127,20040608,-0.0223,0.002,20040617,-0.0228,-0.0428,20040628,-0.0519,0.0043,20040609,-0.0109,-0.0202,20040618,0
47、0111,-0.0255,20040629,0.0226,0.0319,这是一个双样本方差检验问题,若,1,和,2,分别表示深发展和万科,A,两只股票收益率的方差,则检验的是:,H,0,:,1,2,,,H,1,:,1,0.15 0.05=,,所以不能拒绝原假设,可以认为变量,income,总体分布为正态分布。,3.5.3,在“分析家”中研究分布,【,例,3-17】,在“分析家”中研究例,3-10,例,3-12,中北京市场个人购车价格变量,price,的正态性。,1.,绘制分布拟合图和,QQ,图,首先在“分析家”中打开数据集,Mylib.gcjg,;,选择主菜单“,Statistics”“De
48、scriptive”“Distributions”,,打开“,Distributions”,对话框。,按图,(,上图,),设置分析选项,三次单击“,OK”,按钮,得到直方图和,QQ,图如图(下图)所示。,2.,分布检验,继续上述步骤。,在分析家窗口的项目管理器中双击“,Fitted Distributions of,Gcjg,”,项,得到检验结果如图,3-44,3-45,所示。,年底数据的分布检验结果如图,其含义说明如下:,其中第一部分为检验拟合分布的结果。首先指明拟合的是正态分布,均值为,13.60556,,标准差为,5.170595,;接着有三种经验分布的检验结果,三种检验基本上都认为变量
49、price,的分布与正态分布有差异,因此拒绝变量,price,为正态分布的假设。,年中数据的分布检验结果如图,3-45,所示。结果表明:,均值为,13.95031,,标准差为,5.234664,;三种检验基本上都认为变量,price,的分布与正态分布无显著差异,因此不能拒绝变量,price,为正态分布的假设。,综上,应拒绝年底数据中变量,price,的分布为正态分布的假设,而不能拒绝年中数据中变量,price,的分布为正态分布的假设。,3.5.4,使用,UNIVARIATE,过程,在,PROC UNIVARIATE,语句中加上,NORMAL,选项可以进行正态性检验。,【,例,3-18】,检验例,3-1,药材仓库中的,1000,箱药材的重量是否服从正态分布。,使用如下,UNIVARIATE,过程:,proc,univariate,data=,Mylib.yczl,normal;,var,weight;,run;,【,例,3-18】,检验例,3-1,药材仓库中的,1000,箱药材的重量是否服从正态分布。,结果(部分)如图,3-46,所示。,这里给出了,weight,变量的四种正态性检验结果,其中,Shapiro-,Wilk,检验是首选的。可以看到,p,值很大,所以在,0.05,水平下不能拒绝原假设,即认为,weight,服从正态分布。,






