资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 统计推断,6.1,统计推断的基本原理及意义,6.2,t测验,6.3,联列表独立性检验,6.4,正态性检验,统计推断的内容:,统计推断,参数估计,假设测验,点估计,区间估计,统计推断的前提条件:,资料必须来自随机样本;统计数的分布规律必须已知。,统计推断,是据统计数的分布和概率理论,由样本统计数推论总体参数的方法。,6.1 统计推断的基本原理及意义,统计假设检验基本步骤:,1.无效(零)假设H,0 ,备择假设 H,A,例如:,试验研究目的不同、变量属性不同,统计假设检验的方法不同而公式不同。,主要有t检验、F检验、,x,2,检验等方法。,2.统计假设检验的原理,小机率原理,小机率原理:概率很小的事件,在一次试验中是不至于发生的。,统计学中一般认为概率p0.05,才算小机率事件。,3.计算统计量,t、F、,x,2,等,在SAS中,直接算出,t、F、,x,2,等统计量,及其,Pr|t|或PrF或Pr,x,2,的概率值。根据小机率原理做出统计推断。,例若,Pr|t|,概率值:,0.05,,则,接受H,0,零假设,,,差异不显著,。,0.05,,不能接受,H,0,零假设,推断,差异达显著,。,0.01,,更大把握拒绝零假设,推断,差异极显著,。,4.写统计推断,5.依题意写统计结论,t分布图,6.2 t测验,一、,单个样本均数的t检验,二、,两个样本均数的t检验,统计原理,实例及SAS程序,三、,实习,例6.3,某地杂交玉米在原种植规格下一般亩产350,现为了间套作,需改成一种新种植规格,新规格下8个小区产量分别为360、340、345、352、370、361、358、354(/亩)。问新规格与原规格下玉米产量差异是否显著?,单个样本均数的检验,单个样本均数的检验的SAS程序:,data aa;,input x;,y=x-350;,cards;,360 340 345 352 370 361 358 354,;,proc means,mean t prt;,var y;,run;,其输出结果:,第四步结论:改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。,MEANS 过程,分析变量:y,均值,t值,Pr|t|,5.0000000,1.49,0.1797,Prob|T|,data aa;,input x;,cards;,360 340 345 352 370 361 358 354,;,proc,ttest h0=350,;,var x;,run;,SAS软件8、9版本的ttest过程中,不必先求差值即可对成对数据直接进行检验。,The TTEST Procedure,Statistics,Variable,N,Lower CL,Mean,Upper CL,Lower CL,Mean,Mean,Std Dev,x,8,347.07,355,362.93,6.2724,Variable,StdDev,Upper CL,StdErr,Minimum,Maximum,Std Dev,x,9.4868,19.308,3.3541,340,370,T-Tests,Variable,DF,tValue,Pr|t|,x,7,1.49,0.1797,第四步结论:改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。,二、两个样本均数的检验,2.成组法T测验,(,group comparisons t test),1.成对法T测验,(paired comparisons t test),统计原理,实例及SAS程序,统计原理,实例及SAS程序,1.成对法T测验,把条件一致的两个供试单元配成一对,设多个配对,每一配对两个单元随机独立实施一处理,这就是配对试验,,实为处理数为2的随机区组试验,,这样得到的数据称为,成对数据,。,P62,例6.5 为测定A、B两种病毒对烟草的致病力,取8株烟草,每一株半叶接种A,另半叶接种B,以叶面出现枯斑数的多少作为致病力强弱的指标,得结果于表4.4。试测验两种病毒致病力的差异显著性。,两病毒在烟叶上产生的枯斑数,株号 1 2 3 4 5 6 7 8,A病毒9 10 17 11 31 18 18 14,B病毒7 6 8 7 20 17 20 5,H,0,:,两种病毒致病力一样,data b;,input x1 x2;,d=x1-x2;,cards;,9 10 17 11 31 18 18 14,7 6 8 7 20 17 10 5,;,proc means mean stderr t prt;,var d;,run;,成对法T测验SAS程序:,数据行输入,错误,株号 1 2 3 4 5 6 7 8,A病毒9 10 17 11 31 18 18 14,B病毒7 6 8 7 20 17 20 5,data b;,input x1 x2;,d=x1-x2;,cards;,9 7 10 6 17 8 11 7,31 20 18 17 18 20 14 5,;,成对法T测验SAS程序:,数据行输入,正确,株号 1 2 3 4 5 6 7 8,A病毒9 10 17 11 31 18 18 14,B病毒7 6 8 7 20 17 20 5,proc means mean t prt;,var y;,run;,其输出结果:,The SAS System,Analysis Variable:D,Mean Std Error T Prob|T|,-,4.75000 1.60078 2.97,0.0209,-,结论:A、B两种病毒的致病力有显著差异。,SAS软件8、9版本的ttest过程,可对成对数据直接进行检验.,data b;,input x1 x2;,cards;,9 7 10 6 17 8 11 7,31 20 18 17 18 20 14 5,;,proc ttest;,paired x1*x2;,run;,The TTEST Procedure,Statistics,Variable,N,Lower CL,Mean,Upper CL,Lower CL,Mean,Mean,Std Dev,x1-x2,8,0.9648,4.75,8.5352,2.9936,Variable,StdDev,Upper CL,StdErr,Minimum,Maximum,Std Dev,x1-x2,4.5277,9.2151,1.6008,-2,11,T-Tests,Difference,DF,tValue,Pr|t|,x1-x2,7,2.97,0.0209,结论:A、B两种病毒的致病力有显著差异。,2.成组法T测验,ProbF=,若,0.05,差异不显著,接受,若,0.05,差异显著,则,样本方差同质性检验,(1),(2),表3.2成组试验资料,P60,例6.4:今有A、B两个橡胶有性系,均在同一环境、同一管理下生长,产量于下表,试测定其产量差异显著性。,有性系,产量,n,A,69,97,92,11,B,32,61,61,17,成组法实例,成组法T测验程序:,data yild;,input strain$yield;,cards;,a 69 a 97 a 106 a 92,b 32 b 61 b 50 b 46,;,proc ttest;,class strain;,var yield;,run;,输出结果:,结论:品系A、B的产量差异极显著。,T-Tests,Variable,Method,Variances,DF,tValue,Pr|t|,yield,Pooled,Equal,26,4.13,0.0003,yield,Satterthwaite,Unequal,18.1,3.93,0.0010,Equality of Variances,Variable,Method,NumDF,DenDF,F Value,PrF,yield,Folded F,10,16,1.56,0.4141,1.(作业4)阿布勒汉等人在马来西亚橡胶研究院作一橡胶刺激剂剂型比较试验,以探讨乙烯利和电石刺激对不同割制的增产效果,供试品系为混杂无性系,第一年结果如表:,试测定乙烯利与电石对橡胶树产胶的刺激差异显著性?,割制,乙烯利x1,电石x2,1,2,3,4,5,6,7,8,9,10,11,73.2,59.9,39.1,16.7,149.7,101.1,70.5,35.0,84.8,67.4,50.3,76.0,56.0,38.3,19.3,113.8,74.0,54.9,12.4,76.9,68.8,37.1,实习二,实 习 三,结果:乙烯利效果显著于电石,2.(作业5)用40乐果乳油500防治茶小绿叶蝉,喷药区十二个,对照区十个,测得产量结果如下(单位:公斤):,40乐果乳油500:97.0 254.9 345.5 399.6 177.0 322.6 577.6 251.6 251.0 337.3 22.7 292.9 154.6,对照喷清水:42.6 157.6 65.3 162.1 93.5 215.2 226.6 109.9 106.7 40.5,问喷洒此药有无防治和增产作用?,结论:,喷洒40乐果乳油的茶青产量极显著高于对照,该药对防治茶小绿叶蝉有效。,3.有一水稻施肥试验,处理为A、B两种施肥方法,完全随机设计,试验结果见表3.1。试测验两种施肥方法水稻产量有无显著差异。,表3.1 两种施肥方法水稻小区产量(),x,1,(A),x,2,(B),8.2,9.6,8.7,8.9,9.4,8.5,10.7,11.2,9.2,10.9,11.1,10.8,data b;,do trt=1 to 2;,input x;,output;,end;,cards;,8.210.7 9.611.2 8.79.2,8.910.9 9.411.1 8.510.8,;,proc ttest;,class trt;,var x;,run;,成组法T测验,程序,:,4.将14只大白鼠随机分为两组,一组做成白血病模型鼠,一组为正常鼠,两组鼠脾脏DNA含量(mg/g)如下,请分析两组鼠表脾脏DNA平均含量是否不同?,白血病组(x,1,):12.3 13.2 13.7 15.2 15.4 15.8 16.9,正常组(x,2,):10.8 11.6 12.3 12.7 13.5 13.5 14.8,第四章 x,2,独立性测验,一、x,2,测验的基本公式:,其中:a为实测值,t为相应的理论值,K.Pearson(1900)根据x,2,定义,从属性性状的分布推导出用于计数资料分析的x,2,公式。,当df=1的样本,必须用连续性矫正公式,否则x,2,偏大,容易达到显著水平。,对df2的样本,不作矫正。,x,2,的矫正公式:,二、,x,2,独立性测验类型,1.22联列表的x,2,测验法,解决两种处理两种结果的情况,判断两组或多组资料是否相互关联的问题,即独立性检验,亦称列联表分析。,2.2C联列表的x,2,测验法,解决两处理多种结果(或多处理两种结果)的情况,3.RC联列表的x,2,测验法,解决多种处理多种结果的情况,结果1 结果2,合计,处理1,处理2,a,11,a,12,a,21,a,22,R,1,R,2,合计,C,1,C,2,n,2.矫正公式:,1.资料整理的一般形式:,4.1 22联列表的x,2,测验法,1.资料整理的一般形式:,4.3 RC 联列表的x,2,测验法,横行因素,纵行因素,1 2 c,总计,1,2,R,a,11,a,12,a,1c,a,21,a,22,a,2c,a,r1,a,r2,a,rc,R,1,R,2,R,r,总计,C,1,C,2,C,c,n,2.公式:,三、x,2,独立性测验的SAS程序,data 数据集名;,do a=1 to 行数;,do b=1 to 列数;,input x;,output;,end;,end;,cards;,数据,;,proc freq;,weight x;,tables a*b/chisq;,run;,实例:P64 P66,四、x,2,独立性测验的实例,data rubber1;,do a=1 to 2;,do b=1 to 2;,input x;output;,end;,end;,cards;,97 403 160 340,;,proc freq;/*,频数过程*/,weight x;,tables a*b/chisq;,/*a(行)b(列)联列表并输出x,2,值*/,run;,1.22联列表的x,2,测验法,例6.6:橡胶芽接位保护比较试验。P64,处理,死亡株 成活株,不切腹囊皮,切腹囊皮,97 403,160 340,试测验植株越冬后死亡率是否因切或不切腹囊皮而异?,FREQ 过程,频数 百分比 行百分比 列百分比,97/1000,a*b 表,a,b,合计,1,2,1,979.70,19.40,37.74,40340.3080.6054.24,50050.00,2,16016.00,32.00,62.26,34034.0068.0045.76,50050.00,合计,25725.70,74374.30,1000100.00,97/500,97/257,SAS主要输出结果:,a*b 表的统计量,统计量,自由度,值,概率,卡方,1,20.7854,.0001,似然比卡方,1,20.9504,.0001,连续校正卡方,1,20.1308,.0001,Mantel-Haenszel 卡方,1,20.7647,.0001,Phi 系数,-0.1442,列联系数,0.1427,Cramer 的 V,-0.1442,a*b 表的统计量,统计量,自由度,值,概率,卡方,1,20.7854,.0001,似然比卡方,1,20.9504,.0001,连续校正卡方,1,20.1308,.0001,统计推断:因,c,2,=20.13,其出现的概率p 0.01,差异极显著。又因不切时样本死亡率为19.40%切时的32.00%,故不切,腹囊皮胶树越冬后死亡百分率,极显著低于切,腹囊皮的死亡百分率。,SAS8.0输出结果:,TABLE OF A BY B,A B,Frequency|,Percent|,Row Pct|,Col Pct|1|2|Total,-+-+-+,1|97|403|500,|,9.70|40.30|50.00,|,19.40,|80.60|,|37.74|54.24|,-+-+-+,2|160|340|500,|16.00|34.00|50.00,|,32.00,|68.00|,|62.26|45.76|,-+-+-+,Total 257 743 1000,25.70 74.30 100.00,STATISTICS FOR TABLE OF A BY B,Statistic DF Value Prob,-,Chi-Square 1 20.785 0.000,Likelihood Ratio Chi-Square 1 20.950 0.000,Continuity Adj.Chi-Square 1 20.131 0.000,Mantel-Haenszel Chi-Square 1 20.765 0.000,Fishers Exact Test(Left)3.35E-06,(Right)1.000,(2-Tail)6.70E-06,Phi Coefficient -0.144,Contingency Coefficient 0.143,Cramers V -0.144,Sample Size=1000,Tables语句中有四个选项用来取消四个统计量的打印。,Nofreq 取消打印单元频数,Nopercent 取消打印单元百分数,Norow 取消打印行百分数,Nocol 取消打印列百分数,例1:橡胶芽接位保护比较试验。,处理,死亡株 成活株,不切腹囊皮,切腹囊皮,97 403,160 340,补充:,data rubber1;,do a=1 to 2;do b=1 to 2;,input x;output;,end;end;,cards;,97 403 160 340,;,proc freq;,weight x;,tables a*b/chisq,nopercent nocol,;,run;,程序修改:,主要输出结果:,p 0.01,差异极显著;,又不切时样本死亡率为,19.40%,切时的,32.00%,。,结论:,不切,腹囊皮胶树越冬后死亡百分率,极显著低于切,腹囊皮的死亡百分率。,FREQ 过程,频数 行百分比,a*b 表,a,b,合计,1,2,1,97,19.40,40380.60,500,2,160,32.00,34068.00,500,合计,257,743,1000,连续校正卡方,1,20.1308,0.05,即、两品系寒害程度差异不显著.,3.rc联列表的x,2,独立性测验法,(p66),例6.8 为研究人的血型与胃病的关系,对胃溃疡、胃癌患者与无病对照作血型调查结果如下:,血型,胃溃疡 胃癌 无病对照,O,A,B,983 383 2892,679 416 2625,134 84 570,试作胃病与血型间的独立性测验。,统计结论:因,2,=40.543,p 0.01,差异极显著,即胃病与血型间有极显著的关联。,SAS程序略,其主要输出结果:,统计量,自由度,值,概率,卡方,4,40.5434,0.05,差异不显著,故叶子的情况与水深无关。,实 习,6.4 正态性检验,6.4.1单样本正态性检验,6.4.2多样本正态性检验,6.4.1,单样本正态性检验,1.基本原理与公式,H,0,:变量服从正态分布,Shapiro-Wilk检验统计量W,W值介于01之间。,若prw的概率值,大于,0.05,则接受假设H0,认为资料服从正态分布;,若prw的概率值,小于,0.05,则认为资料不服从正态分布。,单样本正态性检验,一般用,UNIVARIATE过程,来检验一个变量是否服从正态分布:,PROC UNIVARIATE NORMAL DATA=数据集名;,VAR 要分析的变量名;,2.SAS分析,以下表为140行水稻试验的产量,试编一SAS程序,判断水稻产量是否服从正态分布。,单样本正态性检验实例,177,215,197,97,123,159,245,119,119,131,.,227,141,169,124,159,正态性检验,检验,统计量,P 值,Shapiro-Wilk,W,0.99477,Pr D,0.1500,Cramer-von Mises,W-Sq,0.016666,Pr W-Sq,0.2500,Anderson-Darling,A-Sq,0.134831,Pr A-Sq,0.2500,data,rice;,input,x;,cards,;,17721519797123,159245119119131,227141169124159,;,proc,univariate,nomal,;,run,;,主要输出结果:,思考题:下表列出了36家上市公司在2001年的每股收益(EPS,earn per share).试判断上市公司的每股收益(eps)是否服从正态分布。,code,name,eps,96,广聚能源,0.059,99,中信海直,0.028,151,中成股份,0.026,.,917,电广传媒,0.086,6.4.2多样本正态性检验,例6.2 某烟草品种产量系比试验,分别对3个品种,每品种随机抽取4个60的小区产量如表6.1,试测验3个品种数据是否服从正态分布。,品种,A,B,C,16.3 14.9 16.2 16.2,18.0 17.6 18.0 18.3,16.6 17.0 17.6 17.8,其SAS程序:,data s;,do trt=1 to 3;,do n=1 to 4;,input x;output;,end;end;,cards;,16.3 14.9 16.2 16.2,18.0 17.6 18.0 18.3,16.6 17.0 17.6 17.8,proc univariate normal;,var x;,by trt;,run;,/*按品种(trt)分类,分别进行资料的正态性检验*/,正态性检验,-trt=1-,检验 -统计量-P 值-,Shapiro-Wilk,W 0.84353 Pr W,0.2059,-trt=2-,Shapiro-Wilk W 0.935122 Pr W,0.6248,-trt=3-,Shapiro-Wilk W 0.93927 Pr|t|概率值记为,a,
展开阅读全文