资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计分析培训(pixn),第一页,共41页。,二项分布资料(zlio)的统计分析,第二页,共41页。,二项分布,Binomial Distribution,二分类变量:有且只有两种结果的变量,如性别、死亡生存(shngcn)、复发未复发,一般用0和1表示其结果,Bernouli试验:具有两值结果的一次试验。条件:1、互斥的有且只有两种结果;2、独立性;3、每次关心结果的发生概率不变。,二项分布:进行的N次Bernouli试验中,所关心结果按不变概率发生0、1、2、N-1、N次的概率分布,练习:4张牌里有一张A,放回抽样抽5次,抽到0,1,2,3,4张A的概率是多少?至少抽到2张A的概率?,第三页,共41页。,二项分布的集中趋势(qsh)和离散趋势(qsh),二项分布的均数,样本计数(j sh):X0=np,样本率:p,二项分布的方差,样本计数(j sh):Var(X)=np(1-p),样本率:Var(p)=p(1-p)/n,第四页,共41页。,二项分布近似(jn s)正态分布,理论(lln)上,当N和N(1-)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为N,方差为N(1-)的正态分布,样本率近似服从均数为,方差为(1-)/N的正态分布。,实际上,当Np和N(1-p)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为Np,方差为Np(1-p)的正态分布,样本率近似服从均数为p,方差为p(1-p)/N的正态分布。,第五页,共41页。,R C表 双向有序,成组设计(shj)资料的秩和检验(1)两样本比较问题,当N40,或有理论频数O40且理论频数O均5时,可直接(zhji)应用;,当N40但有理论频数1O5时,需进行连续性校正(称Yates校正),当N40,或有理论频数O40时,,Yes,No,合计,Yes,a,b,n,1+,No,c,d,n,2+,合计,n,+1,n,+2,n,B,法,+,B,法,+,合计,A,法,+,56,35,91,A,法,-,21,28,49,合计,77,63,140,第二十五页,共41页。,行列表(li bio)的分析,生存,死亡,合计,组,1,a,b,n,1+,组,2,c,d,n,2+,合计,n,+1,n,+2,n,水平,1,水平,Q,合计,组,1,n,11,n,1C,n,1+,n,ij,组,G,n,G1,n,GQ,n,Q+,合计,n,+1,n,+Q,n,行列表(li bio)又称RC表、列联表,分析前要考虑的问题:,水平数,水平之间是否有序,要回答问题的性质,变量1的水平数变量2的水平数,2 2表(四格表),2 C表 C无序(w x),2 C表 C有序,R C表 双向无序(w x),R C表 单向有序,R C表 双向有序,第二十六页,共41页。,成组设计多个(du)样本率或百分构成的比较,检验统计量的计算方法相同,多组间所关心事件发生率的比较,假设不同(与四格表资料的2检验相比):H0:各组所关心事件的发生率相同;H1:各组所关心事件的发生率不全相同,两组间观察指标各水平百分构成的比较,假设H0:两组间观察指标各水平的百分构成相同;H1:两组间观察指标各水平的百分构成不同,2检验的适用条件理论(lln)频数:80%的格子5和100%的格子1。,第二十七页,共41页。,行列表(li bio)的关联性分析,对于双向无序行列表,检验统计量的计算方法相同,假设不同(与前相比):H0:行变量与列变量间无关联性;H1:行变量与列变量间有关联性,对于单向有序行列表,行或列平均分差异检验或等级资料(zlio)的秩和检验,对于双向有序行列表,等级相关分析,第二十八页,共41页。,非参数(cnsh)统计分析方法 秩和检验法,第二十九页,共41页。,t检验(jinyn)、方差分析的应用条件,要求数据服从正态分布,两样本或多个(du)样本比较时还要求方差齐性。,当不满足上述条件时,,转换数据对数转换法、平方根转换法、反正弦转换法等使转换后数据满足正态性和方差齐性,秩和检验法,第三十页,共41页。,秩和检验(jinyn),用于计量分类等级资料统计推断的一组方法,非参数方法不要求数据服从正态甚至是任何分布(不用考虑分布中的均数、标准差等参数),在两组或多组比较(bjio)时,无需考虑方差是否齐性,相对于t检验、方差分析等参数方法,统计效率较低(不能够充分利用数据信息)但稳健性好(极端值的作用较小),第三十一页,共41页。,单样本(yngbn)分析One sample analysis,11,名健康妇女,10,天日均能量摄入(,kJ,),编号,日均能量摄入,(kJ),1,5260,2,5470,3,5640,4,6180,5,6390,6,6515,7,6805,8,7515,9,7515,10,8230,11,8770,Mean,6753.6,SD,1142.1,日均能量(nngling)摄入参考值,7725kJ,第三十二页,共41页。,配对(pi du)设计资料的分析Analysis of Paired Data,编号,闭经前,闭经后,差,1,5260,3910,1350,2,5470,4220,1250,3,5640,3885,1755,4,6180,5160,1020,5,6390,5645,745,6,6515,4680,1835,7,6805,5265,1540,8,7515,5975,1540,9,7515,6790,725,10,8230,6900,1330,11,8770,7335,1435,Mean,6753.6,5433.2,1320.5,SD,1142.1,1216.8,366.7,问:闭经(b jn)前,后,日均能,量的摄入是,否有变化?,第三十三页,共41页。,配对设计(shj)资料的秩和检验(1)符号检验Sign test,如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边(yu bian)的概率相等,均为1/2,第三十四页,共41页。,配对设计资料的秩和检验(jinyn)(2)符号秩和检验(jinyn)Wilcoxon signed rank sum test,比符号检验进一步,考虑(kol)了量的大小。,计算观测值与参考值的差;,无视正负号对差从小到大排序;,对所有正(或负)的顺位求和。,第三十五页,共41页。,成组设计(shj)资料的秩和检验(1)两样本比较问题,24,小时能量消耗,(MJ/,天,),消瘦型(,n=13,),肥胖型,(n=9),6.13,8.79,7.05,9.19,7.48,9.21,7.48,9.68,7.53,9.69,7.58,9.97,7.9,11.51,8.08,11.85,8.09,12.79,8.11,8.4,10.15,10.88,Mean,8.066,10.298,SD,1.238,1.398,第三十六页,共41页。,成组设计资料的秩和检验(1)两样本比较(bjio)问题,混合编秩。遇数据相同时取平均秩。,两样本比较时分组求秩和当较小样本的样本量和两样本的样本量差10时,以较小样本的秩和为检验统计(tngj)量(如样本量相同,则任取),查附表11。当样本量超范围时,则采用正态近似法。见书p132公式。对同秩的校正见书p132公式。,第三十七页,共41页。,成组设计资料的秩和检验(2)多个(du)样本比较时,混合编秩。遇数据相同时取平均秩。,Kruskal-Wallis H Test分组求秩和、平均秩和,求总秩和。按书p134公式求检验统计(tngj)量H的值。对同秩的校正按书p134公式。当组数为3,每组样本含量均不超过5时,查附表12当组数或任一组样本含量超范围时,H或校正H服从自由度为组数-1的2分布,查2界值表。,第三十八页,共41页。,成组设计资料的秩和检验(jinyn)(3)成组等级资料的比较,实质上为一分类数据。,分类水平间有等级关系。,利用等级信息进行编秩。,一般(ybn)样本量较大,可利用正态近似法(两样本比较时,按书p132公式)或2分布近似法(多个样本比较时,按书p134公式和)。,一般(ybn)同秩情况较多,需要校正。,第三十九页,共41页。,书上p132两样(lingyng)本比较例,中草药治疗两种不同类型小儿肺炎的疗效比较,疗效,病毒性肝炎,细菌性肝炎,合计,(1),(2),(3),(4),控制,65,42,107,显效,18,6,24,有效,30,23,53,无效,13,11,24,第四十页,共41页。,书上p135多样(du yn)本比较例,三种方案治疗急性无黄疸型病毒性肝炎疗效比较,疗效,西药组,中药组,中西医结合组,合计,秩次范围,平均秩次,(1),(2),(3),(4),(5),(6),(7),无效,49,45,15,109,1-109,55,好转,31,9,28,68,110-177,143.5,显效,5,22,11,38,178-215,196.5,痊愈,15,4,20,39,216-254,235,R,i,11651,9029.5,11704.5,-,-,-,n,i,100,80,74,254,-,-,第四十一页,共41页。,
展开阅读全文