资源描述
第1章 绪论
医学统计学是一门“运用统计学的原理与方法,研究医学科研中有关数据的收集、整理与分析的应用科学。
1.个体:又称观察单位,是统计研究的最根本单位,也是构成总体的最根本的观察单位。
2.总体:根据研究目确实定的同质观察单位某项指标测量值〔观察值〕的集合。分为有限总体〔明确规定了空间、时间、人群范围内有限个观察单位〕与无限总体〔无时间与空间范围的限制〕。反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一局部有代表性的观察单位组成的整体。〔抽样,随机化原那么,样本含量〕根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。抽样误差是由随机抽样〔样本的偶然性〕造成的样本指标及总体指标之间、样本指标及样本指标之间的差异。其根源在于总体中的个体存在变异性。只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。统计分析主要是针对抽样误差而言。
5.变量〔一个个体的任意“特征〞〕;资料〔变量值的集合〕,资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型与离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类与多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。各类资料间可相互转化。①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩与检验、Ridit分析等。
6.误差:实测值及真实值之差。可分为随机误差〔随机测量误差+抽样误差〕及非随机误差〔系统误差及非系统误差〕。①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可防止的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
7.概率〔P〕:描述随机事件发生可能性大小的值,其取值为0≤P≤1。其中,P=1为必然事件,P=0为不可能事件,0<P<1为随机事件。习惯上将P≤0.05的随机事件称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为可能不发生。概率及频率的关系:设在一样条件下,独立重复n次试验,随机事件出现f次,那么称f/n为随机事件出现的频率;当n逐渐增大时,f/n始终在一个常数左右作微小摆动,那么称该常数为随机事件的概率。
8.医学统计工作的根本步骤:①设计〔是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证〕;②收集资料〔统计报表+经常性工作记录+专题调查或实验研究+统计年鉴与统计数据专辑〕;③整理资料〔是将原始数据净化、系统化与条理化,以便为下一步计算与分析打好根底的过程〕;④分析资料/统计分析〔统计分析包括统计描述与统计推断,统计学的主要任务是进展统计推断,包括参数估计与假设检验〕。
第2章 计量资料的统计描述
1.频数:计量资料经分组后清点出的各组例数。频数分布:指各组频数的分配情况。频数分布表:将分组与各组的频数以及频率编制成的表。频数分布图:即直方图,以直方的面积大小表示各组频数的多少,比频数表直观形象。
2.频数分布表:①对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配;②对于离散变量,频数分布为n个变量值〔或各几个〕变量值处的变量值个数的分配。编制步骤:①找极值;②求极差〔全距〕,即最大值与最小值之差R;③确定组段数与组距;④根据组距写出组段;⑤分组划记并统计频数;⑥列表并求出频率、累计频数、累计频率。
3.频数分布的用途:①描述频数分布的类型:频数分布分为对称分布与偏态分布。各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。右侧的组段数多于左侧的组段数,频数向右侧拖尾,称右偏态分布,也称正偏态分布。左侧的组段数多于右侧的组段数,频数向右侧拖尾,称左偏态分布,也称负偏态分布。②描述频数分布的特征;③便于发现一些特大或特小的离群值;④便于进一步做统计分析与处理。
4.集中趋势:统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均数与中位数。算术均数:简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平P17。几何均数:反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标P18,如抗体滴度资料。中位数:是将n个变量值从小到大排列,位置居于中间的那个数。N为奇数时取位次居中的变量值,n为偶数时取位次居中的两个变量值的均数。适用于各种分布类型的资料,尤其是偏态分布资料与一端或两端无确切数值的资料P19。百分位数:百分位是一种位置指标,用Px来表示,读作第X百分位数。一个百分位数Px将全部变量值分为两局部,在不包含Px的全部变量值中有X%的变量值小于或等于它,〔100-X%〕变量值大于或等于它。百分位数是一个界值,其重要用途是确定医学参考值范围。中位数实际上是第50百分位数。
5.离散趋势:描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。极差:即一组变量值的最大值及最小值之差,可用于任何分布资料。仅用极差来描述数据的变异程度也不全面,且受样本含量n 的影响较大。四分位数间距:是把全部变量值分为四局部的分位数,即第1四分位数〔QL=P25〕、第2四分位数〔M=P50〕、第3四分位数(QU=P75)。四分位数间距QR= QU﹣QL,一般与中位数一起描述偏态分布资料的分布特征。方差:也称均方差,反映一组数据的平均离散水平,总体方差用σ2表示,样本方差记为S2。标准差:是方差的正平方根,其单位及原变量值一样,总体标准差用σ表示,样本标准差记为S。方差与标准差用于描述正态分布计量资料的离散程度。均数与标准差结合用于全面描述正态分布计量资料的集中趋势及离散趋势。变异系数:记为CV,CV=S/V×100%,是一个相对变异指标,无单位,多用于观察指标单位不同时,或均数相差较大时。
6.正态分布:德国数学家德莫阿弗尔于1733年提出,德国数学及高斯使正态分布广为人知。特征:①在直角坐标的横轴上方呈钟型曲线,两端及X轴永不相交,且以X=μ为对称轴,左右完全对称。②在X=μ处f(X)取最大值,其值为f(X)= ;X越远离μ,f(X)值越小。③正态分布有两个参数,即位置参数μ与形态参数σ。假设固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。假设固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦。④正态曲线下的面积分布有一定的规律:正态分布曲线下面积为1,的面积为95%,X±S的面积为99%。标准正态分布:通过u=(X﹣μ)/ σ将X~N〔μ,σ2〕的正态分布转换为u~N〔0,12〕的标准正态分布,u称为标准正态变量,P27。
7.医学参考值:是指包括绝大多数正常人的人体形态、功能与代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常与异常的参考标准。通常使用的医学参考值范围有90%,95%,99%,最常用的是95%。医学参考值范围制定方法:①正态分布法:数据服从或近似服从正态分布;②百分位数法:偏态分布资料,样本含量不低于100,P29。
第3章 总体均数的估计及假设检验
1.抽样误差:由个体差异产生的,随机抽样造成的样本统计量之间或样本统计量及总体参数之间的差异,用标准误来衡量,抽样误差是不可防止的,其产生的根本原因是生物个体的变异性,其分布有一定的规律性。样本均数的抽样分布特点:①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布很有规律,围绕总体均数中间多,两边少,左右根本对称,也服从正态分布;④样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小。
2.标准误:样本统计量的标准差,描述统计量及总体参数的接近程度,是衡量抽样误差大小的指标。用途:①表示抽样误差的大小;②估计参数的可信区间;③假设检验。均数标准误:样本均数的标准差,反映样本均数间的离散程度,也反映样本均数及相应总体均数间的差异,说明了均数抽样误差的大小。均数标准误及标准差成正比,及样本含量n的平方根成反比。假设标准差不变,可通过增加样本含量n来减小均数的标准误,从而降低抽样误差。
3.标准差及标准误的区别:①标准差是衡量观察值离散趋势〔即变异程度〕的指标,其越大,表示观察值越分散,样本均数的代表性越差;反之样本均数的代表性越好;而标准误是描述样本统计量的变异程度,表示抽样误差的大小,其越大,表示抽样误差越大,样本统计量〔样本均数〕的可靠性越小,反之样本统计量〔样本均数〕的可靠性越大。②标准差可用于描述正态〔近似正态〕分布资料的频数分布与医学参考值范围的估计;而标准误用于总体均数的区间估计与两个样本统计量〔样本均数〕间的比拟即t检验。标准差及标准误的联系:二者都是变异指标,标准误的大小可由标准差的大小来估计。在样本含量一定时,标准差越大,标准误也越大,即在抽取一样例数的前提下,标准差越大,样本的抽样误差也越大。
4.t 分布:通过u=(X﹣μ)/ σ可以将X~N〔μ,σ2〕的正态分布转换为u~N〔0,12〕的标准正态分布,同理样本含量为n的样本均数X可通过u=(X﹣μ)/ σX将N〔μ,σX2〕的正态分布转化为标准正态分布,但实际工作中,由于σX常常未知,用SX代替,那么(X﹣μ)/ SX不再服从标准正态分布,而是服从t分布。t分布为抽样分布,参数只有一个即自由度ν=n﹣1。特征:①单峰分布,以0为中心,左右对称;②t分布的曲线形态取决于自由度ν的大小,ν越小,那么t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近无穷大,Sx逼近σx,t分布逼近u分布,标准正态分布是t分布的特例。t分布主要用于总体均数的区间估计与t检验。在一样自由度时,∣t∣值越大,概率P越小;在一样∣t∣值时,同一自由度的双尾概率为单尾概率的两倍。
5.参数估计:是指用样本统计量推断总体参数,有点〔值〕估计与区间估计两种方法。点估计:用相应样本统计量直接作为其总体参数的估计值。区间估计:是按预先给定的概率〔1﹣α〕所确定的包含未知总体参数的一个范围。该范围称为参数的可信区间或置信区间;预先给定的概率1﹣α称为可信度或置信度,一般取双侧95%。
6.可信区间:又称置信区间,通常是两个数值即可信限/置信限构成的一范围,较小值称可信下限,较大值称可信上限。可信区间确实切含义:从固定样本含量的总体中进展重复随机抽样试验,根据每个样本可算得一个可信区间,那么平均有1﹣α〔如95%〕的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1﹣α。两个要素:①准确度:反映在可信度1﹣α的大小,越接近1越好;②精细度:反映在区间的宽度,越窄越好。两者是矛盾的,一般情况下常用95%可信区间。在可信度确定的情况下,增加样本含量可减小区间宽度。
7.总体均数可信区间的计算:根据总体标准差σ是否,以及样本含量n的大小而异,通常有t分布与u分布两类方法。①单一总体均数的可信区间:σ未知按t分布;σ或σ未知,但n足够大〔如n≥60〕时按u分布。②两总体均数之差的可信区间P41。
8.总体均数可信区间及参考值范围的区别:
区别点
总体均数的可信区间
参考值范围
含义
按预先给定概率所确定的位置参数μ的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当α=0.05时,95%CI估计正确的概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数
总体均数的可能范围
“正常人〞的解剖、生理、生化某项指标的波动范围
个体值的波动范围
计算公式
σ未知:X±tα/2, νSX*
σ或σ未知但n>60:X±uα/2,νσX或X±uα/2, νσX**
正态分布:X±uα/2,νS**
偏态分布:PX~P100﹣X
用途
总体均数的区间估计,也可间接进展假设检验
绝大多数〔如95%〕观察对象某项指标的分布范围
样本量作用
样本量越大,可信区间越小
样本量越大,参考值范围越稳定
*tα/2, ν也可用于tα, ν〔对应于单尾概率时〕;** uα/2,也可用于uα,〔对应于单尾概率时〕。
9.假设检验:又称显著性检验,是利用小概率反证法思想,从问题的对立面〔H0〕出发间接判断要解决的问题〔H1〕是否成立,然后在H0成立的条件下计算检验统计量,最后获得P值来判断。根本思想:①小概率思想:小概率事件在一次试验中认为根本上不发生,其概率是相对的,在进展统计分析时要事先规定,即检验水准α。②反证法思想:首先提出一个假设,用适当的统计方法确定当假设成立时,获得现在样本的概率大小,如果是小概率事件,那么推断假设是假的,拒绝它;如果不是小概率事件,那么不能认为假设是假的,不能拒绝它。
10.假设检验的根本步骤:1〕建立检验假设,确定检验水准:①μ=μ0:即检验假设,常称无效假设或零/原假设,用H0表示;②μ≠μ0:即备择假设,常称对立假设,用H1表示;③α:即检验水准,也称显著性水准,属于Ⅰ型错误的范畴,是预先规定的概率值,确定了小概率事件的标准。2〕计算检验统计量:根据变量或资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量,所有检验统计量都是在H0成立的前提条件下计算出来的。3〕确定P值,做出推断结论:P的:是指从H0规定的总体随机抽样,抽得等于及大于或〔与〕等于及小于现有样本获得的检验统计量值〔如t、u等〕的概率。〔当样本含量n 较大时,t值近似与u值相等,有人将其称为u检验或Z检验,实际是t检验的特例。〕对于检验假设须注意:①检验假设是针对总体而言,而不是针对样本;②H0与H1是相互联系、对立的假设;③H0为无效假设,其假定通常是:某两个总体参数相等,或某两个总体参数之差等于0,或…无效,或某一资料服从某一特定分布;④H1的内容直接反映了检验的单双侧。
11.t检验〔方差相等〕:①单样本t检验:即样本均数及总体均数的比拟,要求样本取自正态总体〔样本均数及总体均数不等,原因有二:a.非同一总体即μ≠μ0;b.虽为同一总体即μ=μ0,但有抽样误差〕。②配对样本t检验:简称配对t检验,也称成对t 检验,适用于配对设计的计量资料,要求差值服从正态分布。〔配对设计是将受试对象按照某些重要特征配成对子,每对中的两个受试对象随机分配到两处理组。主要有以下情形:a.两同质受试对象配成对子分别承受两种不同的处理;b.同一受试对象分别承受两种不同处理;c. 同一受试对象承受一种处理前后。〕③两样本t检验:又称成组t检验,适用于完全随机设计两样本均数的比拟,要求样本来自正态总体,且两总体方差齐性。当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同检验方法。t′检验〔方差不等〕:①Cochran&Cox近似t检验——对临界值校正;②Satterthwaite近似t检验——对自由度校正;③Welch近似t检验——对自由度校正。
12.Ⅰ型错误:拒绝了实际上成立的H0,即“弃真〞,其概率大小用α表示,检验水准就是预先规定的允许犯Ⅰ型错误概率的最大值,α可取单尾也可取双尾。Ⅱ型错误:“承受〞了实际上不成立的H0,即“取伪〞,其概率用β表示,β只取单尾。把握度:又称检验效能,是指1﹣β。其意义是当两总体确有差异,按规定检验水准α所能发现该差异的能力。
13.假设检验应注意的问题:1〕要有严密的研究设计——假设检验前提。2〕不同类型的资料应选用不同检验方法。3〕正确理解“显著性〞一词的含义,一般假设检验结果并不指差异的大小,只能反映两者是否有差异,采用“有无统计学意义〞表达。4〕因结论具有概率性质,故结论不能绝对化,报告结论时最好列出检验统计量的值,尽量写出具体的P值或P值确实切范围。5〕统计“显著性〞及医学/临床/生物学“显著性〞:假设统计结论与专业结论一致,那么最终结论就与这两者一致;假设统计结论与专业结论不一致,那么最终结论需根据实际情况。当统计结论有意义,而专业结论无意义时,可能是由于样本含量过大或设计存在问题,那么结论最终无意义。当统计结论无意义,而专业结论有意义,那么应当检查设计是否合理、样本含量是否足够。6〕可信区间及假设检验的区别与联系:①可信区间用于说明量的大小即判断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等;②可信区间可答复假设检验的问题,算得的可信区间假设包含了H0,那么按α水准不拒绝H0;假设不包含H0,那么按α水准拒绝H0承受H1。③可信区间不但能答复差异是否具有统计学意义,而且能比假设检验提供更多的信息,即提示差异有无实际的专业意义。④可信区间只能在预先规定的概率——检验水准α的前提下进展计算,而假设检验能够获得一个较为确切的概率P值。⑤验证一个假设时,可选择假设检验,而只是对总体参数做一个估计时,可选用区间估计,两者结合可对问题进展更全面的说明。
14.正态性检验:①图示法:概率图〔P-P图〕与分位数图〔Q-Q图〕;②计算法:a.对峰度与偏度各用一个指标来评定,以矩法效率最高。偏度指分布不对称的程度与方向,样本偏度系数g1,总体偏度系数r1。〔r1=0对称,r1>0正偏态,r1<0负偏态〕峰度那么指分布于正态曲线相比的冒尖程度或扁平程度,样本峰度系数g2,总体峰度系数r2。〔r2=0正态峰,r2>0尖峭峰,r1<0平阔峰〕b.仅用一个指标来综合评定。
15.两样本方差比拟的F检验:即方差齐性检验,目的是判断两样本所代表的两总体方差是否不等,资料要求服从正态分布。假设方差齐,采用一般的t检验;假设方差不齐,那么采用近似t检验。
16.变量变换:是将原始数据作某种函数转换,如转换为对数值等。它可使各组方差齐同、稳定,亦可使偏态资料正态化,以满足t检验或其它统计分析方法对资料的要求。方法:①对数变换:适用于a.对数正态分布资料,即原始数据的效应是相乘时;b.各样本标准差及均数成比例或变异系数是常数或接近某一常数的资料。②平方根变换:即将原始数据开算术平方根。③平方根反正弦变换。④倒数变换。
第4章 多个样本均数比拟的方差分析
1.方差分析:由fisher首创,又称F检验。〔F分布有两个参数:两个自由度〕根本思想:根据试验设计的类型,将全部观测值总的离均差平方与及其自由度分解为两个或多个局部,除随机误差作用外,每个局部的变异可由某个因素的作用〔或某几个因素的交互作用〕加以解释,如组间变异SS组间可由处理因素的作用加以解释。方差分析是综合的F检验。实验数据有三个不同的变异:①总变异:全部观测值大小不同,这种变异称为总变异,其大小可以用离均差平方与表示SS总;②组间变异:各处理组由于承受处理的水平不同,各组的样本均数也大小不等,这种变异称为组间变异,记为SS组间;③组内变异:在同一处理组中,虽然每个受试对象承受的处理一样,但观测值仍各不一样,这种变异称为组内变异〔误差〕,记为SS组内。SS总=SS组间+SS组内,ν总=ν组间+ν组内。变异程度及离均差平方与与自由度有关。各局部离均差平方与除以相应的自由度,其比值称为均方差,简称均方〔MS〕。应用条件:①各样本是相互独立的随机样本;②均来自正态分布总体;③相互比拟的各样本的总体方差相等,即具有方差齐性。
2.完全随机设计资料的方差分析:完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g个处理组〔水平组〕,各组分别承受不同的处理,实验完毕后比拟各组均数间的差异有无统计学意义,推论处理因素的效应。变异分解:SS总=SS组间+SS组内,ν总=ν组间+ν组内。分析步骤:略。
3.随机区组设计资料的方差分析:随机区组设计又称配伍组设计,是配对设计的扩展,先按影响试验结果的非处理因素将受试对象配成区组,再分别将各区组的受试对象随机分配到各处理组或对照组。随机分配的次数要重复屡次,每次随机分配都对同一个区组内的受试对象进展,且各个处理组受试对象数量一样,区组内均衡。区组内各试验对象具有较大的差异为好,利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。误差比完全随机设计小,试验效率高。变异分解:SS总=SS处理+SS区组+SS误差,ν总=ν处理+ν区组+ν误差。分析步骤:略。
4.拉丁方设计资料的方差分析:拉丁方设计是在随机区组设计的根底上开展的,实验涉及一个处理因素与两个控制因素,将两个控制因素分别安排在拉丁方设计的行与列上,每个因素的类别数或水平数相等,增加了均衡性,减少了误差,提高了效率。变异分解:SS总=SS处理+SS行+SS列+SS误差,ν总=ν处理+ν行+ν列+ν误差。分析步骤:略。
5.两阶段穿插设计资料的方差分析:二阶段穿插设计是A、B两种处理先后以同等的时机出现在两个试验阶段中,不仅平衡了处理顺序的影响,而且能把处理方法间的差异、时间先后之间的差异与受试者间的差异分开来分析。但是前一个试验阶段的处理效应不能持续作用到下一个试验阶段,故在两阶段之间设计洗脱阶段以消除残留效应。多用于止痛、镇静、降压等药物或治疗方法间疗效的比拟。分析方法:SS总=SS处理间+SS阶段间+SS受试者间+SS误差。
6.多个样本均数间的多重比拟:当方差分析的结果为拒绝H0,承受H1时,只说明g个总体均数不全相等。样本均数间的多重比拟不能用两样本均数比拟的t检验,否那么会加大犯Ⅰ型错误的概率,即假阳性。①LSD-t检验,即最小显著差异检验,适用于一对或几对在专业上有特殊意义的样本均数之间的比拟;②Dunnett-t检验,适用于g—1个实验组及一个对照组均数差异的多重比拟;③SNK-q检验,亦称q检验,适用于多个样本均数两两之间的全面比拟,最常用。
7.多样本方差比拟的Bartlett检验与Levene检验:Levene检验法在用于对多总体方差进展齐性检验时,所分析的资料可不具有正态性。
第5章 计数资料的统计描述
1.计数资料的常见数据形式是绝对数,但绝对数不具有可比性,所以需计算相对数,常用的相对数指标包括比,比例,率。根据研究目的不同,比例又分为强度相对数〔率〕与构造相对数〔即构成比〕。
2.率:说明某现象发生的频率或强度,常用百分率,千分率,万分率等表示。某一分率改变不影响其他分率变化。
3.构成比:表示事物内部某一局部的个体数及该事物各局部个体数的总与之比,用来说明各构成局部在总体中所占的比重或分布。某一局部构成比的改变将影响其他构成比的变化。
4.相比照:简称比,是两个有关指标之比,说明两指标之间的比例关系。两个指标可以是绝对数、相对数或平均数。
5.应用相对数的考前须知:①构造相对数不能代替强度相对数:构成比用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度②计算相对数应有足够数量,否那么会使相对数波动较大③正确计算合计率:对分组资料计算合计率或称平均律时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进展计算④注意资料的可比性:a.观察对象是否同质,研究方法是否一样,观察时间是否相等,以及地区、周围环境、风俗习惯与经济条件是否一致或相近等;b.观察对象内部构造是否一样;⑤比照不同时期资料应客观条件是否一样;⑥样本率〔或构成比〕的抽样误差:不能仅凭数字外表相差大小下结论,而应进展样本率〔或构成比〕差异的假设检验。
6.率的标准化法:采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。标准化法只适用于某因素两组内部构成不同,并有可能影响总率比拟的情况〔两个率不具有可比性〕。标准化率只表示相互比拟的资料间的相对水平,不再反映实际水平;此外标准化率表示样本值,存在抽样误差。
第6章 几种离散型变量的分布及其应用〔u分布,t分布与F分布均为连续型分布〕
1.率的标准误:即样本率的标准差,可以用来描述样本率的抽样误差,率的标准误越小,那么率的抽样误差就越小。
2.二项分布:是指在只会产生两种可能结果如“阳性〞或“阴性〞之一的n次独立重复试验中,当每次试验的“阳性〞概率π保持不变时,出现“阳性〞次数X=0,1,2,…,n的一种概率分布。适用条件:①每个观察单位仅有两个相互对立的结果,如阳性/阴性;②每次试验的条件不变,即π固定不变;③n个观察单位的结果相互独立。图形:二项分布为离散型分布;当π=0.5,二项分布图形是对称的,当π≠0.5,图形是偏态的,随着n增大,图形趋于对称。当n→∞时,只要π不太靠近0或1,二项分布近似正态分布。
3.Poisson分布:是二项分布的一种极限情况,可用来分析医学上如人群中癌症等发病率低的非传染性疾病的发病或患病人数的分布,也可用来研究单位时间内某罕见事件发生次数的分布。应用条件:①每个观察单位仅有两个相互对立的结果,如阳性/阴性;②每次试验的条件不变;③n个观察单位的结果相互独立;④发生率π很小,n很大〔此时λ=nπ=σ2,为常数〕。〔适用条件:①普通性②独立增量性③平稳性。〕性质:①总体均数λ及总体方差σ2相等;②当n很大时,π很小,λ=nπ为常数;③当λ→∞〔λ≥20〕,Poisson 分布近似正态分布;④可加性。图形:由λ决定。λ越小,分布越偏态;λ越大,分布趋向正态。
4.u检验:①率的比拟②t检验〔样本含量大时适用〕。
第7章 χ2检验
1.χ2检验:以χ2分布为根底,以χ2值为检验统计量的计数资料的假设检验。χ2分布为连续型分布,只有一个参数ν。ν≤2时曲线呈L型;随着ν的增加,曲线趋于对称;当ν→∞时,χ2分布趋近正态分布。此外χ2分布具有可加性。根本思想:χ2值反映实际频数A及理论频数T的吻合程度。
2.四格表χ2检验应用条件:①n≥40,T≥5,用四格表χ2检验的根本式或或专用式计算;②n≥40且1≤T<5,用四格表χ2检验的校正公式;③n<40或T<1,用四格表Fisher确切概率法〔不属于χ2检验范畴〕。
3.行×列表资料的χ2检验:①多个样本率的比拟:R×2表;②多个样本构成比的比拟:C×2表;③双向无序分类资料的关联性检验:R×C表。考前须知:①行×列表资料中各格的理论频数不应小于1,并且1≤T<5的格子数不宜超过格子总数的1/5;②多样本率的比拟,假设统计结果是拒绝H0,承受H1,仅说明个总体率之间总的来说有差异,不能说明任两个总体之间有差异;③对有序的R×C资料不能用χ2检验。
第8章 秩转化的非参数检验
1.参数检验:总体分布为的数学形式,对其总体参数作假设检验的统计推断方法。非参数检验:又称任意分布检验,是指对总体分布不作严格规定,即在应用中可以不考虑被研究对象为何种分布以及分布是否,检验假设中没有包括总体参数的一类统计方法。秩转化的非参数检验是先将数值变量资料从小到大,或等级资料从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差异不敏感,只对总体分布的位置差异敏感。
2.非参数检验的优点:不受总体分布的限制,适用范围广;缺点:适宜用参数检验方法的资料,如果用非参数检验方法,由于没有充分利用资料提供的信息,就会降低检验效能,即第II类错误的概率β增大。
3.秩转化的非参数检验适用范围:①未经准确测量的资料〔包括等级资料〕;②偏态分布且无法转化为正态分布的资料;③分布不清的资料。
4.配对样本比拟的Wilcoxon符号秩检验:亦称符号秩与检验,用于配对样本差值的中位数与0比拟;还可用于单个样本中位数与总体中位数的比拟。根本思想:在H0成立的前提下,配对差值的总体分布是对称的,总体中位数应为0,T+及T﹣应接近n(n+1)/4,假设正、负秩与相差悬殊,那么H0成立的可能性很小。根本步骤:①建立检验假设,确定检验水准;②计算统计量T值:a.求差值d,b.编秩,c.求秩与并确定统计量T值;③确定P值并做出统计推断:可用查表法〔小样本〕与正态近似法〔大样本〕求u值,确定P值〔假设T值在上、下界值范围内,其P值大于相应概率水平;假设T值恰好等于界值,其P值等于或近似等于相应概率水平;假设T值在上、下界值范围外,其P值小于相应概率水平〕。适用资料:不满足t检验条件的配对设计或单样本的计量资料、等级资料与其他不能准确测量的资料。
5.两个独立样本比拟的Wilcoxon秩与检验:用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差异。根本思想:如果H0成立,那么两样本来自分布一样的总体,两样本的平均秩次T1/n1及T2/n2应相等或接近,含量n1的样本的秩与T1应在n1(N+1)/2的左右变化。假设T值偏离此值太远,H0成立的可能性就很小。假设偏离出给定值所确定的范围时,那么P<α,拒绝H0。适用资料:完全随机设计两样本资料的比拟,分布偏态或方差不齐的计量资料的比拟,单向有序资料或无法准确测量的资料的比拟。
6.完全随机设计多个样本比拟的Kruskal-Wallis H检验:用于推断计量资料或等级资料的多个独立样本所来自的多个总体分布是否有差异。根本思想:同两个独立样本比拟的Wilcoxon秩与检验。适用资料:方差不齐或不服从正态分布的多组定量资料的比拟,多组有序分类变量资料的比拟或多组无法准确测量资料间的比拟。
7.随机区组设计多个样本比拟的Friedman M检验:用于推断随机区组设计的多个相关样本所来自的多个总体分布是否有差异。根本思想:在H0成立的条件下,各区组内观测值取秩为1,2,…g的概率相等,那么各处理组的秩与应接近R=n(g+1)/2,而M值反映了实际获得的g个处理组的秩与及R偏离的程度。M值越大,就越有理由疑心各处理组的总体分布不同。随着n与g的增大,M值近似服从自由度为g﹣1的χ2分布。适用资料:随机区组设计资料,但不满足随机区组设计方差分析的前提条件,也可用于随机区组设计的等级资料比拟。
8.无论是完全随机设计多个样本比拟的Kruskal-Wallis H检验还是随机区组设计多个样本比拟的Friedman M检验,当结论为拒绝H0时,并不能直接判断各处理组间差异有无统计学意义,应进展组间的两两比拟:多个独立样本两两比拟的Nemenyi法检验与多个相关样本两两比拟的q检验。
第9章 双变量回归及相关
1.简单直线回归是研究两个连续性变量间线性依存关系的一种统计分析方法。直线回归分析是用直线回归方程描述两个变量间变化的数量关系。直线回归分析的前提条件〔LINE〕:①线性:两个变量间存在线性关系;②独立性:任意两个观察值互相独立;③正态性:应变量Y是服从正态分布的随机变量;④等方差:给定X后,应变量Y的方差相等。
2.直线回归方程表达式:Y=a+bX,其中Y为回归方程的预测值;a为常数项,是回归直线在Y轴上的截距,其统计意义是当X取值为0时相应Y的均数估计值;b为回归系数,是直线的斜率,其统计意义是当X变化一个单位时Y 的平均改变的估计值。确定a与b要根据“最小二乘法〞原理,即以各实测点到直线的纵向距离的平方与最小来确定回归直线。
回归系数:直线回归方程Y=a+bX中的b,是直线的斜率,其统计意义是当X变化一个单位时Y的平均改变的估计值,b>0表示Y随X增大而增大,b<0表示Y随X增大而减小,b=0表示Y及X无线性依存关系。回归系数是有单位的,不能根据b 的大小判断回归关系的密切程度。
3.回归方程的假设检验:回归方程需要进展假设检验,以推断两个变量间的线性关系是否存在。方法有:方差分析与t检验,两者是等价的,检验结论一样。
4.回归方程的应用:①描述两个变量间的依存关系:经回归系数的假设检验,认为两变量间线性依存关系存在时,可用直线回归方程来描述两变量间依存变化的数量关系。②利用回归方程进展预测:将自变量X的值代入回归方程式,那么可得到应变量Y的估计值Y,即预测值。其意义为当X=X0时,应变量Y的样本均数,也是相应总体均数μY∣X0的一个点估计。其总体均数μY∣X0的1﹣α的可信区间为:Y0±tα/2,νSY0,SY0是样本均数Y的标准误,计算公式为SY0 ,当同时考虑所有X的可能取值时,可信形成一条中间窄、两端宽的带子,称为回归直线的可信带。其意义为在满足线性回归的条件下,总体回归直线落在可信带内的概率为〔1﹣α〕。而预测值Y的波动范围又称为个体Y值的容许区间〔预测区间〕,Y0±tα/2,νSY0,标准差SY0= ,同样,当同时考虑所有X的可能取值时,容许区间也会形成一条中间窄、两端宽的带子,称为个体值的预测带,叫回归直线的可信带宽。③利用回归方程进展控制:统计控制是利用回归方程进展逆估计。如要求应变量Y在一定范围内波动,可以通过控制自变量X的取值来实现。
5.直线相关:又称简单相关,是分析服从正态分布的两个随机变量X与Y有无线性相关关系的一种统计分析方法。直线相关的性质可由散点图直观的说明。相关分析的前提条件:①两个随机变量;②散点图呈线性关系;③服从双变量正态分布。
6.相关系数:又称Pearson积差相关系数,是用来说明具有直线关系的两变量间相关的密切程度及相关方向的统计指标。以符号r表示样本相关系数,符号ρ表示其总体相关系数。相关系数没有单位,其值为0≤r≤1,r为正表示正相关,r为1表示完全正相关;r为负表示负相关,r为﹣1表示完全负相关;r=0表示零相关,即两变量间没有直线相关关系。R的绝对值越接近于1,表示两个变量间相关关系的密切程度越高;越接近于0,那么相关关系越不密切。
7.相关系数的假设检验:目的是推断两变量间有无直线相关关系。即使存在直线关系,仅凭样本计算出的相关系数并不能说明两变量间就有相关关系。从ρ=0的总体中随机抽样,由于抽样误差的影响,所得r值也常不等于0。对同一资料,相关系数t检验及回归系数t检验结果一样,有tr=tb=√F。
8.决定系数:回归平方与及总平方与之比,即R2=SS回/SS总,R2取值在0到1之间且无单位,其数值大小反映了回归奉献的相对程度,也就是在Y的总变异中回归所能解释的百分比。R2越接近于1,回归效果越好。
9.秩相关:又称等级相关,是用双变量等级数据作直线相关分析,对原变量分布不作要求,属于非参数统计方法。适用资料:①不服从双变量正态分布而不宜作极差相关分析;②总体分布型未知;③原始数据时用等级表示。Spearman等级相关系数rs是说明两个变量间直线相关关系的密切程度及相关方向的统计指标,其取值与意义同r。根据样本资料计算得到的rs,也需对其进展假设检验。
10.相关及回归的区别:①相关表示相关关系〔共变关系〕,无依存关系,无自变量及应变量之分,而回归表示依存关系,应变量随自变量的变化而变化;②r没有单位,b有单位:所以相关系数及单位无关,,回归系数及单位有关;③相关说明两变量间关系的方向与密切程度,回归那么用函数方程表达应变量随自变量变化的数量关系;④对资料的要求不同,相关分析要求两变量均为随机变量,并服从双变量正态分布。回归分析只要求应变量Y服从正态分布,而自变量X可以是正态分布的随机变量,也可以是人为控制大小的变量。相关及回归的联系:①均表示线性关系;②对能计算相关分析的同一组数据计算出的r与b的符号一样:共变方向一致;③同一资料r与b的假设检验等价。
11.直线回归及相关应用的考前须知:①根据分析目的选择变量及统计方法,做直线回归及相关分析要有实际意义,不能把毫无关联的两个事物或现象做相关及回归分析;②进展相关、回归分析前应绘制散点图;③用残差图考察数据是否符合模型假设条件;④进展相关及回归分析都必须进展假设检验,以推断两变量间的线性关系是否存在;⑤结果的解释及正确应用:反映两变量关系密切程度或数量上影响大小的统计量应该是相关系数或回归系数的绝对值,而不是假设检验的P值,此外回归方程一般只适用于自变
展开阅读全文