卫生统计学知识点总结.doc

资源描述

卫生统计学统计工作基本步骤：统计设计（调查设计和实验设计）、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断（参数估计和假设检验）】。 ★ 统计推断：是利用样本所提供的信息来推断总体特征，包括：参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数，主要有点估计（把样本统计量直接作为总体参数估计值）和区间估计【按预先设定的可信度（1-α），来确定总体均数的所在范围】。b假设检验：是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化，通常是由高级向低级转化。资料按性质可分为计量资料、计数资料和等级资料。定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表（图）的用途：①描述资料的分布类型；②描述分布的集中趋势和离散趋势；③便于发现一些特大和特小的可疑值；④便于进一步的统计分析和处理；⑤当样本含量足够大时，以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。（1）描述集中趋势的统计指标：平均数（算术均数、几何均数和中位数）、百分位数（是一种位置参数，用于确定医学参考值范围，P50就是中位数）、众数。算术均数：适用于对称分布资料，特别是正态分布资料或近似正态分布资料；几何均数：对数正态分布资料（频率图一般呈正偏峰分布）、等比数列；中位数：适用于各种分布的资料，特别是偏峰分布资料，也可用于分布末端无确定值得资料。（2）描述离散趋势的指标：极差、四分位数间距、方差、标准差和变异系数。四分位数间距：适用于各种分布的资料，特别是偏峰分布资料，常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差：都适用于对称分布资料，特别对正态分布资料或近似正态分布资料，常把均数和标准差结合起来描述资料的集中趋势和离散趋势；变异系数：主要用于量纲不同时，或均数相差较大时变量间变异程度的比较。标准差的应用：①表示变量分布的离散程度；②结合均数计算变异系数、描述对称分布资料；③结合样本含量计算标准误。定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征，通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2常用相对数类型：频率型、强度型和相对比型指标。指标频率型指标强度型指标相对比型指标概念近似反映某一时间出现概率单位时间内某现象的发生频率两个有关联的指标A和B之比计算公式有无量纲无有可有、可无取值范围【0,1】可大于1 无限制本质大样本时作为概率近似值分子式分母的一部分频率强度，即概率强度的近似值表示相对于B的一个单位，A有多少个单位 A和B可以是绝对数、相对数和平均数 A和B的量纲可相同也可不同 A和B互不包含相对比：A、B两指标可以是绝对数、相对数或平均数。最常见的相对比是人口学中的男女性别比，流行病学中的相对危险度10也是相对比指标。 3应用相对数应该注意：①防止概念混淆，避免以比代率的错误现象；②计算相对数时分母应有足够数量，如果例数较少会使相对数波动较大，应该使用绝对数；③正确的计算频率（或强度）指标的合计值。当分组的资料需要合并起来估计频率（或强度）时，应将各组频率的分子相加作为合并估计的分子，各组的分母相加作为合并估计的分母；④频率型指标的解释要紧扣总体和属性；⑤相对数间比较要具备可比性：要注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同时期资料应注意客观条件是否相同；⑥正确进行相对数的统计推断：在随机抽样的情况下，从样本估计值推断总体相对数应该考虑抽样误差，因此要进行参数估计和假设检验。 4医学人口统计资料主要来源为日常工作记录（报告单、卡、册）、统计报表、人口调查（普查和抽样调查）。 5描述人口学特征的常用指标一般有人口总数和反映人口学基本特征的某些指标。人口学的基本特征包括性别、年龄、文化、职业等，最常用来描述人口结构的是性别和年龄。人口学特征指标：老年人口系数、少儿人口系数、负担系数、老少比、性别比。 6有关生育的常用指标有出生率、生育率和人口再生产指标。测量生育水平的统计指标：粗出生率、总生育率、年龄别生育率、总和生育率。测量人口再生育的统计指标：自然增长率、粗再生率和净再生率。 7常用的死亡统计指标有：粗死亡率、年龄别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、死因别死亡率、某病病死率和死因构成等。 8疾病统计资料主要来源于：疾病报告和报表材料、医疗卫生工作记录、疾病专题调查资料。 9⑴标准化：两个率或多个率之间进行比较时，为消除内部构成不同的影响，采用统一的标准，对两组或多组资料进行校正（调整），计算得到标准化率后再做比较的方法，称为~。其目的是统一内部构成，消除混杂因素，是资料具有可比性。 ⑵应用标准化法的注意事项： ① 标准化法的应用范围很广。当某个分类变量在两组中分布不同时，这两个分类变量就成为两组频率比较的混杂因素，标准化的目的是消除混杂因素。 ② 标准化后的标准化率，已经不再反映当时当地的实际水平，只表示相互比较的资料间的相对水平。 ③ 标准化法实质是找一个标准，使两组得意在一个共同的平台上进行比较。选择不同的标准，算出的标准化率也会不同，比较的结果也未必相同，因此报告比较结果时必须说明所选用的标准和理由 ④两样本标准化率是样本值，存在抽样误差。比较两样本标准化率，当样本含量较小时，还应作假设检验。10常用的动态数列分析指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。（1）绝对增长量：是说明事物在一定时期增长的绝对值，可分为：累计增长量（报告期指标与基线期指标之差）和逐年增长量（报告期指标与前一期指标之差）。（2）发展速度与增长速度：均为相对比，说明事物在一定时期的变化，可计算定基比（即报告期指标与基线期指标的比：0）和环比（报告期指标与其前一期指标之比：1）。增长速度表示的是净增长速度，增长速度=发展速度-100％。（3）平均发展速度与平均增长速度：用于概括某现象在一段时期中的平均变化。平均发展速度是发展速度的几何平均数，平均发展速度=，平均增长速度=平均发展速度-100％。 11统计表和统计图是描述资料特征、呈现统计分析结果的重要工具。统计表结构标题、标目、线条、数字和备注。 12常用统计图用途：①条图：适用于相互独立的资料（资料有明确分组、不连续）；②百分条图、圆图适用于构成比资料；③线图适用于连续性资料，表达事物的动态变化（绝对差值）；半对数线图适用于连续性资料，表达事物的发展速度（相对比）；④直方图用于描述连续变量的频数分布；⑤散点图适用于双变量资料，用点的排列趋势和密集度表示两变量的相关关系。常用概率分布 1正态分布（连续型随机变量的概率分布）（1）正态概率密度曲线特点：①关于μ对称；②在μ处取得该概率密度函数的最大值，在μ±σ处有拐点；③曲线下面积为1；④正态分布有两个参数：位置参数μ（决定曲线在横轴上的位置）和变异参数σ（决定曲线的形状）；⑤μ±1.64σ面积为90％，μ±1.96σ面积为95％，μ±2.58σ面积为99％。（2）Z变换与标准正态分布：对于任意一个服从正态分布N（μ，σ2）的随机变量，可作Z变：，变换后的z值仍然服从正态分布，且其总体均数为0、总体标准差为1，称此为标准正态分布，用N（0,1）表示。Φ（z）为标准正态分布Z变量的累积面积，-∞→Z的面积，即下侧累计面积。 ★（3）正态分布的应用：①确定医学参考值范围：是指特定的“正常”人群（排除了对所研究的指标有影响的的疾病和有关因素的特定人群）的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在范围，习惯用该人群的95％的个体某项医学指标的取值范围作为该指标的医学参考值范围。方法：a百分位数法：适用于任何分布类型的资料；b正态分布法。②质量控制图：如果某一波动仅仅由个体差异或随机测量误差所致，那么观察结果服从正态分布。控制图共有7条水平线，中心线位于总体均数μ处，警戒限位于μ±2σ处，控制限位于μ±3σ处，此外还有两条位于μ±σ处。 ★（4）确定医学参考值的步骤：①从“正常人”总体中抽样，明确研究总体；②用统一和准确的方法测定相应的指标；③根据不同的用途选定适当的百分界限，常用95％；④根据此指标的实际意义，决定单侧范围还是双侧范围；⑤根据此指标的分布决定计算方法，常用的计算方法：正态分布法、百分位数法。 2二项分布： (1)是一种离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为π，阴性结果的发生概率为（1-π）；而且每个观察对象的结果是相互对立的，那么，重复观察n个人，发生阳性结果的人数X的概率分布为而二项分布，记作B（n，π）。二项分布的概率函数P（X）=π(1-π), = ⑵适用条件：①每次实验只有两种互斥的结果；②各次实验互相独立；③发生成功事件的概率恒定。 ⑶分布特征：二项分布的特征由二项分布的参数π以及观察的次数n决定。 ①图形分布特征：二项分布图的高峰在μπ处或附近；π=0.5时，图形对称；π≠0.5时，分布不对称，且对同一n，π离0.5愈远，对称性愈差。对于同一π，随着n的增大，分布趋于对称。当n→∞时，只要π不太靠近0或1（特别是当nπ和n（1-π）均大于5时），二项分布趋于对称。 ②二项分布的均数和标准差：若X服从二项分布B（n，π），则X的总体均数为μπ，总体方差为σ2π（1-π），总体标准差为σ=；若将出现阳性结果的频率记为：,则样本率P的总体均数为μπ，总体方差为σ =，总体标准差为σ，σp是频率P的标准差，又称频率的标准误，反映阳性频率的抽样误差大小。 ⑷累积概率计算：①二项分布出现阳性的次数至多为k次的概率为：P（X≤k）= ②出现阳性的次数至少为k次的概率为：P（X≥k）=。 3 分布： ⑴是一种离散型随机变量的分布类型，是二项分布的特例，用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。一般记作P（λ），λ是分布的唯一参数。总体均数为λπ。前提条件：互斥、独立、恒定。 ⑵概率函数为：P（X）λ，X为观察单位内稀有事件的发生次数，2.71828。 ⑶分布特性：分布是非对称的，总体参数λ值越小，分布越偏；随着λ→∞，分布趋于对称，当λ≥20时，分布资料可按正态分布处理。①分布总体均数与总体方差相等，均为λ；②分布的观察结果可加性，即对于服从分布的m歌互相独立的随机变量X1、X2…，它们的和也服从分布，其均数为这个m随机变量的均数之和。 ⑷ 概率计算：如果稀有事件发生次数的总体均数为λ，有事件发生次数至多为k次的概率为：P（X≤k）= ；生次数至少为k次的概率：P（X≥k）=1（X≤1） ★4三种常用分布之间的关系： ①二项分布与分布的关系：当n很大，发生概率π（或1-π）很小，二项分布B（n，π）近似于分布P（nπ）； ②二项分布与正态分布的关系：当n较大，π不接近0或1（特别是当nπ和n（1-π）均大于5时），二项分布B（n，π）近似于正态分布N（nπ，nπ（1-π））； ④ 分布与正态分布的关系：当λ≥20时，分布渐进正态分布N（λ，λ）。 ★5二项分布与分布的区别： ⑴相同点：都是离散型随机变量的常见分布； ⑵区别：a取值不同。服从二项分布的随机变量有1个不同的取值；分布的随机变量的可能去只有无限多个，即非负整数0,1，2……；b随机变量的概率不同：二项分布P（）分布P（）λ；c描述的随机变量不同。二项分布描述的是一次试验只会出现两种对立的结果之一，n次独立重复试验中某种结果出现次数的概率分布。分布描述的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。 ⑶联系：B（n，π）分布。参数估计 1在服从正态分布的总体中进行随机抽样，样本均数的抽样分布特点：①各样本均数未必等于总体均数；②样本均数见存在差异；③样本均数围绕总体均数，中间多、两边少，左右基本对称，呈近似正态分布；④样本均数间的变异明显小于原始变量间的变异。 2标准误： ①均数的标准误的理论值：σ=，总体标准差σ通常未知，需用样本标准差S来估计，均数标准误的估计值为：；②频率的标准误：若随机变量（n,π），则样本频率的总体概率为π，标准误是σ，频率标准误的估计值：（①②增加样本含量可以减少样本误差）。 ★3标准差与标准误的区别与联系：区别：⑴标准差S（σ）：①意义：描述个体观察值变异程度的大小。标准差小，均数对一组观察值得代表性好；②应用：与结合，用以描述个体观察值的分布范围，常用于医学参考值范围的估计；③与n的关系：n越大，S越趋于稳定；⑵标准误S（σ）：①意义：描述样本均数变异程度及抽样误差的大小。标准误小，用样本均数推断总体均数的可靠性大；②应用于结合，用以估计总体均数可能出现的范围以及对总体均数作假设检验；③与n的关系：n越大，S越小。联系：①都是描述变异程度的指标；②由可知，S与S成正比。n一定时，s越大，S越大。 4 t分布：当X服从均数为μ的正态分布时，统计量服从自由度为1的t分布，是小样本总体均数的区间估计及假设检验的理论基础。 ⑵t分布的图形特征：t值得分布于自由度有关。t分布只有一个参数即v。特征：①单峰分布，以0为中心，左右对称；②v越小，t值越分散，曲线的峰部越矮，尾部越高；③随着v逐渐增大，t分布逐渐接近标准正态分布；当v趋向∞时，t分布趋近标准正态分布，故标准正态分布是t分布的特例；④t分布是一簇曲线。 ⑶t界值表：①在自由度相同时，值越大，t分布的尾部概率越小；②在t临界值相同时，双侧尾部面积概率为单侧尾部面积概率的两倍。 5参数估计：包括点估计和区间估计。置信区间的两个要素：①准确度：反映置信度1-α的大小，及区间包括总体均数μ的理论概率的大小，愈接近1越好；②精密度：即区间的宽度，区间越窄越好，如样本含量不变，将置信度由95％提高到99％，则置信区间由窄变宽，估计的精度下降。 6总体均数及总体概率的区间估计： ⑴ 体均数的置信区间：t分布法和正态近似法分布法：当σ未知且n较小时，总体均数μ的双侧（1-α）置信区间为±；单侧（，∞）或（-∞，+ ）；．正态近似法：①当σ已知时，总体均数μ的双侧（1-α）置信区间为±Zσ；单侧（σ，∞）或（-∞，+ Zσ）；②当σ未知但n足够大时（n>50），t分布近似服从标准正态分布，总体均数μ的双侧（1-α）置信区间为：±，单侧（- Z S，∞）或（-∞，+ Z S） ⑵总体概率的置信区间：对于二项分布的样本资料，可根据样本含量n和样本频率p的大小，选用查表法（n≤50，特别是p很接近0或100％时）或正态近似法估计总体概率π的（1-α）置信区间。正态近似法：当n足够大，且及n(1)均大于5时，p的抽样分布近似正态分布，总体概率π的双侧（1-α）置信区间等于P± ★7医学参考值范围与总体均数的置信区间的区别： ⑴参考值范围 ①意义：绝大多数人某项指标的数值范围； ②计算：正态分布双侧±；单侧（- ，∞）或（-∞，+ ）偏峰分布双侧100；单侧（，∞）或（-∞，P100） ③应用：判断某项指标正常与否 ⑵总体均数的置信区间： ①意义：按一定的置信度估计总体均数所在范围； ②计算：正态分布 σ未知：双侧±，单侧（，∞）或（-∞，+ ）； σ已知：双侧±Zσ，单侧（σ，∞）或（-∞，+ Zσ）；正态分布或偏峰分布：σ未知但n足够大：双侧±，单侧（- Z S，∞）或（-∞，+ Z S） ③应用：估计总体均数所在范围。假设检验 1假设检验的过程：建立检验假设，确定检验水准→计算统计量→确定P值并与给定的α比较→做出推断结论。 2假设检验的基本逻辑：在H0成立的条件下（处理因素不起作用），计算统计量和P值，把“不太可能出现假阳性”当作“不可能出现假阳性”，从而拒绝H0，接受H1（处理因素起作用）。 3假设检验的两类错误：Ⅰ型和Ⅱ型错误。（见名解）实际情况统计推断拒绝H0，有差异不拒绝H0 ，无差异 H0成立，无差异第Ⅰ类错误（假阳性），概率=α 正确，概率=1-α H1成立，有差异正确，该概率=1-β 第Ⅱ类错误（假阴性），概率=β 4t检验： ⑴应用条件：①随机样本：②来自正态分布总体；③均数比较时，要求两总体方差相等（方差齐性）。 ⑵单样本资料的t检验：实际上是推断该样本来自的总体均数μ与已知的某一总体均数μ0有无差别。检验假设：H0：μ=μ0，H1：μ≠μ0；前提条件：样本来自正态总体；计算公式：；自由 1。配对设计资料的t检验：配对资料的分析着眼与每一对中两个观察值之差，这些差值构成一组资料，用t 检验推断差值总体均数是否为0。检验假设：H0：μ0，H1：μd≠0；前提条件：差值服从正态分布；计算公式；自由度1（n是对子数）。两独立样本资料的t检验：两样本均数的比较。检验假设：H0：=，H1：≠；前提条件：两样本服从正态分布，且具有方差齐性；计算公式：，代表两样本均数之差的标准误，， S为两样本联合估计的方差，；自由度。 5 检验：前提条件：两小样本来自正态总体且方差不等。方差不齐，可采用的处理方式有：检验，基于秩次的非参数检验和数据变换。非正态分布，方差不齐：基于秩次的非参数检验和数据变换。检验假设：H0：=，H1：≠；计算公式：；自由度 6两组独立样本资料的方差齐性检验：两组正态分布随机样本判断其总体方差是否齐同：，当H0成立时，检验统计量，，当F>3时，方差不齐。 7大样本资料的Z检验（u检验）：前提条件：样本足够大；两独立样本资料的Z检验：假定从两个正态总体（或非正态）总体随机抽取含量为n1和n2的样本，总体均数和方差分别为。当n1和 n2均较大时，两样本均数的和与差的分布也服从（或近似服从）正态分布，~ ，。当H0成立时，这个统计量服从标准正态分布。 ★t检验与Z检验的比较：两样本均数比较的t检验适用条件为：样本含量小，两样本独立，来自正态总体，且两总体方差相等。Z检验是大样本情况下的t检验的近似，用于两总体方差已知，或总体方差未知但样本含量较大（n1>60且n2>60）的两样本均数的比较。样本量较大时，两种检验方法都可用。 ★ 8假设检验与区间估计的关系：①置信区间具有假设检验的主要功能：在α水准上可回答差别有无统计学意义；②置信区间可提供假设检验没有提供的信息：根据置信区间上、下限的数值大小可判断差别是否具有实际意义；③假设检验可提供确切的P值，置信区间只能在预先确定的置信度100（1-α）％水平上进行推断，没有精确的概率值，且有可能增大Ⅱ类错误；④置信区间推断量的大小，即推断总体均数范围；假设检验推断质的大小即推断总体均数是否存在不同。只有把置信区间和假设检验结合起来，互相补充才是对问题比较的完整分析。 9假设检验的注意事项：①根据研究目的、设计类型、变量类型及样本大小选择恰当的统计分析方法；②权衡两类错误的危害以确定α的大小；③正确理解P值的意义：P值很小时“拒绝H0，接受H1”，不能把很小的P值误解为总体参数间差异很大。拒绝H0只是说差异不为0，P值小只是说犯一类错误的机会远小于 α。P与α本质相同，都为概率，P是根据当前实验计算的概率，α是预先给定的概率，为检验水准，是定义了的小概率上限。实验设计 1根据研究者是否认为地设置处理因素，即是否给予干预措施，可将医学研究分为调查研究和实验研究两类。 ① 调查研究：又称观察性研究或非实验性研究，确切的说应是非随机化对比研究。它对研究对象不施加任何干预措施，是在完全“自然状态”下对研究对象的特征进行观察、记录，并对观察结果进行描述和对比研究。 ② 实验研究：又称干预性研究，是对研究对象人为给予干预措施的研究。 2实验设计的基本要素：受试对象、处理因素、实验效应。 ① 受试对象：是处理因素作用的客体，根据受试对象不同，实验可以分为三类：动物实验、临床试验、现场试验。 ② 处理因素：是研究者根据研究目的而施加的特定的实验措施，又称为受试因素。 ③ 实验效应：是处理因素作用下，受试对象的反应或结局，它通过观察指标来体现。选择观察指标时，应当注意：a客观性：客观指标具有较好的真实性和可靠性；b精确性：包括准确度和精密度两层含义。准确度指观察值与真值的接近程度，主要受系统误差的影响。精密度指相同条件下对同一对象的同一指标进行重复观察时，观察值与其均数的接近程度，其差值受随机误差的影响。c灵敏性和特异性：指标的灵敏度反映其检出真阳性的能力，灵敏度高的指标能将处理因素的效应更好地显示出来；指标的特异度反映其鉴别真阴性的能力，特异度高的指标不易受混杂因素的干扰。 3实验设计的基本原则：对照、随机化和重复。 ⑴对照的形式：①安慰剂对照：目的：在于克服研究者、受试对象等由心理因素导致的偏倚。②空白对照：即对照组不接受任何处理，在动物实验和实验方法研究中最常见，常用于评价测量方法的准确度，评价实验是否处于正常状态等。③实验对照；④标准对照：用现有标准方法或常规方法作为对照；⑤自身对照：对照与实验在同一受试对象身上进行。 ⑵a随机化体现在三方面：①随机抽样：总体中每一个体都有相同机会被抽到样本中来；②随机分配：每个受试对象被分配到各组的机会相等，保证大量难以控制的非处理因素在对比组间尽可能均衡，以提高组间的可比性；③实验顺序随机：每个受试对象先后接受处理的机会相等，它使实验顺序的影响也达到均衡。 b在实验设计中常通过随机数来实现随机化。获得随机数的常用方法有：随机数字表和计算机的伪随机数发生器。随机数字表常用于抽样研究及随机分组。 c常用的两种随机化分组的方法：完全随机化和分层随机化（配对随机化和区组随机化可看成是分层随机化的实际应用）。 ⑶重复包括三种情形：①整个实验的重复；②用多个受试对象进行重复；③同一受试对象的重复观察。重复的主要作用：①估计变异的大小；②降低变异大小。 4常用的实验设计方案： ⑴完全随机设计（）：又称简单随机设计，是最为常见的一种考察单因素两水平或多水平效应的实验设计的方法，它是采用完全随机分组的方法将同质的受试对象分配到各处理组，观察其实验效应。 ⑵配对设计（）：是将受试对象按一定条件配成对子，再将每对中的两个受试对象随机分配到不同的处理组。据以配对的因素应为可能影响实验结果的主要混杂因素。配对设计主要有以下情形：①将两个条件相同或相近的受试对象配成对子，通过随机化，使对子内个体分别接受两种不同的处理；②同一受试对象的两个部分配成对子，分别速记地接受两种不同的处理；③自身前后配对，即同一受试对象，接受某种处理之前和接受该处理后视为配对。 ⑶交叉设计（）：是一种特殊的自身对照设计，它按事先设计好的实验次序，在各个时期对受试对象先后实施各种处理，以比较处理组间的差异。基本前提：个处理方式不能相互影响，即受试对象在接受第二种处理时，不能有前一种处理的剩余效应。优点：节约样本含量；能够控制个体差异和时间对处理因素的影响，故效率较高；在临床试验中，每个受试对象均接受了各种处理，均等的考虑了每个患者的利益。进行交叉设计应注意：尽可能采用盲法，以提高受试对象的依从性，避免偏倚；不宜用于具有自愈倾向或病程较短的疾病研究。在慢性病观察过程中，应尽量保持条件的可比性。 ⑷随机区组设计：又称单位设计、配伍组设计，实际上是配对设计的扩展。通常是将受试对象按性质相同或相近分为b个区组（或称单位组、配伍组），再将每个区组中的k个受试对象随机分配到k个处理组。设计应遵循“区组间差别越大越好，区组内差别越小越好”的原则。 ⑸析因设计（）：a是将两个或多个处理因素的个水平进行组合，对各种可能的组合都进行实验，从而探讨个处理因素的主效应以及个处理因素间的交互效应，又称完全交叉分组实验设计。所谓交互作用是指两个或多个处理因素间的效应互不独立，当某一因素取不同水平时，另一个或多个因素的效应相应的发生变化。两因素间的交互作用为一阶交互作用，三因素间交互作用为二阶交互作用。 b当观察k个处理因素，每个因素均有m个水平时，共有种组合，简记为析因设计。 c可获得三方面的信息：各因素不同水平的效应；各因素间的交互作用；通过比较寻求最佳组合。 5样本含量的估算： ⑴确定样本含量的原则：在保证研究结论有一定可靠性的前提下，估算最少需要多少受试对象。 ⑵假设检验所需样本含量取决于四个要素： ① 第一类错误概率α的大小：α越小，所需样本量越大；②第二类错误概率β或检验功效（1-β）的大小：第二类错误的概率越小，检验功效越大，所需样本含量越多；③容许误差δ：即两总体参数的的差值，δ越大，所需样本含量越小；④总体标准差σ和总体概率π：σ越大，所需样本含量越多；总体概率π越接近50％，变异性越大，所需样本含量越多。方差分析 1基本思想：把全部观察值间的变异按设计和需要分解成两个或多个组成部分，然后将各部分的变异与随机误差进行比较，以判断各部分的变异是否具有统计学意义。 2应用条件：①各样本是相互独立的随机样本；②各样本来自正态总体；③各处理组总体方差相等，即方差齐性。 3任何设计方案的总和v总算法均相同，即在不考虑数据按任何方向分组的情况下，将所有数据看成一个整体计算，即（1）S2，v 1。几种设计方案中和v的分解：设计方案的分解 v 完全随机设计组间组内组间组内随机区组设计处理区组误差处理区组误差析因设计处理+ 误差处理+ v误差 =（）误差 =（）+ v误差重复测量设计（两因素）受试对象间受试对象内 v受试对象间受试对象内 =（处理个体间误差）+ =(v处理个体间误差）+ （时间处理与时间交互个体内误差）（v时间处理与时间交互个体内误差） 4重复测量资料和随机区组设计资料的区别：①同一受试对象在不同时间点的数据高度相关；②重复测量资料中的处理因素在受试对象（看成区组）间为随机分配，但受试对象（看成区组）内的各时间点是固定的，不能随机分配。随机区组设计资料中每个区组内的受试对象彼此独立，处理只在区组内随机分配，同一区组内的受试对象接受的处理各不相同。 5重复测量资料方差分析的前提条件：①各样本是相互独立的随机样本；②各样本来自正态总体；③各处理组总体方差相等，即方差齐性；④需满足协方差阵的球形性或复合对称性。 6多各样本均数的两两比较方法：①未计划的每两个均数的事后比较，常用检验；②计划好的某些均数间的两两比较，常用检验；③法和法适用于所有的两两比较。方差分析后不能作两两比较的t检验的原因：会增加犯一类错误的概率。如果比较次数为k，每次检验水准为α，则犯一类错误的累积概率为1-（1-α）k，高于原有的α。 7数据变换的目的：①使各组达到方差齐性；②使资料转换为正态分布，以满足方差分析和t检验的应用条件。通常情况下，一种适当的函数转换可使上述两个目的同时达到。③曲线直线化。常用于曲线拟合。常用的数据变换有对数变换、平方根变换、平方根反正弦变换。 8方差分析中的F检验是单侧检验的原因：方差分析中检验统计量F的计算通常是用某部分的均方（如处理因素、交互效应等）除以误差的均方，其中分母误差部分尽含随机因素作用，分子某部分的均方含有相应处理因素或交互作用的效应，而且还含有随机因素的作用，因此得F值从理论上应≥1，不会小于1，所以方差分析中F检验是单侧检验。检验 1 检验用途：常用于分类变量资料的统计推断，主要用途包括：①单样本分布的拟合优度；②比较两个或多个独立样本频率分布；③比较配对设计两样本频率和两频率分布；④推断两个变量或特征之间有无关联性。 2 检验的理论基础是X2分布和拟合优度检验。 ⑴分布①是一种连续型随机变量的概率分布，按分布的密度函数可给出自由度=1，2，3，……的一簇分布曲线。 ②分布形状完全依赖于自由度v的大小，当v>1时，随着v的增加，曲线逐渐趋于对称；当自由度v趋于∞时，分布逼近正态分布。 ⑵拟合优度检验是根据样本的频率分布检验其总体分布是否等于给定的理论分布。 3 X2检验的基本思想是：用统计量度量实际频数和理论频数之间的偏离程度，永远是正值，检验统计量的基本公式是：=，1，s是用样本估计量代替总体参数的个数。若假设成立，则各格子的实际频数与理论频数相差不应该很大，因而算出的X2值也不会很大，即出现较大值的概率P很小。若P≤α，则认为A与T的差别已超出了抽样误差允许的范围，拒绝H0。若P>α，不拒绝H0。 4独立样本2×2列联表资料的检验： H0：两总体率相等；H1：两总体率不等。 ① n≥40且≥5, =，=，1； ② n≥40且1≤T＜5，校正公式：=，=，1； ③ n＜40或T＜1，或P≈α时，精确概率法。 5独立样本R×C列联表资料的检验：（多个独立样本率、独立样本频率分布的比较） H0：多个总体率相等；H1：多个总体率不等。（1）（1）要求：理论频数不宜太小，一般不宜有1/5以上的格子的理论频数小于5，或不宜有一个理论频数小于1，否则可能会产生偏性。如果不满足此要求，处理方法有：①增加样本含量（首选）；②结合专业知识考虑是否可以将该格所在行或列与别的行和列合并，要根据样本特性来确定，但会损失信息；③改用R×C表精确概率法，可以用计算机软件实现。 R×C列联表的分割： ①多个实验组间的两两比较：分析目的为k个实验组间，任两个率均进行比较时，须进行次独立的四格表检验，再加上总的行×列表资料的检验，共次检验假设。故检验水准用下式估计：=，=，为样本率的个数。②实验组与同一个对照组的比较：分析目的为各实验组与同一个对照组的比较，而各实验组间不须比较。其检验水准用下式估计：=。 6配对设计资料的X2检验： ⑴配对2×2列联表资料的X2检验（两种处理方法阳性率的比较）： H0：两总体阳性率相等；H1：两总体阳性率不等。 ① 当≥40时，，1；②当<40时，校正公式=，1。 ⑵配对R×R列联表资料的检验： H0：两变量的概率分布相同；H1：两变量的概率分布不相同。，1。基于秩次的非参数检验 1假设检验的方法有：参数检验和非参数检验。 ①参数检验：是以特定的总体分布为前提，对未知的总体参数做推断的假设检验方法统称为~,如t检验和方差分析。 ②非参数检验：不以特定的总体分布为前提，也不针对决定总体分布的几个参数做推断，进行的是分布之间的检验。一般不直接用样本观察值做分析，统计量的计算基于原数据在整个样本中按大小所占位次。由于丢弃了观察值的具体数据，只保留了大小次序的信息，凡适合参数检验的资料，应首选参数检验。 2非参数检验适用于：①有序变量资料；②总体分布类型不明的资料；③分布不对称且无法转化为正态分布资料；④对比组间方差不齐，有无适当变换方法达到方差齐性的资料；⑤一端或两端观察值不确切的资料；⑥等级资料。 3符号秩（和）检验： ⑴目的：可用于推断总体中位数是否等于某个指定值，还可以推断配对样本差值的总体中位数是否为0。①单样本资料的符号秩检验常用于不满足t检验条件的单样本定量变量资料的比较。②配对设计资料的符号秩和检验：由检验配对样本的差值是否来自中位数为0的总体，来推断两个总体中位数是否相等，即两种处理效应是否相同。配对符号秩和检验基本思想：在配对样本中，假定两种处理效果相同，则差值的总体分布为对称分布，并且差值的总体中位数为0。若假设成立，样本差值的正秩和与负秩和应相差不大，均接近n(1)/4；当正负秩和相差悬殊，超出抽样误差可解释的范围时，则有理由怀疑该假设，从而拒绝H0。 ⑵方法要点：①按差值绝对值从小到大编秩，差值为正的秩和以表示，为负的秩和以表示，任取（或）作为检验统计量T，查T界值表确定P值；②正态近似法：随着n的增大，T分布逼近均数为n（1）/4，方差为n（1）（21）/24的正态分布。当n>50,用Z检验。 ⑶注意事项：①编秩时遇差值为0舍去，n随之减小；遇有差值的绝对值相等，符号相同，仍按顺序编秩；符号不同，取其平均秩次；②（1）/2 4秩和检验： ⑴目的是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。 ⑵方法要点：①将两组数据由小到大同一编秩，以样本列数小者为n1，其秩和为T，查T界值表确定P值；②正态近似法：当n1>10或n2- n1>10时，T分布接近均数为n1（1）/2，方差为n1 n2（1）/2的正态分布，可用Z检验。 ⑶注意事项：①编秩中若有相同的数据在同一组则依次编秩；若相同数值在不同组内，求平均秩次；②当相持出现较多时（超过25％），需使用校正公式。 ⑷基本思想：假设含量为n1与n2的两个样本（且n1≤n2）,来自同一总体或分布相同的两个总体，则n1样本的秩和T1与其理论秩和n1（1）/2相差不大，即[ n1（1）/2]仅为抽样误差所致。当二者相差悬殊，超出抽样误差可解释的范围时，则有理由怀疑该假设，从而拒绝H0。 5 H检验： ⑴目的：用于推断定量变量或有序分类变量的多个总体分布有无差别。 ⑵方法要点：①先将k组数据由小到大同一编秩，求出各组秩和,计算检验统计量H；②当组数3，且各组例数≤5时，查H界值表确定P值；若k≥3或最小样本例数大于5，则H统计量近似服从1的分布。 ⑶注意事项：①编秩中若有相同的数据在同一组则依次编秩；若相同数值在不同组内，求平均秩次；②当相持出现较多时（超过25％），需使用校正公式；③当结论为拒绝H0，认为多组处理效应不全相同时，常需进一步作多个样本的两两比较的秩和检验。两变量关联性分析 1相关系数的意义及计算：相关系数=。 ①总体相关系数ρ，若ρ≠0，称X和Y线性相关；若ρ=0，则简称X和Y不相关。样本协方差是离均差乘积在样本中的平均，离均差在总体中的平均就是总体协方差。 ②样本相关系数，是两个随机变量之间线性相关强度和方向的统计量，没有单位，取值范围为-1<r<1。r的正负值表示两变量间线性相关的方向，r>0为正相关，r<0为负相关，0为零相关。r的绝对值大小表示两变量之间线性相关的密切程度，越接近于1，密切程度越高，越接近于0，密切程度越低。 2相关系数的统计推断：建立建设：H0：ρ=0；H1：ρ≠0，并假定X和Y服从二元正态分布。方法：①直接查相关系数临界值表，根据自由度2，差临界值表，比较与临界值，统计量越大，概率P越小；统计量越小，概率P越大。②t检验：统计量为，为样本

展开阅读全文