医学统计学知识点汇总.pdf

资源描述

医学统计学总结医学统计学总结绪论绪论1、随机现象：在同一条件下进行试验，一次试验结果不能确定，而在一定数量的重复试验之后呈现统计规律的现象。2、同质：统计学中对研究指标影响较大的，可以控制的主要因素。3、变异：同质基础上各观察单位某变量值的差异。数值变量：变量值是定量的，由此而构成的资料称为数值变量资料或计量资料，其数值是连续性的，称之为连续型变量。变量无序分类变量：所分类别或属性之间无顺序和程度上的差异分类变量：定性变量有序分类变量：有顺序和程度上的差异4、总体：根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限总体和无限总体。5、样本：是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表性的前提：同质总体，足够的观察单位数，随机抽样。统计统计学中，描述学中，描述样样本本特征的指特征的指标标称称为统计为统计量，描述量，描述总总体体特征的指特征的指标标称称为为参数。参数。6、概率：描述随机事件发生的可能性大小的一个度量。若 P（A）=1，则称 A 为必然事件；若 P（A）=0，则称 A 为不可能事件；随机事件 A 的概率为 0P1.小概率事件：若随机事件 A 的概率 P，则称随机事件 A 为小概率事件，其统计学意义为：小概率事件在一次随机试验中认为是不可能发生的。统计描述统计描述1、频数分布有两个重要的特征：集中趋势和离散程度。频数分布有对称分布和偏态分布之分。后者是指频数分布不对称，集中趋势偏向一侧，如偏向数值小的一侧为正偏态分布，如偏向数值大的一侧为负偏态分布。2、常用的集中趋势的描述指标有：均数，几何均数，中位数等。均数:适用于正态或近似正态的分布的数值变量资料。样本均数用表示，总体均数用x 表示。几何均数：适用于等比级数资料和对数呈正态分布的资料。注意观察值中不能有零，一组观察值中不能同时有正值和负值。中位数：适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。3、常用的离散程度的描述指标有：全距，四分位数间距，方差，标准差，变异系数。全距：任何资料，一组中最大值与最小值的差。四分位数间距：适用于偏态分布以及分布的一端或两端无确切数据资料。方差和标准差：正态分布资料。标准差表示观察值的变异度的大小。变异系数：比较度量单位不同或均数相差悬殊的两组资料的变异度。4、标准正态分布：对正态分布的（X-）/进行 u 的变换，u=（X-）/,则正态分布变换为=0，=1 的标准正态分布，亦称 u 分布。u 被称为标准正态变量或标准正态离差。两个参数：是位置参数，是形状参数。用 N（0,1）表示标准正态分布。常用估计医学参考值范围的方法有：（1）正态分布方法：适用于正态或近似正态分布的资料。双侧界值：Xu/2S 单侧上界：X+uS，或单侧下界：X-uS（2）对数正态分布方法：适用于对数正态分布资料。双侧界值：Lg-1（X lgxu/2S lgx）单侧上界：Lg-1（X lgx+uS lgx），或单侧下界：Lg-1（X lgx-uS lgx）（3）百分位数法：用于偏态分布资料以及资料中一端或两端无确切数值的资料。双侧上界：P2.5和 P97.5；单侧上界：P95，或单侧下界：P5常用的 u 值表5、分类变量资料的统计描述：常用相对数指标描述，包括：率，构成比，相对比。率：说明某现象发生的频率或强度。（病死率不等于死亡率）构成比：说明某现象内部组成部分所占的比重或分布，常以百分数表示。相对比：亦称比，是 A、B 2 个有关指标之比，说明 A 为 B 的若干倍或百分之几。两个指标可以性质相同，也可以性质不同。应用相对数时的注意事项：1、计算相对数的分母不宜过小；2、分析时不能以构成比代替率；3、对观察单位数不等的几个率，不能直接相加求其平均率；4、比较相对数时应注意其可比性；5、对样本率（或构成比）的比较应遵循随机抽样，并做假设检验。6、标准化法：标准化的目的在于消除混杂因素对结果的影响，使资料更具有可比性。其基本思想是：将所比较的两组或多组资料的构成按统一的“标准”调整后，计算标化率，使其更具有可比性。标准化率的计算方法：亦称标化率，直接法用于已知被标化组的年龄别率，以及已知标准组的年龄别人口数或年龄别人口构成比时；间接法用于已知被标化组的年龄别人口数与发病（死亡）总数，但年龄别率未知，以及已知标准组年龄别发病（死亡）率与总发病（死亡）率时。通常可从下列 3 种方法选用标准组：以两组资料中任一组的年龄别人口数或构成比作为标准组；以两组资料合并的各年龄组的人口数或构成比作为标准组；以公认的或便于与他人资料比较的标准作为标准组。7、统计表：结构：由标题、标目、线条和数字构成。编制统计表的要求：标题：概括表的内容，列于表的上方居中，应注明时间和地点；标目：主语和谓语分别列于横、纵标目，文字简明，层次清楚。横标目列于表的左侧，通常为被研究的事物，纵标目列于表的上端，为说明横标目的统计指标。线条：通常，除表的顶线、底线、纵标目下以及合计上的横线外，其余线条均省去，顶线和底线应略粗些，表的左上角不宜用斜线。参考值范围（%）单侧双侧80 0.842 1.282 90 1.282 1.645 95 1.645 1.96 99 2.326 2.576数字：用阿拉伯数字表示，同一指标的小数位数要一致并对齐，数字暂缺或无数字者分别用“”或“-”表示，数字为 0 者要记作“0”，不应空项，为方便核实和分析，应有合计。备注：一般不列入表内，必要时可用“*”标出，列于表下。8、统计图：条图：用于相互对比关系的资料；圆图与百分条图：适用于百分构成比资料，表示事物各组成部分所占的比重或构成；线图：用于连续性资料，用于说明事物在时间上的发展变化，或某现象随另一现象而变动的情况；直方图：表示连续性资料的频数分布；散点图：适用于直线相关分析，说明两个变量间的数量关系和变化趋势。抽样分布与参数估计抽样分布与参数估计抽样研究的目的是用样本信息来推断总体特征，即统计推断，包括两个内容：一是总体参数的估计，二是假设检验。1、抽样误差：由于变异的存在，抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差。常用标准误反映均数抽样误差的大小；用率的标准误 p反映率的抽样误差的大小；用xPossion 计数的标准误反映其抽样误差的大小。2、中心极限定理和正态分布推理：从正态分布 N（，2）总体中以固定 n 随机抽取样本，样本均数的分布仍服从正态分布，即使是从偏态分布总体中随机抽样，只要 n 足够大，x的分布也近似正态分布。样本均数的均数仍为，样本均数的标准差为。xx样本均数的抽样误差（简称标准误）是反映均数抽样误差大小的指标。x=用样本均数 S 作为的估计值，则=xnxsnS3、t 分布：将看成变量值，那么可将正态变量进行 u 变换（u=-/）后，也可将xxN（，）变换成标准正态分布 N（0，1）。常用 s 作为的估计值，统计量为 t，此分2x布为 t 分布。统计量 t=t 曲线的形态变化与自由度 v 的大小有关。v 越小，t 值越分xsx散，曲线越低平，v 逐渐增大时，则 t 分布逐渐逼近正态分布，当当 v=v=无穷大时，无穷大时，t t 分布即为分布即为u u 分布。分布。4、总体均数的估计有两种方法：一种是点估计，即用统计量估计总体均数；二是区间估x计，亦称可信区间。（1）未知且 n 小：-t/2，v sx+t/2，v sxxx（2）未知，但 n 足够大，t 分布逼近 u 分布：-u/2sx+u/2sxxx（3）已知：-u/2x+u/2xxx标准差和标准误的比较标准差标准误S=1)(2nxxxsns表示观察值的变异程度大小估计均数的抽样误差大小计算变异系数 CV=100%估计总体均数可信区间xs -t/2，v sx+t/2，v xxsx确定医学参考值的范围进行假设检验计算标准误数值变量资料的假设检验数值变量资料的假设检验1、假设检验的原理：假设在一次抽样研究中得出了 u1.96，则 P0.05，此为小概率事件，依据“小概率事件在一次随机试验中认为是不可能发生的”的定理，可认为此样本不是来自该总体。2、步骤：建立假设和确定检验水准；假设有两种，一种是检验假设，常称无效假设或零假设，记为 H0，假设样本所代表的总体参数与已知总体参数相等；另一种是备择假设，记为H1，是与 H0相联系且对立的假设；检验水准，亦称显著性水准，是判断拒绝或不拒绝 H0，也是允许犯型错误的概率，通常用 0.05。选定检验方法和计算统计量确定 P 值，做出推断结论。P 值是指从 H0所规定的总体中随机抽样时，获得等于及大于现有样本统计量的概率。3 3、t t 检验检验：适用于：适用于：样本均数与总体均数比较（样本均数与总体均数比较（未知且未知且 n n5050 或或 n n3030）；成组设计成组设计的两小样本均数的比较（的两小样本均数的比较（n n1 1，n n2 2均小于均小于 3030 或或 5050）；配对设计的两样本均数比较。配对设计的两样本均数比较。应用条件：应用条件：当样本含量较小（当样本含量较小（n n5050 或或 n n3030）时，要求样本来自正态分布总体；）时，要求样本来自正态分布总体；用于成用于成组设计的两样本均数比较时，要求两样本来自总体方差相等的总体。组设计的两样本均数比较时，要求两样本来自总体方差相等的总体。4、单样本 t 检验：用于样本均数与已知总体均数的比较，研究目的是推断样本所代表的总体均数与已知总体均数 0有无差别。统计量 t=v=n-1n/s0 x5、配对 t 检验：用于配对设计资料的两均数的两均数的比较。其研究目的是推断某种处理有无作用，或两种处理的效果有无差别。配对设计类型有 3 种：先将受试对象按配比条件配对，然后用随机分组方法将各对中的 2个受试对象分别分配到不同的处理组；同一对象分别接受 2 种不同处理；同一对象处理前后。t=（是差值的样本均数）v=n-1n/sddd6、两样本 t 检验：用于完全随机设计的两样本均数的完全随机设计的两样本均数的比较，两个样本来自两个总体，其研究目的是推断两样本所分别代表的总体均数是否相等。t=v=n1+n2-22121xxSxx)11(21221nnsxxc)11(2)1()1(212122212121nnnnnsnsxx7、单样本 u 检验：用于样本均数与已知总体均数比较，其研究目的同 t 检验。研究目的是推断样本所代表的总体均数与已知总体均数 0有无差别。其统计量 u=n/s0 x8、两样本的 u 检验：用于完全随机设计的两样本均数的比较，两个样本来自两个总体，其研究目的是推断两样本所分别代表的总体均数是否相等。其统计量为：u=2121xxsxx22212121/nsnsxx9、正态性检验和方差齐性检验：资料在做假设检验之前首先应该检验资料是否来自正态总体，并且它们的方差是否齐。10、两类错误：型错误：拒绝了实际上成立的 H0,即样本来自=0的总体，由于抽样的偶然性，按=0.05 检验水准拒绝了 H0,接受 H1。这类在假设检验中拒绝了原本正确的 H0的错误称为型错误。，理论上犯型错误的概率为，值得大小视研究目的而定。通常设=0.05。型错误：不拒绝了实际上不成立的 H0,即样本来自 0的总体，由于抽样的偶然性，按=0.05 检验水准不拒绝 H0，这类在假设检验中不拒绝原本不正确的 H0的错误称为型错误。犯型错误的概率为，它只有与特定的 H1结合起来才有意义。同时减少和的方法是增加样本含量。1-称为检验效能或把握度，即两总体确有差别时，按水准能识别该差别的能力。如 1-=0.95 表示：若两总体确有差别，理论上平均100 次抽样中，有 95 次能得出两总体有差别的结论。11、假设检验时应注意的事项:要有严密的抽样研究设计-假设检验的前提正确选用检验方法：完全随机的设计的两数值变量资料比较时，若 n 小且方差齐，则选用两样本 t 检验；若方差不齐，则选用 t 检验或成组设计的两样本比较的秩和检验；若 n1，n2均大于 50，则选用两样本 u 检验。正确理解“显著性”的含义对差别有无统计学意义的判断不能绝对化。方差分析方差分析1 1、基本思想、基本思想：按研究目的和设计类型，将总变异的离均差平方和：按研究目的和设计类型，将总变异的离均差平方和 SSSS 和自由度和自由度 v v 分别分解成分别分解成若干部分，并求得各相应部分的变异。其中的组内变异或误差主要反映个体差异或抽样误差，若干部分，并求得各相应部分的变异。其中的组内变异或误差主要反映个体差异或抽样误差，其它部分的变异与之比较得出统计量其它部分的变异与之比较得出统计量 F F 值，由值，由 F F 值的大小确定值的大小确定 P P 值，并作出推断，从而了解值，并作出推断，从而了解该因素对观测指标有无影响。该因素对观测指标有无影响。组内变异主要由个体差异所致，组间变异可能由两种原因所致：一是抽样误差，二是由于接组内变异主要由个体差异所致，组间变异可能由两种原因所致：一是抽样误差，二是由于接受的处理不同。受的处理不同。2、总离均差平方和 SS 和自由度 vSS总=kinjijixx121)(nxx/)(22v总=n-13、组间离均差平方和 SS组间，自由度 v组间和均方 MS组间SS组间=v组间=k-1 MS组间=nxnxkiinjiji211)()(2组间组间vSS4、组内离均差平方和 SS组内，自由度 v组内和均方 MS组内SS组内=SS总-SS组间 v组内=n-k MS组内=SS组内/v组内多样本均数比较的方差分析的应用条件：各样本是相互独立的随机样本；各样本来自正态分布总体；各总体方差相等，即方差齐。5、完全随机设计资料的方差分析：亦称单因素的方差分析，可用于完全随机设计的多个样本均数比较的资料，研究目的是推断各个样本所代表的总体均数是否相等。单因素方差分析的计算公式变异来源 SS v MS F 总变异 n-1Cx 2组间变异 k-1 Cnxkiinjiji121)(组间组间vSS组内组间MSMS组内变异 SS总-SS组间 n-k SS组内/v组内*C 为校正系数 C=nx/)(26、配伍组设计资料的方差分析：亦称两因素的方差分析，用于配伍组设计的多个样本均数比较的资料，其研究目的是推断各样本所代表的总体均数是否相等，但考虑了个体差异对试验效应的影响。两因素方差分析的计算公式变异来源 SS v MS F总变异 n-1Cx 2处理组 k-1 SS处理/v处理 MS处理/MS误差Cbxkibjij121)(配伍组 b-1 SS配伍/v配伍 MS配伍/MS误差Ckxbjkiij121)(误差 SS总-SS处理-SS配伍（k-1）（b-1）SS误差/v误差*C 为校正系数 C=b 为配伍组数nx/)(2分类资料的假设检验分类资料的假设检验1、二项分布：应用条件：应用条件：各观察单位只能具有两种相互对立的结果各观察单位只能具有两种相互对立的结果已知发生某结果的概率为已知发生某结果的概率为，其对立结果的概率为，其对立结果的概率为 1-1-nn 次试验是在相同的条件下进行的。次试验是在相同的条件下进行的。性质：=n =）（1n若均数和标准差用率表示，则 p=p=n/1）（未知时，用样本率 P 作为的估计值，则 Sp=npp/)1(总体率的估计：正态近似法：当样本含量 n 足够大，且样本率 p 或 1-p 均不太小，如 np 与n（1-p）均大于 5 时样本率 p 的抽样误差分布近似正态分布，可信区间为：（p-u/2Sp，p+u/2Sp）2、Poisson 分布：对于二项分类变量，若某结果发生的概率很小，如 0.05 时，单位时间、人群、空间内“阳性”发生次数 x（x=0，1，2，）的概率可用 Poisson 分布概率函数来描述：P(X)=！）（x/xe 递推公式：P（0）=P（x）=ex1x）（P应用条件：0.05 外，其余同二项分布。分布的性质：（1）、Poisson 分布式一种单参数的离散型分布，其参数为，表示单位时间、人群、空间内某事件平均发生的次数。（2）、Poisson 分布的方差与均数相等。2（3）、Poisson 分布可以看成是二项分布的极限形式。（4）、Poisson 分布的极限形式也是二项分布，一般当 n20 时，可按正态分布处理，当0.01 时，二项分布可以当作 Poisson 分布来处理。（5）、Poisson 分布具有可加性。总体均数的估计：（正态近似法），xxu2/xxu2/3、服从二项分布资料的假设检验：（1）样本率和总体率的估计：直接计算法：最多有 k 例阳性的概率：P(xk)=kxP0)(最少有 k 例阳性的概率：P（xk）=1-nkxP)(10)(kxP正态近似法：当不太靠近 0 或 1，且样本含量 n 足够大；或 n5 且 n（1-）5 时，000二项分布接近正态分布。u=n1000）（P)1(000nnx（2）两样本率的比较：目的是推断两个样本各自代表的两总体率是否相等，当两个样本率均满足正态近似条件时，可用 u 检验。其公式为：u=2121ppspp)11)(1(2121nnppppcc为合并阳性率，=（x1+x2）/(n1+n2)x1,x2为两个样本的阳性例数。pcpc4、服从 Poisson 分布的假设检验：对于 Poisson 分布的假设检验，对于总体均数可以用乘法将小单位化大，也可以用除法将大单位化小，对于样本均数，只能用除法将大单位化小，而不能用乘法将小单位化大。（1）样本均数与总体均数的比较：适用于 020，且样本阳性数 X 较小作单侧检验时。直接计算法：最多有 k 例阳性的概率：P(xk)=kxP0)(最少有 k 例阳性的概率：P（xk）=1-nkxP)(10)(kxP正态近似法：当 20 时，Poisson 分布逼近正态分布。u=00)(x（2）两样本阳性数的比较：目的是推断两样本各自代表的两总体平均数是否相等。当两样本阳性数 X1，X2均大于 20 时，可用 u 检验。其计算用两种情况：两样本观察单位（时间、面积、容积等）相同时：u=2121xxxx2121xxxx两样本观察单位（时间、面积、容积等）不同时：u=221121nxnxxx5、检验：是一种连续型分布，u 分布的平方即为分布。对于同一份资料，。2222u检验的检验统计量为，其基本公式为：，自由度 v=（行数-1）（列22TTA22)(数-1）式中 A 为实际频数，T 为理论频数。理论频数 T 的计算公式为：nnnTCRRC*为第 R 行第 C 列的理论频数，nR为相应行的合计，nC为相应列的合计，n 为总例数。自TRC由度 v=（R-1）（C-1）.反映了实际频数与理论频数的吻合程度。只有考虑了自由度 v 的影响，值才能正22确地反应实际频数 A 和理论频数 T 的吻合程度。6、四格表资料的检验：最小理论频数的判断，R 行与 C 列中，行合计数中的最小值2TRC与列合计数中的最小值所对应的理论频数最小。（1）四个表资料检验的专用公式：2)()()()(22dbcadcbanbcad（2）四个表资料检验的校正公式：2 TTA22)5.0()()()()2(22dbcadcbannbcadc在实际工作中，对于四个表资料，通常规定为：（1）当 n40 且所有的 T5 时，用检验的基本公式或四个表资料检验的专用公式；22当 P 时，改用四个表资料的 Fisher 确切概率法。（2）当 n40，但 1T5 时，用四格表资料的检验的校正公式；或改用四个表资料的2Fisher 确切概率计算法。（3）当 n40，或 T1 时，用四个表资料的 Fisher 确切概率法。（4）连续性校正仅用于 v=1 的四格表资料，尤其是 n 小时。当 v2 时一般不做校正。27、配对四个表资料的检验：由于在抽样研究中，抽样误差是不可避免的，样本中的 b 和2c 往往不相等（即 bc），为此，需进行假设检验，其检验统计量为：v=1 cbcb22)(（条件为：b+c40）v=1（条件为：b+c40）cbcb22)1(本方法只适用于样本含量不太大的资料，它仅考虑了两种方法结果不一致的情况，而未考虑样本含量 n 和两种方法一致的两种情况，所以当 n 很大且 a 与 d 的数值也很大，而 b 与c 的数值相对较小时，即使检验统计结果有统计学意义，其实际意义也不大。8、行*列表资料的检验：只适用于多个样本率的比较，两个或多个构成比的比较以及双2向无序分类资料的关联性检验。其基本数据由三种情况：多个样本率的比较时，有 R 行 2 列，称为 R*2 表两个样本的构成比比较时，有 2 列 C 列，称为 2*C 表多个样本的构成比比较以及双向无序分类资料关联性检验时，有 R 行 C 列，称为 R*C 表。以上三种可统称为行*列表资料基本公式：基本公式为：TTA22)(专用公式：自由度 v=（行数-1）（列数-1）)1(22CRnnAn注意事项：一般人行*列表资料中各格的理论频数不能小于 1，且 1T5 格子数不能超过总数的 1/5。如果出现以上情况，可通过以下方法解决：最好是增加样本含量，使得理论频数增大；根据专业知识，考虑能否删去理论频数太小的行和列，能否将理论频数太小的行和列于性质相近的邻行或邻列合并；改用双向无序 R*C 的 Fisher 确切概率计算法。当多个样本率比较时，所得统计推断为拒绝 H0，接受 H1时，只能认为各样本率间总的来说有差别，但不能说明任两个样本率间均有差别，需要做多个样本率的多重比较。对于有序的 R*C 表资料不宜用检验。对于 R*C 表的资料要根据分类类型和研究目的选2用恰当的检验方法。9、双向无序分类资料的关联性检验：对于此资料，常常需要分析两个分类变量之间有无关系，关系的密切程度如何，进一步分析密切程度时，可以用 Pearson 列联系数，rp22nrp取值在 01 之间，0 表示完全不相关，1 表示完全相关，愈接近于 0，关系愈不密切，愈rp接近 1，关系愈密切。11、R*C 表的分类及检验方法的选择：分类：双向无序、单向有序、双向有序属性相同和双向有序但属性不同四种。双向无序 R*C 表：两个分类变量皆为无序分类变量，对于该资料：如果研究目的为两个样本率（或构成比）的比较，可用行*列资料的检验；如果研究目的是分析两个分类变2量之间有无关联性以及关系的密切程度时，可用行*列表资料的检验以及 Pearson 列联系2数进行分析。单向有序 R*C 表：有两种形式：一种是 R*C 表的分组变量是有序的，而指标变量是无序的；研究的目的通常是多个构成比的比较，可用行*列表资料的检验进行分析。另一种是2R*C 表中的分组变量是无序的，而指标变量是有序的，研究目的通常是多个等级资料的比较，可用秩和检验或 Ridit 分析。双向有序属性形同的 R*C 表：两个分类变量皆为有序且属性相同，研究目的通常是分析两种检测方法的一致性，此时宜用一致性检验（或称 Kappa 检验）；也可用特殊模型分析方法。双向有序属性不同的 R*C 表：两分类变量皆为有序的，但属性不同，对于该资料：如果研究目的是分析不同年龄组患者疗效见有无差别，可把它视为单向有序的 R*C 表资料，选用秩和检验；如果研究目的是分析两个有序分类变量间是否存在相关关系，可以用等级相关分析或 Pearson 积矩相关分析；如果研究目的是分析两个有序分类变量是否存在线性变化趋势，可以用有序分组资料的线性趋势检验。非参数检验非参数检验非参数检验的统计推断基础是比较分布而不是比较参数，所以不必考虑被研究对象的为何种分布以及分布是否已知。在实际工作中，对符合参数检验应用条件的资料，或经变量变换后符合参数检验应用条件的资料应首选参数检验；而不能满足参数检验应用条件的资料，应选用非参数检验。主要选择编秩的方法，比较统计变量 T，而做出统计推断。直线回归与相关分析直线回归与相关分析1、直线相关：如果两个随机变量中，当其中的一个变量由大到小的变化时，另一个变量也相应的由大到小（后由小到大）的变化，并且相应变化的散点图在直角坐标系呈现直线趋势，则称这两个随机变量存在直线相关。相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法。要求：两个变量 X 和 Y 都服从正态分布，严格说应服从双变量正态分布。直线相关系数：用于说明具有直线相关关系的两个变量间的相关关系的密切程度和相关方向；亦称积差相关系数，总体的为，样本的为。的方差）的方差）（的协方差和yxyxyyxxxylllyyxxyyxx22)()()(的取值在-1,1之间。其意义如下：若则 X 与 Y 存在直线相关关系；为正相关；为负相关；00f0p越大，说明两变量间的相关关系越密切；越小，说明两变量间的相关关系越不密切；若为完全相关；若，则 X 和 Y 不存在相关关系。10表示存在不同程度的线性相关关系：为低度线性相关；104.00p为显著线性相关；为高度显著线性相关。7.04.0p17.0p相关分析的步骤：（在 X 与 Y 均服从双变量正态分布的情况下）绘制散点图：呈线性趋势，计算相关性；呈曲线趋势，进行曲线拟合；无任何趋势，不必分析。根据上述公式计算的值；相关系数的假设检验，由于抽样误差的存在，判断是否来自的总体，常用 t 检验，0公式：（或直接查 t 界值表）2102nst2 n总体相关系数的区间估计：当时，从这样的总体中抽样，计算出的不服从正态分布，而进行反正切变换后，n0较大时，Z 近似服从均数为 Z，方差为的正态分布。312n 则 Z 的可信区间为（，），对其进行1)1(ln21)3(nu)3(nu的变换，可以得出的可信区间。1122eezz直线相关分析的注意事项：1算相关系数时首先绘制散点图，判断两变量是否存在线性趋势；相关分析时要求 X、Y 均为随机变量，而不能用于事先界定 X、Y 的资料；相关分析时必须剔除异常点；相关分析要有实际意义，两变量相关，并不一定存在联系，可能是另外一种因素引起的；分层资料不宜盲目的合并，进行相关分析；同时进行相关分析时，如果不能确定各层研究对象具有同质基础，不宜盲目合并。不能将假设检验中显著性大小理解为两变量相关程度的大小，后者是由相关系数的大小决定的。2、等级相关：适用于不服从双变量正态分布或总体分布未知的资料，还可用于等级资料的相关分析。等级相关系数表示两个变量间相关系数的密切程度与相关方向。s基本思想：对于不符合正态分布的资料或等级资料，将两个变量的原始观察值分别由小到大编秩，然后利用量变量的秩次计算相关系数。3、直线回归：处理两个变量间线性数量依存关系的一种统计分析方法。回归方程为：为应变量，给定 x 的 y 的条件均数的估计值；b 为回归斜率，表bxayy 示当自变量 x 每变化 1 个单位时，应变量 y 平均变化 b 个单位；a 为截距，表示没有自变量x 时其他因素对 y 的平均影响。线性回归模型的前提条件：线性：应变量 y 的总体均数与自变量 x 呈线性关系；因此进行回归分析前应先绘制散点图；独立：任意两个观察单位之间相互独立；正态性：对任意给定 x 的值，y 均服从正态分布；该分布的均数是回归直线上与 x 值相对应的那点的纵坐标；等方差：自变量 x 的取值范围内，不论 x 取什么值，y 都具有相同的方差。直线回归分析的步骤：绘制散点图，通过观察散点的形态来判断线性假设是否成立；建立直线回归方程，即求出回归参数 a 和 b；通常用最小二乘法估计参数，即要求残差平方和达到最小；xxxyniiniiillxxyyxxb121)()(nxxlxx22)(xbyanyxxylxy)(绘制回归线；注意：不应超过 x 的实测值范围；所绘制的直线必然通过（，）；直线的左端延长与纵轴的焦点必然是截距 a。xy回归方程的假设检验：检验方法有方差分析和 t 检验方差分析：基本思想：将应变量 y 的总变异 SS总分解成 SS回归和 SS剩余两部分，然后利用F 检验来判断回归方程是否成立。任意一点 P（x，y）的纵坐标被回归直线与均数截成 3 段：y三部分的变异可以表示为：=+2)(yy2)(yy2)(yy即 SS总=SS回归+SS剩余各部分的意义：SS总：即=，为 y 的总离均差平方和，反映未考虑 x 和 y 的回归关系时的 y 的yyl2)(yy变异；SS回归：即，称回归平方和，反映在 y 的总变异中，由于 x 和 y 的直线关系而使2)(yyy 变异减小的部分，即在总变异中可以用 x 解释的部分；SS回归越大，说明回归效果越好，即SS总中可用 X 与 Y 线性关系解释的变异越多。SS剩余：即，残差平方和或剩余平方和，反映 x 和 y 的线性影响之外的一切因素2)(yy对 y 的变异的作用，即在总变异中无法用 x 解释的部分。该部分越小说明直线回归的估计值误差越小；各部分的自由度为：=+=n-1，=1，=n-2总回归剩余总回归剩余各部分变异的计算公式为：SS总=2)(yynyy22)(xxxyxylblSSl2回归SS剩余=SS总-SS回归统计量 F 的计算公式：剩余回归剩余剩余回归回归MSMSSSSSF回归系数的 t 检验：基本思想：通过样本回归系数 b 与总体均数回归系数进行比较来判断回归方程是否成立。有关公式如下：；bbsbt2 nxxXYblss 剩余MSsXY为剩余标准差，是指扣除了 x 因变量线性影响后离散程度。XYs拟合效果评价：回归模型的拟合优度假设检验，检验回归方程对样本数据的拟合程度。决定系数表示，R2222)()(yyyyR总回归SSSSR2r22R总体回归系数的区间估计：（，）bnstb.2,2bnstb.2,2回归方程的应用：利用回归方程进行预报；统计控制。直线回归分析的注意事项：回归分析要有实际意义，注意变量之间的内在联系和规律，两变量之间还必须是因果关系；对资料的要求：一般 y 来自正态总体的随机变量，x 可以是正态总体的随机变量，也可以是精确测量和严密控制的值；进行分析前应先绘制散点图；必须剔除一些异常点；回归方程的适用范围不能随意外延。其适用范围一般以自变量取值范围为界。直线相关和回归的区别与联系：区别：资料的要求不同：相关要求两个变量呈双变量正态分布；回归要求 y 服从正态分布，而 x可以是精确测量和严格控制的变量；统计意义不同：相关反映的是两变量间的伴随关系，二者的关联程度如何，而回归反映的是两变量间的依存关系，即因果关系，或从属关系；分析的目的不同：相关分析的目的是描述两个变量间的相互关系，用 r 来反映这种关系的方向以及密切程度，而回归分析的目的是描述两个变量间的数量依存关系，从而进行统计预测和统计控制；联系：对于同一资料，r 和 b 的符号一致，说明两变量间关系的方向；相关系数与回归系数的假设检验是等价的，对于同一样本，实际应用中只检验其ttbr中之一即可；二者可以相互解释，相关系数的平方和等于回归平方和占总平方和的比例，即反映应变量y 的总变异中归因于 x 的部分；实验设计的概述实验设计的概述实验室研究：以动物或标本为研究对象实验研究的分类临床试验：以人为研究对象社区干预试验：以社区人群为研究对象，又称半试验性研究处理因素试验设计的基本因素受试对象实验效应1、处理因素：研究者根据研究目的确定的，通过合理安排实验，从而科学的考察其作用大小的因素；非处理因素：对正确的评价处理因素的作用有一定的干扰，但研究者并不想通过本次实验考察其作用大小的因素；注意事项：要区分处理因素和非处理因素；主要依据研究目的来确定；抓住实验中的主要因素，且因素的水平数不宜过多；处理因素必须标准化，即保证处理因素在整个实验过程中始终如一，保持不变；2、实验效应：通过观察指标来反映观察指标的基本原则：客观性；精确性（包括准确度和精确度，准确度是指测值与真实值的接近程度，属系统误差；而精确度是指对同一变量重复观测时，观测值与平均值的接近程度）；灵敏性；特异性3、实验设计的基本原则、实验设计的基本原则：对照，随机，重复，均衡：对照，随机，重复，均衡对照：使实验组和对照组内的非处理因素基本一致，从而使处理因素的效应得以显示；对照组设计的三个条件：专设，同步，对等；对照的形式：空白对照：不给对照组施加任何处理因素，临床试验中不宜用空白对照；对照的形式：空白对照：不给对照组施加任何处理因素，临床试验中不宜用空白对照；实验对照：不给对照组施加处理因素，但施加某种实验因素；实验对照：不给对照组施加处理因素，但施加某种实验因素；标准对照：与现有的标准法或常规方法、公认的有效药物作对照；标准对照：与现有的标准法或常规方法、公认的有效药物作对照；自身对照：对照与实验在同一受试对象上进行；自身对照：对照与实验在同一受试对象上进行；相互对照：不单独设立对照组，而是相互对照：不单独设立对照组，而是2个或几个实验组相互对照；个或几个实验组相互对照；历史对照：除了非处理因素影响较小的少数疾病外，一般不宜用此种对照历史对照：除了非处理因素影响较小的少数疾病外，一般不宜用此种对照配对对照；安慰剂对照配对对照；安慰剂对照随机：包括随机抽样与随机分配；重复：样本含量与四个因素有关：，且均呈反变的关系。均衡：各组的受试对象除接受的处理因素不同外，其他影响实验的非处理因素要基本相同。常用的实验设计方法常用的实验设计方法1、完全随机设计：、完全随机设计：亦称单因素实验设计，不考虑个体差异的影响，仅涉及亦称单因素实验设计，不考虑个体差异的影响，仅涉及1个处理因素，但个处理因素，但可以有可以有2个或个或2个以上的水平。将受试对象随机分配到处理组合对照组中，各组的例数可以个以上的水平。将受试对象随机分配到处理组合对照组中，各组的例数可以相等或不等。分析方法同前。相等或不等。分析方法同前。2、配对设计和配伍组设计、配对设计和配伍组设计：先将受试对象按配比条件配成对子，再按随机化的原则把每对中：先将受试对象按配比条件配成对子，再按随机化的原则把每对中的受试对象分配到实验组和对照组中。通常以影响实验效应的主要处理因素为配对条件。医的受试对象分配到实验组和对照组中。通常以影响实验效应的主要处理因素为配对条件。医学实验中的自身对照也是配对设计，但容易产生混杂影响，最好设立平衡对照。配伍组设计，学实验中的自身对照也是配对设计，但容易产生混杂影响，最好设立平衡对照。配伍组设计，亦称随机区组设计，是配对设计的扩大。亦称随机区组设计，是配对设计的扩大。分析方法：分析方法：配对设计：如果各对的观察值的差值服从均数为配对设计：如果各对的观察值的差值服从均数为0的正态分布，用配对设计的的正态分布，用配对设计的t检验，否检验，否则用配对设计的秩和检验。则用配对设计的秩和检验。配伍组设计：满足方差分析条件的用方差分析，不满足的经变量变换后也可以用，仍达不配伍组设计：满足方差分析条件的用方差分析，不满足的经变量变换后也可以用，仍达不到要求的用配伍组设计的秩和检验。到要求的用配伍组设计的秩和检验。3、交叉设计：是在自身配对设计基础上发展起来的双因素设计，该设计考虑了 1 个处理因素，此因素有两个水平（A，B），并且还考虑了 2 个与处理因素无交互作用的非处理因素对实验效应的影响。适用条件及应注意的问题：处理因素只有 2 个水平（A，B），且 2 个非处理因素（实验阶段、受试对象）与处理因素之间无交互作用；两个实验阶段之间要安排一定的间隔时间，以便消除前一阶段治疗措施的残留效应，保证两个阶段的起始条件一样；两次观察的时间不能过长，处理效应不能持续过久；适用于病情较稳定，病程可以分阶段，短期治疗可见疗效的疾病；为消除患者的心理作用或防止研究者的暗示，一般多采用盲法。分析方法：符合方差分析条件的应用方差分析，不符合的经变量变换后也可以用，仍达不到要求的用秩和检验。方差分析将总变异分为 4 部分：受试者间，阶段间，处理间和误差。4、拉丁方设计、拉丁方设计：是按拉丁方阵的字母、行和列安排实验的三因素等水平的设计。考虑了：是按拉丁方阵的字母、行和列安排实验的三因素等水平的设计。考虑了3个个因素对实验效应的影响。因素对实验效应的影响。基本要求：基本要求：必须是必须是3个因素的实验，且个因素的实验，且3个因

展开阅读全文