中南大学研究生医学统计学.pdf

资源描述

1、正态分布标准正态分布对数正态分布原始值X无需转换作转换()uX作转换lgYX分布类型对称对称正偏态集中趋势指标0G均数与中位数的关系MMM1.均数的标准误与标准差的区别：均数的标准误与标准差的区别：均数的标准误标准差意义反映的抽样误差大小X反映一组数据的离散情况记法()XXS()S计算XnXSSn2()XN2()1XXSn控制方法增加 n 以标准误不能通过统计方法来控制区别点总体均数可信区间参考值范围含义按预先给定的概率，确定的未知参数的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数，要么不包含。但可以说：当=0.05时，95%CI 估计正确的概率为 0.95，估计错误的概率

2、小于或等于 0.05，即有 95%的可能性包含了总体均数。“正常人”的解剖，生理，生化某项指标的波动范围。总体均数的可能范围个体值的波动范围计算公式未知：*,XXtS 已知或未知但 n60：或XXu*XXu S正态分布：*Xu S偏态分布：PXP100X绝大多数(如 95%)观察对象某项用途总体均数的区间估计指标的分布范围区别点完全随机设计随机区组设计设计采用完全随机化的分组方法，将全部试验对象分配到 g 个处理组（水平组），各组分别接受不同的处理。随机分配的次数要重复多次，每次随机分配都对同一个区组内的受试对象进行，且各个处理组受试对象数量相同，区组内均衡。变异分解三种变异：SSSSSS总组

3、间组内四种变异：SSSSSSSS处理区组总误差1.答：有强度相对数（率）、结构相对数（构成比）、相对比三种。率的含义：某现象实际发生的例数与可能发生的总例数之比，说明某现象发生的频率或强度。其特点为：说明某现象发生的强弱。计算公式：某时期内发生某现象的观察单位数率比例基数同期可能发生某现象的观察单位总数构成比的含义：事物内部某一部分的个体数与该事物各部分个体数的总和之比，用来说明各构成部分在总体中所占的比重或分布，通常以 100 为比例基数，又称为百分比。其特点为：一组构成比的总和应等于 100%，即各个分子的总和等于分母；各构成部分之间是相互影响的，某一部分比重的变化受到两方面因素的影响，

4、其一是这个部分自身数值的变化，其二是受其它部分数值变化的影响。计算公式：%100观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比相对比的含义：是两个有关指标之比，说明两指标间的比例关系。其特点为：两个指标可以是性质相同，也可以是性质不同；两个指标可以是绝对数、相对数或平均数。计算公式：100%甲指标相对比（）乙指标2.计量单样本资料计量单样本资料 t t 检验与检验与 u u 检验的异同点检验的异同点：同同：（1）目的相同：均用于检验未知总体均数与已知总数是否相等（2）分析步骤相同：建立假设确定 a,计算检验统计量，确定 P 做出结论（3）两者的前提条件相同：总体均数满足正

5、态分布方差齐性异异：（1）分析对象不同：t 检验适合小样本资料；u 检验适合大样本资料（2）计算公式不同：（3）t 分布为实际分布，u 分布为理论分布（4）t 分布适用于计量资料，u 分布既适用于计量资料也适用于计数资料5.假设检验时，一般当假设检验时，一般当 P0.05P0.05 时，则拒绝时，则拒绝H0H0，理论依据是什么？，理论依据是什么？P 值是指从 H0 规定的总体随即抽样抽得等于及大于（或/和等于及小于）现有样本获得的检验统计量值的概率。当 P0.05 时，说明在H0 成立的条件下，得到现有检验结果的概率小于通常确定的小概率时间标准 0.05.因小概率事件在一次试验中几乎不可能发生

6、，现在的确发生了，说明现有样本信息不支持H0，所以怀疑原假设 H0 不成立，故拒绝H0。在下有差别的结论同时，我们能够知道犯 1 型错误的概率不会大于 0.05，这在概率上有了保证。4.均数的可信区间与参考值范围有何不同均数的可信区间与参考值范围有何不同6.假设检验中假设检验中与与 p p 的区别的区别：与 p 均为概率，其中是指拒绝了实际上成立的 H0 所犯错误的最大概率，是进行统计推断时预先设定的小概率事件标准。P 值是由实际样本获得的，在 H0成立的前提条件下，出现等于及大于（或/和等于及小于）现有样本获得的检验统计量值的概率。在假设检验中通常是将 p 于对比来得到结论，若 p，则

7、不拒绝 H0，五统计学意义，还不能可以认为.不同或不等。8.t t 检验的应用条件检验的应用条件：对于单样本 t 检验要求资料服从正态分布，配对 t 检验要求资料差值服从正态分布；两样本 t 检验要求两组数据均服从正态分布，且两样本对应的两总体方差相等，对于两小样本尤其要求方差齐性。9.样本均数的抽样分布具有如下特点样本均数的抽样分布具有如下特点：样本均数不等于总体均数，各样本均数未必等于总体均数；各样本均数间存在差异；样本均数的分布为中间多，两边少，左右基本对称。样本均数的变异范围较之原变量的变异范围大大缩小。10.I I 型错误与型错误与 IIII 型错误有何区别和联系？型错误有何区别和

8、联系？了解这两类错误的实际意义了解这两类错误的实际意义;I 型错误：“实际无差别，但下了有差别的结论”，假阳性错误。犯这种错误的概率是（其值等于检验水准）II 型错误：“实际有差别，但下了不拒绝H0的结论”，假阴性错误。犯这种错误的概率是（其值未知）。当样本含量 n 确定时，a 愈大，愈小；反之，a 愈小，愈大。两类错误的实际意义:若在应用中要重点减少 a 则取 a=0.05;若在应用中重点减少，则 a=0.10 或 0.20 甚至更高。11.假设检验和区间估计有何联系假设检验和区间估计有何联系：假设检验用于推断质的不同即判断两个或多个总体参数是否不等，而可信区间用于说明两的大小即推断总体参数

9、的范围。两者既相互联系，又相互区别。联系在于可信区间可以回答假设检验的问题若算得的可信区间包含了 H0，则按 a 水准，不拒绝 H0；若不包含 H0，则按 a 水准，拒绝H0，接收 H1。也就是说在判断两个或多个总体参数是否不等时，假设检验与可信区间是完全等价的12.方差分析的基本思想与应用条件是什么：方差分析的基本思想与应用条件是什么：基本思想：根据实验设计的类型，将全部测量值总的离均差平方和与自由度分解成两个或多个部分，除随即误差作用外，每个部分的变异可以用某个因素的作用加以解释。通过比较变异不同来源的均方借助F 分布做出统计推断，从而推断各种研究因素对实验的结果有无影响.应用条件：1.各

10、样本为独立的随即样本，均服从正态分布；2.相互比较的各样本总体方差相等，即既有方差齐性。13.何为标准化法？简述直接标准化法与间接何为标准化法？简述直接标准化法与间接标准化法的区别：标准化法的区别：采用某种影响因素（年龄，性别，工龄，病情轻重，病情长短）的统一标准构成，计算标准化率的方法称为标准化法，其目的为了消除样本内部构成不同对合计率的影响，使通过标准化后的标准合计率具有可比性。直接标准化法与间接标准化法的区别：如对死亡率的年龄构成标准化，若年龄别死亡率已知，可采用直接标准化法，选择一个标准年龄人口构成直接计算标准化率；若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率时，宜用间接法，选择一

11、个标准年龄别死亡率，先计算标化死亡比，在用标化死亡比乘总死亡率得标准化死亡率。二项分布的适用条件二项分布的适用条件1.每次试验只会发生两种对立的可能结果之一，即两种对立结果的概率之和恒等于1；(,1-)2.每次试验产生某种结果（如“阳性”）的概率固定不变；3.重复试验是相互独立的，即任何一次试验结果的出现不会影响其它试验结果出现的概率。Poisson 分布的适用条件分布的适用条件假定在规定的观测单位内某事件（如“阳性”）平均发生次数为，而其样本计数为X（X=0，1，2，）。则在满足下面三个条件时，有 XP()。1.普通性在充分小的观测单位上 X 的取值最多为 1。2.平稳性 X 的取值只与观

12、测单位的大小有关，而与观测单位的位置无关。3.独立增量性在某个观测单位上 X 的取值与其他各观测单位上 X 的取值无关。（与二项分布相同）Poisson 分布的性质分布的性质1.总体均数与总体方差 2 相等2.当 n 很大，而很小，且 n=为常数时，二项分布近似 Poisson 分布。3.当增大时，Poisson 分布渐近正态分布。一般而言 20 时，Poisson 分布资料可作为正态分布处理。4.Poisson 分布具备可加性。即对于服从Poisson 分布的 m 个互相独立的随机变量X1，X2，Xm，它们之和也服从Poisson 分布，且其均数为这 m 个随机变量的均数之和。二项分

13、布、二项分布、Poisson 分布和正态分布间的联系：分布和正态分布间的联系：（1）当 n 很大，而很小，且 n=为常数时，二项分布的极限分布为 Poisson 分布；（2）当 n 较大，不接近 0 也不接近 1 时，二项分布 B（n，）近似正态分布N（n，n（1-）,而相应的样本率 P 的分布也近似正态分布N（，2p）；（3）当增大时，Poisson 分布渐近正态分布。一般而言 20 时，Poisson 分布资料可作为正态分布处理。2检验的用途检验的用途 2 检验的用途较广。通常多用于推断两个总体率或构成比之间有无差别；推断多个总体率或构成比之间有无差别；多个样本率比较的 2 分割；两个

14、分类变量之间有无关联性；频数分布拟合优度的 2 检验。对于四个表资料，如何正确选择方法对于四个表资料，如何正确选择方法（1）首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。（2）对于两样本率比较的四格表资料，应根据各格的理论值 T 和总例数 n 的大小选择不同的 2 计算公式：当 n40 且所有的 T5 时，用 2检验的基本公式或是四格表资料 2检验的专用公式；当 n40 但有1T5 时，用四格表资料 2 检验的校正公式，或改用四格表资料的Fisher 确切概率法；当 n40，或T1 时，用四格表资料的确切概率法。若资料满足两样本率 u 检验的条件，也可用 u 检验。对于配对设计

15、的四格表资料，若检验两种方法的检测结果有无差别时：当（b+c）40 时，；（b+c）40 时，cbcb22)(。cbcbc22)1(行行列表资料列表资料 2检验的注意事项检验的注意事项1行列表中的各格 T1，并且 1T5 的格子数不宜超过 1/5 格子总数，否则可能产生偏性。2多个样本率比较，若所得统计推断为拒绝H0，接受 H1 时，只能认为各总体率之间总的来说有差别，但不能说明任两个总体率之间均有差别。要进一步推断哪两两总体率之间有差别，需进一步做多个样本率的多重比较。3、对于有序的 RxC 表资料不宜用 2 检验，对于 RxC 表资料要根据其分类类型和研究目的选用恰当的检验方法什么是非参数

16、检验？与参数检验的区别？什么是非参数检验？与参数检验的区别？非参数检验对总体分布不作严格规定，不依赖于总体分布类型，又称任意分布检验，它直接对总体分布（或分布位置）作假设检验。如果总体分布类型为已知的数学形式，对其总体参数作假设检验则为参数检验。什么叫做秩转换的非参数检验？它适合于那什么叫做秩转换的非参数检验？它适合于那些情况？些情况？秩转换的非参数检验是先将数值变量从小到大，或等级从弱到强转换成秩后，在计算检验统计量，其特点是建设检验的结果对总体分布的形状差别不敏感，只对总体分布的位置差别敏感。它适合于：不满足正态和（或）方差齐性的小样本计量资料；分布不知是否正态的小样本资料；一端或两端是不

17、确切数值的资料；等级资料。两组或多组等级资料的比较，为什么不能用两组或多组等级资料的比较，为什么不能用2检验，而用秩转换的非参数检验？检验，而用秩转换的非参数检验？若选用行 x 列表资料的 2检验，只能推断两个或多个总体的等级构成比差别，这一般不是推断目的；而选秩转换的非参数检验，可推断两个或多个总体的等级强度差别，这是推断目的。直线回归与直线相关的区别与联系直线回归与直线相关的区别与联系二者的联系联系：（1）对于既可作相关又可作回归分析的同一数据，计算出的 b 与 r 正负号一致（2）相关系数与回归系数的假设检验等价，即对于同一样本，tb=t（3）同一组数据的相关系数和回归系数可以相互换算：

18、r=bYX X Sx/Sy。（4）用回归解释相关：由于决定系数 r2=SS回/SS 总，当总体平方和固定时，回归平方和的大小决定了相关的密切程度，回归平方和越接近总平方和，则 r2 越接近 1，说明相关的效果越好。二二者的区别：区别：（1）资料要求上：相关要求 X,Y 服从双变量正态分布，这种资料进行回归分析称为 II型回归；回归要求 Y 在给定某个 X 值时服从正态分布，X 是可以精确测量和严格控制的变量，称为 I 型回归。（2）应用上：说明两变量间相互关系用相关，此时两变量的关系是平等的；而说明两变量间依存变化的数量关系用回归，用以说明 Y如何依赖于 X 的而变化。（3）意义上：r 说明直

19、线关系的两变量间相互关系的方向和密切程度；b 表示 X 每变化一个单位所导致 Y 的平均变化量。（4）计算上：r=Lxy/(Lxx/lyy)o.5；b=lxy/lxx（5）取值范围：1r1；b 取全部实数（6）单位：r 没有单位；b 有单位直线相关与秩相关的区别与联系直线相关与秩相关的区别与联系二者的联系联系：（1）两者多解决的应用问题相同，都可用来表示两个数值变量之间关系的方向和密切程度。（2）两个相关系数都没有单位，取值范围都在-11 之间。（3）计算上，用秩次做积差相关，得到的就是秩相关系数。二者的区别区别：（1）资料要求不同：积差相关要求 X,Y 服从双变量正态分布，秩相关可以是任意分

20、布。（2）由于对资料要求不同，二者分属于参数统计与非参数统计方法，所以符合双变量正态分布条件时，积差相关的效率高于秩相关。（3）二者假设检验方法不同。多元线性回归：多元线性回归：用于分析一个应变量与多个自变量之间的线性关系，多元线性回归的一般形式：eXXXYmmL22110b0 为截距，表示各自变量均为 0 时 y 的的估计值，bi 称为偏回归系数，是i 的估计值，表示当方程中其他自变量保持不变时，自变量 Xi 变化一个计量单位,反应变量 Y 的平均变化量。e 是去除 m 个自变量对 Y 影响后的随机误差（残差）。标准化回归系数标准化回归系数：由于各自变量的测量单位不同，但从回归系数的绝对值大

21、小来分析难以得出正确的结论。若对数据标准化，即将原始数据减去相应变量的均数再除以标准差。多元线性回归可以使用那些类型变量？多元线性回归可以使用那些类型变量？典型的多元线性回归所使用的自变量应该是连续的，但自子变量中含有分类变量，经过适当处理后仍然适合做多变量线性回归。二类分类变量赋值 0 或 1 后，可直接使用。如自变量是名义分类变量，可以转化为若干二类分类变量。如自变量是一个有序分类变量，可以根据不同级别赋予不同分数后按连续变量处理，也可以按名分类变量处理。多元线性回归中如何筛选自变量，使用那种多元线性回归中如何筛选自变量，使用那种方法方法回归方程中引入什么变量，理想的做法是由研究者根据理论

22、和经验决定。在缺乏专业专业依据的情况下，课采用回归筛选技术。有两类方法：全局选择发和逐步选择法。全局选择法是对自变量各种组合情况进行比较后，从中挑选出一个最优的方程，这种方法最好。但实际中自变量数量往往比较大，这种情况用逐步选择法较为适宜。有前进法，后退法和逐步选择法，后退法考虑自变量的组合作用，更优但自变量数量不应太多，逐步选择法适用情况更多，更实用。如何评价多元线性回归方程的优差？参差分如何评价多元线性回归方程的优差？参差分析有何作用？析有何作用？一般采用方差分析和求绝对系数 R2法。发差分析的 F 检验是把所有自变量作为一个整体，检验他们对应变量的影响是否具有统计学意义，F 值越大，则

23、p 值越小，表示越有理由拒绝自变量与应变量之间没有线性关系的无效假设。决定系数 R2表示方程中的自变量能够解释应变量变化的百分比，其值越接近 1，说明模型对数据的拟合程度愈好，它的局限在于即使增加一些无统计学意义的变量，其数值也会增加。参差分析是检查资料是否符合回归模型条件的一种简单而有效的方法。通过参差分析可以检查出数据模型的错误，如应变量与自变量的非线性关系、异方差结构和离群值。多元线性回归的应用：多元线性回归的应用：1.影响因素分析 2.估计与预测 3.统计控制逆估计多元线性回归应用的注意事项：多元线性回归应用的注意事项：1 指标的数量化非线性转线性，定性等级转定量2 样本含量:n=

24、(510)m3 关于逐步回归:不要盲目的信任逐步回归结果，“最优”回归方程并不一定是最好的，没有选入方程的变量也未必没有统计学意义4 多重共线性即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等，这些自变量通常是高度相关的，有可能使通过最小二乘法建立回归方程失效，引起下列一些不良后果5 变量间的交互作用6 残差分析 logistic 回归模型：回归模型：应变量应变量 Y 是一个二值变是一个二值变量，取值为量，取值为1 0 Y发生应变量未发生 ORj：称为变量调整后的优势比，表示扣除其他自变量的影响后危险因素的作用。其大小反映了不同暴露水平下，个体发病的相对危险程度。

25、与非条件 logistic 回归模型不同之处在常数项上，不同匹配组的可以各不i0相同，但内在假定了每个危险因素的致病能力在不同匹配组中相同。logistic 回归的应用1流行病学危险因素分析2临床试验数据分析 3分析药物或毒物的剂量反应 4预测与判别注意事项1变量的取值形式(同 15 章)2样本含量（自变量个数）pn203模型评价 4多分类 logistic 回归对于四格表资料，如何正确使用检验方法对于四格表资料，如何正确使用检验方法（1）首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料（2）对于两样本率比较的四格表资料，应根据各格的理论值 T 和总例数 n 的大小选择不同的 2

26、计算公式：当 n40 且所有的T5 时，用 2检验的基本公式或四格表资料 2检验的专用公式当 n40 但有1T5 时，用四格表资料 2检验的的校正公式或改用四格表资料的 Fisher 确切概率算法当 n40，或 T1 时，用四格表资料的Fisher 确切概率法。若两样本满足 u 检验的条件，也可用 u 检验。（3）对于配对设计的四格表资料，若检验两种方法的检测结果有无差别时：当b+c40 时，2=(b-c)2/(b+c)；当 b+c40时，2=(b-c-1)2/(b+c).说明说明 RRC 表资料的分类及其检验方法的选表资料的分类及其检验方法的选择择（1）分类：RC 表可以分为双向无序、单向有

27、序、双向有序属性相同和双向有序属性不同 4 类。（2）检验方法的选择：双向无序 RC 表资料：若研究目的为多个样本率（或构成比）的比较，可用行列表资料的2检验以及 Pearson 列联系数进行分析。单向有序 RC 表资料：若 RC 表中的分组变量是有序的，而指标变量是无序的，此种单向有序的 RC 表资料可用行列表资料的 2检验分析其构成情况；若 RC 表中分组变量是无序的，指标变量是有序的，此种单向有序的 RC 表资料宜用秩转换的非参数检验。双向有序属性相同的 RC 表资料，宜用一致性检验分析两种检测方法的一致性双向有序属性不同的 RC 表资料：若研究的目的为分析不同年龄组患者疗效间有无差别时，可把它视为单向有序 RC 表资料，选用秩转换的非参数检验；若研究目的为分析两有序变量件是否存在相关关系，宜用等级相关分析或 Pearson 积矩相关分析；若研究目的为分析两有序变量间是否存在线性变化趋势，宜用有序分组资料的线性趋势检验。

展开阅读全文