1、_医学统计学重点第一章 绪论1. 基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。样本:从总体中随机抽取部分个体的某个变量值的集合。总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。概率:频率所稳定的常数称为概率。统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和
2、描述。统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。2. 样本特点:足够的样本含量、可靠性、代表性。3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所 得的资料,观察指标是定量的,表现为数值大小。每个个体都能观察到一个观察指标的 数值,有度量衡单位。(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料) 计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由 各分组标志及其频数构成。包括
3、二分类资料和多分类资料。 二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。 多分类:将观察对象按多种互斥的属性分类 等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单 位的个数所得的资料。4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。第二章 实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。4.实验设计方法 有 析因设计 正交试验设计 均匀试验设计交互作用 两组 :异体配对设计 同体配对设
4、计 交叉设计 无 随机同期对照实验设计 (单因素两水平) 扩展 多组:单因素多水平 配伍组设计 拉丁方设计 (两因素多水平) (三因素多水平)配伍组设计:也称随机区组设计,将条件相近的受试对象配伍,每个配伍组中的对象随机分配到各处理组中。析因设计:考察两个或两个以上的处理因素,将各个因素的水平进行全面组合,每个组合下至少有两个以上的观察对象重复测量。一般来讲,应尽可能安排等重复试验,以简化计算,2-3个水平数。优点是全面性和均衡性较好,可同时分析处理因素的效应及因素间的交互作用。拉丁方设计:用于三因素等水平无交互。第三章 定量资料的统计描述、参考值范围1.频数表编制过程(了解)(1)找出样本数
5、据的最大值和最小值,计算极差 R;(2)分组:确定分组的组距 d 和组数 k; 一般n100,10-15组(3)求频率密度:统计频数,算出频率、频率密度和累积频率;(4)画出直方图。2.频数表和直方图的作用:用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。3.集中趋势、离散趋势的指标及适用范围(1)集中趋势:,G,M,Px,M0 算术均数:适用于对称分布; 不适用于偏态分布和资料中出现极值的资料。 几何均数:适用于呈倍数关系的资料或对数正态分布的资料,尤其是正偏态分布。 不适用与观察值中有0或正负数值同时出现的资料。 中位数:适用于大样本偏态分布或分布情况不明的资料或资料
6、中有不确定数值的资料。 百分位数的作用:多个百分位数结合使用,全面描述数据分布的特征; 用于确定医学参考值范围(偏态或分布不明的资料)。 众数:适用于大样本,较粗糙。(2) 离散趋势: 极差:优点:简单明了、容易使用。 缺点:只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。 样本容量越大,极差可能越大。 极差的抽样误差大,不稳定。 四分位数间距:适用于确定医学参考值范围,与中位数一起描述偏态分布资料变异程度。 缺点:类似于极差,利用度低。 方差与标准差:与均数一起描述对称分布,特别是正态分布的分布特征。 变异系数:适用于:适用于比较度量衡单位不同资料的变异度。 比较均数相差悬殊的资
7、料的变异度。 衡量实验精密度和稳定性的常用指标。(3)频数分布特征 高峰在中间,左右大致对称,称为对称分布。 平均数=中位数=众数 高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。 平均数中位数众数 高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。 平均数中位数众数 对称分布 正(右)偏态分布 负(左)偏态分布4.正态分布图形的特点及意义(1) 特点:f(x)关于x=对称 x=时取得最大值 在x=处为拐点,且以 x 轴为水平渐近线 f(x)大于0 P(x=a)=0 若 f(x) 在点 x 处连续,则F(x)=f(x)(2)意义:=1,f(x)在负无穷到正无穷的积分值为1,即曲线
8、下方面积为1。5. 和2的意义 :位置参数,当固定时,增大,曲线沿横轴向右移动;减小,曲线沿横轴向左移动。 2:形状参数,当固定时,越大,曲线越矮胖;越小,曲线越高瘦。6.标准化变换 z= xN(,2) zN(0,1) F(x)=()=(z) 即P(Xx)=()=P(Zz) P(axb)=F(b)-F(a)=()-() P()=P( Z )7.标准正态分布界值 规定:界值右侧曲线下方面积等于它的下角标。下角标一致,x轴上方中间面积一致。 双侧界值: P(|z|z)=1- P(zz)= 单侧界值: 上限: 下限: P(zz)= P(zz1-)=1- P(zz)=1- P(zz1-)= 8.正常值
9、范围及意义 概念:医学临床中,常将就诊者的某些生理、生化、免疫学指标的测定结果,与排除了对研 究指标有影响的疾病和有关因素的大多数“正常人”的相应数值进行比较,以就诊者 的测定值是否超出了大多数“正常人”相应指标的波动范围,作为临床诊断的重要参 考,又称医学参考值范围。 意义:95%的参考值范围含义是指:样本中有95%的个体测定值在所求范围之内。 以95%的置信区间来说,意义是:该区间以95%的概率包含了待估计的参数,这种 估计的可信度是95%,会冒5%的风险。 公式: 双侧95%的界限值:1.96s 单侧95%的上限值:+1.645s 单侧95%的上限值:-1.645s第四章 总体均数的估计
10、、假设检验1. 标准误 (1)概念:每次样本计算出的不同,这些的标准差称为均数的标准误。 (2)意义:是衡量样本统计量抽样误差大小的统计指标。 (3)与标准差的区别:二者都是描述变异程度的指标,标准差描述个体值的变异,标准误描 述统计量的变异。 (4)均数标准误的公式:S=2. 置信区间 (1)定义:设为总体的未知参数,若由样本确定的两个统计量1(x1、x2、xn)和2(x1、 x2、xn),且12,对于预先给定的值(01),若满足P(150) z分布 单侧: 即 (4)两要素: 准确度:由1- 决定,1- 越大,准确度越高。 精确度:由区间长度决定。 99%置信区间准确度高于95%置信区间。
11、95%置信区间精确度更高。3.抽样分布 (1)t分布 定义: 来自正态总体的一组样本,和s分别是样本的均数和标准差。则t= t分布,自由度 df=n-1,极限分布是标准正态分布。 图形分布特征: 以0为中心,左右对称的单峰分布。 自由度越大,越高瘦 界值: 双侧: P(|t|t)=1- P(tt)= 单侧: 上限: 下限: P(tt)=1- P(tt)= P(tt1-)=1- (2)2分布 定义:若从均数为,标准差的正态总体中,每次抽取样本含量为n的样本,计算 样本标准差s,则2=(n-1)s2/2服从自由度df=n-1的2分布。 图形分布特征: 曲线偏向左边 自由度越小曲线越偏 界值: 双侧
12、: P(x2x2)= P(x2)=1- P(x2x2)=1- P(x2x2)= P(x2x21-)=1- P(x2x2)=1- P(x2F)= P(F)=1- P(FF)=1- P(FF)= P(FF1-)=1- P(FF)=1- P(F,则接受 H0,拒绝H1 ;若P时,接受H0,可能犯类错误()。此时,虽然未知,但P值越大,犯 类错误的概率越小,结论越可靠。 减少(增加)I型错误,将会增加(减少)II型错误 增大n,可以同时降低两类错误。第五章 方差分析1.方差分析基本思想 目的:根据各个总体的样本观测值,检验各个总体均值间和两两总体均值间是否存在显著性 差异。 基本思想:根据离差来源的不
13、同,将总离差平方和分解为两部分: 由试验的随机因素(误差)引起的组内离差, 由因素的作用(即处理水平不同)引起的组间离差。 总离差平方和 = 组内离差平方和+ 组间离差平方和(SST = SSE + SSA)2. 方差分析 单因素方差分析、配伍组设计方差分析、析因设计方差分析 拉丁方设计方差分析、正交设计方差分析 交叉设计方差分析、组内分组设计方差分析第六章 双变量相关与回归1.散点图特征 正相关 完全正相关 负相关 完全负相关 不相关2.相关系数意义及分类 (1)意义: 相关系数r的大小反映随机变量X和Y之间线性关系的密切程度: 若 r=0,则 X 与 Y 不相关; 若 |r|=1,则 X
14、与 Y 完全相关。 相关系数r的符号反映随机变量X和Y之间线性关系的相关方向: 若 0r1,则 X 与 Y 正相关; 若 -1r0,则 X 与 Y 负相关。 (2)分类: 积差相关系数:双变量为服从正态分布的计量资料 等级相关系数:等级或相对数资料;不服从正态分布;总体分布类型未知。 (3)适用范围: 两个变量必须是随机变量,即变量的取值在实验前或测定前是无法预先知道的。3.线性相关分析和回归分析的联系与区别 (1)联系: r= 、分别是x、y的标准差 方向一致,r与b方向一致 r与b的假设检验等价,即同一样本存在:tr=tb 回归强度与相关强度:R2=SS回/SS总=r2 (仅限型回归) (
15、2)区别: 资料 相关:x,y必须是随机变量 回归: x是确定变量称型回归, y必须是随机变量 x是随机变量称型回归 计量单位:r不受单位影响,b受单位影响 意义: 相关说明相关关系,相关关系描述变量间关系的密切程度与方向。 回归说明依存关系,回归方程描述变量间的数量依存关系。 取值范围:|r|1,bR把观测点 (xi, yi) 标在直角坐标系下作成散点图,则必存在着一条直线,使每个点 (xi, yi) 距这条直线在纵方向上的距离的平方和为最小,此平方和称为残差平方和,这就是最小二乘法。4.最小二乘法5.决定系数的意义 R2=SS回/SS总=(SS总-SS剩)/SS总=(1-SS剩)/SS总
16、0 R2 1,R2越接近于1,表示回归平方和在总平方和中所占的比重越大,回归效果越好。第七章 两分类资料的统计描述与推断1.相对数指标 两个有联系的指标之比。常用的有率和比(构成比、相对比)。 (1)率:频率,说明某现象发生的频率和强度。总体率:,样本率:p 。 (2)构成比说明某事物内部各组成部分在总体中所占的比重或分布。 (3)相对比:两个有关指标A、B之比,说明两者的对比水平,A是B的若干倍或百分之几。 对比的数值可以是绝对数、相对数或平均数。第八章 RC表资料的分析1. 列联表分类及统计方法 (1)双向无序:多个样本率或构成比比较2检验 (2)单向有序: 分组变量有序2检验(同双向无序
17、) 结果变量有序秩和检验或Ridit分析 (3)双向有序: 属性相同McNemar、Kappa检验 属性不同秩相关分析、线性趋势检验、秩和检验或Ridit分析2. 列联表注意事项 (1)RC表中不宜有20%以上的格子的T5,不能有T,接受H0,服从正态;sig,接受H1,不服从正态。2. 方差齐性检验 (1)目的:利用样本信息推断总体方差是否相等 (2)前提:正态分布 (3)过程: 建立假设:假设H0:=即方差齐;H1:。 计算统计量:= df1=n1-1 df2=n2-1 P值: F,接受H0 FF(df1,df2)则P,接受H0,满足方差齐性;sig,接受H1,不满足方差齐性。3. 单样本
18、t检验 (1)目的:推断一组样本代表的总体均数与已知总体均数间的差异。 (2)前提: 单组设计 计量资料(非分类) 资料服从正态分布 (3)过程: 建立假设:假设H0:=0 ;H1:0。 计算统计量:或t= P值: z,接受H0 zzdf1,则P,接受H0,差异无统计学意义;sig,接受H1,差异有统计学意义。4. 配对t检验 (1)目的:推断两组样本代表的总体均数的差值是否为零。 (2)前提: 配对设计 计量资料(非分类) 差值服从正态分布 (3)过程: 建立假设:假设H0:d=0 ;H1:d0。 计算统计量:t= df=n-1 P值: t,接受H0 , ttdf1,则P,拒绝H0 t,接受
19、H0 , tdf1,则P,接受H0,差异无统计学意义;sig2,12)。 计算统计量:t或t(方差不齐)df=n1+n2-2 P值: t,接受H0 ,tt(df1,df2),则P,拒绝H0 t,接受H0 ,t(df1,df2),则P,接受H0,差异无统计学意义;sig,接受H0 ,P,接受H0,差异无统计学意义;sigF(k-1,N-k), P组内SSEN-kMSE=SSE/(N-k)总和SSTN-1 (5)注意:组内变异:随机误差 组间变异:随机误差+处理因素 若H0成立:组内变异组间变异 若H1成立:组内变异 ,接受H0 ,P,接受H0,差异无统计学意义;sig,接受H0 ,P,接受H0,
20、差异无统计学意义;sigr时,P,拒绝H0 ,认为有直线相关关系。 当|r|,接受H0 ,认为没有直线相关关系。 根据r,df=n-2检验是否为0 假设H0:总体相关系数=0,即无关系;H1:总体相关系数0,即有关系。 结合专业知识评价相关分析是否有价值 P值:P,接受H0 ,P,拒绝H0 ,P,接受H0,无直线相关关系;sig,接受H1,有直线相关关系。10. 线性回归分析 (1)目的:就是寻找出具有相关关系变量之间的函数关系,并进行统计推断。 (2)前提:y必须是随机变量 (3)过程: 计算反映两个变量依赖关系的直线回归方程,即计算方程的截距a,斜率b。 意义:x每增加1,y增加a+bx
21、根据截距a,斜率b,检验样本所抽自的总体截距是否为0,总体斜率是否为0。 做法1:直接查相关系数的临界值表 做法2:费舍尔t检验法: df=n-2 做法3:F检验 假设H0:=0,即无回归关系;H1:0,即有回归关系。 F= df=n-1 结合专业知识,评价此直线回归方程是否有实用价值。 F,接受H0,无回归关系 FF df,则P,接受H0,无直线回归关系;sig,接受H1,有直线回归关系。11. 列联表2检验 (1)目的:推断两个或多个总体率或构成比之间的差异; 分析行列两种属性或两个变量之间有无关联性(相关分析); 频数分布的拟合优度检验。 (2)前提:小样本,非二项分布 (3)过程: 建
22、立假设:H0:总体率或构成比无显著性差异(行列变量独立或无相关性) H1:总体率或构成比有显著性差异(行列变量不独立或有相关性), 计算最小理论频数Tij,并计算2。 一般公式: df=(r-1)(c-1) 四格表公式: (最小理论频数:T) 基本公式:n40且T5 校正公式:n40且1T5 特殊公式:n40 , T1 四格表确切概率法(Fisher) P值:若2,接受H0,若2 df 则P,接受H0,总体率或构成比 无显著性差异;sig,接受H1,总体率或构成比有显著性差异。12. 拉丁方设计方差分析三因素、等水平、无交互的设计。拉丁字母处理因素,行、列区组因素、序列因素。13. 正交设计方差分析 (1)正交性:设A,B 分别是两个n阶拉丁方,记为aij,bij(i, j=1,2,n)。 若n2 个有序对 (aij, bij) 都是不同的,则称拉丁方 A 与 B 是正交的。 (2)特点:均衡性:同一列中各水平的重复次数相同。 正交性:任两列之间各水平搭配均衡。 (3)表头设计: 记号含义:以 L9(34) 为例:
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100