1、医学统计学考试重点考试题型:名词解释10个选择20个填空题 20个简答 4-5个讨论分析1-2题计算 1-2题绪论2选1总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果
2、认为有效即具有总体代表性的犯错概率。一般结果0.05被认为是有统计学意义小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。(2)计数资料:将观察单位按某
3、种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、+、+
4、等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。2选1抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。统计的步骤(考填空题,四个空)统计工作的步骤设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最
5、关键的一环,是今后工作应遵循的依据。收集资料:应采取措施使能取得准确可靠的原始数据。整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。实验设计的基本原则(考填空题,三个空)随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。2选1参数:参数()是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。统计量:统计量()是指样本的统计指标,如样本均数、样本率等。样
6、本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。第二章频数表的制作步骤以及频数分布表的用途(问答题)频数分布表的编制步骤: 例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。 114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1 123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0 119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5 119.7124.9126.1120.0124.6120.
7、0121.5114.3124.1117.2 120.2120.8126.6121.5126.1117.7124.1128.3121.8118.7 1、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。 极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm ) 2、确定分组数和组距(class interval)。 组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分1015组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.
8、5/10=1.752,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。 3、确定组段。 第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110”。最后组段包括最大值并写出其上限值。 4、划记。 将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114”处划,第二个数117.2应在“116”处划,以此类推。 5、统计各组段的频数。全部数据划记完后,清点各组段的人数。 根据编制出的频数表即可了解该数值变量资料的频数分布特征。 频数分布表的用途 1、描述资料的分布特征和分布类型。 频数分布有两个重要特征:集中趋势和离散趋势。大部分观察
9、值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。 2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。 3、发现特大、特小的可疑值。 如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。 4、据此绘制频数分布图。 描述数据分布集中趋势的指标和描述数据分布离散程度的指标(考选择或者填空)描述数据分布集中趋势的指标掌握其意义、用途及计算方法。算术均数
10、、几何均数、中位数。描述数据分布离散程度的指标掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。正态分布的特征(考选择题 、对图形的影响)服从正态分布的变量的频数分布由 、 完全决定。 (1) 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于 。 (2) 描述正态分布资料数据分布的离散程度,越大,数据分布越分散,越小,数据分布越集中。也称为是正态分布的形状参数,越大,曲线越扁平,反之,越小,曲线越瘦高。标准正态分布(填空)1标准正态分布是一种特殊的正态分布,标准正态分布的 = 0,2 =
11、1 ,通常用u(或Z)表示服从标准正态分布的变量,记为N(0,12)。正态分布的应用(简答)某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。1. 估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2)估计任意取值(X1 ,X2 )范围内频数比例。2. 制定参考值范围(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。(
12、2)百分位数法 常用于偏态分布的指标。表3-1 中两种方法的单双侧界值都应熟练掌握。3. 质量控制:为了控制实验中的测量(或实验)误差,常以X 2S作为上、下警戒值,以X 3S 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。医学参考值范围的制定(计算题 )确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标
13、则多为单侧。确定百分位点:一般取95%或99%。第三章标准误的概念,计算公式。标准误及X:通常将样本统计量的标准差称为标准误。许多样本均数的标准差X称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。t分布的图形特征及其与正态分布的区别1以0为中心,左右对称的单峰分布;2t分布是一簇曲线,其形态变化与n(确切地说与自由度)大小有关。自由度越小,t分布曲线越低平;自由度越大,t分布曲线越接近标准正态分布(u分布)曲线。 t分布对应于每一个自由度,就有一条t分布曲线,每条曲线都有其曲线下统
14、计量t的分布规律,计算较复杂。t 分布与正态分布t 分布与标准正态分布相比有以下特点:都是单峰、对称分布;t 分布峰值较低,而尾部较高;随自由度增大,t 分布趋近与标准正态分布;当n 时,t 分布的极限分布是标准正态分布。置信区间和参数估计 (名解2选1)置信区间,定义:是指由样本统计量所构造的总体参数的估计区间。1、对于具有特定的发生概率的随机变量,其特定的价值区间-一个确定的数值范围(“一个区间”)。2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。 3、该区间包含了参数真值的可信程度。4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。参数估计:指用样本指标
15、值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。可信区间与参考值范围的不同点(简答)t检验的应用条件和类型(填空)t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。t检验的类型:单样本t检验,独立t检验,配对t检验完全随机设计常用的几种实验设计方法:配对设计和完全随机设计(名解2选1)完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。配对设计:是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象
16、到不同处理组。配对的因素是影响实验效应的主要非处理凶素。假设检验的基本求解步骤及其注意事项。(两个考一个问答)假设检验的基本步骤:1.建立假设,确定检验水准假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。检验水准用表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。2.根据研究目的和设计类型选择适合的检验方法这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类
17、型。如果资料里有配成对子字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。3.确定P值并作出统计结论u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。将求得的统计量绝对值与界值相比,可以确定P值。当0.05时,u值要和u界值1.96相比较,确定P值。如果u1.96,则P0.05.反之,如u1.96,则P0.05.t值 要和某自由度的t界值相比较,确定P值。如果t值t界值,故P0.05.反之,如tt界值,则P0.05.相同自由度的情况下,单侧检验的t界值 要小于双侧检验的t界值,因此有可能出现算得的t值大于单侧t界值,而小于双侧
18、t界值的情况,即单侧检验显著,双侧检验未必就显著,反之,双侧检验显著, 单侧检验必然会显著。即单侧检验更容易出现阳性结论。当P0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。当P0.05时,拒绝零假设,接受备择假设,认为差异有统 计学意义,也可以理解为二者存在质的区别。但即使检验结果是P0.01甚至P0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。假设检验时应注意的事项(一)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可比性。(二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。(三)对差别有无统计
19、学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝h0,可能产生第二类错误。(四)统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压0.5kpa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kpa是无临床意义。因此要结合专业作出恰如其分的结论。第一类错误与第二类错误(名解 考一个)第四章为什么等级资料不可用方差分析?(上
20、课听了忘了)方差分析的基本思想 应用条件(简答)方差分析(analysis of variance,ANOVA )的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。方差分析的应用条件(1) 各样本是相互独立的随机样本,
21、且来自正态分布总体。(2) 各样本的总体方差相等,即方差齐性(homoscedasticity)。第五章分类资料的统计描述(几个常用相对数指标 填空题)率(强度相对数,频率相对数)、构成比、相对比应用相对数时应注意的问题(问答题 六条) 计算相对数的分母一般不宜过小。 分析时不能以构成比代替率。 不能用构成比的动态分析代替率的动态分析。 对观察单位数不等的几个率,不能直接相加求其总率。 在比较相对数时应注意可比性。 对样本率(或构成比)的比较应随机抽样,并做假设检验。率的标准化的基本思想,应注意的问题(分析题)率的标准化的基本思想:要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)
22、存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。二、直接标准化法的计算方法当已知所比较资料各组率Pi,可选用直接法计算标化率。三、间接标准化死亡比的计算方法当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。第六章二项分布,Piosson分布 在什么条件下接近正态分布(选择,填空)第七章(考计算题)配对与完全随机设计下的四格表的计算四格表公式选择第八章参数统计与非参数统计(名解 考一个)1 参数统计 样本
23、所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。 2 非参数统计 样本所来自的总体分布难以用某种函数式来表达, 还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)
24、的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。非参数统计的特点和适用范围 (简答)1特点 (1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。 (2)收集资料方便,可用“等级”或“符号”来评定观察结果。 (3)多数非参数方法比较简便,易于理解和掌握。 (4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。 2适用范围 (1)等级资料。 (2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显
25、不齐,且不能变换达到齐性。 (4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。 (5)分布类型不明。 (6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。 (7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。非参数检验的优缺点:(简答)优点:适用范围广对数据要求不严方法简便、易于理解和掌握缺点:损失信息、检验效能低符合条件首选参数检验不符合条件非参数检验注 意:凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件
26、时,非参数检验是一种有效的分析方法。配对设计的符号秩和检验方法(简答)(1)假设:H0:差值总体中位数Md=0 H1:Md0 =0.05 (2)求差值 (3)编秩:依差值的绝对值从小到大编秩。编秩时遇差数等于 0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩,符号相反取平均秩次,且符号相反。 (4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T 。 (5)确定 P 值和作出推断结论:当 n50 时,查 T 界值表,得出 P值。若检验统计量T值在上、下界值范围
27、内,其 P值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P值小于表上方相应概率水平。第九章线性相关系数(名解)线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数,简称相关系数。,|R|的极值为1,|R|越大(接近1),则直线关系越好。线性相关系数取值范围(填空)-1r1样本相关系数 r的假设检验(填空题)(1)r 界值表法; (2)t检验法。线性相关或回归应用应注意的问题(简答)作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。 在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有
28、直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。 直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。 双变量的小样本经 t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。 相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。秩相关的应用适用范围(简答)秩相关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料: 不服从双变量正
29、态分布而不宜作积差相关分析; 总体分布型未知; 用等级表示的原始数据。第九章相关与回归的区别与联系(简答)区别:1. 相关说明相关关系,回归说明依存关系; 2. r与b有区别; 3. 资料要求不同。联系:1. r与b值可相互换算; 2. r与b正负号一致; 3. r与b的假设检验等价; 4. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。回归系数的估计原则:最小二乘(least squares)原则(填空)应用直线回归时(简答)应用直线回归时的注意事项:1.作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。2.在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。3.建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。4.直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。