1、卫生统计学Statistics第一章 绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。总体:根据研究目的确定的同质(大同小异)的观察单位的全体。分为目标总体和研究总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。抽样:从研究总体中抽取少量有代表性的个体。变量:表现出个体变异性的任何特征或属性。分定型变量和定量变量。定型变量:1)分类变量或名义变量:最简单的是二分类变量。0-1变量也常称为假变量或哑变量。2)有序变量或等级变量。定量变量:分离散型变量和连续型变量。变量只能
2、由高级向低级转化:定量有序分类二值。常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。 2)计数资料或分类资料,如性别、血型等。 3)等级资料,如尿蛋白含量、第一章 定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。累计频数为该组及前面各组的频数之和。累计频率表示各组累计频数在总例数中所占的比例。可用直条图表达。2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。
3、3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。总体均数用表示,样本均数用X表示。适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。分:直接法和频率表法。即所有变量值加和除以总数n或所有频数fk乘以组中值X0k后求和再除以总数n。 X0k=(第k组段上限+第k组段下限)/2几何均数(G):适用于原始观察值分布不对称,但经对数转换后呈对称分布的变量。,如正态分布或数据呈倍数变化的资料。公式
4、:直接法和频率表法。 中位数(M):将原始观察值按由小到大顺序排列后,位次居中的那个数值,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的和的平均值。适用于各种分布的变量,尤其是偏锋分布的变量。众数(mode):总体中出现机会最高的数值。样本众数是指在样本中出现次数最多的数值。5.描述变异程度的统计指标极差(R):亦称全距,即最大值与最小值之差。用于资料的粗略分析,其计算简便但稳定性较差。样本量接近时,极差越大数据越离散。四分位数间距(Q):是上四分位数P75和下分位数P25之差。常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。同类资料比较,Q越大数据间变异越大,适用
5、于各种分布资料,特别服从偏锋分布的变量。方差:方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。反应每个观察值的离散程度。总体方差用2表示,样本方差用S2表示。标准差:是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。标准差越大意味着观察值的离散程度越大,或者变异度越大。总体标准差用表示,样本用S表示。变异系数(CV):用于观察指标单位不同或均数相差较大时两组资料变异程度的比较,尤其是量纲不同的变量间比较。意义为变异的大小(S)相对于其平均水平的百分比。没有单位,消除了量纲影响。越大表示相对于均数而言,变异程度越大。6.描述分布形
6、态的统计指标 偏度系数(SKEW):为0时,分布对称;取正值,正偏锋;取负值,负偏锋。 峰度系数(KURT):正态分布的总峰度系数为0;取负值时较正态分布的峰平阔低矮,取正值时较正态分布的峰尖俏高耸。第三章 定性资料的统计描述相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。问答题常用的相对数指标有哪些?它们的意义和计算上有
7、何不同?答:常用的相对数指标有:率、构成比和相对比。意义和计算公式如下:率又称频率指标,说明某现象发生的频率或强度,常以100%、1000等表示。构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。比又称相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标 / 乙指标(或100%)甲乙两个指标可以是绝对数、相对数或平均数等。应用相对数时应注意哪些问题?答:应用相对数时应注意的问题有: 计算相对数的分母一般不宜过小。 分析时不能以构成比代替率。 不能用构成比的动态分析代替率的动态分析。 对观察单位数不等的几个率,不能直接
8、相加求其总率。 在比较相对数时应注意可比性。 对样本率(或构成比)的比较应随机抽样,并做假设检验。应用标准化法的注意事项有哪些?答:应用标准化法时应注意的问题有:1) 标准化法的应用范围很广,其主要目的就是消除混杂因素的影响。2) 标准化后的标准化率,已经不再反反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。3) 报告比较结果时必须说明所选用的“标准”和理由。4) 两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。第一章 统计表和统计图名词解释统计表:将统计资料及其指标以表格形式列出,称为统计表(statistical table)。狭义的统计表只表示统计指
9、标。统计图:统计图(statistical graph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。问答题常用统计图的定义和制图要求。名 称定 义制 图 要 求条 图用等宽直条的长短来表示相互独立的各统计指标的数值大小起点为0的等宽直条,条间距相等,按高低顺序排列。普通线图适用于连续性资料。用线段的升降来表示一事物随另一事物变化的趋势。纵横两轴均为算术尺度,相邻两点应以折线相连。图内线条不宜超过3条。 半对数线图用线段的升降来表示一事物随另一事物变化的速度。横轴为算术尺度,纵轴为对数尺度。余同普通线图。圆 图以圆面积表示事物的全
10、部,用扇形面积表示各部分的比重以圆面积为100%,将各构成比分别乘以3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。直方图用矩形的面积来表示某个连续型变量的频数分布常以横轴表示连续型变量的组段(要求等距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。散点图以点的密集程度和趋势表示两种事物间的相关关系绘制方法同线图,只是点与点之间不连接。第二章 常用概率分布名词解释正态分布:若指标的频率曲线对应于数学上的正态曲线,则称该指标服从正态分布(normal distribution)。通常用记号表示均数为,标准差为的正态分布。标准正态分布:均数为0、标准差为1的正态分布被
11、称为标准正态分布(standard normal distribution),通常记为。问答题l 正态概率密度曲线的位置与形状具有哪些特点?答:正态概率密度曲线的位置与形状具有以下特点:1) 关于x=对称。2) 在x=处取得该概率密度函数的最大值,在x=处有拐点。3) 曲线下面积为1。4) 决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。5) 决定曲线的形状,当恒定时,越大,数据越分散,曲线越“矮胖”;越小,数据越集中,曲线越“瘦高”。第三章 参数估计基础名词解释抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差。标准误及:通常将样本统
12、计量的标准差称为标准误。许多样本均数的标准差称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。点估计:是直接利用样本统计量的一个数值来估计总体参数。区间统计:用统计量和确定一个有概率意义的区间,以该区间具有较大的可信度包含总体均数。可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间。它的确切含义是:可信区间包含总体参数的可能性是1-,而不是总体参数落在该范围的可能性为1-。第四章 假设检验基础名词解释I型和II型错误:I型错误(type I error),指拒绝了实际上成立的H0,这类“弃真”的错误称
13、为I型错误,其概率大小用表示;II型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用表示。检验效能:1-称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。问答题l 假设检验的基本步骤是什么?答:建立假设、选用单侧或双侧检验、确定检验水准;选用适当检验方法,计算统计量;确定P值并作出推断结论。l 假设检验与区间估计的关系式什么?答:置信区间具有假设检验的主要功能置信区间课提供假设检验没有提供的信息。置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。假设检验比置
14、信区间多提供的信息:假设检验可以报告确切的P值。l 应用假设检验需要注意的问题有哪些?答:应用检验方法必须符合其适用条件。权衡两类错误的危害以确定的大小。正确理解P值的意义,如果P,宜说差异“有统计学意义”。第五章 方差分析名词解释总变异:样本中全部实验单位差异称为总变异。其大小可以用全部观察值的均方(方差)表示。组间变异:各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其大小可用组间均方表示。组内变异: 各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受
15、试对象数与处理因素的水平数相等。然后再将每个区组内的观察对象随机地分配到各处理组,这种设计叫做随机区组设计。第九章 x2检验问答题l RC列表 c2 检验的注意事项1、行列表中不宜有1/5以上的理论值小于5, 也不允许有理论值小于1。如果发生上述情况,一般有两种处理方法: 增大样本含量,从而期望增大理论值。 将理论值小于5的行和列与性质相近的邻近行或列中的实际频数合并, 期望重新计算的理论值增大。2、当多个样本率(或构成比)比较的 c2 检验结论有统计学意义,并不能判定任意两组之间的差异有统计学意义,必须用行列的分割的办法进一步作两两比较。3、对于有序的分类变量,采用卡方检验,不能考虑数据的有
16、序性质。第十章 基于秩次的非参数检验名词解释参数检验:凡是以特定的总体分布为前提,对未知的总体参数做推断的假设方法。非参数检验:不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,故又称任意分布检验。第十一章 两变量关联性分析名词解释线性相关系数:又称Pearson积矩相关系数,是定量描述两个变量间线性关系密切程度和相关方向的统计指标,其定义为公式:样本相关系数: 问答题l 相关分析应用中的应注意的问题:1、 散点图能够使我们直观地看出两变量间有无线性关系,所以在进行相关分析前应先绘出散点图,当散点有线性趋势时,才进行相关分析。2、 线性相关分析要求两个变量都是随机变量,而且仅适用
17、于二元正态分布资料。3、 出现离群值时慎用相关。4、 相关关系不一定是因果关系。5、 分层资料盲目合并易出假象。第十二章 简单回归分析名词解释回归分析:研究结果变量如何随自变量变化的常用方法。回归直线的置信带:将置信区间的上下限分别连起来形成的两条弧线间的区域。最小二乘原则:每个观察点距离回归线的纵向距离的平方和最小,即残差平方和最小。(1-)置信带的意义:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧线曲线所形成的区带内,其置信度为1-。问答题l 线性回归模型的适用条件:(1) 因变量Y与自变量X呈线性关系。(2) 每个个体观察值之间相互独立(3) 在一定范围内,任意给定X值,
18、对应的随机变量Y都服从正态分布(4) 在一定范围内,不同的X值所对应的随机变量Y的方差相等。公式回归方程 : =a+bX b= a=b(一) 方差分析=b (二) t检验 注意:对同一资料作总体系数是否为0的假设检验,方差分析和t检验是等价的,并且有 的关系。(三)总体回归系数的置信区间 (四)决定系数 回归平方和与总离均差平方和之比,记为第十四章 实验设计l 实验设计的基本要素:受试对象、处理因素、实验效应。(小题)l 实验设计的基本原则:对照、随机化、重复。(小题)l 常用的实验设计方案:完全随机设计、配对设计、随机区组设计、拉丁方设计、交叉设 计、析因设计、嵌套设计、正交设计名词解释处理
19、因素(被试因素):根据研究目确定的欲施加或欲观察的、并能引起受试对象直接或间接效应的因素,简称处理或因素(factor)。是根据研究目的确定的主要因素,处理因素在整个实验中应始终要保持不变。非处理因素:与处理因素可能同时存在的能使受试对象产生效应的非研究因素。非处理因素常常会干扰研究因素的观察与分析,因此又称为干扰因素或混杂因素(confounder)。 问答题l 受试对象应满足三个基本条件:一是对处理因素敏感;二是特异性,即不受非处理因素干扰;三是反应必须稳定。 l 影响样本含量估计的因素1.第一类错误a的大小:a越小所需样本含量愈多;2.检验效能(1-b)或第二类错误b的大小:检验效能愈大
20、,第二类错误的概率愈小,所需样本含量愈多。3.容许误差:容许误差愈大,所需样本含量愈小。4.总体标准差s或总体概率p:s反映资料的变异度。s愈大,所需样本含量自然愈多。总体概率p越近于0.50,则所需样本含量愈多。 l 实验设计的基本原则一、对照原则目的:控制混杂因素和偏倚;显露处理因素的效应;判断不良反应。对照的方式:(1)安慰剂对照(2)空白对照 (3)实验对照 (4)自身对照 (5)标准对照二、随机化原则随机化是使每个受试对象都有同等的机会被抽取或分到不同的实验组和对照组。随机化形式:(1)抽样的随机 (2)分组的随机(3)实验顺序的随机 三、重复原则重复是指在相同实验条件下进行多次研究或多次观察。重复最主要的作用是估计实验误差。 重复的形式:(1)整个实验的重复;(2)用多个受试对象进行重复:有足够的样本含量;(3)同一受试对象的重复观察。