医学统计学-第三版-复习总结.doc

资源描述

第一章绪论统计的三大特征：实用性、丰富性、公平性总体（population）： l 是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。 l 同质基础：时间、空间、条件等 l （1）有限总体(finite population)：有限观察单位 l （2）无限总体(infinite population)：很多为无限总体。样本 l 根据随机化原则从总体中抽取的一定数量（sample size)的个体，称为样本（sample），用样本信息来推断总体特征。 l 从总体中抽取部分个体的过程称为抽样（sampling)。同质（homogeneity） l 是指影响被研究指标的非实验因素相同。变异（variation, variablility ） l 同质基础上的各观察单位（亦称为个体）之间的差异为变异。如同性别、同年龄、同民族、同地区儿童的身高有高有低，称为身高的变异。参数（parameter)和统计量（statistic) l 总体的统计指标称为参数。如：总体均数（µ)，总体发病率，总体死亡率，等， l 样本的统计指标称为统计量如：样本均数(x)，样本发病率，样本死亡率，等， l 统计学上用不同的符号表示。误差（error）观察值与实际值的差异，成为误差。分为：过失误差；系统误差；随机测量误差；随机抽样误差；（1）过失误差(mistaken error)：过失所致的误差（不认真，错误判断，记录等原因）；（2）系统误差（systematic error)：仪器未校准所致的误差（统一偏高，或偏低）；这两类误差可以避免。（3）随机测量误差（random measurement error):不同观察者或同一观察者多次观察值的不相同。这种误差不可避免。（4）抽样误差（sampling error):总体中存在个体变异，抽样研究中所抽取的样本，只包含总体中一部分个体，因而样本均数（或率）往往不等于总体均数（或率），表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。抽样误差愈小，用样本推断总体的精确度愈高；反之，其精确度愈低。由于生物的个体变异是客观存在的，因而抽样误差是不可避免的，但抽样误差有一定的规律性。小概率事件定理： “小概率事件一次抽样不可能发生” 变量及变量值 l 变量（variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成为测量尺度（scale)。 l 测量的结果称为变量值(value of variable) 或观察值（observed value, measurements)。随机化（randomization) 使总体中的每个个体有均等的机会成为样本观察单位的过程，称为随机化。 l 随机抽样旨在避免人的主观性，让机遇起作用，以反映总体的客观情况。常用：抽签法，随机数目表法，计算器随机数法；单纯随机抽样(simple random sampling):总体全部观察单位编号，再用随机数字法或抽签法；整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群，再对被抽取的每个群的全部观察单位加以调查。系统抽样systematic sampling:( 间隔抽样,机械抽样) 先将总体观察单位按某顺序号分成n个部分，再从第一部分抽第k号观察单位，依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域，再从每一层内随机抽样，组成样本。 l 抽样误差：分层抽样<系统抽样<单纯随机抽样<整群抽样第二章统计资料的收集和整理一、资料的类型根据是否定量划分：（1）计量资料（measurement data) 用定量方法测量每个观察单位的某项指标，所得的数值资料为计量资料，亦称数值变量资料。一般有度量衡单位。常用：平均数，标准差，t检验，方差分析，相关与回归等分析。（2）计数资料(enumeration data) 将观察单位按某种属性或类别分组，然后清点各组的观察单位数，为计数资料（亦称分类变量资料，无序分类资料）。常用：率、构成比、卡方检验等（3）等级资料（ranked data) 将观察单位按某种属性的不同程度分组，所得各组的观察单位数为等级资料，亦称有序分类资料。常用：率、构成比、秩和检验等。三者联系：等级资料与计数资料不同：属性的分组有程度差别，各组大小顺序排列；等级资料与计量资料不同：每个观察单位未确切定量，称为半定量资料。介于计量资料与计数资料之间。计量资料 → 计数资料 → 等级资料调查设计和实验设计调查设计一般包括专业设计和统计设计。实验设计(experiment design) 医学实验的基本要素包括处理因素、受试对象和实验效应三部分。实验设计应遵循对照（空白对照，试验对照，安慰剂对照，配对对照，组间对照）、随机、重复（即样本例数）的原则。频数分布表（frequency distribution table) l 用途：（1）揭示频数的分布特征：两个重要特征： l 集中趋势（central tendency):数值高低不等，但中等水平的人数最多。 l 离散趋势（tendency of dispersion):数值之间参差不齐；逐渐变大（或变小）的人数渐少。向两端分散。第三章计量资料的统计描述集中趋势central tendency 平均数（average)：用于描述数值变量资料的集中趋势（平均水平）。特点：简明概括，便于比较。包括：算术平均数，几何平均数，中位数，百分位数 1、算术平均数（arithmetic mean) 一组变量值之和除以变量值个数所得的商,简称均数。总体均数µ，样本均数x表示。适用条件：资料成正态分布（或近似正态，或对称分布）。计算方法：直接法，加权法均数的两个重要属性：（1）各离均差（各观察值与均数之差）的总和等于零。（2）离均差的平方和小于各个观察值X与任何数a(a 不等于均数)之差的平方和。均数是一组观察值理想的代表值。均数的应用：（1）只能在合理分布的基础上，对同质事物求均数才有意义，才能反映事物的特性。（2）均数最适用于对称分布，尤其是正态分布资料。此时，均数位于分布的中央，能反映观察值的集中趋势。 2、几何均数geometric mean G 将n个观察值的乘积再开n次方的方根（或各观察值对数值均值的反对数）。适用条件：（1）观察值为非对称分布，差距较大，用算术均数表示其平均水平会受少数特大或特小值影响；（2）数值按大小顺序排列后，各观察值呈倍数关系或近似倍数关系。如：抗体滴度，药物效价等；（3）观察值不能有0；（4）观察值不能同时有正值和负值。几何均数的应用：（1）常用于等比级数资料，滴度，效价，卫生事业平均发展速度，人口几何增长，对数正态分布资料；（2）同一组资料求得的几何均数小于算术均数。 3、中位数（median, M) ：位于中间位置上的数值。把一组观察值，按大小顺序排列，位置居中的变量值（奇数个）或位置居中的两个变量值的均值（偶数个）。是位置指标，以中位数为界，将观察值分为两半，有一半比它大，一般比它小。适用于：（1）资料偏态分布；（2）两端无确定数值；（3）资料分布不清楚；如：潜伏期，毒物测定值等用中位数表示其集中趋势。 5、百分位数(percentile, P)：位于某个百分位置上的数值。把一组数据从小到大排列，分成100等份，各等份含1%的观察值，处在分割界线上的数值，就是百分位数，Pr 表示。百分位数将总体或样本的全部观察值分为两部分，理论上有r%的观察值比它小，有（100-r）%的观察值比它大。如含量为n的样本，P5即表示：理论上有n5%个观察值比P5小，有n95%个观察值比P5大。一般说，分布中部的百分位数相当稳定，具有较好代表性，靠近两端的百分位数，只在样本含量足够大时，才稳定，故，样本量不够大时，不应取太近两端的百分位数。常用的百分位数：5，25，75，95 分位数。百分位数常用于确定医学正常值范围（normal range)。中位数是特定的百分位数。四者的比较：中位数常用于描述偏态分布资料的集中趋势，它反映居中位置的变量值的大小。不受特大，特小值的影响，只受位置居中的观察值的影响，因而不够敏感。而均数，几何均数是由全部观察值综合计算出的，敏感性好。但理论上，中位数等于算术均数。百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用，可更全面地描述总体或样本的分布特征，包括位置大小和变异度。离散趋势tendency of dispersion 常用指标：全距，四分位数间距，方差，标准差，变异系数 1、全距（Range)：极大与极小值之差。全距大，资料离散程度大，但易受极端值大小的影响。样本量越大，抽到极端值的可能性越大，全距可能会越大。故：全距不宜单独使用。 2、四分位数间距（quartile interval Q)：将一组资料分为四等份，上四分位数P75和下四分位数P25之差，叫四分位数间距。意义：Q越大，离散程度越大，通常用于描述偏态分布资料的离散程度。优点：比全距稳定；若资料一端或两端无确切数值，只能选择Q作为离散指标。缺点：未考虑全部观察值，不能全面反映资料离散趋势。 3、方差（variance)和标准差(standard deviation SD) 对总体而言，为了克服极差和四分位数间距的缺点，要描述资料的离散趋势，必须考虑到各个观察值，离均差的平方和是最好的指标，意义：方差，标准差越大，变异程度越大。其值越小，观察值的离散度越小，用均数反映平均水平的代表性越好。标准差应用：（1）反映一组观察值的离散程度：数值单位相同：直接比较标准差; 数值单位不同：计算变异系数; 变异系数（coefficient of variation, CV) 也称离散系数（coefficient of dispersion) 标准差与均数之比用百分数表示。公式：常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差，更客观。比如：身高，体重的变异比较（2）估计变量值的频数分布：（3）计算标准误（4）估计医学正常值范围：双侧：均数± 1.96倍标准差（95%）单侧：均数± 1.645倍标准差（95%）正态分布(normal distribution) 概念：频数分布以均数为中心，左右两侧基本对称，靠近均数两侧频数较多，离均数愈远，频数愈少，形成一个中间多，两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布. 正态分布用N(µ ,σ)表示，其位置与均数有关，形状与标准差有关。标准正态分布: 为了应用方便，常将式进行变量变换，即：u变换. 所得到的新变量u的分布即为标准正态分布。 u的含义：变量到均数间的距离相当于标准差的倍数。 u变换后，μ=0，σ=1，使原来的正态分布变换为标准正态分布（standard normal distribution）亦称u分布。正态分布的特征和分布规律：简答（1）曲线在x轴的上方，与x轴不相交，当x=μ时，曲线位于最高点。 f(u=0)=0.3989 （2）曲线关于直线x=μ左右对称。（3）正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。（4）正态分布的面积分布有一定规律。正态曲线下面积的分布规律正态曲线下，横轴上一定区间的面积,等于该区间的频数发生的概率（即所有随机事件发生的概率）。正态曲线下面积的分布规律的应用：一、确定医学参考值范围意义:是正常人指标测定值的波动范围，可用于划分正常，或异常。步骤：1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行参考值估计补充：常用方法：正态分布法（正态分布），对数正态分布法（对数正态分布或近似正态分布），百分位数法（偏态分布）二、确定概率分布三、质量控制第四章均数的抽样误差和 t分布一、均数的抽样误差和标准误均数的抽样误差sampling error of mean 由于总体中存在个体变异，抽样研究中所抽取的样本，只包含总体中一部分个体，因而样本均数（或率）往往不等于总体均数（或率），样本均数之间也互不相等，这种由抽样引起的差异称为均数的抽样误差。用样本均数的标准差来估计，称标准误（standard error)。即总体标准差和样本例数的比值，通常以样本标准差作为总体标准差的估计值标准误越大，均数的抽样误差越大，样本均数与总体均数间的差异越大。 S 区别简答是方差的平方根。说明一组数据在其周围的分散情况（变异程度）。反映对这组数值的代表性。是均数的标准差。说明一组均数在“均数的均数”(≈总体均数)周围的分散情况。反映用样本均数代表总体均数的可靠性。表示抽样误差的大小。标准误的应用 1、用来衡量抽样误差的大小: 标准误越小，样本均数与总体均数越接近，样本均数的可信度越高； 2、结合标准正态分布与 t 分布曲线下的面积规律，估计总体均数的置信区间。 3、用于假设检验。二、t 分布（t-distribution) —— 标准化的均数的分布 t分布曲线特征简答： • t分布是一簇对称于0的单峰分布曲线。 • 自由度越小（相当于标准差大），曲线的中间越低，两边越高；随自由度增大， t分布曲线逐渐逼近于标准正态分布曲线。 • 当自由度无穷大时， t分布就是标准正态分布曲线。 • 每一条t分布曲线，都对应于相应的自由度。 t分布曲线下的面积规律：与标准正态曲线下的面积规律相似： • 在某一个自由度下，两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧外部总面积为1%的界限的t值称为t0.01/2(υ)。 • 因此，中部占95%面积的t值范围：t0.05/2(υ)-- t0.05/2(υ), 中部占99%面积的t值范围：t0.01/2(υ)-- t0.01/2(υ)。使用t值表注意： • 同一自由度下, P越小，t值越大；P值相同时，自由度越大，t越小；当自由度无穷大时，t值与u值相等。这也是u分布与t分布的区别。 t分布的主要应用： • 总体均数置信区间估计； • t检验；三、总体均数置信区间的估计 • 统计推断：参数估计，假设检验 • 参数估计： • 点估计（point estimation):用样本统计量作为对总体参数的估计值(μ) 。比如均数的估计。 • 区间估计(interval estimation)：根据选定的置信度估计总体均数所在的区间（a<μ <b) . a, b 为置信限（可信限）。置信度（confidence level): • 在估计总体均数的置信区间时，如果可能估计错误的概率为α ，那么估计正确的概率为1-α , 即为置信度. 常用: 95%, 99%. 置信区间（confidence interval, CI) 根据置信度估计得到的区间，称为置信区间。区间两端的界限值即置信限置信区间估计方法： • 1、总体标准差已知参照u分布 • 2、总体标准差未知，样本例数(>50)足够大，也可参考u分布进行 • 3、总体标准差未知，样本例数较小，按t分布原理，依据自由度，查出某个概率相应的t界值 95%置信区间的意义： • 理论上，用一次抽样所得的样本均数估计总体均数，犯错误的概率为5%. • 或进行100次抽样，可算得100个置信区间，平均有95个置信区间包括客观存在的总体均数，只有5个置信区间未包括总体均数。置信区间与正常值范围：简答 95%正常值范围一般是指同质总体内包括95%个体值的估计范围，若总体为正态分布 95%置信区间是指按照95%置信度估计的总体参数的可能范围，常按照下式计算。前者用标准差，后者用标准误。第五章假设检验，u， t-检验假设检验基本思想： • 先对总体的参数或分布作出某种假设，如假设总体均数（或总体率）为一定值，两总体均数（或总体率）相等，总体服从正态分布或两总体分布相同等。 • 然后，用适当方法根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策，采取措施假设检验步骤：简答 1、建立检验假设和设定检验水准无效假设（null hypothesis) H0：假设差异仅由抽样误差所致，而两个总体参数相同。是从反证法的思想提出的。备择假设（alternative hypothesis), H1：即差别不仅是由抽样误差所致，而且总体参数不同。 H1是和H0相联系的，对立的假设。确定检验水准（size of a test) 也叫显著性水准（significance level）：用α表示。即：拒绝了实际上成立的H0的概率；一般取0.05，或0.01. 2、计算统计量根据研究设计类型，资料特征，统计方法的适用条件，选择和计算统计量。 3、确定概率P值，作出统计推断结论计算统计量后，判断在H0成立条件下，出现该统计量或更大统计量的概率。如果P大于α，是接受H0的区间；如果大于或等于界值的范围，P小于或等于α，是拒绝H0的区间。双侧，单侧检验：比较及选择原则，单选或简答根据专业知识， μ可能大于，也可能小于 μ 0，称双侧检验；若认为μ大于、等于不可能小于 μ 0（或相反），为单侧检验。若不能确定单侧的情况，应采用双侧检验。在同一t值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此，总体均数间确有差别时，单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料进行检验，有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧检验，必须事先根据专业知识予以确定，不能等到计算完t值以后再主观选定选择原则： • 双侧检验永远是正确的 • 单侧检验只有在少数情况下才是合适的 • 即使要做单侧检验，也必须事先确定 • 单侧检验：有某种倾向时使用； • 双侧检验：没有任何倾向；第一类错误与第二类错误简答-比较选择假阳性错误（false positive error），统计上称为第一类错误（type I error），用α表示。即无效假设（H0:u=u0）是正确的，但被拒绝，误判为有差别（弃真错误）。统计学上定P≤0.05为有意义，即在统计推断上允许犯假阳性错误的概率为5%。当无效假设正确时，在100次抽样中，可以有5次推断是错误的。同样，如果定P≤0.01为有意义，即犯假阳性错误的概率为1%。故统计学上有意义的界限实际上就是允许犯第一类错误的界限。假阴性错误(false negative error),统计学上称为第二类错误(type II error)。即无效假设（H0:u=u0）不正确，实际上应是H1:u≠u0,但算得的统计量t没有超过t0.05的水平从而接受了无效假设，错误地得出无差别的结论（取伪错误）。用b表示。 I类错误：虽然无效假设为真，但由于抽到了较大（检验统计量）的样本，使得P值小于检验水准而导致被拒绝。 II类错误：虽然无效假设为假，但由于抽到了较小（检验统计量）的样本，使得P值大于检验水准而导致不被拒绝。第一类错误减小，第二类错误的概率就增大了。 • 选择统计学意义水平，应考虑两类错误对所要研究事物的影响哪一个重要。一般来说，定0.05为有统计学意义的水平是比较适宜的。其他条件不变，增大样本含量可使第二类错误的概率减小。同时正确的实验设计能够减少抽样误差，提高检验效能。 P值的正确理解选择简答 P值是指在无效假设的前提下，得到观察到的量（或更极端的量）的概率。 P值越小说明无效假设越不可靠。或者说，P值越小就越有理由推翻无效假设。至于P值是否属于“小”，一般根据事先确定的检验水准a来判断的。 P值的大小与观察到的量的大小之间没有必然的联系。实际差别与统计学意义简答 • 统计学意义：如果总体均数相同，抽到这样大统计量的可能性很小，可以拒绝 H0。但并不意味两总体均数差别很大。 • 样本量很大时，即使均数差别不大，统计学意义却显著。 • 样本小时，即使均数差别很大，统计学意义却不显著。 u检验和t检验简答两者比较： u检验条件：总体标准差已知，资料服从正态分布情况下（1）样本均数与总体均数比较（2）两大样本均数的比较； t检验条件：用于样本量小、总体标准差未知时（1）样本与总体均数比较（2）配对设计资料比较（3）两样本均数比较（同时要求两样本的总体方差相同，服从正态分布）配对资料：配对设计：两样本中的观察值由于存在某种联系而一一对应结成对子（matching)的情况. 常用配对方式：简答 • 1、同一受试对象处理前后的比较：高血压治疗前后的血压值，或每一名病人有一对数据； • 2、同一对象身体不同部位测定值比较：如左右臂皮肤的敏感试验，测得红斑直径； • 3、同一样品两种不同方法测定结果：两种仪器，两名化验员，两种条件等； • 4、成对设计：动物配对后随机分到两组后的测定结果；第六章方差分析（一）概念，思想，应用，变异分解概念：方差分析是检验两个或两个以上样本均数间差别无统计意义的统计检验方法。前提条件：各组总体均数为正态分布，方差齐。方差分析的基本思想是：将所有测量值间的总变异按照其变异的来源分解为多个部份，然后进行比较，评价由某种因素所引起的变异是否具有统计学意义。方差分析主要用于： 1、均数差别的显著性检验 2、分离各有关因素并估计其对总变异的作用 3、分析因素间的交互作用，4、方差齐性检验。优点：1、不受对比组数的限制； 2、可同时分析多个因素作用； 3、可分析因素间的相互作用； 4、灵敏度高； 5、结论较准确均方：变异程度除与离均差平方和的大小有关外，还与其自由度有关，由于各部分自由度不等，因此各部分离均差平方和不能直接比较，须将各部分离均差平方和除以相应自由度，其比值称为均方差，简称均方(mean square，MS)。 MS组内：组内均方，l组内/n组内 MS组间：组间均方, l组间/n组间总变异（total variation）：全部测量值Xij与总均数间的差异 å（xij-x)2，v=N-1=nk-1 组间变异（ between group variation ）：各组的均数Xi 与总均数间的差异 å n（xi-x )2, v=k-1 组内变异（within group variation )：每组的每个测量值Xij与该组均数的差异å（xij-xi)2, v=k(n-1) F值：F＝MS组间/MS组内 F界值：F0.05（n1，n2） F³ F0.05（n1，n2）, p£0.05 公式是在H0成立的条件下进行的，即MS组间与MS组内差别应该很小， F值应该接近于1。均数间的相互比较 Student-Newman-Keuls（SNK-q 检验）法:适用于任意两组间进行比较 Dunnett-t 检验：适用于多个实验组与同一个对照组的比较 LSD-t 检验：称最小显著性差异t 检验，适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。三种方法是一致的，但并非等价，实际应用中应根据设计选取，不可多种方法一起使用，然后选取有利的结果。拉丁设计定义：对于两个以上的标志进行方差分析，而且各种标志的水平数相同，采用拉丁方设计。其优点是可以从较少的实验数据，获取较多的信息。但设计要求各因素的水平数必须相等，在实际应用时有一定局限性。而且，当各因素间有交互作用时，该设计不合适。拉丁方是以拉丁字母排列的方阵的简称。方差齐性检验多个方差齐性的Bartlett 法此外,Levene 检验法对原数据是否为正态不灵敏，比较稳健,也常常采用。方差分析中的数据转换：选择或简答（1）平方根转换 x´=Ö x 当x<10时， x´=Ö x ＋1 或x´=Ö x ＋1/2 常用于服从普哇松分布的资料（方差随均数而变；二项分布中方差随率变化）（2）平方根反正弦转换二项分布中率的比较， x´=arc sin Ö x （3）对数转换对于均数与标准差呈正比关系的资料x´=lgx 或 x´=lg（x＋1）（x>0) 方差分析（二）概念及方差分析表当实验的处理是由两个或两个以上的因素，每个因素至少有两个水平的全面组合时，称之为析因实验。一、2´2析因实验（factorial experiment)设计两个因素，每个因素有两个水平的实验设计。单独效应：是指其它因素的水平固定时，同一因素不同水平间的差别。主效应：指某一因素各水平间的平均差别。交互效应：某因素的各个单独效应随另一因素水平的变化而变化，且相互间的差别超出随机波动的范围时，称者两个因素间存在交互作用或效应。如果AB两因素的联合效应不等于A与B的单独效应之和，则A,B存在交互效应，若大于则有协同作用，若小于则为拮抗作用。二、2×2×2析因设计是指有三个因素，每个因素有两个水平的实验设计。第七章直线回归与相关 (1) 依存关系：应变量(dependent variable)Y随自变量(independent variable)X变化而变化。 —— 回归分析 (2) 互依关系: 应变量Y与自变量 X间的彼此关系 ——— 相关分析第一节直线回归（ linear regression 线性回归) 1．直线回归的概念：直线回归是分析两变量间线性依存变化的数量关系。 2. 函数关系与回归关系：前者是确定关系，后者是不确定关系直线回归的任务：就是找出一条最能描述变量间非确定性数量关系的一条直线，此直线为回归直线，相应的直线方程称为直线回归方程( linear regression equation)。对资料的要求：自变量 x ：正态总体中的随机变量或指定变量因变量 y ：服从正态分布的随机变量标准估计误差各实际值Y与估计值有一定的误差，称为估计误差。各实际点与回归线纵轴方向的离散程度，可以用类似求标准差的式子进行计算，即标准估计误差 a b的意义：考 a 为回归直线在 y 轴上的截距，即与Y轴交点的纵坐标(X＝0)。 b 为回归系数，即回归直线的斜率；其统计学意义是 x 增加（减）一个单位，y 平均变动 b 个单位 b>0，Y随X的增大而增大（减少而减少）—— 斜上； b<0，Y随X的增大而减小（减少而增加）—— 斜下； b=0，Y与X无直线关系 —— 水平。｜b｜越大，表示Y随X变化越快，直线越陡峭。 3．直线回归方程参数的计算最小二乘法原则 (least square method)：使各实际散点（Y）到直线（）的纵向距离的平方和最小。即使（残差或剩余值）最小残差(residual)或剩余值，即实测值Y与假定回归线上的估计值的纵向距离回归系数的检验方法：方差分析法各种变异分解-重点 SS总＝，的离均差平方和(total sum of squares)，未考虑与的回归关系时的总变异。 SS剩＝，为剩余平方和(residual sum of squares)，对的线性影响之外的一切因素对的变异，即总变异中，无法用解释的部分。SS剩越小，回归效果越好。 SS回＝，为回归平方和(regression sum of squares)，由于与的直线关系而使变异减小的部分,即总变异中，可以用解释的部分。SS回越大，回归效果越好。 t检验法 S b 为样本回归系数标准误；S yx 为剩余标准差同一组资料作直线相关与回归时 tb 与 tr 等值回归系数的标准误 b为总体回归系数b 的估计值，其误差为Sb 决定系数：回归平方和与总平方和之比，大小反映了回归贡献的相对程度，也就是在Y的总变异中回归关系所能解释的百分比。总体回归线的95%置信带，与个体y值比较即µ (x=xi)的可信区间方差由Y 及 b (x - x)的方差两部分构成个体Yi 值的范围预测与总体回归线比较直线回归方程的应用描述两变量的依存数量关系利用回归方程进行预测利用回归方程进行控制第二直线相关 ( linear correlation ) 简单相关(simple correlation)，用于双变量正态分布资料。进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标—相关系数r，并进行显著性检验。 1．直线相关的概念直线相关是研究两变量 x、y 之间协同变化的线性关系的分析方法。 2．对资料的要求 x、y 都是正态分布资料的随机变量。 3．相关系数（correlation coefficient ，r ) * 表示方法： -1 £ r £ 1 意义：描述两个变量直线相关的方向与密切程度的指标。 4、直线回归与直线相关的联系与区别简答区别： 1）意义直线回归反映两变量的依存关系；直线相关反映两变量的相互关系。 2）对资料的要求直线回归：自变量是正态总体的随机变量或指定变量，y 一定是正态总体的随机变量；直线相关：两变量均为正态总体的随机变量。联系： 1）同一组资料的 r 与 b 的正负符号是一致的； 2）同一组资料的 r 和 b 的假设检验结果是一致的，即 t r = t b。 3）两变量间有相关关系，不一定有因果关系；但两变量间有因果关系，一定有相关关系。第三节 Spearman 秩相关适用资料：⑴ 不服从双变量正态分布 ⑵ 总体分布类型未知 ⑶ 原始数据用等级表示等级相关系数rs（即Spearman Correlation Coefficient）—反映两变量间相关的密切程度与方向第八章相对数计数资料的统计描述一、常用相对数（relative number) 1、比（ ratio）又称对比指标或相对比，表示两个有联系的同类指标之比，常用倍数或百分数表示。 2、比例(proportion) 又称构成指标，表示某一事物内部各组成部分所占的比重或分布，常用百分数表示。３、率（rate）：又称频率指标，表示某现象发生的频率或强度，比例基数用k表示，据习惯定，一般至少保留1~2为整数。包括%、‰、1/万、1/10万二、医学中常用的相对数指标 1、医学人口统计指标（1）人口总数（2）人口构成（3）人口生育自然增长率＝粗出生率－粗死亡率（4）人口死亡粗死亡率（总死亡率） mortality rate 2、反映疾病发生水平的频率指标（疾病统计指标）重点发病率（ incidence rate) 某病发病率＝（一定时期某病新发生的病例数/同时期内可能发生某病的人口数）´K （1）时期：指观察所包括的时间范围，通常为年或月；（2）新发生的病例数：指第一次发生某种疾病，以第一次就诊为准。（3）可能发生“某病”：指存在发生某病的危险性和条件（流行病学上为暴露人群）。患病率(prevalence rate) 指在某时点接受医学检查时，可能发生某病的全体受检人群中被发现的某病病人现患新、旧病例数。某病患病率＝（检查时发现的某病现患病例数/ 该时点受检人口数）´K 适用于病程较长的疾病的统计，反映某种疾病在一定人群中流行的规模或水平病死率（fatality) 某病死亡率＝（观察期间内因某病死亡人数/同期某病病人总数）´ K 三、应用相对数应注意的问题简答 l 1，计算率和构成比的分母不宜过小：否则样本率不稳定，易造成错觉； l 2，不要将构成比作率分析； l 3，求平均率时不能直接将几个率相加求其合并率或平均率，而应以总发生数除以总可能发生例数。 l 4，应注意资料的可比性资料是否存在偏性当内部结构不同的相对数间进行比较时，若比较合计率，应计算标准化率。率的抽样误差与标准误 l 率的抽样误差：由抽样造成的样本率和总体率的差别称为率的抽样误差。率的总体标准误用sp表示 sp的样本估计值为率的样本标准误sp 总体率的区间估计当np³5和n(1-p）³5时，样本率p近似服从均数为p、标准误为sP的正态分布，当总体率未知时， sp用估计值sp取代总体率的假设检验(u检验) l 适用条件： 1. 适用于一个样本率与一个总体率的比较，或两个样本率间的比较。而不能用于多个率或构成比资料的比较； 2. 要求样本量较大，一般np与n（1-p）均大于5，率的分布近似于正态分布。率的标准化直接，间接比较，标准选择 1. 标准化法(Standardization)的意义当比较两个总率时,如果两组内部某种能影响指标水平的重要特征的构成上有差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构成的差异,使之能合理地进行比较,所用的方法称为标准化法。标准化法即在一个指定的标准构成条件下进行率的比对的方法。目的：采用统一的标准构成以消除内部构成不同对总率的影响，使标准化后的标准化总率具有可比性。 (1).选择标准人口： a. 应选择有代表性、较稳定的、数量较大的人群 b. 将比较的两组（或多组）的人口数合并作为标准组 c. 选其中一组（选人口数较多组）作为标准组１、直接法:以标准人口构成与实际的年龄组别死亡率求得一个调整死亡率。 2、间接法:采用标准年龄组别死亡率与相互比较的两组年龄组别人口数计算求得的死亡率。第九章卡方检验（一）概念：检验两组（或几组）率或构成比差异是否有统计意义（样本量不限）。行与列两个顺序变量之间是否相关。卡方检验的基本思想反映了实际频数和理论频数吻合的程度。如果检验假设成立，则实际频数与理论频数之差一般不会很大，出现大的卡方值的概率是很小的基本公式： n =(R-1)(C-1) X2检验的专用公式法连续性较正公式: 条件:当四格表中有任一格子理论数1≦T<5,同时总例数n≧40, 配对四格表资料x2检验配对四格表资料的关联性分析四格表精确检验法条件：四格表资料中若 n<40,或有任一格子理论数T<1。基本思想: 是在周边合计数

展开阅读全文