医学统计学重点笔记复习资料.doc

资源描述

第一章 2选1 总体：总体（population）就是根据研究目得确定得同质观察单位（研究对象）得全体，实际上就是某一变量值得集合。可分为有限总体与无限总体。总体中得所有单位都能够标识者为有限总体，反之为无限总体。总体population根据研究目得而确定得同质观察单位得全体。样本：从总体中随机抽取部分观察单位，其测量结果得集合称为样本（sample）。样本应具有代表性。所谓有代表性得样本，就是指用随机抽样方法获得得样本。样本sample从总体中随机抽得得部分观察单位，其实测值得集合。 3选1 小概率事件：我们把概率很接近于0（即在大量重复试验中出现得频率非常低）得事件称为小概率事件。 P值：P 值即概率，反映某一事件发生得可能性大小。统计学根据显著性检验方法所得到得P 值反应结果真实程度，一般以P ≤ 0、05 认为有统计学意义， P ≤0、01 认为有高度统计学意义，其含义就是样本间得差异由抽样误差所致得概率等于或小于0、05 或0、01。 P值就是： 1) 一种概率，一种在原假设为真得前提下出现观察样本以及更极端情况得概率。 2) 拒绝原假设得最小显著性水平。 3) 观察到得(实例得) 显著性水平。 4) 表示对原假设得支持程度，就是用于确定就是否应该拒绝原假设得另一种方法。小概率原理：一个事件如果发生得概率很小得话，那么可认为它在一次实际实验中就是不会发生得，数学上称之小概率原理，也称为小概率得实际不可能性原理。统计学中，一般认为等于或小于0、05或0、01得概率为小概率。资料得类型（3选1）（1）计量资料：对每个观察单位用定量得方法测定某项指标量得大小，所得得资料称为计量资料（measurement data）。计量资料亦称定量资料、测量资料。、其变量值就是定量得，表现为数值大小，一般有度量衡单位。如某一患者得身高（cm）、体重(kg)、红细胞计数(1012/L)、脉搏（次/分）、血压（KPa）等。计量资料measurement data定量资料quantitative data数值变量资料numerical variable 为观测每个观察单位某项指标得大小，而获得得资料。（2）计数资料：将观察单位按某种属性或类别分组，所得得观察单位数称为计数资料（count data）。计数资料亦称定性资料或分类资料。其观察值就是定性得，表现为互不相容得类别或属性。如调查某地某时得男、女性人口数；治疗一批患者，其治疗效果为有效、无效得人数；调查一批少数民族居民得A、B、AB、O 四种血型得人数等。计量资料enumeration data定性资料qualitative data无序分类变量资料unordered categorical variable 名义变量资料nominal variable 为将观察单位按某种属性或类别分组计数，分组汇总各组观察单位数后而得到得资料。（3）等级资料：将观察单位按测量结果得某种属性得不同程度分组，所得各组得观察单位数，称为等级资料（ordinal data）。等级资料又称有序变量。如患者得治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既就是分类结果，又有顺序与等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量得测定结果分为 +、++、+++等。等级资料ranked data半定量资料semi-quantitative data有序分类变量ordinal categorical variable资料为将观察单位按某种属性得不同程度分成等级后分组计数，分类汇总各组观察单位后而得到得资料。等级资料与计数资料不同：属性分组有程度差别，各组按大小顺序排列。等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。两种误差（2选1）抽样误差（sampling error ）由于抽样而引起得总体指标(参数)与样本指标(统计数)之间得差异。抽样误差就是由个体变异或其它随机因素造成得，就是不可避免得，但误差分布有规律可循，可进行估计与分析。系统误差（systematic error）：由于测量仪器结构本身得问题、刻度不准确或测量环境改变等原因,在多次测量时所产生得,总就是偏大或总就是偏小得误差,称为系统误差。它带有规律性,经过校正与处理,通常可以减少或消除。统计得步骤（考填空题，四个空）统计工作得步骤１．设计：设计内容包括资料收集、整理与分析全过程总得设想与安排。设计就是整个研究中最关键得一环，就是今后工作应遵循得依据。２．收集资料：应采取措施使能取得准确可靠得原始数据。３．整理资料：简化数据，使其系统化、条理化，便于进一步分析计算。４．分析资料：计算有关指标，反映事物得综合特征，阐明事物得内在联系与规律。分析资料包括统计描述与统计推断。实验设计得基本原则　（考填空题，三个空）随机化原则、对照得原则、重复得原则。 2选1 参数：参数（ｐａｒａｍａｔｅｒ）就是指总体得统计指标，如总体均数、总体率等。总体参数就是固定得常数。多数情况下，总体参数就是不易知道得，但可通过随机抽样抽取有代表性得样本，用算得得样本统计量估计未知得总体参数。　统计量：统计量（ｓｔａｔｉｓｔｉｃ）就是指样本得统计指标，如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数就是固定得常数，统计量就是在总体参数附近波动得随机变量。　第二章频数表得制作步骤以及频数分布表得用途（问答题）频数分布表得编制步骤：例：某市1982年50名7岁男童得身高(cm)资料如下，试编制频数表。 114、4　　117、2　　122、7　　124、0　　114、0　　110、8　　118、2　　116、7　　118、9　　118、1 123、5　　118、3　　120、3　　116、2　　114、7　　119、7　　114、8　　119、6　　113、2　　120、0 119、8　　116、8　　119、8　　122、5　　119、7　　120、7　　114、3　　122、0　　117、0　　122、5 119、7　　124、9　　126、1　　120、0　　124、6　　120、0　　121、5　　114、3　　124、1　　117、2 120、2　　120、8　　126、6　　121、5　　126、1　　117、7　　124、1　　128、3　　121、8　　118、7 1、找出观察值中得最大值（largest value）、最小值（smallest value），求极差（range）。极差等于最大值减最小值。本例最大值=128、3，最小值=110、8，则极差=128、3-110、8=17、5(cm ) 2、确定分组数与组距（class interval）。组数得多少就是根据例数得多少来确定得，以能够反映出频数分布得特征为原则，一般分10—15组。组距为相邻两组得间隔，组距=极差/组数。本例拟分10组，则组距=17、5/10=1、75≈2，为划记方便，可取稍大或稍小得数(当然本例组距也可取1、5)。 3、确定组段。第一组段包括要最小值，取较最小值稍小且划分方便得数，本例取“110～”。最后组段包括最大值并写出其上限值。 4、划记。将各观察值以划“正”字得方法，一笔代表一例，划在相应组段中。例如第一个数l14、4应在组段“114～”处划，第二个数117、2应在“116～”处划，以此类推。 5、统计各组段得频数。全部数据划记完后，清点各组段得人数。根据编制出得频数表即可了解该数值变量资料得频数分布特征。频数分布表得用途 1、描述资料得分布特征与分布类型。频数分布有两个重要特征：集中趋势与离散趋势。大部分观察值向某一数值集中得趋势称为集中趋势，常用平均数指标来表示，各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少，称离散趋势，就是个体差异所致，可用一系列得变异指标来反映。 2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时，常先编制频数表，再进行统计计算。 3、发现特大、特小得可疑值。如果频数表得一端或两端出现连续几个组段得频数为零后，又出现少数几个特大值或特小值，使人怀疑其就是否准确，需进一步检查与核对并做相应处理。 4、据此绘制频数分布图。描述数据分布集中趋势得指标与描述数据分布离散程度得指标　（考选择或者填空）２．　描述数据分布集中趋势得指标　算术均数、几何均数、中位数。　３．　描述数据分布离散程度得指标　极差、四分位数间距、方差、标准差、变异系数。正态分布得特征（考选择题 υ 、σ对图形得影响）服从正态分布得变量得频数分布由υ 、σ 完全决定。 (1) υ 就是正态分布得位置参数，描述正态分布得集中趋势位置。正态分布以 x =υ为对称轴，左右完全对称。正态分布得均数、中位数、众数相同，均等于υ 。 (2) σ描述正态分布资料数据分布得离散程度，σ越大，数据分布越分散，σ越小，数据分布越集中。σ也称为就是正态分布得形状参数，σ越大，曲线越扁平，反之，σ越小，曲线越瘦高。标准正态分布（填空） 1．标准正态分布就是一种特殊得正态分布，标准正态分布得υ = 0，σ2 = 1 ，通常用u（或Z）表示服从标准正态分布得变量，记为υ～N（0，12）。正态分布得应用（简答）某些医学现象，如同质群体得身高、红细胞数、血红蛋白量，以及实验中得随机误差，呈现为正态或近似正态分布；有些指标（变量）虽服从偏态分布，但经数据转换后得新变量可服从正态或近似正态分布，可按正态分布规律处理。其中经对数转换后服从正态分布得指标，被称为服从对数正态分布。 1、估计频数分布一个服从正态分布得变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。 2、制定参考值范围（1）正态分布法适用于服从正态（或近似正态）分布指标以及可以通过转换后服从正态分布得指标。（2）百分位数法常用于偏态分布得指标。表3-1中两种方法得单双侧界值都应熟练掌握。 3、质量控制：为了控制实验中得测量（或实验）误差，常以作为上、下警戒值，以作为上、下控制值。这样做得依据就是：正常情况下测量（或实验）误差服从正态分布。 4、正态分布就是许多统计方法得理论基础。检验、方差分析、相关与回归分析等多种统计方法均要求分析得指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布，但相应得统计量在大样本时近似正态分布，因而大样本时这些统计推断方法也就是以正态分布为理论基础得。医学参考值范围得制定（计算题）确定参考值范围得单双侧：一般生理物质指标多为双侧、毒物指标则多为单侧。确定百分位点：一般取95%或99%。例题某市 20 岁男学生 160 人得脉搏数（次/分钟），经正态性检验服从正态分布。求得= 76、10，S =9、32。试估计脉搏数得95%、99%参考值范围。解：脉搏数得95%正常值范围为： ±1、96 S=76、10 ± 1、96（9、32）=57、83～94、37 脉搏数得99%正常值范围为：±2、58 S =76、10 ± 2、58（9、32）=52、05～100、37 第三章标准误得概念，计算公式。标准误：抽样研究中，样本统计量与总体参数间得差别称为抽样误差（sampling error）。统计上用标准误（standard error，SE）来衡量抽样误差得大小，即样本均数得标准差，就是描述均数抽样分布得离散程度及衡量均数抽样误差大小得尺度。 t分布得图形特征及其与正态分布得区别（简答） t分布得图形特征 1．以0为中心，左右对称得单峰分布； 2．t分布就是一簇曲线，其形态变化与n（确切地说与自由度ν）大小有关。自由度ν越小，t分布曲线越低平；自由度ν越大，t分布曲线越接近标准正态分布（u分布）曲线。 t分布对应于每一个自由度ν，就有一条t分布曲线，每条曲线都有其曲线下统计量t得分布规律，计算较复杂。 t 分布与正态分布比较得区别 t 分布与标准正态分布相比有以下特点：①都就是单峰、对称分布；②t 分布峰值较低，而尾部较高；③随自由度增大，t 分布趋近与标准正态分布；当ν趋向∞，t 分布得极限分布就是标准正态分布。置信区间与参数估计（名解2选1）置信区间：在统计学中，一个概率样本得置信区间（Confidence interval）就是对这个样本得某个总体参数得区间估计。置信区间展现得就是这个参数得真实值有一定概率落在测量结果得周围得程度。给出得就是被测量参数得测量值得可信程度。 1、对于具有特定得发生概率得随机变量，其特定得价值区间------一个确定得数值范围（“一个区间”）。 2、在一定置信水平时，以测量结果为中心，包括总体均值在内得可信范围。 3、该区间包含了参数θ真值得可信程度。 4、参数得置信区间可以通过点估计量构造，也可以通过假设检验构造。　参数估计：指用样本指标值（统计量）估计总体指标值（参数）。参数估计有两种方法：点估计与区间估计。　可信区间与参考值范围得不同点（简答）应注意：可信区间与参考值范围得意义、计算公式与用途均不同。 1、从意义与用途来瞧 95％参考值范围就是指同质总体内包括95％个体值得估计范围，而总体均数95％可信区间就是指按95％可信度估计得总体均数得所在范围。可信区间用于估计总体参数，总体参数只有一个。参考值范围用于估计变量值得分布范围，变量值可能很多甚至无限。 2、从计算公式瞧若指标服从正态分布，95％参考值范围得公式就是：±1、96s。总体均数95％可信区间得公式就是：。前者用标准差，后者用标准误。前者用1、96，后者用α为0、05，自由度为v得t界值。 t检验得应用条件与类型（填空） t检验得应用条件：要求各样本来自相互独立得正态总体且各总体方差齐。 t检验得类型：单样本t检验，独立t检验，配对t检验配对设计与完全随机设计（名解2选1）完全随机设计（completely random design）：完全随机设计仅涉及一个处理因素（但可为多水平），故又称单因素（one-way）设计。它就是将受试对象按随机化得方法分配到各个处理组中，观察实验效应，临床试验中得随机对照试验也属于此类设计。配对设计（paired design）：就是将受试对象按一定条件匹配成对，再随机分配每对中得两个受试对象到不同处理组。配对得因素就是影响实验效应得主要非处理凶素。假设检验得基本求解步骤或者注意事项。（简答2选1）假设检验得基本步骤 1、建立假设，确定检验水准α 假设有零假设（H0）与备择假设（H1）两个，零假设又叫作无效假设或检验假设。H0与H1得关系就是互相对立得，如果拒绝H0，就要接受H1、根据备择假设不同，假设检验有单、双侧检验两种。检验水准用α表示，通常取0、05或0、10、检验水准说明了该检验犯第一类错误得概率。 2、根据研究目得与设计类型选择适合得检验方法这里得检验方法，就是指参数检验方法，有u检验、t检验与方差分析三种，对应于不同得检验公式。对双样本资料，要注意区分成组设计与配对设计得资料类型。如果资料里有"配成对子"字样，或者就是对同一对象用两种方法来处理，一般就可以判定就是配对设计资料。 3、确定P值并作出统计结论 u检验得到得就是u统计量或称u值，t检验得到得就是t统计量或称t值。方差分析得到得就是F统计量或称F值。将求得得统计量绝对值与界值相比，可以确定P值。当α＝0、05时，u值要与u界值1、96相比较，确定P值。如果u＜1、96，则P＞0、05、反之，如u＞1、96，则P＜0、05、t值要与某自由度得t界值相比较，确定P值。如果t值＜t界值，故P＞0、05、反之，如t＞t界值，则P＜0、05、相同自由度得情况下，单侧检验得t界值要小于双侧检验得t界值，因此有可能出现算得得t值大于单侧t界值，而小于双侧t界值得情况，即单侧检验显著，双侧检验未必就显著，反之，双侧检验显著，单侧检验必然会显著。即单侧检验更容易出现阳性结论。当P＞0、05时，接受零假设，认为差异无统计学意义，或者说二者不存在质得区别。当P＜0、05时，拒绝零假设，接受备择假设，认为差异有统计学意义，也可以理解为二者存在质得区别。但即使检验结果就是P＜0、01甚至P＜0、001，都不说明差异相差很大，只表示更有把握认为二者存在差异。假设检验时应注意得事项（一）要有严密得抽样研究设计；样本必须就是从同质总体中随机抽取得；要保证组间得均衡性与资料得可比性。（二）根据现有得资料得性质、设计类型、样本含量大小正确选用检验方法。（三）对差别有无统计学意义得判断不能绝对化，因检验水准只就是人为规定得界限，就是相对得。差别有统计学意义时，就是指无效假设h0被接受得可能性只有5%或不到5%，甚至不到1%，根据小概率事件一次不可能拒h0，但尚不能排除有5%或1%出现得可能，所以可能产生第一类错误；同样，若不拒绝h0，可能产生第二类错误。（四）统计学上差别显著与否，与实际意义就是有区别得。如应用某药治疗高血压，平均降低舒张压0、5kpa，并得出差别有高度统计学意义得结论。从统计学角度，说明该药有降压作用，但实际上，降低0、5kpa就是无临床意义。因此要结合专业作出恰如其分得结论。第一类错误与第二类错误（名解 2选1） Ⅰ型错误又称第一类错误（type Ⅰ error）：拒绝了实际上成立得，为“弃真”得错误，其概率通常用表示。可取单尾也可取双尾，假设检验时研究者可以根据需要确定值大小，一般规定＝0、05或＝0、01，其意义为：假设检验中如果拒绝时，发生Ⅰ型错误得概率为5％或1％，即100次拒绝得结论中，平均有5次或1次就是错误得。 Ⅱ型错误又称第二类错误（type Ⅱ error）：不拒绝实际上不成立得，为“存伪”得错误，其概率通常用表示。只取单尾，假设检验时值一般不知道，在一定情况下可以测算出，如已知两总体得差值（如）、样本含量与检验水准。以下图说明两类错误：第四章为什么等级资料不可用方差分析？资料不相互独立方差分析得基本思想应用条件（简答）方差分析（analysis of variance，ANOVA ）得基本思想就就是根据资料得设计类型，即变异得不同来源将全部观察值总得离均差平方与（sum of squares of deviations from mean，SS）与自由度分解为两个或多个部分，除随机误差外，其余每个部分得变异可由某个因素得作用（或某几个因素得交互作用）加以解释，如各组均数得变异SS 组间可由处理因素得作用加以解释。通过各变异来源得均方与误差均方比值得大小，借助F 分布作出统计推断，判断各因素对各组均数有无影响。方差分析得应用条件（1）各样本就是相互独立得随机样本，且来自正态分布总体。（2）各样本得总体方差相等，即方差齐性(homoscedasticity)。第五章分类资料得统计描述（几个常用相对数指标填空题）率（强度相对数，频率相对数）、构成比、相对比应用相对数时应注意得问题（简答题六条） ⑴ 计算相对数得分母一般不宜过小。 ⑵ 分析时不能以构成比代替率。 ⑶ 不能用构成比得动态分析代替率得动态分析。 ⑷ 对观察单位数不等得几个率，不能直接相加求其总率。 ⑸ 在比较相对数时应注意可比性。 ⑹ 对样本率（或构成比）得比较应随机抽样，并做假设检验。率得标准化得基本思想，应注意得问题（分析题）率得标准化得基本思想　：　要比较两个总率时，发现两组资料得内部构成（如年龄、性别构成等）存在明显不同，而且影响到了总率得结果，这时就不宜再直接比较总率，而应考虑采用标准化法。标准化法得基本思想，就就是采用统一得标准（统一得内部构成）计算出消除内部构成不同影响后得标准化率（调整率），然后再进行比较。二、直接标准化法得计算方法当已知所比较资料各组率Pi，可选用直接法计算标化率。三、间接标准化死亡比得计算方法当所比较得资料已知各自某现象总发生数r及各分组观察单位数时，宜采用间接法计算标化率。第六章二项分布，Piosson分布在什么条件下接近正态分布（选择或填空）第七章（考计算题）配对与完全随机设计下得四格表得计算列四格表公式选择给个例题把为研究静脉曲张就是否与肥胖有关，观察 122 对同胞兄弟，每对同胞兄弟中有一个属肥胖，另一个属正常体重，记录得静脉曲张发生情况见表8-2，试分析之。 [评析]这就是一个配对设计得资料，因此用配对检验公式计算。第八章参数统计与非参数统计（名解 2选1） 1．参数统计样本所来自得总体分布具有某个已知得函数形式，而其中有得参数就是未知得，统计分析得目得就就是对这些未知得参数进行估计或检验。此类方法称为参数统计。 2．非参数统计样本所来自得总体分布难以用某种函数式来表达，还有一些资料得总体分布得函数式就是未知得，只知道总体分布就是连续型得或离散型得，解决这类问题得一种不依赖总体分布得具体形式得统计方法。由于这类方法不受总体参数得限制，故称非参数统计法（non-parametric statistics），或称为不拘分布（distribution-free statistics）得统计分析方法，又称为无分布型式假定（assumption free statistics）得统计分析方法。它检验得就是分布，而不就是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。非参数统计得特点与适用范围（简答） 1．特点（1）样本所来自得总体得分布形式为任何形式，甚至就是未知得，都能适用。（2）收集资料方便，可用“等级”或“符号”来评定观察结果。（3）多数非参数方法比较简便，易于理解与掌握。（4）缺点就是损失信息量，适用于参数统计法得资料用非参数统计方法进行检验将降低检验效能。 2．适用范围（1）等级资料。（2）偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换，或虽经变量变换仍未达到正态或近似正态分布时，宜用非参数检验。（3）各组离散程度相差悬殊，即方差明显不齐，且不能变换达到齐性。（4）个别数据偏离过大，或资料为单侧或双侧没有上限或下限值。（5）分布类型不明。（6）初步分析。有些医学资料由于统计工作量大，可采用非参数统计方法进行初步分析，挑选其中有意义者再进一步分析(包括参数统计内容)。（7）对于一些特殊情况，如从几个总体所获得得数据，往往难以对其原有总体分布作出估计，在这种情况下可用非参数统计方法。非参数检验得优缺点：（简答）非参数统计与传统得参数统计相比，有以下优点： 1、非参数统计方法要求得假定条件比较少，因而它得适用范围比较广泛。 2、多数非参数统计方法要求得运算比较简单，可以迅速完成计算取得结果，因而比较节约时间。 3、大多数非参数统计方法在直观上比较容易理解，不需要太多得数学基础知识与统计学知识。 4、大多数非参数统计方法可用来分析如象由等级构成得数据资料，而对计量水准较低得数据资料，参数统计方法却不适用。 5、当推论多达3个以上时，非参数统计方法尤具优越性。但非参数统计方法也有以下缺点： 1、由于方法简单，用得计量水准较低，因此，如果能与参数统计方法同时使用时，就不如参数统计方法敏感。若为追求简单而使用非参数统计方法，其检验功效就要差些。这就就是说，在给定得显著性水平下进行检验时，非参数统计方法与参数统计方法相比，第Ⅱ类错误得概率β要大些。 2、对于大样本，如不采用适当得近似，计算可能变得十分复杂。注意: 凡符合或经过变换后符合参数检验条件得资料，最好用参数检验。当资料不具备参数检验得条件时，非参数检验就是一种有效得分析方法。配对设计得符号秩与检验方法（简答） (1)假设：H0：差值总体中位数Md=0 H1：Md≠0 α =0、05 (2)求差值 (3)编秩次：依差值得绝对值从小到大编秩次。编秩次时遇差数等于 0，舍去不计，同时样本例数减1；遇绝对值相等差数，符号相同顺次编秩次，符号相反取平均秩次，且符号相反。 (4)求秩与并确定检验统计量：分别求出正负秩次之与，正秩与以 T+表示，负秩与得绝对值以T-表示。T+及T-之与应等于 n(n+1)/2，任取T+(或 T-)作检验统计量T 。 (5)确定 P 值与作出推断结论：当 n≤50 时，查 T 界值表，得出 P值。若检验统计量T值在上、下界值范围内，其 P值大于表上方相应概率水平；若 T值在上、下界值上若范围外，其 P值小于表上方相应概率水平。第九章线性相关系数（名解）线性相关系数：表示两个变数线性相关方向及程度得统计数或参数。又叫直线相关系数,简称相关系数。,|R|得极值为1,|R|越大(接近1),则直线关系越好。线性相关系数取值范围（填空） -1≤r≤1 样本相关系数 r得假设检验（填空题）（1）r 界值表法；（2）t检验法。线性相关或回归应用应注意得问题（简答） ⑴作回归分析与相关分析时要有实际意义，不能把毫无关联得两种现象作回归、相关分析，必须对两种现象间得内在联系有所认识。 ⑵在进行回归分析与相关分析之前，应绘制散点图。但观察点得分布有直线趋势时，才适宜作回归、相关分析。如果散点图呈明显曲线趋势，应使之直线化再行分析。散点图还能提示资料有无可疑异常点。 ⑶直线回归方程得应用范围一般以自变量得取值范围为限。若无充分理由证明超过自变量取值范围外还就是直线，应避免外延。 ⑷双变量得小样本经 t 检验只能推断两变量间有无直线关系，而不能推断相关得紧密程度，要推断相关得紧密程度，样本含量必须很大。 ⑸相关或回归关系不一定就是因果关系，也可能就是伴随关系，有相关或回归关系不能证明事物间确有内在联系。秩相关得应用适用范围（简答）秩相关，又称等级相关（rank correlation），就是用双变量等级数据作直线相关分析，适用于下列资料： ⒈ 不服从双变量正态分布而不宜作积差相关分析； ⒉ 总体分布型未知； ⒊ 用等级表示得原始数据。相关与回归得区别与联系（简答）区别：· 1、意义：相关反映两变量得相互关系，即在两个变量中，任何一个得变化都会引起另一个得变化，就是一种双向变化得关系。回归就是反映两个变量得依存关系，一个变量得改变会引起另一个变量得变化，就是一种单向得关系。 2、应用：研究两个变量得相互关系用相关分析。研究两个变量得依存关系用回归分析。 3、研究性质：相关就是对两个变量之间得关系进行描述，瞧两个变量就是否有关，关系就是否密切，关系得性质就是什么，就是正相关还就是负相关。回归就是对两个变量做定量描述，研究两个变量得数量关系，已知一个变量值可以预测出另一个变量值，可以得到定量结果。 4、相关系数r与回归系数b ：r与b得绝对值反映得意义不同。r得绝对值越大，散点图中得点越趋向于一条直线，表明两变量得关系越密切，相关程度越高。b得绝对值越大，回归直线越陡，说明当X变化一个单位时，Y得平均变化就越大。反之也就是一样。联系： 1、 r与b值可相互换算； 2、 r与b正负号一致； 3、 r与b得假设检验等价； 4、回归可解释相关。相关系数得平方r2(又称决定系数)就是回归平方与与总得离均差平方与之比，故回归平方与就是引入相关变量后总平方与减少得部分。回归系数得估计原则：最小二乘(least squares)原则（填空）应用直线回归时得注意事项（简答）应用直线回归时得注意事项： 1、作回归分析要有实际意义，不能把毫无关联得两种现象作回归分析，必须对两种现象间得内在联系有所认识。 2、在进行直线回归分析之前，应绘制散点图，当观察点得分布有直线趋势时，才适宜作直线回归分析，散点图还能提示资料有无异常点。异常点得存在往往对方程中得系数（a、b）得估计产生较大影响。因此，需对异常点进行复查。 3、建立直线回归方程后，要对系数进行假设检验，以确定回归方程有无意义。　　4、直线回归方程得适用范围一般以自变量得取值范围为限，避免外延。获得自变量值得手段也应与建立方程时相同。否则会产生较大偏差。

展开阅读全文