ImageVerifierCode 换一换
格式:PDF , 页数:11 ,大小:801.38KB ,
资源ID:2089866      下载积分:7 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2089866.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(统计学知识点.pdf)为本站上传会员【天****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

统计学知识点.pdf

1、基本统计方法基本统计方法第一章第一章 概论概论1.总体(总体(Population):根据研究目的确定的同质对象的全体(集合);样本(样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。2.参数(参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。3.统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。第二章第二章 计量资料统计描述计量资料统计描述1.集中趋势:均数(算术、几何)、中位数、众

2、数2.离散趋势:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)3.正态分布特征:X 轴上方关于 X=对称的钟形曲线;X=时,f(X)取得最大值;有两个参数,位置参数和形态参数;曲线下面积为 1,区间的面积为 68.27%,区间1.96的面积为 95.00%,区间2.58的面积为 99.00%。4.医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。/2XuS第三章第三章 总体均数估计和假设检验总体均数估计和假设检验1.抽样误差(抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免

3、,产生的根本原因是生物个体的变异性。2.均数的标准误(均数的标准误(Standard error of Mean,SEM):样本均数的标准差,计算公式:。反映样本均数间的离散程度,说明抽样误差的大小。/Xn3.降低抽样误差的途径有:通过增加样本含量 n;通过设计减少 S。4.t 分布特征:单峰分布,以 0 为中心,左右对称;形态取决于自由度,越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;当逼近,逼近,t 分布逼近 u 分布,故标准正态分布是 t 分布的特例。XSX5.置信区间(置信区间(Confidence Interval,CI):按预先给定的概率(1-)确定的包含总体参数的一个范围

4、,计算公式:或。95%CI 含义含义:从固定样本含量的/2,XXtS/2,XXuS已知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有 95%的置信区间包含了总体参数。6.假设检验的基本原理:小概率反证法的思想假设检验的基本原理:小概率反证法的思想。反证法:从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。小概率事件:在 H0成立的条件下计算检验统计量,根据概率分布确定检验水准下P 值大小,判断是否为小概率事件(通常 P视为小概率事件,通常取),是则拒绝H0,接受 H1;否则尚不能拒绝 H0。7.假设检验一般步骤:建立假设(反证法,H0和 H1),确定检验水准()

5、;计算统计量:u,t,F;确定概率值 P,做出推断结论。8.t 检验需满足的条件:比较的两个样本相互独立独立、均服从正态正态分布。9.P 的含义:的含义:是指从 H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如 t、u 等)值的概率。10.型错误(型错误(Type error):拒绝了实际上成立的 H0,这类“弃真”的错误称为型错误,型错误的大小为检验水准。型错误(型错误(Type error):接受了实际上不成立的 H0,这类“存伪”的错误称为型错误,型错误的大小用 表示,1-表示检验效能。越小,越大,增大样本量可以同时降低 和。11.置信区间和假设检验

6、的区别和联系:可以通过判断置信区间是否包含零假设,判断单样本均数是否来自已知的总体;置信区间不但能回答差别有无统计学意义,还可提示差别有无实际意义。假设检验可提供置信区间不能提供的信息,如 P 值和检验效能等。第四章第四章 方差分析方差分析1.方差分析的基本思想方差分析的基本思想:根据研究目的和设计类型,把所有测量值的总变异按照处理因素处理因素和水平水平等分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,评价由处理因素引起的变异是否具有统计学意义。2.方差分析的应用条件:各样本是相互独立独立的随机样本,均来自正态正态分布的总体,各样本的总体方差相等(具有方差

7、齐性方差齐性)。3.方差分析表:变异来源变异来源SSMSFP组间变异组间变异ag-1a/(g-1)MS组间/MS组内组内变异组内变异bN-gb/(N-g)总变异总变异a+bN-14.g=2 时,随机区组设计的方差分析与配对设计资料 t 检验等价,。tF5.多个样本均数间的多重比较:LSD-t 检验检验,即最小显著差异 t 检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较;Dunnett-t 检验检验:适用于 g-1 个实验组与一个对照组均数差别的多重比较;SNK-q 检验检验:适用于多个样本均数两两之间的全面比较。第五章第五章 计数资料的统计描述计数资料的统计描述1.相对数的类型:强

8、度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对比(如性别比等)2.应用相对数的注意事项:结构相对数不能代替强度相对数;计算相对数应有足够的数量;正确计算合计率;注意资料的可比性;对比不同时期资料应注意客观条件是否相同;样本率(或构成比)的抽样误差。3.标准化率(标准化率(Standardization rate):采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。4.标准化率的注意事项:只适用于内部构成不同,影响总率的可比性的问题;选择的标准不同,计算得到的标准化率也不同,多个标准化率比较时,应选同一标准;标准化率已经

9、不再反映当地的实际水平;样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本量较小时,需做假设检验。第六章第六章 几种离散型变量的分布及应用几种离散型变量的分布及应用1.二项分布 XB(n,)的适用条件:每次试验只发生两种对立的可能结果之一;每次试验产生某结果的概率固定不变;重复试验是相互独立的。2.二项分布的性质:阳性次数 X 的总体均数()、标准差();n(1)n样本率 p 的均数()、标准差(,即率的标准误率的标准误)。二项分布p(1)pppSn的正态近似条件:np 和和 n(1-p)均大于均大于 5。3.泊松分布泊松分布 XP()的性质的性质:总体均数和总体方差2相等;当 n

10、 很大,很小,且np=为常数时,二项分布近似泊松分布;20 时,泊松分布近似正态分布;泊松分布具备可加性。第七章第七章 2检验检验1.2检验的基本思想检验的基本思想:根据2分布特征,通过比较实际频数与理论频数的差异,确定在成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。2值反映了实际频数与理论频数的吻合程度。2.RC 列联表中的各格子 T1,并且 1T5 的格子数不宜超过 1/5 格子格子总数,否则可能产生偏差。处理方法有三种:增加样本量,使理论频数增大;根据专业知识,删除或合并行列;采用 Fisher 确切概率法分析。3.有序分组资料表线性趋势检验:双向无序

11、的双向无序的 RC 列联表列联表:多个样本率的比较采用 RC 列联表的2检验;两个分类变量的关联性分析则采用 RC 列联表的2检验和 Pearson 列联系数进行分析。单向有序的单向有序的 RC 列联表列联表:行有序而列无序:RC 列联表的2检验;行无序而列有序,采用 Wilcoxon 秩和检验。双向有序属性相同的双向有序属性相同的 RC 列联表列联表:配对四格表的扩展,采用一致性检验(Kappa 检验)。双向有序属性不同的双向有序属性不同的 RC 列联表列联表:样本率的比较采用 Wilcoxon 秩和检验;相关性分析采用 Spearman 相关分析;线性变化趋势分析采用有序分组资料的线性趋势

12、检验或 CMH2检验等。第八章第八章 非参数检验非参数检验1.秩和检验的适用范围:总体分布偏态的计量资料;数据两端有不确定值;等级资料;各组离散程度相差悬殊,总体方差不齐的资料。2.非参数检验对总体分布的形状差别不敏感,只对总体分布位置差别敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低。故能用参数检验尽量采用参数检验,不满能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验。足参数检验条件才使用非参数检验。3.不同数据类型的统计分析路径不同数据类型的统计分析路径:(1)样本均数与总体均数的比较:正态,样本均数与总体均数的 t 检验;非正态,Wilcoxon 符号秩检验。

13、(2)两样本均数比较:独立正态:两独立样本 t 检验;独立非正态:两独立样本的Wilcoxon 秩和检验;配对设计差值正态,配对 t 检验;配对设计差值非正态,Wilcoxon 符号秩检验。(3)多样本均数比较:独立正态(方差齐),方差分析;独立非正态 Kruskal-Wails H 检验;非独立正态,重复测量资料的方差分析;非独立非正态,Friedman M 检验第九章第九章 双变量回归和相关双变量回归和相关1.直线回归应满足的条件直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互独立、因变量 Y随机正态、对任何 X 因变量 Y 的标准差相等。直线回归方程回归方程的一般形式为:,

14、YabX为截距,为回归系数,回归系数的估计采用最小二乘法最小二乘法原则(Least Squares Method,ab使残差平方和最小)进行估计。2.决定系数(决定系数(coefficient of determination):回归平方和与总平方和的比值,R2=SS回/SS总。R2取值 01 之间无单位,其数值大小反映回归贡献的相对程度,即总变异中回归模型能够解释的百分比。3.秩相关的应用适用范围:(1)不服从双变量正态分布而不宜作 Pearson 相关分析;(2)总体分布型未知;(3)等级资料的相关分析。4.相关与回归的区别与联系区别相关与回归的区别与联系区别(1)区别)区别:资料:回归分

15、析资料要求 Y 为正态随机变量,X 为选定变量;相关分析资料 X、Y 服从双变量正态分布。应用:回归分析是由一个变量值推算另一个变量值(依存关系);相关分析只反映两个变量间的相互关系。回归系数 b 与原度量单位有关,而相关系数 r 无关。b 的绝对值越大,回归直线越陡,即 X 变化 1 个单位时 Y 的平均变化越大;r 的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。(2)联系)联系:r 与 b 值可相互换算,;YYXXllbr r 与 b 正负号一致;r 与 b 的假设检验等价:对于同一资料,检验完全等价;brtt 回归可解释相关。相关系数的平方 r2(决定系数)是回归

16、平方和与总的离均差平方和之比(SS回/SS总)。5.应用直线回归时的注意事项(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。(2)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。(3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。(4)直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。第十章第十章

17、统计表和统计图统计表和统计图1.统计表的基本要求统计表的基本要求(1)标题)标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。(2)标目)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话。(3)线条)线条:至少用 3 条线:顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一

18、般为 1.5 磅,其他线条一般为 0.5 磅。(4)数字)数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为 0者记为“0”,不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。(5)备注)备注:表中数字区不要插入文字。必须说明者表“*”,在表下方以备注的形式说明。高级统计方法高级统计方法第十二章第十二章 重复测量资料的方差分析重复测量资料的方差分析1.重复测量设计与随机区组设计的区别:(1)重复测量设计中“处理”是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配;(2)重复测量设计区组内实验单位彼此不独立;2.球对称(球对称(spheric

19、ity):所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。3.重复测量资料方差分析的资料条件:(1)正态性:处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立);(2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同;(3)各时间点组成的协方差阵具有球形性特征。第十五章第十五章 多元线性回归分析多元线性回归分析1.偏回归系数(偏回归系数(partial regression coefficient):多元线性回归模型中自变量 Xj的系数j,表示在其他自变量保持不变时,Xj增加或减少一个单

20、位是 Y 的平均变化量。2.复相关系数(复相关系数(multiple correlation coefficient):,表示因变量 Y 与多个自变2RR量的线性相关程度,也是观察值 Y 与估计值之间的相关程度。若只有一个自变量,Y。Rr3.标准化回归系数标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,用来比较各个自变量对 Y 的影响强度,在有统计学意义的前提下,jjjYSbbS jX标准化回归系数的绝对值越大说明相应自变量对 Y 的作用越大。4.多元线性回归模型()应满足的条件应满足的条件:Y 与01122mmYXXXeX1,X2,Xm之间具有线性关系;各例观

21、察值 Yi相互独立;残差 e 服从正态分布。5.哑变量(哑变量(dummy variable):在多元线性回归模型中,当自变量为多分类变量(g 个水平)时,需要将原来的多分类变量转化为(g-1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意应用哑变量时要注意:哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进行变量选择;可采用加与不加入哑变量的偏回归平方和 F 检验确定哑变量有无意义。6.多重共线性(多重共线性(collinearity):某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,则该变量与另外的自

22、变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t 检验不准确、估计值的正负符号与实际不符等。7.交互作用交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用,普遍的做法是在模型中加入它们的乘积项(作为交互项)。8.线性回归分析的 SAS 结果解释:(1)线性回归方程:;2.994220.99733Yx(2)该线性回归模型的统计学检验结果:模型的方差分析统计量F=6.91,P=0.03030.05,说明该线性回归模型具有统计学意义。(3)R-Square

23、=0.46353 的意义:该线性回归模型可以解释因变量 Y 的总变异的 46.353%;(4)回归系数估计值 b=0.99733 的意义:表示 X 对 Y 影响的大小,X 每改变一个单位,Y改变 0.99733 个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明 X 与 Y之间存在的线性关系,t 检验结果说明计算得到的回归系数 b 有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。(5)相关系数及其检验结果并解释该结果:r=0.68073,对 r 进行 t 检验得到P=0.03030.05,则该相关系数具有统计学意义,说明 X 与 Y 之间具有中等强度的正相关关

24、系。第十六章第十六章 Logistic 回归分析回归分析1.logistic 回归模型一般形式:。将某011lnlogit()exp()1mmPPXXP事件的阳性与阴性结果概率之比去自然对数称为 logit 变换,记为 logit(P)。2.回归系数采用最大似然估计最大似然估计(maximum likelihood estimate,MLE,使在一次抽样中获j得现有样本的概率最大)得到表示自变量 Xj改变一个单位时 logit P 的改变量。多变量调整后的优势比,表示扣除了其他自变量的影响后危险因素的作用。ORj=1,说exp()jjOR明 Xj对疾病发生不起作用 ORj1,说明 Xj是一个危

25、险因素;ORj1,说明 Xj是一个保护因素,ORj的可信区间为:。1/2exp()jjbbuS3.logistic 回归模型假设检验的方法:似然比法似然比法(,适合单个和多个自变102(lnln)GLL量的假设检验)、Wald 检验检验(或,适合单个自变量的假设检验)和计计jjbbuS22jjbbS分检验分检验(适合样本量较小的情况)。变量筛选的方法:前进法、后退法、逐步法。4.条件 logistic 回归:适用于 1:M 配对设计资料,条件似然函数估计的是在 M+1 个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的,表j示匹配组效应的常数项被消去。05.有序

26、logistic 回归基于累积概率构建回归模型,g 个类别的因变量 Y 的有序 logistic 回归包括 g-1 个方程,这些方程的回归系数均相同,差别主要体现在各方程的常数项不同。0在对因变量 Y 赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。6.多分类 logistic 回归是二分类 logistic 回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的 logistic 回归模型。第十七章第十七章 生存分析生存分析1.生存分析的数据特点生存分析的数据特点:(1)同时考虑生存时间和生存结局;(2)通常含有删失数据删失数据(censoring,可能的原因:研究截止

27、但终点事件仍未出现;失去联系或其他原因导致失访;死于其他“事件”);(3)生存时间的分布通常不服从正态分布。2.统计学分析方法统计学分析方法:由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。(1)非参数法)非参数法:生存率的估计采用 Kaplan-Meier 法、寿命表法(频数表资料);两组或多组生存率的比较,常用 log-rank 检验检验(时序法,权重,对观察后期对观察后期1i差别敏感差别敏感)和 Breslow 检验检验(权重,为期初人数,随生存时间增大而逐渐减iinin小,Breslow 检验给观察早期差别更大权重,故对观察早期差别敏感对观察早期差别

28、敏感)。(2)半参数法)半参数法:多因素生存分析常采用 Cox 比例风险模型比例风险模型(前提条件前提条件:假定风险比值风险比值 h(t)/h0(t)为固定值为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:分类协变量每组的 K-M 生存曲线无交叉;协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法最大似然法)。(3)参数法:指数分布法、Weibull 分布法等回归模型。3.多元线性回归、多元线性回归、logistic 回归和回归和 Cox 回归的相同点和不同点回归的相同点和不同点(1)相同点)相同点:自变量可为连续变量和多分类变量,多分类变量需哑变量化,

29、哑变量在模型中是一个整体,必须同时“进”同时“出”;自变量间存在较强相关关系时可能导致多重共线性问题;自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;均可采用逐步回归筛选变量;均可进行影响因素分析、混杂因素校正、预测分析等。(2)不同点)不同点:第十八、十九章第十八、十九章 判别分析和聚类分析判别分析和聚类分析1.判别分析判别分析(discriminant analysis):根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数判别函数和判别准则判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。2.Fisher

30、 判别准则判别准则:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes 判别准则判别准则:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。3.评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率和事后概率错误率要小。4.聚类分析(聚类分析(Cluster Analysis):对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。5.聚类分析和判别分析的区别和联系聚类分析和判别分析的区别和联系(1)区别)区别:聚类分析可以对样

31、本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类;聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。(2)联系)联系:先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification)第二十章第二十章 主成分分析和因子分析主成分分析和因子分析1.主成分的性质(1)主成分互不相关;(2)主成分的贡献率和累积贡献率:贡献率越大,表明主成分

32、综合原始指标信息的能力越强;累积贡献率越高,说明前 k 个主成分综合原始资料信息的比例越高;(3)主成分个数的选取:以累计贡献率确定:累积贡献率70%为宜;以特征根值大小确定:特征根值1。(4)因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向;(5)样品的主成分得分:根据主成分表达式计算样品的主成分值,推断和评价样品的特性。2.因子模型的性质:(1)公共度:共性方差反映全体原始指标 Xi对所有公因子的依赖程度;h2i(2)因子贡献及因子贡献率:的值越大,则 Fj对原始指标的影响越大;2(3)因子荷载及因子荷载矩阵:因子荷载反映公因子与原始指标间密切程度与作用方向;2.主成分分析和因子

33、分析的区别和联系主成分分析和因子分析的区别和联系(1)联系)联系:都是根据变量之间内部相关性来提取主要信息,获得新的变量(公因子变量和主成分变量),达到减少变量个数(降维降维)的目的;主成分分析模型两端同时乘以,则有,即为无特殊因子的公因子模型;AX A F因子分析的结果(主成分解)即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为的初始值计算。h2i(2)区别)区别:主成分分析是将 m 个原变量提取提取 I(Im)个互不相关的主成分个互不相关的主成分,准确计算各主成分的准确计算各主成分的得分得分,其分析重点在于通过主成分综合原始变量的信息通过主成分综合原始变量的信息;因子分

34、析是提取提取 I(Im)个支配原变量的共性因子和个支配原变量的共性因子和 1 个特殊因子个特殊因子,各因子之间可以因子之间可以互不相关或相关互不相关或相关,根据共性因子得分系数估计因子得分估计因子得分,其分析重点是通过寻找共性因子通过寻找共性因子解释原始变量之间的关系解释原始变量之间的关系。第二十一章第二十一章 典型相关分析典型相关分析1.典型相关(典型相关(Canonical Correlation Analysis):是研究两组变量之间相关性两组变量之间相关性的一种统计分析方法。是一种降维降维技术。2.典型相关分析基本思想典型相关分析基本思想:借助主成分分析的思想,分别计算得到两组变量的主

35、成分,根据主成分综合原始变量信息的能力配对得到第 i 对典型相关变量(Ui,Vi)。两个第一主成分间的相关程度最大,即构成了第一对典型相关变量(U1,V1)。根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。3.典型相关系数(典型相关系数(canonical correlation coefficient):第 i 对典型相关变量间(Ui,Vi)的相关系数称为第 i 典型相关系数,反映了两组变量中存在的多种相关信息中第 i 大的一种。医学研究的统计学设计医学研究的统计学设计1.统计学设计内容:研究对象(分组、设置对照、样本含量)、处理因素、观察指标、数据的质量控制与

36、管理、统计分析方法。2.研究设计的三要素:受试对象、处理因素、实验效应。3.实验设计的基本原则:重复、对照、随机化4.随机的三个含义:分组随机均衡性:每个研究对象有同等机会被分配到各处理组抽样随机代表性:总体中每个观察个体有同等机会被抽取实验顺序随机:每个研究对象先后接受处理的机会相同5.影响样本含量大小的因素:样本含量的估计时,通常是由犯犯 I 类错误的概率类错误的概率、检验效能检验效能 1、个体值间的离散个体值间的离散程度程度 S、以及容许误差容许误差 d 来确定样本含量。6.常用的随机抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。7.对照类型:、空白对照、实验对照、

37、标准对照、相互对照、自身对照诊断试验评价与诊断试验评价与 ROC 分析分析1.常用指标:正确百分率、灵敏度、特异度、Youden 指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。金标准(D)诊 断 结 果(T)病例(D+)对照(D-)合 计阳 性(T+)TP(真阳性)FP(假阳性)TP+FP阴 性(T-)FN(假阴性)TN(真阴性)FN+TN合计TP+FNFP+TNN2.灵敏度与特异度灵敏度与特异度取值范围均在 01 之间,其值不受患病率的影响不受患病率的影响;Youden 指数指数的取值范围在 01 之间,其值越接近于 1,诊断准确性准确性越好;阳性似然比阳性似然比的取值范围为(0,),其值越大大,检测方法证实疾病证实疾病的能力越强;阴性似然比阴性似然比的取值范围为(0,),其值越小小,检测方法排除疾病排除疾病的能力越好;当灵敏度与特异度为常数时,增加患增加患病率病率将增加增加阳性预测值,而降低降低阴性预测值。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服