1、CorrelationCorrelation Analysis Analysis 相关分析相关分析相关分析相关分析 童新元 中国人民解放军总医院名人格言 如果你想得到一个明智的回答,如果你想得到一个明智的回答,你就必须理智的提问。你就必须理智的提问。-歌德歌德 德国德国(1749-1832)医学问题讨论父母与子女之间哪些方面相像?怎样研究父子两代人之间的相像?相关简介相关简介医学科研中,我们不仅会关心单个变量的变化,而且更多地会去研究两个或多个连续变量间相互变化、相互。比如,如人体的血压和脉搏,儿童的生长发育要观察身高和体重等等。要研究这些变量间的相互关系怎样?(2)函数与统计模型 哲学观点认
2、为,世上万物的变化发展不是独立的,是有联系的.两个变量之间的关系两个变量之间的关系可以分为确定性关系和不确定性关系。可以分为确定性关系和不确定性关系。两个变量确定性关系,可用经典关系,可用经典数学中函数关系进行表达:y=f(x)如匀速直线运动距离与时间的关系S=V*tS自由落体运动规律:公式:h=1/2 g*t2重力加速度常数重力加速度常数 g=9.80665米米/秒秒2公式是怎样产生的公式是怎样产生的?h牛顿的自由落体运动自由落体高度与时间的关系不确定性关系儿童年龄x与身高Y关系;父母身高X与子女的身高Y关系;人体体重X与血压Y;血糖X与胰岛素Y的关系;脉搏X与血压Y的关系;统计学模型:y=
3、f(x)+e不确定性关系的研究相关分析回归分析什么是什么是“相关相关”相关:即彼此关联现代汉语词典.(达尔文,1859年10月24日出版)提出“相关”(correlation)来描述生物物种的进化与环境之间的定性关系;生物统计学高尔顿(Galton,1822-1911)引入统计学研究关于父子两代人之间的身高的相互关系。“相关相关”的统计定义的统计定义当一个变量随另一个变量变化时,统计学中称它们有相关关系。两变量之的相关关系有线性相关与非线性相关.我们主要学习线性相关.第一节第一节直线相关直线相关 如果在两个变量之间,当一个变量增大,如果在两个变量之间,当一个变量增大,另一个也随之增大(或减少)
4、另一个也随之增大(或减少),且有线性趋且有线性趋势时,称两个变量间有线性相关关系。势时,称两个变量间有线性相关关系。在直角坐标系中,两个成对出现变量X和Y的值对应平面上的一个点(Xi,Yi),将每个点(Xi,Yi)绘在该坐标系中,形成散点图。例,研究父高与子女身高的关系图.P47一、散点图一、散点图散点图可直观判断两个变量间是否有线性相关.二、相关性大小的度量二、相关性大小的度量统计学家皮尔逊(Pearson,1857-1936)提出相关系数r的概念,并提出用相关系数r来度量两个变量之间相关大小的统计理论公式。统计学上称为Pearson相关系数r,或简单相关系数.Pearson相关统计量的构造
5、相关统计量的构造 1、相关系数的计算相关系数的计算公式公式 Pearson相关系数相关系数(r)表示两个变量表示两个变量X,Y间的直线关系间的直线关系,它说明两个变量联系的它说明两个变量联系的紧密程度。紧密程度。相关系数r的特点1、r在-1+1范围内波动。2、绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,线性相关愈不密切。3、相关系数r没有单位。正相关和负相关正相关和负相关 若两个变量同时增加或减少,变化趋势是若两个变量同时增加或减少,变化趋势是同向的,则称两变量之间关系为正相关同向的,则称两变量之间关系为正相关(positive correlation););r 0。若一个变量增加时
6、,另一个变量减少,变若一个变量增加时,另一个变量减少,变化趋势是反向的,则称两变量之间关系为化趋势是反向的,则称两变量之间关系为负相关(负相关(negative correlation);r r0。r愈接近1,相关愈密切。当所有点子都在一条直线上时,r=1,称为完全正相关。2负相关 Y随X的增加而减少,X亦随Y的增加而减少,0r-1。r愈接近-1,相关愈密切。当所有点子都在一条直线上时,r=-1,称为完全负相关。3无相关 X不论增加或减少,Y的大小不受其影响;反之亦然,此时r0。2、相关系数的检验(1)建立检验假设:(2)相关系数r的t值和P值:(3)判断与决策二、实例分析二、实例分析例12-
7、1 测定16种食物中的热量(卡路里)和脂肪含量(克),结果见表12.1中的,问食物热量与脂肪含量有无相关?解题分析从表12.1中看出,随着食物脂肪含量的增加,其热量亦随之增大,但两者间联系的紧密程度如何,两变量间是否有线性关系,相关的程度和方向的确定,还必须用相关分析来做解答。解题步骤如下:1)1)作散点图作散点图,判断是否有线性趋势。按表12.1中数据(X,Y)的值在直角坐标系上画出16个点,见下图。由散点图判断,两变量有线性趋势,且为正相关。可作相关分析。2)2)计算相关系数计算相关系数r=0.9106 3)检验假设检验假设,步骤如下:(1)建立检验假设:H0:0,脂肪含量与热量无关;H1
8、:0,脂肪含量与热量有关。0.05。(2)计算统计量t值和P值:t=8.2416,自由度=14,查t界值表得P0.05。(3)判定与决策按0.05,拒绝H0,接受H1,故可认为这16种食物的脂肪含量与热量之间有正相关关系。4.相关分析的CHISS实现点击 统计统计统计推断统计推断相关矩阵相关矩阵CHISS实现直线相关的步骤:1 1、进入数据模块、进入数据模块 打开数据库b12-1.DBF。点击 数据数据文件文件打开数据库表打开数据库表 找到文件名为:找到文件名为:b12-1.DBF 确认确认2 2、进入统计模块、进入统计模块 进行统计计算 点击 统计统计统计推断统计推断相关矩阵相关矩阵 反应变
9、量:反应变量:X脂肪 Y热量确认确认 5.相关大小的分类当经假设检验两个变量间存在相关时:若r0.7称为高度相关;若0.7r0.4称为中度相关;若r0.4称为低度相关.6.线性相关的条件线性关系双变量正态第二节Spearman等级相关等级相关当两个变量总体分布未知或不服从正态分布时,不能直接用线性相关分析,我们可以采用两变量的秩次大小作线性相关分析,来说明两个变量间相关的程度大小与方向,统计学上称为等级相关,亦称秩相关(rank correlation)。最常用的Spearman秩相关。一、秩相关系数的计算一、秩相关系数的计算秩相关系数秩相关系数r rs s计算的原理计算的原理:对对原原始始数
10、数据据进进行行排排序序编编秩,用秩次的大小代替原始数据来计算pearson相关系数即为秩相关系数rs。rs用来说明两个变量间相关的程度与方向。它也是总体相关系数s的估计值。秩相关系数rs的特点1)rs介于1和1之间2)rs0为负相关,rs0为正相关rs3)无量纲.二、秩相关系数的检验二、秩相关系数的检验由样本算出的秩相关系数是否有统计学意义,同样应作假设检验。1)建立假设:H0:s0,H1:s02)求t值和P值。3)判断与决策。三、实例分析三、实例分析例12-2 某实验用白蚊伊蚊c6/36细胞微量培养中和试验,检测临床诊断为乙脑患者的晚期血清,并与血凝抑制试验进行比较,测量结果如下。问两种试验
11、方法是否存在相关性?四、等级相关CHISS实现1、点击 数据数据文件文件打开数据库表打开数据库表 找到文件名为:找到文件名为:b12-2秩相关.DBF确认确认2、进入统计模块、进入统计模块 进行统计计算 点击 统统计计统统计计推推断断非非参参数数方方法法秩相关秩相关 反应变量:反应变量:X Y 确认确认 五、等级变量的数量化临床上常常出现等级数据,如无效(-),有效(+),显效(+),痊愈(+)等。处理这类资料时,常将它们用数值来代替,如以0代,以1代,以2代+,以3代+等。这里,数值之间的关系仅仅是等级关系,并不代表其数值的大小。其两变量相关性分析需采用等级相关。例11-2*某医院探讨肠结核临床诊断与X线诊断是否一致,结果如表11-7所示,问两种方法诊断结果有无关联?p136例11-3*为研究年龄与视力的关系,某研究人员收集的资料见表11-8所示。问视力是否与年龄有关?p139
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100