1、第三章 回归诊疗 回归诊断医学知识专题讲座第1页回归诊断医学知识专题讲座第2页在实际中这些假定是否合理?假如实际数据与这些假设偏离在实际中这些假定是否合理?假如实际数据与这些假设偏离比较大,那么前面讨论相关参数区间预计,假设检验就不再比较大,那么前面讨论相关参数区间预计,假设检验就不再成立。假如经过分析,已经确认对所研究详细数据,上面假成立。假如经过分析,已经确认对所研究详细数据,上面假设不成立,那么我们又希望探讨对数据作怎样修正后,能使设不成立,那么我们又希望探讨对数据作怎样修正后,能使它们满足或近似满足这些假设。这些就是回归诊疗中所要处它们满足或近似满足这些假设。这些就是回归诊疗中所要处理
2、第一个问题。理第一个问题。回归诊疗另一个研究问题是对数据诊疗,探查对统计推断有回归诊疗另一个研究问题是对数据诊疗,探查对统计推断有较大影响试验点,这么点称为强影响点。较大影响试验点,这么点称为强影响点。回归诊断医学知识专题讲座第3页3.1 残差及残差图残差及残差图回归诊断医学知识专题讲座第4页回归诊断医学知识专题讲座第5页回归诊断医学知识专题讲座第6页回归诊断医学知识专题讲座第7页回归诊断医学知识专题讲座第8页回归诊断医学知识专题讲座第9页回归诊断医学知识专题讲座第10页回归诊断医学知识专题讲座第11页统计诊疗内容和意义统计诊疗内容和意义 我们所选择模型能不能大致上反应所要研我们所选择模型能不
3、能大致上反应所要研究实际问题?究实际问题?我们搜集数据会不会因为搜集过程中疏忽我们搜集数据会不会因为搜集过程中疏忽或其它种种原因而出现较大误差?这些错或其它种种原因而出现较大误差?这些错误数据会不会严重干扰我们对实际问题所误数据会不会严重干扰我们对实际问题所作结论?作结论?回归诊断医学知识专题讲座第12页 统计诊疗是针对上述问题发展起来一个分统计诊疗是针对上述问题发展起来一个分析方法。寻找一个诊疗方法,判断实际数据析方法。寻找一个诊疗方法,判断实际数据与既定模型是否有较大偏离,并采取对应对与既定模型是否有较大偏离,并采取对应对策是统计诊疗主要内容。策是统计诊疗主要内容。回归诊断医学知识专题讲座
4、第13页识别、判定和检验异常点。识别、判定和检验异常点。区分出对统计推断影响尤其大点(影响分析)。区分出对统计推断影响尤其大点(影响分析)。残差分析和残差图能用于研究既定模型与实际数据是否能残差分析和残差图能用于研究既定模型与实际数据是否能很好拟合。其中包含:模型线性诊疗、模型误差方差齐性很好拟合。其中包含:模型线性诊疗、模型误差方差齐性诊疗、模型误差独立性诊疗、模型误差正态性诊疗等。诊疗、模型误差独立性诊疗、模型误差正态性诊疗等。综合以上所述回归诊疗有以下主要综合以上所述回归诊疗有以下主要内容:内容:回归诊断医学知识专题讲座第14页3.2 回归诊疗一(数据诊疗)回归诊断医学知识专题讲座第15
5、页(一一)、统计诊疗两个基本概念、统计诊疗两个基本概念(1)异常点异常点 在回归模型中,异常点是指对既定模型在回归模型中,异常点是指对既定模型偏离很大数据点。但终究偏离到达何种程偏离很大数据点。但终究偏离到达何种程度才算是异常,这就必须对模型误差项分度才算是异常,这就必须对模型误差项分布有一定假设(通常假定为正态分布)。布有一定假设(通常假定为正态分布)。回归诊断医学知识专题讲座第16页当前对异常点有以下两种较为流行看法:把异常点看成是那些与数据集主体显著不把异常点看成是那些与数据集主体显著不协调,使得研究者大感诧异数据点。这时,协调,使得研究者大感诧异数据点。这时,异常点可解释为所假定分布中
6、极端点,即异常点可解释为所假定分布中极端点,即落在分布单侧或双侧分位点以外点,而通落在分布单侧或双侧分位点以外点,而通常取很小值(如:常取很小值(如:0.005),致使观察者对),致使观察者对数据中出现如此极端点感到意外。数据中出现如此极端点感到意外。回归诊断医学知识专题讲座第17页(2)强影响点)强影响点 数据集中强影响点是指那些对统计量取值有非常大影数据集中强影响点是指那些对统计量取值有非常大影响力点。在考虑强影响点时,有几个基本问题需要考虑:响力点。在考虑强影响点时,有几个基本问题需要考虑:首先必须明确首先必须明确“是对哪个统计量影响?是对哪个统计量影响?”比如,线性回归比如,线性回归模
7、型所考虑是对回归系数预计量影响;不是对误差方差预模型所考虑是对回归系数预计量影响;不是对误差方差预计影响;或是对拟合优度统计量影响等等。分析目标不一计影响;或是对拟合优度统计量影响等等。分析目标不一样,所考虑影响亦有所不一样。样,所考虑影响亦有所不一样。回归诊断医学知识专题讲座第18页其次,必须确定其次,必须确定“度量影响尺度是什么?度量影响尺度是什么?”为了定量地为了定量地刻划影响大小,迄今为止已提出各种尺度,基于置信域刻划影响大小,迄今为止已提出各种尺度,基于置信域尺度,基于似然函数尺度等等。在每一个类型中又可能尺度,基于似然函数尺度等等。在每一个类型中又可能有不一样统计量,比如基于影响函
8、数就已提出各种有不一样统计量,比如基于影响函数就已提出各种“距距离离”来度量影响,有来度量影响,有Cook距离、距离、Welsch-Kuh距离、距离、Welsch距离等等。每一个度量都是着眼于某首先影响,距离等等。每一个度量都是着眼于某首先影响,并在某种详细场所下较为有效。这首先反应了度量影响并在某种详细场所下较为有效。这首先反应了度量影响问题复杂性,另首先也说明了影响分析研究在统计诊疗问题复杂性,另首先也说明了影响分析研究在统计诊疗中是一个甚为活跃方向,还有大量有待处理问题。中是一个甚为活跃方向,还有大量有待处理问题。回归诊断医学知识专题讲座第19页强影响点通常是数据集中更为主要数据点,它往
9、往能提强影响点通常是数据集中更为主要数据点,它往往能提供比普通数据点更多信息,所以需引发尤其注意。供比普通数据点更多信息,所以需引发尤其注意。强影响点和异常点是两个不一样概念,它们之间现有联强影响点和异常点是两个不一样概念,它们之间现有联络也有区分。强影响点可能同时又是异常点也可能不是;络也有区分。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。反之,异常点可能同时又是强影响点也可能不是。回归诊断医学知识专题讲座第20页(二二)、影响分析、影响分析回归诊断医学知识专题讲座第21页回归诊断医学知识专题讲座第22页回归诊断医学知识专题讲座第23页回归诊断医学知识专
10、题讲座第24页回归诊断医学知识专题讲座第25页回归诊断医学知识专题讲座第26页回归诊断医学知识专题讲座第27页3.3 回归诊疗二(模型诊疗)回归诊疗二(模型诊疗)回归诊断医学知识专题讲座第28页回归诊断医学知识专题讲座第29页回归诊断医学知识专题讲座第30页回归诊断医学知识专题讲座第31页回归诊断医学知识专题讲座第32页回归诊断医学知识专题讲座第33页(2)模型修正 为了修改模型,我们再作以 为横坐标残差图回归诊断医学知识专题讲座第34页回归诊断医学知识专题讲座第35页模型修改后预测值及残差回归诊断医学知识专题讲座第36页模型修改后残差图回归诊断医学知识专题讲座第37页误差方差齐性诊疗误差方差
11、齐性诊疗回归诊断医学知识专题讲座第38页回归诊断医学知识专题讲座第39页回归诊断医学知识专题讲座第40页回归诊断医学知识专题讲座第41页回归诊断医学知识专题讲座第42页回归诊断医学知识专题讲座第43页回归诊断医学知识专题讲座第44页回归诊断医学知识专题讲座第45页回归诊断医学知识专题讲座第46页回归诊断医学知识专题讲座第47页回归诊断医学知识专题讲座第48页回归诊断医学知识专题讲座第49页三、误差独立性诊疗三、误差独立性诊疗在不少相关时间问题中,观察值往往呈相关趋势。如河流水位总有一个改变过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天观察
12、间就不一定独立。回归诊断医学知识专题讲座第50页回归诊断医学知识专题讲座第51页回归诊断医学知识专题讲座第52页回归诊断医学知识专题讲座第53页回归诊断医学知识专题讲座第54页回归诊断医学知识专题讲座第55页回归诊断医学知识专题讲座第56页回归诊断医学知识专题讲座第57页回归诊断医学知识专题讲座第58页回归诊断医学知识专题讲座第59页回归诊断医学知识专题讲座第60页回归诊断医学知识专题讲座第61页四、误差正态性诊疗四、误差正态性诊疗回归诊断医学知识专题讲座第62页回归诊断医学知识专题讲座第63页回归诊断医学知识专题讲座第64页回归诊断医学知识专题讲座第65页回归诊断医学知识专题讲座第66页回归
13、诊断医学知识专题讲座第67页回归诊断医学知识专题讲座第68页回归诊断医学知识专题讲座第69页回归诊断医学知识专题讲座第70页回归诊疗在SAS上实现用语句plot r.*p.(r是residual缩写,p是predicted缩写)能够作残差r相对于拟合值p之间散点图。假如此散点图在0水平线上下均匀散布,且对p没有趋向性,则可认为 满足方差齐性假设、且认为回归函数线性假设合理。回归诊断医学知识专题讲座第71页model y=x/dw r;选项里加上dw表示计算DW检验值。r表示计算学生化残差,并计算Cook距离,若Cook距离相对较大,则课认为是强影响点。若学生化残差绝对值大于2,则可认为是异常点
14、。从学生化残差也可判断误差正态性假设是否满足。回归诊断医学知识专题讲座第72页例子.给10只大白鼠注射内霉素(30mg/kg)后,测得每只大鼠红细胞x与血红蛋白含量Y数据(见下页SAS文件),试对X和Y进行回归分析。回归诊断医学知识专题讲座第73页data mouse;input x y;cards;654 130786 168667 143605 130 761 158642 129 652 151706 153602 151539 109;proc reg;model y=x;run;proc reg;model y=x/noint dw r cli clm;plot r.*p.;run;
15、回归诊断医学知识专题讲座第74页残差图回归诊断医学知识专题讲座第75页误差独立性诊疗回归诊断医学知识专题讲座第76页第九个为异常点、强影响点 Output Statistics Std Error Student Cooks Obs Residual Residual -2-1 0 1 2 D 1 9.279 -1.129|*|0.136 2 9.056 -0.0913|0.001 3 9.259 -0.0288|0.000 4 9.350 0.00543|0.000 5 9.101 -0.600|*|0.054 6 9.297 -0.957|*|0.094 7 9.282 1.180|*|0.148 8 9.196 0.148|0.003 9 9.354 2.319|*|0.480 10 9.437 -0.718|*|0.036 Sum of Residuals 1.36513 Sum of Squared Residuals 857.80435 Predicted Residual SS(PRESS)1031.32594回归诊断医学知识专题讲座第77页
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100