收藏 分销(赏)

相关分析和回归分析专题培训课件.ppt

上传人:快乐****生活 文档编号:12265397 上传时间:2025-09-29 格式:PPT 页数:70 大小:1.43MB 下载积分:16 金币
下载 相关 举报
相关分析和回归分析专题培训课件.ppt_第1页
第1页 / 共70页
相关分析和回归分析专题培训课件.ppt_第2页
第2页 / 共70页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,统计学原理,变量间的关系分为确定性关系和非确定性关系。,确定性关系即函数关系,非确定性关系即相关关系。,相关分析的主要目的是研究变量之间关系的密切程度。,回归分析是揭示一个变量如何与其他变量相联系,前者叫做解释变量,后者叫做被解释变量,相关分析和回归分析都是对客观事务数量依存关系的分析。,相关系数的取值范围在1和+1之间,即1r+1。其中:,若0r1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;,若1r0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;,1.相关分析的统计学原理,为了判断r对的代表性大小,需要对相关系数进行假设检验。,(1)首先假设总体相关性为零,即H,0,为两总体无显著的线性相关关系。,零假设 H,0,:x,y 不相关,备择假设 H,1,:x,y 相关,(2)其次,计算相应的统计量,并得到对应的P值。如果P值小于或等于指定的显著性水平,则拒绝H,0,,认为两总体存在显著的线性相关关系;如果P值大于指定的显著性水平,则不能拒绝H,0,,认为两总体不存在显著的线性相关关系。,0.05 不相关 通常取0.05。,P=也有时取值0.01或0.001,=0.05 相关,计算相关系数有不同的方法。其中,皮尔逊积矩相关系数(,Pearson简单相关系数,)适用等间隔测度,而Spearman相关系数和Kendall相关系数都是非参测度。,Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。,Pearson简单相关系数,计算公式如下。,Pearson简单相关系数计算公式为,对Pearson简单相关系数的统计检验是计算t统计量,公式为,t统计量服从n2个自由度的t分布。,定序变量,又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1小学及以下、2初中、3高中、中专、技校、4大学专科、5大学本科、6研究生以上。由小到大的取值能够代表学历由低到高。,Spearman和Kendalls tua-b等级相关系数用以衡量,定序变量,间的线性相关关系,它们利用的是非参数检验的方法。,Spearman等级相关系数为,对Spearman等级相关系数的统计检验,一般如果个案数n30,将直接利用Spearman等级相关统计量表,SPSS将自动根据该表给出对应的P值(相伴概率)。,Kendalls tau-b 等级相关系数,对Kendalls tua-b等级相关系数的统计检验,一般如果个案数n30,将直接利用Kendalls tua-b等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。,2.相关分析过程的操作原理,选择AnalyzeCorrelate,相关分析过程具体包括:,Bivariate:计算双变量间的相关系数;,Partial:计算偏相关系数;,Distances:对变量进行相似性或不相似性测度。,双变量相关分析过程,StatisticsCorrelateBivariate,数据5-1,选择求相关的变量:至少选择两个移动到:Variables内。,Correlation Coefficients,:,相关类型,Pearson:皮尔逊积矩相关系数,Kendalls tau-b:肯德尔和谐系数,Spearman:斯皮尔曼等级相关系数,Test of significance:,显著性检验,Two-tailed,:双侧检验(默认),One-tailed,:单侧检验,“,Flag significant correlations”,:,选择相关显著度水平的标识,,该标识就是,*,号。当显著度水平低于,0.05,时,显示一个*号,当低于,0.01,时,将显示两个*号。,Options 选项,Statistics:,Means and standard deviations,显示每一个变量的均值和标准差,Cross-product deviations and covariances,每一对变量的离均差交叉积与协方差,Missing values:缺失值,Exclude cases pairwise:成对删除,Exclude cases listwise:成列删除,偏相关分析,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。,定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。,偏相关分析的工具是计算偏相关系数r,12,3,。,统计学上的定义和计算公式,偏相关分析过程,StatisticsCorrelatePartial,数据5-2,选择两个求相关变量到:,Variables,框内,选择中介变量到控制变量,“Controlling”,框中,显示相关显著度水平的标识,“Display actual significance”,Options 选项,Statistics:,Means and standard deviations,显示每一个变量的均值和标准差,Zero-order correlations:,零阶相关系数,显示所有变量的Pearson相关系数,Missing values:缺失值,Exclude cases pairwise:,成对删除,Exclude cases listwise:,成列删除,偏相关系数的计算与伪相关的鉴别,数据文件5-4,2.回归分析的统计学原理,回归分析是研究客观事物变量间的关系,它是建立在对客观事物进行大量试验和观察的基础上,通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量(y)和自变量(x)之间数量变化规律,如何利用变量X,Y的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。,i,=,0,+,1,x,2i,+,2,x+,k,x,ki,+,i,回归分析过程操作原理,选择AnalyzeRegression,打开“Regression”的右拉式菜单,菜单包含:,1.Linear,线性回归。,2.Curve Estimation,曲线估计。,3.Binary Logistic 二元逻辑分析。,4.Multinomial Logistic 多元逻辑分析。,5.Ordinal 序数分析。,6.Probit 概率分析。,7.Nonlinear,非线性估计。,8.Weight Estimation 加权估计。,9.2-Stage Least Squares 两段最小二乘法。,在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。,其回归模型为,y,称为因变量,,x,称为自变量,称为随机误差,,a,b 称为待估计的回归参数,下标,i,表示第,i,个观测值。,如果给出,a,和b的估计量分别为 ,,则经验回归方程:,一般把 称为残差,残差可视为扰动 的“估计量”。,(1)线性回归过程,“Analyze”“Regression”“Linear,数据文件5-5,“Dependent”,:因变量,“Independent(S)”,:自变量,注:,SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。,“Selection Variable”,:控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。输入控制变量后,激活“Rule”按钮。,“Case Labels”,:选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。,“WLS”,:选择加权变量。,“Method”:,选择一种回归分析方式。,强行介入法,Enter,(一次性进入),这是一种不检验F和Tolerance,一次将全部自变量无条件地纳入回归方程。,强行剔除,Remove,(一次性剔除),指定某些变量不能进入方程。这种方法通常同别的方法联合使用,而不能首先或单独使用,因为第一次使用或单独使用将意味着没有哪个变量进入方程。,逐步进入,Stepwise,每次选择符合进入条件的自变量进入方程,进入后立即检验,不合格者剔除,直到全部合格自变量进入方程。,反向剔除,Backward,先强行介入,再逐个剔除不合格变量,直到全合格。,正向进入,Forward,每次选择符合进入条件的自变量进入方程,逐个选择,逐个进入,直到全部合格自变量进入方程。,“Statistics”,“,Regression Coefficients,”回归系数选项:,“,Estimates,”,输出回归系数和相关统计量。,“,Confidence interval,”,回归系数的,95%,置信区间。,“,Covariance matrix”,回归系数的方差,-,协方差矩阵。,“Residuals”残差选项:,“,Durbin-,Watson”Durbin,-Watson,检验。,“,Casewise,diagnostic”,输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:,“,Outliers outside standard deviations”,选择标准化残差的绝对值大于输入值的观测量;,“All cases”,选择所有观测量。,其它输入选项,“,Model fit”,输出相关系数、相关系数平方、调整系数、估计标准误、,ANOVA,表。,“,R squared change”,输出由于加入和剔除变量而引起的复相关系数平方的变化。,“,Descriptives,”,输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。,“,Part and partial correlation”,相关系数和偏相关系数。,“,Collinearity,diagnostics”,显示单个变量和共线性分析的公差,“Plots”,该对话框用于设置要绘制的图形的参数。,“X”和“Y”框用于选择X轴和Y轴相应的变量。,左上框中各项的意义分别为:,“,DEPENDNT,”因变量。,“,ZPRED,”标准化预测值。,“,ZRESID,”标准化残差。,“,DRESID,”删除残差。,“,ADJPRED,”调节预测值。,“,SRESID,”学生氏化残差。,“,SDRESID,”学生氏化删除残差。,“,Standardized Residual Plots,”设置各变量的标准化残差图形输出。,“,Histogram”,用直方图显示标准化残差。,“,Normal probability plots”,比较标准化残差与正态残 差的分布示意图。,“,Produce all partial plot,”,偏残差图。对每一个自变量生成其残差对因变量残差的散点图。,“Save”,“,Predicted Values,”预测值栏选项:,Unstandardized,非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。,Standardized,标准化预测值。,Adjusted 调整后预测值。,S.E.of mean predictions 预测值的标准误。,“,Distances,”距离栏选项:,Mahalanobis,:距离。,Cooks,:Cook距离。,Leverage values,:杠杆值。,“,Prediction Intervals,”预测区间选项:,Mean,:区间的中心位置。,Individual,:观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。,Confidence Interval,:置信度。,“,Save to New File,”保存为新文件:,选中“,Coefficient statistics,”项将回归系数保存到指定的文件中。,“,Export model information to XML file,”导出统计过程中的回归模型信息到指定文件。,“,Residuals,”保存残差选项:,“,Unstandardized,”非标准化残差。,“,Standardized,”标准化残差。,“,Studentized,”学生氏化残差。,“,Deleted,”删除残差。,“,Studentized deleted,”学生氏化删除残差。,“,Influence Statistics,”统计量的影响。,“,DfBeta(s)”,删除一个特定的观测值所引起的回归系数的变化。,“,Standardized DfBeta(s)”,标准化的DfBeta值。,“,DiFit,”删除一个特定的观测值所引起的预测值的变化。,“,Standardized DiFit,”标准化的DiFit值。,“,Covariance ratio,”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。,“Options”,“,Stepping Method Criteria,”框用于进行逐步回归时内部数值的设定,。,“,Use probability of F,”,如果一个变量的,F,值的概率小于所,设置的进入值(,Entry,),那么这个变量将被选入回归方程,中;当变量的,F,值的概率大于设置的剔除值(,Removal,),,则该变量将从回归方程中被剔除。由此可见,设置“,Use,probability of F”,时,应使进入值小于剔除。,“,Ues,F value,”,如果一个变量的,F,值大于所设置的进入值,(,Entry,),那么这个变量将被选入回归方程中;当变量的,F,值小于设置的剔除值(,Removal,),则该变量将从回归方,程中被剔除。同时,设置“,Use F value”,时,应使进入值大,于剔除值。,“,Include constant in equation”,选择此项表示在回归方程中有常数项。,“,Missing Values,”框用于设置对缺失值的处理方法。,“,Exclude cases listwise,”剔除所有含有缺失值的观测值。,“,Exchude cases pairwise,”仅剔除参与统计分析计算的变量中含有缺失值的观测量。,“,Replace with mean,”用变量的均值取代缺失值。,曲线配合过程,选择AnalyzeRegression-CurveEstimation,Case Labels,:选择标签变量,可以利用该变量的值在图上查找观测值,“,Models”,选择曲线方程模型,Linear,线性模型,Quadratic,二次模型,Compound,复合模型,Growth,生长模型,Logarithmic,对数模型,S,形模型,Cubic,抛物线模型,Exponential,指数的模型,Inverse,倒数模型,Power,幂函数模型,Logistic,逻辑斯蒂模型,当选中“Logistic”项时,应在,“,Upper bound,”框中输入一个,数值作为逻辑模型的上限值。,“,Include constant in equation,”:回归方程中包含常数项。,“,Plot models,”:绘制出回归方程模型图。,“,Display ANOVA table,”:输出方差分析表。,“Save”:,该对话框用于选择要保存的新变量。,“Save Variables”,框中列出了可保存的新变量:,“,Predicted values,”,:因变量的预测值。,“,Residuals,”,残差。因变量的观测值和预测值的差。,“,Prediction intervals,”,残差因变量的预测区间。当选中“,Prediction intervals”,项时,可在该项下面的“,Confidence interval,”,框中输入,显著性水平,。,“,Predict cases”,:当选择时间序列为自变量时,本栏设置一个超过数据时间序列的预测周期。,“,Predict from estimation period through last case,”,根据估计周期为所有的观测量提供预测周期。,“,Predict through,”,当要预测的观测量超过当前的数据时间序列时,输入观测量的一个周期数值。,二项逻辑回归,选择AnalyzeRegression-BinaryLogistics,概率回归过程,Probit概率回归过程主要用来测试分析反应比例与刺激强度之间的关系。,选择An-alyzeRegression-Probit,非线性回归分析,选择AnalyzeRegression-Nonlinear,“,Name,”:输入参数名称。,“,Starting,”输入参数的初始值。,输入完参数名和初始值后,单击“,Add,”按钮,则定义的变量及其初始值将显示在下方的参数框中。需要修改已经定义的参数变量,先用将其选中,然后在“Name”和“Starting”栏里进行修改,完成后点击“,Change,”按钮确认修改。要删除已经定义的参数变量,先用将其选中,然后点击“,Bemove,”按钮删除。,“Parameters”:用于设置参数的初始值。,比如:逻辑斯蒂模型中估计的参数有“K”、“a”和“b”三个参数变量。设置初始值为:K=0.1;a=3;b=0.1。输入后的“Nonlinear”对话窗口如下图。,“Model Expression”,:输入需要拟合的方程式,在该方程中包含自变量、参数变量和常数等。自变量和参数变量可以从左边的列表框和“Parameters”框里选入。,“Function”,:从中选入方程中的函数;运算符号和常数可以用鼠标从窗口“数字符号”显示区中点击输入。,“Loss”按钮:输入迭代条件,“Sum of squared residuals”,:残差平方和最小值,系统默认。,“,User-defined loss function”:,自定义选项。设置其他统计量为迭代条件,在下边输入框中输入相应的统计量的表达式,称为损失函数。在左上角的变量列表框中,“RESID”代表所选变量的残差;“PRED_”代表预测值。可以从左下角框中选择已定义的参数进入损失函数。,“Constraints”,按钮:设置回归方程中参数的取值范围,“Define parameter constraint”:可对选定的参数变量设置取值范围。参数的取值范围,用不等式“=,=”来定义。,“Save”:保存分析数据,“,Predicted values”,因变量的预测值。,“,Residuals”,因变量的残差。,“,Derivatives”,派生数。,“,Loss function values”,损失函数值。,“Options”:迭代方法,“Bootstrap estimates of standard error”:,将采用样本重复法计算标准误。样本重复法需要顺序二次规划算法的支持。当选中该项时,SPSS将自动选中“,Sequential quadratic Programming”,项。,“Estimation Method”:参数的估计方法,“,Sequential Quadratic Programming”,项为顺序二次规划算法。该方法要求输入的参数为:,“Maximum”,最大迭代步数。,“Step,Iimit,”,最大步长。,“Optimality”,目标函数的迭代误差限。,“Function”,函数精度,应比目标函数的迭代误差限小。,“Infinite step”,当一次迭代中参数值的变化大于设置值,则迭代停止。,Levenberg,-Marquardt”,项,采用麦夸尔迭代法,系统缺省设置,“Maximum iterations”最大迭代步数。,“Sum-of-squares convergence”在一步迭代中目标函数,残差平方和的变化比例小于设置的值时,迭代停止。,“Parameter convergence”在一步迭代中参数的变化比例,小于设置值时,迭代停止。,加权估计,选择AnalyzeRegression-WeightEstimation,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服