1、相关及回归分析相关及回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-2Rev 2.0MeasureMeasureDefineDefineAnalyzeAnalyzeImproveImproveControlControl方法论方法论q Analyze Analyze 概要概要q DATA DATA 收集计划收集计划 q Graph Graph 分析分析 q 假设检定概要假设检定概要q 平均的检定平均的检定 q 分散的检定分散的检定q 比率的检定比率的检定q 相关及回归分析相关及回归分析Proprietary to Sa
2、msung Electronics CompanyAnalyze 相关及回归分析-3Rev 2.0相关及回归分析相关及回归分析qq 学习目标学习目标学习目标学习目标1.1.理解相关、回归分析的概念及用语。理解相关、回归分析的概念及用语。2.2.理解相关、回归分析的使用目的。理解相关、回归分析的使用目的。3.3.理解利用理解利用MinitabMinitab的相关分析方法。的相关分析方法。4.4.理解利用理解利用MinitabMinitab的回归分析方法。的回归分析方法。Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-4Rev 2
3、.0定义定义q 相关分析相关分析(Correlation Analysis):Correlation Analysis):是把计量型输出变量和计量型输入变量之间相关程度,利用相关常数(r)“数量化”的技法。q 回归分析回归分析(Regression Analysis):Regression Analysis):导出输入变量X和输出变量Y的函数关系,预测输出变量的统计性分析技法。q 回归式回归式(Regression Equation):Regression Equation):为预测对应的输出值,利用输入值的预测方程式。Proprietary to Samsung Electronics Co
4、mpanyAnalyze 相关及回归分析-5Rev 2.08765432106050403020100-10-20K N O B-1O U T-195%PI95%CIRegress ionR-Squared=0.941Y=-10.3333+7.75XR e g re s s i o n P lo t为什么使用这样的工具为什么使用这样的工具?所有可能的所有可能的XsXs概率高的概率高的概率高的概率高的 XsXsXsXsq不防碍工程进行,对工程有意义的 DATA收集可能。进行DOE时跟加人为的变化比较q相关关系是提供Graph分析,输入变量和输出变量的相关性计量化而确认。q回归分析使用于为了管理输
5、入变量的预测式导出。q回归分析能显示输入变量和输出变量之间的因果关系,所以能决定潜在Xs是否为Vital Few Xs.Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-6Rev 2.0 散点图散点图(Scatter Diagram)Scatter Diagram)相关分析相关分析(Correlation Analysis)Correlation Analysis)在统计学中最有兴趣的问题中的一个变量间相关性分析的方法,通过散点图和相关常数能分析。例例)智能指数和学业成绩、吸咽量和肺癌的发生率、身高和体重、工程温度和 制品强度、
6、运动量和肺活量间的关系、所得和消费支出。相关分析的第一阶段,把相互对应的资料 用作表平面上的点来表示的Graph,能大概确认两个变量之间的关系。相关分析相关分析制品强度(Y)工程温度(X)Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-7Rev 2.0 相关常数相关常数(Correlation Coefficient)定量表示两个变量之间线形关系的指标,并不表示函数关系。一般用 表示,其范围是 1 1.一般不可知道的正确值,因此使用从Sample中推定的值 r。相关常数相关常数(Correlation Coefficient)
7、的性质的性质 r 值值(+)时 阳的相关关系()时 阴的相关关系接近于0时,没有相关关系。接近于-1 或1时有强的相关关系。相关分析相关分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-8Rev 2.0 散点图和相关关系散点图和相关关系散点图和相关关系散点图和相关关系 强的阳的相关关系强的阳的相关关系 弱的阳的相关关系弱的阳的相关关系 中间程度的阳的相关关系中间程度的阳的相关关系 强的阴的相关关系强的阴的相关关系 弱的阴的相关关系弱的阴的相关关系 中间程度的阴的相关关系中间程度的阴的相关关系 相关分析相关分析 Proprie
8、tary to Samsung Electronics CompanyAnalyze 相关及回归分析-9Rev 2.0相关常数的乱用和误用q检定两个变量之间存在相关关系,并不是一个变量成为 另一个变量的原因。q可能会藏在对两个变量都有影响的第三变量。q即,两个变量之间存在相关关系的结论,并不是一个变量 成为另一个变量的原因。相关关系并不一定意味着相关关系并不一定意味着因果关系因果关系!Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-10Rev 2.0通过下例观察散点图和相关分析。通过下例观察散点图和相关分析。广告费(10万)销
9、售额(100万)广告费(10万)销售额(100万)4 9 12 238 20 6 189 22 10 258 15 6 107 17 9 20下面是表示某公司的广告费用和销售额之间关系的资料。求这公司的广告费和销售额的相关常数。例题例题1 1相关分析相关分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-11Rev 2.0Step 1Work sheet 里输入里输入DATA(Correlation.mtw)Step 2Graph Plot 通过Plot 作成散点图的结果,预测是阳的相关关系。(Y 栏里C2,X栏里 输入C1)
10、相关分析相关分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-12Rev 2.0Step 3Stat Basic Statistics CorrelationStep 4Session 结果确认结果确认 选择两个选择两个变量列变量列相关常数是相关常数是 0.853有阳的相关关系有阳的相关关系,p 值为值为 0.002小于小于 留意水准留意水准 0.05,所以广告费和销售额的相关关系是有影响的。所以广告费和销售额的相关关系是有影响的。相关常数相关常数p p 值值相关分析相关分析Proprietary to Samsung El
11、ectronics CompanyAnalyze 相关及回归分析-13Rev 2.0 回归分析(Regression Analysis)Regression Analysis)为了查明变量之间函数的相关性而假定某数学Model,从已测定变量的Data中 推定其Model的统计性分析方法。根据这样的函数Model,从一个变量的变化 能预测另一个变量的变化例例)父亲和儿子的身高关系 工程温度影响的制品强度输出变量:欲预测的变量,受输入变量影响的变量。输入变量:影响输出变量的变量。输入变量和输出变量输入变量和输出变量(反应变量)父亲的身高和工程温度是独立变量,父亲的身高和工程温度是独立变量,儿子的身
12、高和制品的强度是从属变量儿子的身高和制品的强度是从属变量!回归分析回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-14Rev 2.0 R-Sq值叫决定系数用 R2表示。在0 R2 1范围,总变动中被回归线说明的变动所占的比率。R2 值越接近1时,回归线越高,判断有意义。合理的值是多少?根据情况不同。化学者要求的是 0.99程度的R R2 2 值,但根据工程和产业不同。一般值为0.7以上是可以认为输出变量和 输入变量的关系大。如果R R2 2是0.679(67.9%),用回归方程式能说明散布的67.9%,剩下的 32.1
13、%是别的原因造成的。q 决定系数决定系数(Coefficient of Determination)Coefficient of Determination)回归分析回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-15Rev 2.0通过下例观察回归分析和决定系数。通过下例观察回归分析和决定系数。例题例题2 2为了知道机械的使用年度和 整备费用之间有什么关系,得到了有关对相同机械整备记录的如下DATA。3 1 5 8 1 4 2 6 9 3 5 7 2 639 24 115 105 50 86 67 90 140 112
14、 70 186 43 126使用年度(年)整备费用(千元)1)对这个DATA求说明 x与 y之间关系的单纯回归方程式。2)使用年度为10年时,整备费用是多少?回归分析回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-16Rev 2.0Step 1Work sheet里里 DATA 输入输入Step 2Stat Regression Regression 选择输出变量列选择输出变量列 选择输入变量列选择输入变量列(Regression.mtw)回归分析回归分析Proprietary to Samsung Electroni
15、cs CompanyAnalyze 相关及回归分析-17Rev 2.0选择显示在残差选择显示在残差GraphGraph的的残差形态残差形态 Regression-Graphs:Regression-Graphs:Regression-Graphs:Regression-Graphs:选择为帮助最佳回归模型分析的残差选择为帮助最佳回归模型分析的残差选择为帮助最佳回归模型分析的残差选择为帮助最佳回归模型分析的残差 Plot Plot 的形态的形态 Histogram of residuals:残差Histogram 作成Normal plot of residuals:为残差的正规性检定而作成Gr
16、aphResiduals versus fits:作成残差和被适合值的图Residuals versus order:作成残差对观测顺序的图Residuals versus the variables:作成残差对指定变量的图回归分析回归分析Residual PlotsProprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-18Rev 2.0输入所需的输入所需的x x 值,通过得出的回归式值,通过得出的回归式可以求可以求 值和信赖区间。值和信赖区间。输入输入1010,能计算出能计算出1010年后的年后的整备整备费用费用(预测值预测值)。
17、Regression-Options:Regression-Options:可以选择加重值列,预测新的观测值确认信赖区间。可以选择加重值列,预测新的观测值确认信赖区间。可以选择加重值列,预测新的观测值确认信赖区间。可以选择加重值列,预测新的观测值确认信赖区间。回归分析回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-19Rev 2.0 StorageStorage:选择从选择从Work sheet 的输入变量和输出变量列的下一个列开始被的输入变量和输出变量列的下一个列开始被Check的项目。的项目。ResultsResu
18、lts:调整对显示在调整对显示在Window Section的回归模型的分析结果范围。的回归模型的分析结果范围。回归分析回归分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-20Rev 2.0Step 3Step 3SessionSession结果确认结果确认 关于关于整备整备费用和使用年度的回归式是费用和使用年度的回归式是决定系数决定系数R-Sq R-Sq 值为值为61%61%,在全体变动中按回归直线在全体变动中按回归直线说明的变动是说明的变动是61%.61%.使用年度使用年度1010年的机械的年的机械的整备整备费用费用期
19、待值是期待值是165165.4848,对其的对其的95%95%信赖区间是信赖区间是(123.66,207.29123.66,207.29).).回归分析回归分析p p 值为值为0.0010.001小于留意水准小于留意水准0.0.0505,所以认为上面的回归式有意。所以认为上面的回归式有意。R-Sq(R-Sq(adjadj)是在回归式上每追加变量是在回归式上每追加变量R-Sq R-Sq 值就增加的调整值。值就增加的调整值。输入变量两个以上时,此值有意义,输入变量两个以上时,此值有意义,所以一般分析所以一般分析 R-Sq(R-Sq(adjadj).).Proprietary to Samsung
20、Electronics CompanyAnalyze 相关及回归分析-21Rev 2.0Step 1Stat Regression Fitted Line Plot 选择输出变量列选择输出变量列 选择输入变量列选择输入变量列 回归模型的类型决定回归模型的类型决定(1(1次次,2,2次次,3,3次次)回归分析回归分析 Fitted Line Plot:欲用欲用Graph分析时活用。分析时活用。Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-22Rev 2.0Step 2Graph 结果确认结果确认回归分析回归分析Propriet
21、ary to Samsung Electronics CompanyAnalyze 相关及回归分析-23Rev 2.0 残差分析残差分析从实际值中减掉被回归模型适合的值叫残差,通过残差分析我们要确认模型的适合性。残差分析残差分析-残差越小,推定的回归式越准确 说明实际观测结果。-残差是误差最好的推定值。-残差按独立变量的大小顺序或者 资料的输入顺序排列时,确认他 们对0对称,不显示特别的倾向。残差 实际值回归模型 残差残差:Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-24Rev 2.0例题例题3 3为了知道机械的使用年度和
22、整备费用之间有什么关系,得到了对相同机械的整备记录有关的如下 Data。得出适合值和残差后执行残差分析。3 1 5 8 1 4 2 6 9 3 5 7 2 639 24 115 105 50 86 67 90 140 112 70 186 43 126使用年度(年)整备费用(千元)残差分析残差分析Step 1Work sheet 里输入里输入DATA(Residuals.mtw)Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-25Rev 2.0Step 2Stat Regression Regression 选择从属变量列选择
23、从属变量列 选择独立变量列选择独立变量列残差分析残差分析 Storage Storage Fits(Fits(适合值适合值)CheckCheck Residuals(Residuals(残差残差)CheckCheckProprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-26Rev 2.0Step 3Work sheet 结果确认结果确认 残差和残差和适合值被储存。适合值被储存。Step 4Stat Regression Residual Plots 选择适合值列选择适合值列 选择残差列选择残差列残差分析残差分析Proprietary
24、 to Samsung Electronics CompanyAnalyze 相关及回归分析-27Rev 2.0Step 5确认确认Graph 残差分析残差分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-28Rev 2.0 结果分析结果分析结果分析结果分析 通过Normal Plot of Residuals 数据分布接近于对角线,所以可以说残差的分布 接近于正态分布。(通过Stat Basic Statistics Normality Test 更仔细地做到正规性检定。)在I Chart of Residuals中不离开
25、管理限界线,因不具有任何Perform,所以可以说残差的分布是稳定的。Histogram of Residuals 是表示残差形态的Graph。Residuals vs.Fits 是残差对适合值的Graph,在0近处任意地分布。因此,可以说回归模型是适合的。残差分析残差分析Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-29Rev 2.0实习实习q按下面方法做纸飞机的实习。1)机翼长度为 6 14cm 2)机翼长度按每次5mm差剪掉。3)测定2.5m高度的降落时间。q得到回归方程式后,求降落时间成为2秒及2.5秒时的翅膀的长度
26、。90 90 分钟分钟Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-30Rev 2.0 练习问题练习问题 1.下表是检查人的记忆力x 和判断力 y 的。记忆力 x 11 10 14 18 10 6 12 8 15 16 判断力 y 6 4 6 9 2 3 3 9 6 7 按以下顺序分析。1)记述X变量和Y变量之间的关系。(例:X减少时,Y增加)2)解释残差。残差Histogram 和正态性的点 a)残差随正态性分布吗?b)在Anderson-Darling的正态性检定中 P-Value为多少?Proprietary to Samsung Electronics CompanyAnalyze 相关及回归分析-31Rev 2.0 残差对适合 c)Model适合吗?d)对这个结论怎么想?e)在Graph上能观测什么?3 请解释结果a)回归式是什么?b)对X要因的P-Value?c)在留意水准5%时 什么样的 X因子为有意?d)R 2 值?e)此值意味着什么?f)修正的R 2 值 练习问题练习问题
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100