1、统计学案例相关回归分析案例一 质量控制中的简单线性回归分析1、问题的提出某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。2、 数据的收集序号回流温度()液化气收率(%)序号回流温度()液化气收
2、率(%)12345678910111213141536394343393843443740343940414413.112.811.311.412.312.511.110.813.111.913.612.212.211.811.116171819202122232425262728293042434644424145404647453839444512.311.910.910.411.512.511.111.111.110.810.512.112.511.510.9目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。3.方法的确立设线性回归模
3、型为,估计回归方程为 将数据输入计算机,输出散点图可见,液化气收率y具有随着回流温度x的提高而降低的趋势。因此,建立描述y与x之间关系的模型时,首选直线型是合理的。从线性回归的计算结果,可以知道回归系数的最小二乘估计值b0=21.263和b1=-0.229,于是最小二乘直线为这就表明,回流温度每增加1,估计液化气收率将减少0.229%。(3)残差分析为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。从图中可以看到,残差基本在-0.5+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。(4)回归模型检验a.显著性检验在90%的显著水平下,进行t检验,拒绝
4、域为t=b1/ sb1t/2=1.7011。由输出数据可以找到b1和sb1,t=b1/ sb1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。b.拟合度检验判定系数r2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。=-0.89这样,r值为y与x之间存在中高度的负线性关系提供了进一步的证据。由于n30,我们近似确定y的90%置信区间为:=21.263-0.229x1.2820.388 = 21.263-0.229x 0.4974、结果分析由回归直线图可知,要保持液化气收率在12.24%以上,回流温度
5、必须控制在34以下。因为装置工艺卡片要求回流温度在3340之间,为确保液化气质量合格,可以将回流温度控制在3334之间。为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。案例二:轿车生产与GDP等关系研究中国的轿车生产是否与GDP、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何?(数据见中国统计年鉴)(1)分析轿车生产量与私人载客汽车拥有量之间的关系:首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正
6、相关程度很强。然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下:由回归统计中的R=0.984101看出,所建立的回归模型对样本观测值的拟合程度很好;估计出的样本回归函数为:=1.775687+0.206783x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆;由上表中和的p值分别是0.709481543和6.60805E-15,显然的p值大于显著性水平=0.05,不能拒绝原假设=0,而的p值远小于显著性水平=0.05,拒绝原假设=0,说明私人载客汽车拥有量对轿车生产量有显著影响。(2)分析轿车生产量与城镇居民家庭恩格尔系数之间的关系
7、:首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下:由回归统计中的R=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。(3)分析轿车生产量与公路里程之间的关系:首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。然后以轿车生产
8、量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:由回归统计中的R=0.885883看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-125.156+1.403022x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆;由上表中和的p值分别是5.64E-05和1.82E-08,显然和的p值均远小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。(4)分析轿车生产量与GDP之间的关系:首先,求的因变量轿车生产量y和自变量GDPx4的相关系数r=0.939995,说明两者
9、间存在一定的线性相关关系且正相关程度较强。然后以轿车生产量为因变量y,GDPx4为自变量进行一元线性回归分析,结果如下:由回归统计中的R=0.88359看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-70.7127+0.001829x4,说明GDP每增加1亿元,轿车生产量增加18.29辆;由上表中和的p值分别是0.001534和2.11E-08,显然和的p值均小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明GDP对轿车生产量有较显著影响。(5)分析轿车生产量与城镇居民人均可支配收入x5之间的关系:首先,求的因变量轿车生产量y
10、和自变量城镇居民人均可支配收入x5的相关系数r=0.917695,说明两者间存在一定的线性相关关系且正相关程度较强。然后以轿车生产量为因变量y,城镇居民人均可支配收入x5为自变量进行一元线性回归分析,结果如下:由回归统计中的R=0.842164看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-92.9054+0.032928x5,说明城镇居民人均可支配收入每增加1元,轿车生产量增加329.28辆;由上表中和的p值分别是0.001444和2.12E-07,显然和的p值均小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明城镇居民人均
11、可支配收入对轿车生产量有显著影响。案例三:子女身高与父母身高的回归分析1、问题的提出早在19世纪后期,英国生物学家Galton通过观察1078个家庭中父亲、母亲身高的平均值x和其中一个成年儿子身高y,建立了关于父母身高与子女身高的线性方程:y=33.73+0.516x从方程可以看出,子女身高有回归平均的倾向。那么,时隔一百多年后的今天,人类的物质生活和精神生活都已发生巨大的变化,父母身高与子女身高之间将呈现出什么样的关系呢?在现实生活中,我们都知道父母身高对子女身高是有影响的,但父亲与母亲的影响分别有多大?他们对儿子和女儿的影响程度是否相同?能否用定量的形式回答这个问题呢?如果可以利用回归方法
12、,进一步揭示父亲身高、母亲身高与子女身高之间量化关系的秘密,将有助于那些关注自己后代身高的年轻父母们进行早期预测,同时也可为那些未婚青年男女在选择理想配偶时提供科学的参考依据。2、数据的收集为了问题的研究,我们要求所调查的家庭满足下列条件:(1)家庭中有一个或多个子女(2)家庭成员身体健康,发育正常,无先天性和遗传性疾病,无残疾(3)子女的年龄均在23岁(含23岁)以上。考虑到调查范围的广泛性,我们随机抽取了机关干部、职员、工人、农民、城市居民、军人、大学生家庭,并特意选择了一所全国招生的院校应届毕业生,他们来自于全国各地,家庭背景相对复杂,这样使得样本更具代表性。在收回的410份(发放460
13、份)调查表中,符合要求的有290个家庭,其中,有儿子405人,有女儿270人。3、方法的确定根据所收集的数据,应用二元回归分析方法,研究父亲身高、母亲身高与儿子或女儿身高的关系。(1)建立回归方程设X1为父亲身高,X2为母亲身高,Y为儿子或女儿身高。则父母身高与子女身高的回归模型为:Y=0+1X1+2X2+根据样本数据建立估计二元回归方程:y=b0+b1x1+b2x2(2)显著性检验对回归方程进行F检验,拒绝区域为FF(2,n-3);对回归系数进行t检验,拒绝区域为tt/2(n-3)。(3)预测若某一家庭父亲和母亲身高分别为x10和x20,则子女身高的点估计为:y=b0+b1x10+b2x20
14、区间估计方法已超出大纲要求,在此不要求。4、结果分析(1)父母身高对儿子身高的影响y=53.640+0.368x1+0.349x2显著性检验:在=0.01的显著水平下,F=62.714F(2,400)=4.68t1=7.85t/2(400)=2.689t2=6.71t/2(400)=2.689结果说明回归方程显著,两个偏回归系数显著。因此,所建立回归方程是有意义的,即父母身高与儿子身高有显著的线性关系。(2)父母身高对女儿身高的影响y=47.140+0.249x1+0.455x2显著性检验:在=0.01的显著水平下,F=46.81F(2,300)=4.68t1=4.92t/2(300)=2.6
15、8t2=7.61t/2(300)=2.689结果说明回归方程显著,回归系数显著,故所建立回归方程有效,即女儿身高与父母身高有显著的线性关系,特别是母亲身高对女儿身高的影响更为重要。(3)从以上结果可以看出,在某种程度上,父母身高对子女身高有重要影响,且在不同时期,子女身高有回归平均身高的趋势,即个子矮的父母,其子女身高未必低于自己,个子高的父母,其子女身高未必高于自己。下表给出了部分家庭子女身高的预测值,其中,区间估计的把握程度为95%。表:部分家庭子女身高的预测值父亲身高母亲身高儿子身高女儿身高点估计下限上线点估计下限上线160155166.57165.32167.83157.50155.9
16、9159.02160160168.32167.16169.48159.78158.43161.13165160170.15169.41170.91161.02160.14161.90165165171.90171.01172.91163.30162.26164.33170160172.00171.53172.46162.27161.74162.79170165173.74173.12174.36164.54163.77165.30175160173.84173.27174.40163.51162.94164.07175165175.58174.93176.22165.78164.98166.59180160175.67174.73176.50164.75163.79165.71180165177.42176.47178.36167.03165.91168.14180170177.41176.47178.36169.30167.76170.83