收藏 分销(赏)

《数据挖掘》课件 第4章 回归.pdf

上传人:曲**** 文档编号:231456 上传时间:2023-03-21 格式:PDF 页数:52 大小:2.35MB 下载积分:15 金币
下载 相关 举报
《数据挖掘》课件 第4章 回归.pdf_第1页
第1页 / 共52页
《数据挖掘》课件 第4章 回归.pdf_第2页
第2页 / 共52页


点击查看更多>>
资源描述
数据挖掘高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归回归是一种基于统计原理,对大量统计数据进行数学处理,并确定变量(或属性)之间的相关关系,建立一个相关性的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的方法。根据因变量和自变量的函数表达式分为:线性回归分析、非线性回归分析。根据因变量和自变量的个数可分为:一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1回归基本概念4?一元回归分析4.3 多元线性回归分析_4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用回旦分析方法给自旦的房主定价 习题 I4.1回归基本概念第四章回归4.1.1回归分析的定义对于社会经济现象,很难确定因变量和自变量之间的关系,因为它们大多是随机 的,只有通过大量的观察统计,才能找出其中的规律,随机分析是利用统计学原理描述 随机变量关系的一种方法。回归分析可简单理解为信息分析与预测,信息即统计数据,分析即对信息进行数 据处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程 在该扩大的定义域内成立,然后就可以在该定义域上取值进行未来预测。当然,对 回归方程可以进行有效的控制。因此,回归分析主要解决下面两方面的问题:1)确定变量之间是否存在相关关系,若存在,则找出数学表达式。2)根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种 控制或预测或以达到何种精确度。4.1回归基本概念第四章回归4.1.2回归分析步骤1)根据自变量与因变量的现有数据以及关系,初步设定回归方程。2)求出合理的回归系数。3)进行相关性检验,确定相关系数。4)在符合相关性要求后,即可根据已经得到的回归方程与具体条件相结合,来确 定事物的未来状况,并计算预测值的置信区间。回归分析中常用到的几个概念:实际值:实际观测到的研究对象特征数据值;理论值:根据实际值我们可以得到一条倾向线,用数学方法拟合这条曲线,可以 得到数学模型,根据这个数学模型计算出来的、与实际值相对应的值,称为理论值;预测值:实际上也是根据数学模型计算出来的理论值,但它是与未来对应的理论 值。表示符号:实际值,用表示;理论值,用只表示;预测值,用yo表示。4.1回归基本概念第四章回归4.1.2回归分析要注意的问题为使回归分析方程较能符合实际,首先应尽可能判断自变量的可能种类和个数,并在观察事物发展规律的基础上定性回归方程的可能类型;其次,力求掌握较充分的高 质量统计数据,再运用统计方法,利用数学工具和相关软件,从定量方面计算或改进定 性判断。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 一元回归分析4.3 多元线性回归分析_4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用回旦分析方法给自旦的房主定价 习题 I4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定设x,y为两个经济变量,变量y受到变量x的影响。将y和x之间的关系表示为:y=/(与。)+(4.1)(4.1)称为 一元回归模型,其中/为满足一定条件的函数,称为回归函数;8为 参数,称为回归模型参数;为随机变量,称为误差项或扰动项;y称为因变量,%称 为自变量。当研究一个经济变量对另一个经济变量的影响时,一元回归分析是最为常用的方 法。在简单的回归模型中,回归函数为解释变量的线性函数,回归模型称为一元线性 回归模型,表达式为:y=Bo+S1X+(4.2)其中的回归模型参数&)、用称为回归系数。仇称为常数项,也称截距项,用称为 斜率。4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定回归模型的设定给出了回归函数的形式,但模型中的回归参数是未知的。要对模 型参数进行估计和统计推断,需要从总体中抽取样本以获得数据。设从总体中抽取n个 样本,样本编号为i,i=1,2,,no第i个样本为xi和yi。将回归模型(4.2)应用于每 个样本得出:%=仇+与,i=1,2,n(4.3)(4.3)称为样本回归模型。注意,来自同一个总体的不同样本,其回归模型具有不同的误差项4.2 一元回归分析第四章回归例4.1在进行消费行为研究中,从一个地区抽取20个不同家庭的月可支配收入和消费数 据,如下表所示:序号消费(百元)可支配收入(百元)序号消费(百元)可支配收入(百元)172.310011132.3189292.5112012149.82143135.220013115.318849413014132.21975163.524015149.5206610011416100.25142786.51261779.61128142.362131890.2134912015619116.516910112.56167201261704.2 一元回归分析第四章回归例4.1以可支配收入为横轴、消费为纵轴画出样本数据的散点图消费从图中可以看出,可支配收入和消费之间存在明显的线性关系。但所有点并不在 一条直线上,表明二者之间的关系是一种随机关系。4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定在获得样本之后,要对模型(4.2)进行参数估计和统计推断,需要对样本回归模 型的误差项进行一些假设。一元线性回归模型误差项的基本假设有四个,这些假设也是 模型设定的一部分。(1)零均值,误差项的数学期望等于0,是x的线性函数=阮+用羽(2)同方差,即方差齐次性:对于任意的X,有寸氏=。2。(3)独立性:y之间相互独立。(4)正态分布:对于任一固定M直,得一个随机变量,有确定的概率分布 YXN(Uyx,y|x)o满足四个基本假设的线性回归模型(4.2)称为古典线性回归模型。古典线性回归模型是一种理想模型,实际情况很难满足其苛刻的条件,但它提供 了一种研究变量之间关系的基本方法,即普通最小二乘法。当有关的条件不满足时,我 们可以对模型及其估计方法进行改进,得出更加合理的模型和方法。4.2 一元回归分析第四章回归4.2.2 一元线性回归模型的参数估计模型(4.2)中有三个待估计参数:回归系治、侪和误差方差。2。估计模型参数的方法有三种:普通最小二乘法、矩方法和极大似然方法。普通最小二乘法(OLS:Or dinar y Least Squar e)是最为直观的估计方法,对模 型条件要求最少,也就是使散点图上的所有观测值到回归直线距离平方和最小。4.2 一元回归分析第四章回归4.2.3 基本假设下OLS估计的统计性质数理统计中给出的估计量基本评价标准有三个:无偏性在假设1满足时,ols估计是无偏估计,无偏性是跖,61的抽样分布性质,并不能说明从具体的样本计算出的一个估计量与参数的真实值00,01有多大的偏差。因此,除了无偏性之外,还需要其它性质来进一步样本量足够大时,参数估计值逐渐接 近真实值。一向古计在假设1和假设3成立时,OLS估计是一致估计。一致性告诉我们,当 样本量增大时,参数估计跖以概率趋近于参数真值伉。我们不能像理解微积分中的收敛 概念一样理解6。对阮的趋近,以概率收敛只能保证当样本量足够大时,随机变量6。与常 数丘的距离可以任意接近的概率趋近1,因此,不管样本容量多么大,仍然存在6。与常 数幻相去甚远的情况发生的可能性,只是这种可能性随着样本增加越来越接近0。有效性(马尔可夫性)如果线性回归模型(4.2)满足假设13,则在仇,仇的 所有线性无偏估计中,OLS估计量B 0,p 1的方差最小。马尔可夫性从理论上保证,如果模型满足假设1-3,则在所有线性无偏估计中,由最小二乘得出的估计量是最优 的,这就保证了采用OLS估计的合理性。但OLS估计量的有效性是需要条件的,如果 假设1-3中的条件不成立,则不能保证OLS的最小方差性。实际上,当假设2和(或)假设3不成立时,OLS确实不再是最小方差线性无偏估计,而采用广义最小二乘得出 的估计量才具有最优性。4.2.3基本假设下OLS估计的统计性质如果假设1假设4成立,则OLS估计量0-0,B八 别为:一.一梁18-为2 0 叱闻一冷(阳-无产/服从正态分布,具方差分?(4.4)4.2 一元回归分析第四章回归4.2.4误差方差估计4.2 一元回归分析第四章回归4.2.6拟合优度和模型检验(F检验)对因变量y的样本离差平方和进行分解:讯(%一 9)2=5X1(%+负一y)2=%1(%-负)2+%1 侯一歹)2(4.9)式中最左边是因变量y的样本离差平方和,也称为总平方和,记为TSS(To tal sum o f squar es),最右边表达式中第一项为残差平方和RSS,第二项称为解释平方和(也称回归平 方和),记为ESS(expl ained sum o f squar es)。TSS=RSS+ESS(4.10)回归平方和占总平方和的比例称为模型的拟合优度,记为R八2(R-squar ed),即2 ESS RSS R-TSS-1 一 TSS显然0WR2W1,r2越接近1,残差平方和越接近0,y和x的线性关系越明显,模型拟 合数据的效果越好;R2越接近0,回归平方和越接近0,y和x的线性关系越不明显,模型拟 合数据的效果越差。用回归平方和ESS与残差平方和RSS的比作为模型整体效果的度量。ESS/1RSS/O-2)ESS-x RSS(n-2)设检验假设为Ho:/?i=0,Bp/?!H 0e可以证明,如果模型假设1-4成立,在原假 设下F服从第一自由度为1、第二自由度为n-2的F分布。F值越大,越能拒绝原假设。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 一元回归分析4.3 多元线性回归分析4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用回旦分析方法给自旦的房主定价习题 I4.3多元线性回归分析第四章回归431多元线性回归模型多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建 立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。多元回归分析可以达到以下目的:1.了解因变量和自变量之间的关系是否存在,以及这种关系的强度。也就是以自变量所解 释的因变量的变异部分是否显著,且因变量变异中有多大部分可以由自变量来解释。2.估计回归方程,求在自变量已知的情况下因变量的理论值或预测值,达到预测目的。3.评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该处变量的 变化所导致的因变量变化情况。4.比较各处变量在拟合的回归方程中相对作用大小,寻找最重要的和比较重要的自变量。4.3多元线性回归分析第四章回归431多元线性回归模型假定被解释变量y与多个解释变量与/2,,加之间具有线性关系,是解释变量的多元线性 函数,称为多元线性回归模型。即Y=&)+夕2%2+(4.11)其中y为被解释变量,勺0=12,忆)为k个解释变量,以0=1,2,,k)为k+1 个未 知参数,&)是常数项,为伤诙是回归系数,为是2/3,加固定时,/每增加一个单 位对y的效应,即勺对y的偏回归系数,同理,伤是次对y的偏回归系数,为随机误差项。被解释变量y的期望值与解释变量冷,打的线性方程为:E(Y)=So+/?i%i+另乃+,+SkXk(4.12)称为多元总体线性回归方程,简称总体回归方程。对于n组观测值,其方程组形式为:Y-=Be+BnXo.+Y/+/(413)当元线性回归模如包含多个解释变量,、个血释变量同时对被解释变量Y发生作用,若要 考察其中一个解释变量对Y的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性 回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变 量对因变量Y的均值的影响。4.3多元线性回归分析第四章回归431多元线性回归模型建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意 自变量的选择,其准则是:1.自变量对因变量必须有显著的影响,并呈密切的线性相关;2.自变量与因变量之间的线性相关必须是真实的,而不是形式上的;3.自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之 因的相关程度;4.自变量应具有完整的统计数据,其预测值容易确定。4.3多元线性回归分析第四章回归4.3.2 多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计 时,有如下假定:假定1零均值假定假定2同方差假定假定3无自相关性假定4随机误差项/与解释变量杯相关假定5随机误差项/服从均值为零,方差为。2的正态分布假定6解释变量之间不存在多重共线性4.3多元线性回归分析第四章回归4.3.3 多元线性回归模型的参数估计1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型X=价+p2x2i+Pkxki+Mi G=12,九)设乐底底,,凡分别作为攀期夕iM,二,肉的估计邕 得样本回归方程为:K=再+P1XU+p2x2i+Pkxki观测值K与回归值的楚差,为:八ei=X-71=Yf-(Bo+瓦孙+p2x2i T-卜 BkXk)7V Bl设6=的为估计值向量,样本回归模型y=xB+e两边同乘样本观测值矩阵拗转置片矩匹阵,由统计学原理可得r=(xx)-Vy 则为向量B的OLS估计量。(4.20)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型X=价+p2x2i+Pkxki+Mi G=12,九)设乐底底,,凡分别作为攀期夕iM,二,肉的估计邕 得样本回归方程为:K=再+P1XU+p2x2i+Pkxki观测值K与回归值的楚差,为:八ei=X-71=Yf-(Bo+瓦孙+p2x2i T-卜 BkXk)7V Bl设6=的为估计值向量,样本回归模型y=xB+e两边同乘样本观测值矩阵拗转置片矩匹阵,由统计学原理可得r=(xx)-Vy 则为向量B的OLS估计量。(4.20)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计2.随机误差项以的方差。左的估计量样本回归方程得到的被解释变量估计值%与实际啰测值匕之I可的偏差称为残差,=匕一匕=匕 一(A)+瓦元li+2%2i+BkXki)残差的平方和为2靖=响九-+1)随机误差项的方差寸为:2 E(ee)e%=n-(fc+l)=F(n-(fc+l)随机误差项的方差年的无偏估计量,记作晓,即E(S)=凉,S”说,Se为残差的标准 差(或回归标准差)。因此52=蛾=-e n-k 1 n k 1其中E e:=efe=Y W(4.21)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计3.估计参数的统计性质(1)线性性(2)无偏性(3)最小方差性4.3多元线性回归分析第四章回归4.3.4显著性检验对所有自变量与因变量之间的直线回归关系的拟合程度,可以用统计量R2来度量,其公式如下:R2=其中:ESSTSSRSSTSSTSS称为总偏差平方和,其值为2(匕-P)2,体现了观测值y1,y2,,外总波动大小。ESS(Expl ained Sum o f Squar es或U)它是由于与自变量/,刈,/i的变化而引起,被称作为回归平方和,其值为E(匕-匕体现了古计值上,/,,工的波动大小。RSS(Residual Sum o f Squar es,或Q)称为残差平为和,其盾为刀匕-9尸。R2称为样本决定系数,对于多元回归方程,其样本决定系数为复决定系数或多重决定系数。回归模型的显著性检验包括:对整个回归方程的显著性检验;对回归系数的显著性检 验。4.3多元线性回归分析第四章回归4.3.4回归变量的选择与逐步回归1.变量选择问题选择合适的变量用于建立一个最优的回归方程(1)逐步回归法(Stepwise)(2)向前引入法(Fo r war d)(3)向后剔除法(Backwar d)。4.3多元线性回归分析第四章回归4.3.4回归变量的选择与逐步回归2.逐步回归分析(1)基本思想逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 元回归分析4.3 多元线性回归分析4.4 逻辑回归分析4.5 其他回归分析4二6实战;用回目分析方法给自己的房工定价习题 I4.4逻辑回归分析第四章回归4.4.2 l o git变换研究某一事件A发生的概率p,p值的大小与某此因素有关。因p的值在0,1区间内,所以 P不可能是x的线性函数或二次函数,一般多项式函数也不适合,这就给此类的回归带来困难。另一方面,当p接近于。或1时,一些因素即使有很大变化,p值的变化也不会显著。从数学上看,就是函数p对x的变化在p=0或1附近不敏感的、缓慢的,而且非线性的程度较高,于是要寻求一 个函数e(p),使得它在p=o或P=1附近时变化幅度较大,而函数形式又不是太复杂。首先考虑用甯来反映e(p)在P附近的变化是合理,同时在p=o或1时,需应有较大的值。即:竽0c取成等式:竽=7上=+止,再求积分:忐=dp p(l-p)dp p(l-p)P 1-p l-p上述的变化过程称为l o git变换,很明显e(p)在p=0与P=1附近的变化幅度很大,而且当P从。变到1时,e(p)从-8变到+8,这样就克服了一开始指出两点困难。如果 P对X不是线性关系,。对x就可以是线性的关系了,这给数据处理带来了很多方便。从前式,将p由e来表示,就得到:p=不。如果。是某些自变量孙的线性函数2?=i则渤是无1,,人的函数:p=-e 一1+3工=1 aixi4.4逻辑回归分析第四章回归4.4.3 Lo gistic分布如果分布函数满足以下形式:F(x)=(1+0-(一)/。)一1,8%0)该分布函数称为Lo gistic分布。另外F(x)函数也可表示成:尸=TO+皿(妥)其密度函数为1 r/(%)=e。1+exp a I(曰再将港示成尸(X)的形式:p=1 F(x)=+6-(X-)/。)相应地,8=-爹。上式说明l o git变换与Lo gistic分布的关系。上式还说明,L。3stic分布仍然是属于位置-尺度参数族,其中是位置参数,。尺度参数,这样凡是与位置-尺度参数有关的结果,均对Lo gistic分布有效。当=0。标准Lo gistic分布,它的分布函数%(%)与公布密度函数/o(x)为:&(%)=(1+。一”尸,U 00 V X V 87o(x)=er/(l+eT)2X.1时,在分布称为很明显,如果考虑:(70(x)=ex/(l+ex),-oo x co 则Go(x)也是一个Lo gistic分布函数,且如下关系式:Go(x)=1-F0(-x)=F0(x)4.4逻辑回归分析第四章回归4.4.4列连表的Lo gistic回归模型以一个例子说明如何将一个列联表转化为Lo gistic回归模型:假定吸烟人得肺癌概率为例,不得肺癌的概率就是1-?,不吸烟的人得肺癌的概率是夕2,不得 肺癌的概率为1 夕2。于是经过l o git变换后:Pl p2=In-,02=g-1-Pl 1 P2如果记。2为。,则。1+)=8+&因此患肺癌是否与吸烟有关,就等价于检验%:=0。考察了92个吸烟者,其中60个得肺癌,对于不吸烟的14个人中有3个得肺癌。更一般地,若考 察了S个吸烟者,得肺癌有个;考察小个不吸烟者,得肺癌有e个,因此夕1与夕2的估计值分 别为心令:nl n2z;=In-,i 1,2%-rf可以证明,当充分大时,有下列等式成立:1E(z)=仇(4)=-,i=1,2九 iPi-Pi)4.4.4列连表的Lo gistic回归模型 如果写成向量式,就是:(pii rl liU1J 11 oJ1%P1(1-Pl)V ar =以 oi L-0i.A.01n2p2(l-p2)l如果z1,z2是正态变量,这就是2x2列联表的Lo gistic回归模型。一般地,当,充分大时,z服从渐近正态分布,并将这一类问题的回归称为Lo gistic回归。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 元回归分析413多元线性回归分析4.4 逻辑回归分析4.5 其他回归分析4二6实战;用回目分析方法给自己的房工定价习题 I4.5其他回归分析第四章回归4.5.1 多项式回归(Po l yno mial Regr essio n)对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如果自变量 只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。在一元回归 分析中,如果依变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则 可以采用一元多项式回归。在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据 点的曲线。“多加式回归的最大优点就是可以通过增加X的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中占有重要的地位,因为任 一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不论依变量与其他自变量的 关系如何,我们总可以用多项式回归来进行分析。多项式回归问题可以通过变量转换化为多元线性回归问题来解决。多项式回归在回归分析 中很重要,因为任意一个函数至少在一个较小的范围内都可以用多项式任意逼近,因此在比较 复杂的实际问题中,有时不问y与诸元素的确切关系如何,而用回归分析进行分析运算。4.5其他回归分析第四章回归4.5.2 逐步回归(Stepwise Regr essio n)在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在 一个自动的过程中完成的,其中包括非人为操作。这一壮举是通过观察统计的值,如R-squar e,t-stats和AIC指标,来识别重要的变量。逐 步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回 归方法:标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始,然后为每一步添加变量。向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。这种建模 技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。4.5其他回归分析第四章回归4.5.3 岭回归(Ridge Regr essio n)当自变量间存在多重共线性关系时,回归系数方差变大,使得一个或多个自变量因为无法 通过参数的显著性检验而被舍弃,这些自变量就不适合放入同一模型。因此,在建模前,需要 对变量间的多重共性进行检查,最直接的方法是同一模型中避免选取有高度相关性的自变量,另一种办法就是采用岭回归来降低回归系数估计值的方差。岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情 况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远 离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。在一个线性方程中,预测误差可以分解为2个子分量。一个是偏差,一个是方差。预测错 误可能会由这两个分量或者这两个中的任可一个造成的。我们可以通过计算方差膨胀因子(VIF)来表示多重共线性的指数,其计算公式为:1VIFi=-7 J=1,2,,m1 一当/?2=0时,表示第4自变量与其他6-1个自变量不相关,则V巧=1;R2=i,表示第,个自变量与其他6-1个自变量趋近于完全相反,则以6=8,可见V/抵具有测度多重共线性的 能力。6个自变量可以计算出用,/F值,其中若是最大的V/F值超过10(表明至少某个判定系 数大于0.9),则认为自变量存在着高度的多重共线性,当自变量过多时,可以对777个V/求平 均数,若平均数明显大于1,则认为多重共线性存在。4.5其他回归分析第四章回归4.5.4 套索回归(Lasso Regr essio n)套索回归类似于岭回归,(Least Abso l ute Shr inkage and Sel ectio n Oper ato r,Lasso)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。Lasso回归与Ridge回归有一点不同,它使用的惩罚函数是绝对值,而不是平方。这导致 惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大,进一 步估计会使得缩小值趋近于零。这将导致我们要从给定的心变量中选择变量。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),这 确实有助于特征选择;这是一个正则化方法,使用的是J正则化。如果预测的一组变量是高度相关的,Lass。会选出其中一个变量并且将其它的收缩为零。4.5其他回归分析第四章回归4.5.5 弹性网络(El asticNet)El asticNet是Lass。和Ridge回归技术的混合体。它使用匕来训练并且L2优先作为正则化矩 阵。当有多个相关的特征时,El asticNet是很有用的。Lass。会随机挑选他们其中的一个,而 El asticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许El asticNet继承循环状态下Ridge的一些稳定 性。在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;它可以承受双 重收缩。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 元回归分析413多元线性回归分析4.4 逻辑回归分析4.5 其他回归分析4.6 实战:用回归分析方法给自己的房子定价习题 4.6实战:第四章回归用回归分析方法给自己的房子定价房子的价格(因变量)是很多自变量-房子的面积、占地的大小、厨房是否有花岗石以及卫 生间是否刚重装过等的结果。所以,不管是购买过一个房子还是销售过一个房子,您都可能会 创建一个回归模型来为房子定价。这个模型建立在邻近地区内的其他有可比性的房子的售价的 基础上(模型),然后再把您自己房子的值放入此模型来产生一个预期价格。房子面枳(平方英尺)占地的大小卧室化冈石卫生间有无 重装?销售价格35299191600$205,000324710061511$224,900403210150501$197,900239714156410$189,90022009600401$195,000353619994611$325,00029839351501$230,00031989669511?4.6实战:第四章回归4.6.1 为WEKA构建数据集RELATION ho useATTRIBUTE ho useSize NUMERIC ATTRIBUTE l o tSize NUMERIC ATTRIBUTE bedr o o ms NUMERIC ATTRIBUTE gr anite NUMERIC ATTRIBUTE bathr o o m NUMERIC ATTRIBUTE sel l ingPr ice NUMERIC DATA3529,9191,6,0,0,2050003247,10061,5,1,1,2249004032,10150,5,0,1,1979002397,14156,4,1,0,1899002200,9600,4,0,1,1950003536,19994,6,1,1,3250002983,9351,5,0,1,2300004.6实战:第四章回归4.6.2 将数据载入WEKA启动WEKA,然后选择Expl o r ero将会出现Expl o r er屏幕,其中Pr epr o cess选项卡被选中。选择Open Fil e按钮并选择前面创建的ARFF文件。Q Weka Explorer XPr epr o cess T Cl assify I Cl usteTT Asso ciate T Sel ect attr ibutes T Visual ize 1Cl assifier 忘 weka位 cl assifier s后 bayes宸 functio ns匚 GaussianPr o cessesD UbSVMjcimal-pl aces 4 Linear Regr essio nMul til ayer Per ceptr o nSimpl eLinear Regr essio n901*bathroom+208n to build model:0 secondsation on training setn to test model on training data:0 secondson coefficient lute errorsquared error absolute error Dive squared error her of Instances0.9945 4053.821 4578.412513.1339%10.51%77c4.6实战:第四章回归4.6.3用WEKA创建一个回归模型为了创建这个模型,单击Cl assify选项卡。第一个步骤是选择我们想要创建的这个模型,以 便WEKA知道该如何处理数据以及如何创建一个适当的模型:单击Cho o se按钮,然后扩展functio ns分支。选择 Linear Regr essio n 页。O Weka Explorer X(Pr epr o cess J Cl assify Cl uster Asso ciate Sel ect attr ibutes Visual ize _Cl assifierI Cho o se Linear Regr essio n-S 0-R 1.0E-8-num-decimal-pl aces 4Test o ptio ns Cl assifier o utputO Use tr aining set I T1O Suppl ied test set Set.I n Cr o ss-val idatio n Fo l ds 10 O Per centage spl itMo r e o ptio ns.(Num)sel l ingPr ice I Star t_Resul t l ist(r ight-cl ick fo r o ptio ns)StatusOK,Lo g I xo46实战:第四章回归4.6.4结果分析准备好创建模型后,单击Star t4.6实战:第四章回归4.6.4结果分析得到回归模型的预测输出公式sel l ingPr ice=(-26.6882*ho useSize)+(7.0551*l o tSize)+(43166.0767*bedr o o ms)+(42292.0901*bathr o o m)-21661.1208把我的房屋的相关数据输入,就得到我的房屋的价格sel l ingPr ice=(-26.6882*3198)+(7.0551*9669)+(43166.0767*5)+(42292.0901*1)-21661.1208sel l ingPr ice=219,3284.6实战:第四章回归4.6.4结果分析除了房屋价格,还得到如下信息:1.花岗石无关紧要一WEKA将只使用在统计上对模型的正确性有贡献的那些列(以R-squar ed量度,但这超出了本文的范围)。它将会抛弃并忽视对创建好的模型没有任何帮助 的那些列。所以这个回归模型告诉我们厨房里的花岗石并不会影响房子的价值。2.卫生间是有关系的一因卫生间使用了简单的。或1值,所以我们可以使用来自回归 模型的这个系数来决定卫生间的这个值对房屋价值的影响。这个模型告诉我们它使房子的价 值增加了$42,292。3.较大的房子价格反而低一WEKA告诉我们房子越大,销售价格越低?这可以从 ho useSize变量前面负的系数看出来。此模型告诉我们房子每多出一平方英尺都会使房价减 少$26?这根本没有意义。这是无用数据入、无用数据出的一个很好的例子。房子的大小并 不是一个自变量,它还与卧室变量相关,因为房子大通常卧室也多。所以我们的模型并不完 美。但是我们可以修复这个问题。在Pr epr o cess选项卡,可以从数据集中删除列。对于本例,我们删除ho useSize列并创建另一个模型。那么它会如何影响房子的价格呢?这个新模型又 如何更有实际意义?(修改后的我的房子价格是:$217,894)。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念_一元回归分析413多元线性回归分析_4.4 逻辑回归分析,4.5 其他回酸析4.6 实战:用回归分析方法给自己的房子定价习题1.调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下:使用年限(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格.(4)求第2个点的残差。感谢聆听
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 应用文书 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服