数据挖掘-线性回归.ppt_咨信网zixin.com.cn

资源描述

1、数据挖掘数据挖掘:线性回性回归王成（副教授）王成（副教授）计算机科学与技算机科学与技术学院学院1.主要内容主要内容线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归有有监督的机器学督的机器学习过程程输出y(贷款申请人信息)(是否可以批准?)历史数据学习算法输出y(是否可以批准?)学习算法(贷款申请人信息)不可知假设(Hypothesis)，由学习得到，是f的近似机器学机器学习的关的关键因素因素1.模式存在2.但无法用数学方式确定下来3.有数据可供学习有有监督的机器学督的机器学习过程程拟合数据点拟合合拟合:指已知某函数的若干离散函数值，通过调整该函数中若干待定系数，

2、使得该函数与已知点集的差别最小如果待定函数是线性，就叫线性拟合或者线性回归分分类与回与回归分类问题:目标变量是离散值回归问题:目标变量是连续值(数值预测)“回归”是由达尔文的表兄弟弗朗西斯高尔顿爵士(Sir Francis Galton,1822-1911)发明的。高尔顿于1877年完成了第一次回归预测，目的是根据上一代豌豆种子(双亲)的尺寸预测下一代豌豆种子的尺寸。高尔顿在大量对象上应用了回归分析，包括人的身高。他注意到，如果双亲的高度比平均高度高，他们的子女也倾向于比平均高度高，但尚不及双亲，孩子的高度向着平均高度回退(回归)。尽管这个单词和数值预测没有任何关系，但这种研究方法仍被称为回归

3、。给定一套房屋的信息，如何预测其价格？房屋信息:(面积=100平,三室,两卫)预测价格=0.8500*面积+0.0500*卧室数量+0.0015*卫生间数量线性回性回归设x0=1x1yx2这个方程称为回归方程，i称为回归系数或权重房屋价格与其面积及卧室数量的统计数据线性回性回归y(i)表示第i个训练实例对应的目标变量值，m为实例数量；常数1/2是为了方便后续计算；最小二乘(leastsquares)损失函数线性回性回归两条不同的拟合直线线性回性回归计算回算回归系数系数主要内容主要内容线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归梯度下降算法梯度下降算法梯梯度度

4、下下降降法法(Gradientdescent)是一个最最优化化算算法法，通常也称为最速下降法最速下降法。1847年由著名的数学家柯西给出假设我们爬山，如果想最快上到山顶，那么我们应该从山势最陡的地方上山。也就是山势变化最快的地方上山同样，如果从任意一点出发，需要最最快快搜搜索索到到函函数数最最大大值，那么我们也应该从函数变化最快的方向搜索函数函数变化最快化最快的方向是函数的梯度方向函数的梯度方向梯度下降算法梯度下降算法如果函数为一元函数，梯度就是该函数的导数如果为二元函数，梯度定义为梯度下降算法梯度下降算法要搜索极小值C点:在A点必须向x增加方向搜索，此时与A点梯度方向相反；在B点必须向x减小

5、方向搜索，此时与B点梯度方向相反。总之，搜索极小值，必须向负梯度方向搜索。梯度下降算法梯度下降算法-步步骤假设函数只有一个极小点。初始给定参数为。从这个点如何搜索才能找到原函数的极小值点？方法：1.首先设定一个较小的正数，以及迭代次数k;2.求当前位置处的各个偏导数：3.修改当前函数的参数值，公式如下：4.若参数变化量小于或已达迭代次数，退出；否则返回2梯度下降算法梯度下降算法-举例例例:利用梯度下降法求函数的极小值(1)设(2)计算导数：(3)计算当前导数值：(4)修改当前参数：(5)计算当前导数值：(6)修改当前参数：梯度下降算法梯度下降算法-举例例(7)计算当前导数值：(8)修改当

6、前参数：(9)计算当前导数值：(10)修改当前参数：(11)此时变化量满足终止条件，终止梯度下降算法梯度下降算法其中称为学习速率，即每次“前进”的步长梯度下降算法梯度下降算法简单起见，暂假设只有一个训练实例，则对j求偏导时，仅jxj一项不为常数，因此求偏导的结果为xj梯度下降算法梯度下降算法梯度下降算法梯度下降算法应用到不只一个训练实例的情况梯度下降算法梯度下降算法举例例0=0,1=0,2=0,h(x(i)=0,x0=1y(1)=400,y(2)=330,y(3)=369,y(4)=232,y(5)=540 x1(1)=2104,x1(2)=1600,x1(3)=2400,x1(4)=1416

7、,x1(5)=3000 x2(1)=3,x2(2)=3,x2(3)=3,x2(4)=2,x2(5)=40=0+0.01(y(1)-h(x(1)x0(1)+.+(y(5)-h(x(5)x0(5)1=0+0.01(y(1)-h(x(1)x1(1)+.+(y(5)-h(x(5)x1(5)2=0+0.01(y(1)-h(x(1)x2(1)+.+(y(5)-h(x(5)x2(5)x1yx2随机梯度下降算法随机梯度下降算法批量梯度下降算法每一步都要考虑整个数据集以计算梯度，这在数据集较大时计算成本很高另一种可选的方案是一次仅用一个样本来更新回归系数，该方法称为随随机机梯梯度度下下降降算算法法(Stocha

8、stic gradient descent)值的的选择过大容易“越过”极值点，导致不收敛，过小则收敛速度慢随着迭代次数的增加，一般要慢慢减小(直观上，一开始前进快点，然后放慢速度)梯度下降算法梯度下降算法主要内容主要内容线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归矩矩阵解法解法对于m*n矩阵A，定义关于A的函数f的梯度:例如，其中第(i,j)个元素为矩矩阵解法解法n*n矩阵A的迹(trace)定义为A的主对角上元素之和，记为trA若a是一实数，即一个1x1矩阵，则tra=a性性质:迹可理解为一个应用在A上的函数f(A)=tr(A)矩矩阵解法解法输入矩阵(m*

9、(n+1)维):目标变量值向量(m维):在房屋价格预测例子中，x1为“面积”属性，x2为“卧室数量”属性，x1(1)为第1个样本的面积，x2(1)为第1个样本的卧室数量，x1(2)为第2个样本的面积，x2(2)为第2个样本的卧室数量，共m个样本，每个属性有n个属性在房屋价格预测例子中，y(1)为第1个样本的报价，y(2)为第2个样本的报价，共m个样本假设共有m个训练样本，每个样本有n个属性矩矩阵解法解法矩矩阵解法解法为最小化J，计算J的梯度X是m(n+1)维=一个数矩矩阵解法解法若a为一实数，则tra=a矩矩阵解法解法矩矩阵解法解法矩矩阵解法解法主要内容主要内容线性回归梯度下降算法线性最小二乘

10、问题的矩阵解法最小二乘的概率解释局部加权线性回归最小二乘的概率解最小二乘的概率解释为什么最小二乘代价函数J是一个合理的选择？最小二乘的概率解最小二乘的概率解释假设目标变量和输入的关系可表示为：其中(i)表示线性模型与目标值的误差。例如样本的某属性和房价预测相关，但却没有被考虑进来；或随机噪音。最小二乘的概率解最小二乘的概率解释假设误差(i)独立同分布(IID,IndependentandIdenticalDistribution)，并服从正态分布：中心极限定理:若一随机变量受大量微小独立的随机因素影响，其中每个个别随机变量对于总和的作用都是微小的，那么作为总和的随机变量的分布就会逼近于正态分布

11、。因此，(i)的概率密度：最小二乘的概率解最小二乘的概率解释给定输入矩阵X(每i行为第i个样本的特征向量)和参数，可得到似然(likelihood)函数:m为样本总数，(i)上标表示第(i)个样本最大似然法，也叫极大似然估计最小二乘的概率解最小二乘的概率解释最小化最小二乘的概率解最小二乘的概率解释基于前面的概率假设(IID，正态分布)，最小二乘回归相当于寻找最大化似然函数的。因此，最小二乘回归可被证明是一种非常自然的选择。主要内容主要内容线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归局部加局部加权线性回性回归使用更多合适的特征，例如y=0+1x+2x2可能可以

12、拟合得更好考虑对数据集进行线性拟合得到线性模型y=0+1x数据点不在一条直线上，用线性模型拟合的并不好局部加局部加权线性回性回归但也可能导致过拟合，例如上图为y=0+1x+.+5x5的拟合结果考虑对数据集进行线性拟合得到线性模型y=0+1x数据点不在一条直线上，用线性模型拟合的并不好局部加局部加权线性回性回归局部加权线性回归(LWLR,Locallyweightedlinearregression):越靠近待预测点的训练样本，对预测结果的影响越大，越远离待预测点的训练样本，对预测结果的影响越小。只关注位于待预测点附近的样本点(即“局部”的含义)给每个训练样本赋予一个权重w(i)，训练样本点离待

13、预测点越近，w(i)越趋于1训练样本点离待预测点越远，w(i)越趋于0局部加局部加权线性回性回归直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测局部加局部加权线性回性回归直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测局部加局部加权线性回性回归直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测局部加局部加权线性回性回归线性回归局部加权线性回归1.求拟合参数以最小化2.输出 Tx1.求拟合参数以最小化2.输出 Tx权重向量权重的重的计算算一种合适的权重计算公式为其中x为待预测点，x(i)为第i个样本点若x(i)离x较近，则w(i)趋于1若x(i)离x较远，则w(i)趋于0 xw(i)x(i)x(i)w(i)为波长参数，值越小，图形越尖尖权重的重的计算算考虑到x为多维特征向量，w(i)的计算公式可改为局部加局部加权线性回性回归优点：相比线性回归，特征选择的重要性不那么大；每次预测都要重新学习计算权值和参数，对数据的自适应能力更强；缺点：每次预测都要重新学习计算权值和参数，计算量大；谢谢！

展开阅读全文