大数据挖掘与统计机器学习全书电子教案全套教学教程.pptx

资源描述

1、大数据挖掘与统计机器学习大数据挖掘与统计机器学习1大数据挖掘与统计机器学习大数据挖掘与统计机器学习、宋捷（2016），大数据挖掘与统计机器学习，中国人民大学出版社第一章：概述第二章：线性回归方法第三章：线性分类方法第四章：模型评价与选择第五章：决策树与组合方法第六章：神经网络与深度学习第七章：支持向量机第八章：聚类分析第九章：推荐系统第十章：大数据案例分析R、Python上机实践大数据案例分析大数据案例分析:单机及分布式实现单机及分布式实现2主要参考书主要参考书Hastie,Tibshirani,Friedman(2008),The Elements of Statistical Learni

2、ng Data Mining,Inference and Prediction,Second Edition,SpringerJames,Witten,Hastie and Tibshirani(2013),An Introduction to Statistical Learning with Applications in R,SpringerHastie,Tibshirani,and Wainwright(2015),Statistical Learning with Sparsity The Lasso and Generalizations,CRC Press34第第1 1章章概述

3、概述1.统计学统计学统计学是一门科学统计学是一门科学，应该是以分析数据、解决问题为导向，不断的提出新方法，并探讨其理论性质。2.数据智慧数据智慧郁彬（2016），数据科学中的数据智慧，中国计算机学会通讯（中译稿）将统计学核心部分重新定义为将统计学核心部分重新定义为“数据智慧数据智慧”非常必要非常必要，因为它比“应用统计学”这个术语起到更好的概括作用。“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合，思辨性地理解数据并依据数据做决策的一种能力。十个基本问题十个基本问题（1）要回答的问题（2）数据收集（3）数据的含义（4）相关性（5）问题的转化（6）可比性：数

4、据变换（7）可视化（8）随机性：数据的代表性、结果的不确定性（9）稳定性：结果的可解释性、可重复性（10）结果验证5第第2 2章章线性回归方法线性回归方法2.1 多元线性回归多元线性回归（1）多元线性回归模型及其矩阵表示（2）最小二乘估计及其性质最小方差线性无偏估计(BLUE)（3）变量选择方法前进法、后退法和逐步回归法672.2 压缩方法压缩方法:岭回归与岭回归与Lasso 2.2.1 岭回归岭回归最初提出是为了解决回归中的多重共线性问题,也就是不满秩,不是正定矩阵的情形。这时有学者提出给加上一个正常数矩阵kI(k0),那么。其中,k是一个待估参数,需要使用一些方法来决定。岭估

5、计的性质:岭估计是有偏估计,但存在k0使得岭回归的均方误差小于最小二乘估计的均方误差。岭回归的系数估计值的绝对值小于最小二乘估计的绝对值。因此称岭回归为一种压缩估计。8另一种角度看待岭回归:现代统计从损失函数加罚的角度看待岭回归,可以证明岭回归等价于在最小二乘估计的基础上对估计值的大小增加一个约束(也叫惩罚,有时也称为正则化)。注意,这里只对自变量的系数施加了约束,并没有考虑截距项。一般可以通过数据中心化(因变量减去自身均值)消除的作用。上式称为的岭回归估计,其中,k称为岭参数。k=0时(此时对应t=)的岭回归估计就是普通的最小二乘估计。岭参数k不是唯一确定的,所以得到的岭回归估计实际

6、是回归参数的一个估计族。9 2.2.2 Lasso Lasso回归(Tibshirani,1996)和岭回归类似(但又有着很重要的不同),是另一种压缩估计。与岭回归很重要的不同是,它在参数估计的同时既可以对估计值进行压缩,又可以让一些不重要的变量的估计值恰好为零,从而起到自动进行变量选择的功能。Lasso回归等价于在最小二乘估计的基础上对估计值的大小增加一个不同于岭回归的约束(惩罚):注意:范数的概念是线性空间中向量长度概念的推广。10 2.2.3 一张图看懂岭回归和Lasso回归岭回归和Lasso回归中的参数k或称为调节参数,需要估计。实际上不同的调节参数的取值对应不同的模型。因此,可以把

7、调节参数的估计看成模型选择问题。111213142.3 Lasso模型的求解与理论性质模型的求解与理论性质 2.3.1 解Lasso Lasso问题是一个凸优化问题,是一个平方损失加凸惩罚的优化问题。单变量Lasso目标函数:解析解:其中,15161718 2.3.3 SCAD回归与Oracle性质 Fan and Li(2001)从惩罚函数的角度出发,认为一个好的惩罚函数应使得模型中的解具有以下三个理论性质:(1)无偏性:当未知参数真值较大时,估计值应该几乎无偏。(2)稀疏性:有某个阈值准则自动将较小的估计系数降至0,以降低模型复杂度。(3)连续性:为避免模型在预测时的不稳定性,估计值应该是

8、最小二乘估计值的某种连续函数。1920 Fan and Li(2001)证明,SCAD回归在一定条件下满足神谕性(oracle property),即SCAD估计的表现与真实模型已知时(假定已知真实模型中参数为零的系数)的表现一样好,也就是说,SCAD估计能准确地进行变量选择。21222.4.2 最小一乘回归与分位回归232.4.3 其他罚函数Grouped Lasso弹性网惩罚24第第3 3章章线性分类方法线性分类方法25 3.1.2 评价准则混淆矩阵、准确率、召回率。2627283.2.3 正则化的Logistic回归变量选择普通逐步回归L1正规化逻辑回归模型(Lasso-LR)293

9、031 3.3.2 二次判别函数和正则化判别函数假设各个类别的不相等,关于x的二次项保留在公式中。我们得到的二次判别函数(quadratic discriminant analysis,QDA)为:Friedman(1989)提出一个将LDA和QDA结合的方法,假定将QDA不同类别不同的方差压缩到和LDA相同的方差。这和上一部分介绍的压缩方法相似。具体来讲,正则化的方差协方差矩阵有如下形式:式中,是LDA中假定的统一的方差;表示一系列介于LDA和QDA之间的模型,实际应用中,使用下一部分将要介绍的交叉验证等方法估计。32333435第第4 4章章模型评价与选择模型评价与选择36模型复杂度

10、与模型预测误差之间的关系:随着模型复杂度的增加,测试误差先下降,后升高(此时模型过拟合),不论是欠拟合还是过拟合,模型推广预测的能力都差。因此存在一个中等复杂度的模型使得期望测试误差达到最小,我们的目标就是找到这个最优模型。373839404142 4.2.2 AIC准则 AIC与近似但应用更广泛,它是基于负对数似然损失的。它的一般公式是:与相比,上式等号右边第一项是负对数似然损失,第二项是对模型参数个数(模型复杂度)的惩罚。使用AIC选择模型,我们选取AIC取值最小的那个,对于非线性或者更复杂的模型,要用衡量模型复杂度的值代替p。43 4.2.3 BIC准则 BIC准则与AIC相似,都是

11、用于最大化似然函数的拟合。BIC的一般公式为:式中,L是似然函数;是参数的最大似然估计量;p是参数的个数。BIC统计量乘以1/2也叫做施瓦兹准则。可以看出BIC与AIC非常类似,只是把AIC中的2换成了。当时,BIC对复杂模型的惩罚更大,更倾向于选取简单的模型。使用BIC选择模型,我们选取BIC取值最小的那个模型。44454647484950五、决策树与组合方法五、决策树与组合方法5.1.决策树决策树 5.1.1 决策树的基本知识常用算法ID3C4.5CART核心归纳算法51二分类示意需要说明的一些问题1.二叉树还是多叉树2.自变量的进一步处理3.其他的决策树算法4.决策树的一些问题5

12、7 5.2.4 讨论Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。Bagging算法可以让好的分类器(错分率e0.5)效果更坏。对于回归问题,M的值可以取得小一些,对于分类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量n。当提高Bootstrap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(varia

13、nce),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。61625.3.2 可加模型：从统计的角度看Adaboost各种理论解释偏差-方差分解减小偏差，boosting树桩或者很小的树提升边际博弈论可加模型可以证明二分类AdaBoost算法是最小化指数损失L(y,f(x)=exp(-yf(x)的分步向前可加模型y取值+1或-1636667六、神经网络与深度学习六、神经网络与深度学习6.1.神经网络神经网络 6.1.1 人工神经元的模型 (1)生物神经元6872神经元的常用激活函数 6.1.2 人工神经网络的结构 (1)前向网络前向网络中神经元是分层排列的,每层神经元只接

14、收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。(2)反馈网络反馈网络又称递归网络、回归网络,它和前向网络的区别在于它至少有一个反馈环,形成封闭回路,即反馈网络中至少有一个神经元将自身的输出信号作为输入信号反馈给自身或其他神经元。6.1.3 人工神经网络的学习 (1)学习方式有监督学习(有导师学习)无监督学习(无导师学习)强化学习(2)学习规则误差纠正学习规则 Hebb学习规则 6.1.4 感知机感知器神经网络是一种典型的前向神经网络,具有分层结构,信息从输入层进入网络并逐层向前传递至输出层。(1)单层感知器

15、(2)多层感知器由于单层感知器只能处理线性可分的数据,而现实世界中的数据大多不是线性可分的,因此相关研究者提出在单层感知器的输入层和输出层之间增加一个或多个隐层,由此构成多层感知器,也称为多层前向神经网络。反向传播算法(Back Propagation Algorithm,简称BP算法):BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号对网络连接权值进行调整。反复执行信号

16、的正向传播与误差的反向传播这两个过程,直至网络输出误差小于预先设定的阈值,或进行到预先设定的学习次数为止。BP网络的输入层与输出层的节点数依据所处理的任务确定后,还需确定隐层数和隐层节点数。确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。这意味着可以先从隐层节点数少的神经网络开始训练,然后增加节点数,选取网络误差最小时对应的节点数;也可一开始加入足够多的隐层节点数,通过学习把不太起作用的隐层节点删去。796.2.深度学习深度学习深度神经网络是指含有多个隐层的神经网络,与含有一个隐层的浅层神经网络相对应。它模仿大脑皮层的深度架构来处理数据。对含

17、有一个隐层的浅层网络使用BP算法能获得较好效果，对深度神经网络使用BP算法进行训练存在一定的问题:梯度弥散问题局部极值问题数据获取问题深度学习方法:卷积神经网络(Convolutioal Neural Networks,CNN)深度玻尔兹曼机(Deep Boltzmann Machine,DBM)深度信念网栈式自编码网络(Stacked Autoencoder)806.2.2 深度信念网深度信念网 DBN最顶部两层间的连接是无向的,它们的联合分布形成一个RBM;较低的其他层构成有向的图模型。DBN可作为一个生成模型,顶层RBM与具有P()分布的实线箭头构成生成路径。DBN也可提取数据的多层次的

18、表示进行推理与识别,具有Q()分布的虚线箭头与顶层RBM构成识别路径。当自下而上进行学习时,顶层RBM 从隐层学习;当自上而下学习时,顶层RBM作为生成模型的起始器。鉴于传统的梯度下降算法针对多隐层网络训练效果不佳,Hinton 等人提出了深度信念网的贪婪逐层预训练学习方法(greedy layer-wise training),获得较好的效果。贪婪逐层预训练学习的基本思想为:每次只训练网络中的一层,以此得到网络的初始参数值。具体而言,首先训练只含一个隐层的网络,得到其初始参数值,接着训练含两个隐层的网络,随后训练含三个隐层的网络,依此类推。在训练含k个隐层的网络时,固定已经训练好的前k-1个

19、隐层的初始参数值,将其输出作为新加入的第k个隐层的输入进行训练,得到该层的初始化参数。在对多层进行训练得到初始化参数后,对整个深度结构神经网络的参数进行微调(fine-tuning),所得网络的学习性能会有很大提高。通过贪婪逐层预训练学习方法所获得的DBN参数并不是最优的,因此DBN对预训练得到的各层参数进一步微调,得到整个多层模型的参数。例如,Hinton于2006年提出使用Up-down算法(Wake-sleep算法的一个变形)继续进行无监督训练,以得到更好的生成模型。DBN中自下而上的权值用于“认知”,并获得输入数据在各隐层的表示;自上而下的权值用于“生成”,利用输入数据的潜在表示进行重

20、构,得到近似的输入数据。Up-down算法的目的是获得数据的简洁表示,同时希望输入数据能够被准确地重构。Up-down算法分为三个阶段:第一阶段,通过使用认知权值进行随机自下向上的传播,然后修改生成权值使得更好地重构下面层中的特征激活值;第二阶段,在顶层RBM中进行多次迭代采样,然后通过CD算法调整RBM的权值;第三阶段,通过生成权值进行自上向下的随机传播,然后修改认知权值使得更好地重构上面层中的特征激活值。七、支持向量机七、支持向量机在众多分类方法中,支持向量机(Support Vector Machine,SVM)是非常重要的一种,它于20世纪90年代由Vapnik 等人提出,开始主要用

21、于二分类,后来扩展到模式识别、多分类及回归等。支持向量机是一种典型的监督学习模型,从几何的角度来看,它的学习策略是间隔最大化,可化成一个凸二次规划的问题。从代数的角度来看,支持向量机是一种损失函数加罚的模型。867.1.线性可分支持向量机线性可分支持向量机 7.1.1 简介如果两类点可以用一条直线或一个超平面分开,则称这些点是线性可分(linearly separable)模式;如果这两类点不能用一条直线或者一个超平面分开,那么这些点是线性不可分模式。线性可分支持向量机:87在现有的训练数据下,无疑同时远离两类数据点的直线是最好的。因此问题变成如何度量点到直线的距离,然后最大化这些距离的和。这

22、就是所谓的最大间隔原则。我们所要求的最宽的隔离带实际上并不是由所有样本点决定的,而仅仅是由训练集中的三个点,即第4,8,30个观测点确定的,这三个点(当然也是向量)就称为支持向量(support vector),它们刚好在隔离带的边界(margin)上。88899091929394959697八、聚类分析八、聚类分析聚类分析属于无监督的统计学习的一种,是在没有训练目标的情况下将样本划分为若干类的方法。通过聚类分析,使得同一个类中的对象有很大的相似性,而不同类的对象有很大的相异性。聚类分析广泛用于客户细分、结构分组和行为跟踪等问题,取得了很好的效果。98991001011028.1.3 K均值

23、聚类 K-means算法的基本思想简单直观,以空间中K个点为中心进行聚类,对最靠近它们的对象进行归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。在算法开始前,需要输入参数K,然后将事先输入的n个数据对象划分为K 个聚类,使得最终聚类结果具有以下性质:在同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。优点:简洁和快速。算法的关键在于初始中心的选择和距离公式。缺点:需要一个输入参数,不合适的K 值可能返回较差的结果。1031041051061071081091101111121138.4.双向聚类双向聚类之前介绍的聚类方法是根据变量的取值对观测进行聚类。本节介绍的

24、双向聚类同时考虑观测与变量的差异。114用户,产品V1V2VmU1101U2011 Un100115BIMAX的迭代算法:第一步:重排行和列,使得1集中在矩阵的右上角。第二步:将矩阵分为两个子矩阵,若一个子矩阵中只有1,则返回该子矩阵。为了得到一个令人满意的结果,该方法需要从不同的起点重复几次。BIMAX尝试识别出E中只包含0的区域,可以在进一步的分析中排除这些区域。因此当E为稀疏矩阵时,BIMAX具有独特的优势。此外,BIMAX需要的存储空间和运算时间都较少。116九、推荐系统九、推荐系统推荐系统是在信息过载时信息拥有者向它的受众进行有选择的推送的系统。9.1.基于邻居的推荐基于邻居的推荐

25、 9.1.1 基于邻居的预测算法总体来看,基于用户或者物品的推荐属于基于邻居的推荐方法。所谓邻居,是指与一个对象比较近的其他对象。所谓物以类聚、人以群分,距离比较近的对象往往具有相近的特征。1171181191201211221231241259.2.潜在因子与矩阵分解算法潜在因子与矩阵分解算法潜在因子方法是一种矩阵分解算法,又叫隐因子模型(Koren et al.,2009),本质上是一种降维方法。9.2.1 基于矩阵分解的推荐算法基于矩阵分解的推荐算法已有的很多协同过滤方法或者不能处理非常大的数据集,或者处理不好用户评价非常少的情况。矩阵分解方法可以方便地随着观测数线性扩展。概率矩阵

26、分解方法还可以加上限制,比如可以假定那些对相似物品进行评分的用户具有相似的品位。1261271281299.2.2 基于隐因子的概率矩阵分解推荐算法基于隐因子的概率矩阵分解推荐算法假定隐因子是一个随机变量,通常再假定服从一个已知分布,比如正态分布。最后从似然函数的角度来重新研究这个矩阵分解的结果。这就是基于隐因子的概率矩阵分解推荐算法.130131132133上机实践上机实践第四章4.4.1 模拟研究14.4.2 模拟研究2第五章5.5.3 Boosting方法的进一步研究第二版新增RPython第十章：大数据案例1.手机APP2.美国航空3.纽约自行车（第二版新增）134第第1010章、大

27、数据案例分析章、大数据案例分析1.智能手机用户监测数据案例分析智能手机用户监测数据案例分析（1）数据简介）数据简介来自QM公司连续30天4万多智能手机用户的监测数据APP使用记录数据（脱敏后）：表10-1辅助数据辅助数据app_class.csv:4000多常用APP所属类别135136（2）单机实现）单机实现描述性分析：用户记录的有效情况137APP使用情况预测分析因变量：因变量：最后一周是否会使用第i类APP（分类问题）及使用强度（回归问题）自变量：自变量：前23天的使用情况138模型：随机森林139用户行为聚类分析用户APP使用差异的K均值聚类双向聚类双向聚类140RFM聚类聚类Rece

28、ncy：最近一次消费Frequency：消费频率Monetary：消费金额141142推荐系统推荐系统143（3）分布式实现）分布式实现数据预处理与描述统计基于基于Spark的模型分析的模型分析分类、回归；聚类；推荐系统1442.美国航空数据案例分析美国航空数据案例分析（1）数据简介）数据简介美国境内美国境内1988-2008年各机场航班起降记录：表年各机场航班起降记录：表10-16145146机场信息：表机场信息：表10-17；航空公司信息：表；航空公司信息：表10-18147天气数据：表天气数据：表10-19148149（2）单机实现）单机实现基于Mysql的数据预处理与描述分析150洛杉

29、矶到波士顿航线的延误分析洛杉矶到波士顿航线的延误分析151机场聚类分析机场聚类分析152153最短路径最短路径154（3）分布式实现）分布式实现基于基于Hive的数据预处理的数据预处理2000-2008年全部航班的起飞延误机场聚类用用Spark建立分类模型建立分类模型2000-2008年全部航班的起飞延误随机森林1553.美国纽约公共自行车数据案例分析美国纽约公共自行车数据案例分析（1）数据简介）数据简介2013年7月1日至2016年8月31日共38个月（1158天）的交易流水数据156变量量编号号变量名量名变量含量含义变量取量取值及及说明明1tripduration旅行时长骑行时间，数值型，

30、秒2starttime出发时间借车时间，字符串，m/d/YYYY HH:MM:SS3stoptime结束时间还车时间，字符串，m/d/YYYY HH:MM:SS4start station id借车站点编号定性变量，站点唯一编号5start station name借车站点名称字符串6start station latitude借车站点纬度数值型7start station longitude借车站点经度数值型8end station id还车站点编号定性变量，站点唯一编号9end station name还车站点名称字符串10end station latitude还车站

31、点纬度数值型11end station longitude还车站点经度数值型12bikeid自行车编号定性变量，自行车唯一编号13usertype用户类型Subscriber:年度用户;Customer:24小时或7天的临时用户14birth year出生年份仅有此列存在缺失值15gender性别0：未知；1：男性；2：女性天气数据：天气数据：157变量量编号号变量名量名变量含量含义变量取量取值及及说明明1date日期字符串，YYYY-m-d2time时间EDTEDT(Eastern Daylight Timing)指美国东部夏令时间3temperature气温单位：C4dew_point露点

32、单位：C5humidity湿度百分数6pressure海平面气压单位：百帕7visibility能见度单位：千米8wind_direction风向离散型，类别包括west、Calm等9wind_speed风速单位：千米每小时10moment_wind_speed瞬间风速单位：千米每小时11precipitation降水量单位：毫米，存在缺失值12activity活动离散型，类别包括snow等13conditions状态离散型，类别包括overcast,light snow等14WindDirDegrees风向角连续型，取值在035915DateUTC格林尼治时间YYYY/m/d HH:MM（2）单机实现）单机实现描述统计分析与可视化展现158节假日、周末和工作日自行车使用情况159不同天气160每个月份各站点自行车使用量动态气泡图1612013年7月2016年8月网络分析、站点地图162自行车角度的分析自行车角度的分析1158天内共有11487辆自行车163单个站点借车量预测分析164时间序列模型随机森林模型（3）分布式实现）分布式实现基于基于Hive的数据预处理的数据预处理用用Spark建立预测模型建立预测模型165谢谢！请多指正！166

展开阅读全文