资源描述
Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Copyright 2014 Accenture All rights reserved.,*,埃森哲数据分析方法论_V2.6.2,目录,概述,数据分析框架,数据分析方法,数据理解,&,数据准备,数据分析支撑工具,关联分析,聚类分析,分类与回归,时序模型,结构优化,数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合,分析误区,数据挖掘,工具支撑,数学,&,统计学,知识,行业经验,传统,分析,机器,学习,数学,&,统计学知识,数据分析的基础,将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识,工具支撑,各种,厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。,行业经验,行业经验可在数据分析前确定分析需求,分析中检验方法是否合理,以及分析后指导应用,但行业特征不同,其应用也不同,因此本文不展开介绍,传统分析,在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍,分析误区,不了解分析模型的数学原理,会导致错误的使用模型,而得出错误的分析结论,影响业务决策,因此在选用分析模型时,要深入了解该模型的原理和使用限制,机器学习,不,需要人过多干预,通过计算机自动学习,发现数据规律,但结论不易控制。,数据挖掘,数据挖掘是挖掘数据背后隐藏的知识的重要,手段,随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集,(备选),数据,挖掘,计算机技术,统计学、人工智能,业务数据,数据,挖掘,就是,充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的,问题。,信息处理,信息处理,信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。,传统分析,数据分析,工具,传统分析,在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍,数据分析工具,各种,厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。,随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富,一系列以事实为支持,辅助商业决策的技术和方法,曾用名,包括专家系统、智能决策等,一般,由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分,组成,对数据分析的体系化管理,数据分析的主体依然是数据挖掘,结构分析,分组分析,杜邦分析,预警分析,常规分析,揭示数据之间的,静态,关系,分析过程滞后,对数据质量要求高,商务智能,数据挖掘,大数据技术,数据可视化,统计学和计算机技术等多学科的结合,揭示数据之间隐藏的关系,将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”,从多种类型的数据中,快速获取知识的能力,数据挖掘技术的衍生,大,数据时代,展示数据可以更好辅助理解数据、演绎数据,本文,在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、软件。,随着数据量的不断扩大,,数据分析理论正,处于飞速发展期,,因此本文的方法侧重于基础原理介绍。,数据,分析,目录,概述,数据分析框架,数据分析方法,数据理解,&,数据准备,数据分析支撑工具,关联分析,聚类分析,分类与回归,时序模型,结构优化,1.,业务理解,(business understanding,),确定目标、明确分析需求,2.,数据理解(,data understanding,),收集原始数据、描述数据、探索数据、检验数据质量,3.,数据准备,(data preparation),选择数据、清洗数据、构造数据、整合数据、格式化数据,4.,建立模型,(modeling,),选择建模技术、参数调优、生成测试计划、构建模型,5.,评估模型,(evaluation),对模型进行较为全面的评价,评价结果、重审过程,6.,部署,(deployment),分析结果应用,数据分析标准流程,CRISP-DM,为,90,年代由,SIG,组织(当时)提出,已被业界广泛认可的数据分析流程。,数据分析框架,业务理解,数据理解,数据准备,建立模型,理解业务背景,评估分析需求,模型评估,应用,理解业务背景:,数据分析的本质是服务于业务需求,如果没有业务理解,缺乏业务指导,会导致分析无法落地。,评估业务需求:,判断分析需求是否可以转换为数据分析项目,某些需求是不能有效转换为数据分析项目的,比如不符合商业逻辑、数据不足、数据质量极差等。,数据收集,数据清洗,数据收集:,抽取的数据必须能够正确反映业务需求,,否则分析结论会对,业务将造成,误导。,数据清洗:,原始数据中存在数据缺失和坏数据,如果不处理会导致模型,失效,因此对,数据通过过滤“去噪”从而提取出有效数据,数据探索,数据转换,选择方法、工具,建立模型,建模过程评估,模型结果评估,分析结果应用,分析模型改进,探索数据:,运用统计,方法对,数据进行探索,发现数据内部,规律。,数据转换:,为了,达到模型的输入数据要求,需要对数据进行转换,包括生成衍生变量、一致化、标准化,等。,建立模型:,综合考虑,业务需求精度、数据情况、花费成本等因素,,选择最,合适的模型,。,在,实践中对于一个分析目的,往往运用多个,模型,然后通过,后续的模型评估,进行优化、调整,以寻求最合适的模型,。,建模,过程评估:,对模型,的精度、准确性、效率和,通用性进行评估。,,模型结果,评估:,评估是否,有遗漏的,业务,模型结果是否,回答了当初的业务问题,,,需要,结合,业务专家进行评估,。,结果应用:,将,模型应用于业务实践,才能实现数据分析的真正,价值:产生商业价值和解决业务问题。,模型改进:,对模型应用,效果的及时跟踪和反馈,以便后期的模型调整和优化。,业务理解,数据理解,数据准备,建立模型,模型评估,开始,是否明确需求,否,否,数据探索,结构分析,分布特性,特征描述,分类与回归,聚类分析,时序模型,关联分析,结构优化,分析结果应用,数据分析框架,图例,流程概要,方法分类,处理方法,模型检验,理解业务背景,评估分析需求,是,是否满足要求,收集数据,否,是,是,建立模型,贝叶斯,神经网络,C4.5,决策树,指数平滑,支持向量机,灰色理论,K,均值算法,FP-growth,算法,Apriori,算法,均方根误差,均方误差,正概率统计,群间差异度,群内相似度,业务符合度,支持度,置信度,均方根误差,均方误差,正概率统计,灰色理论,遗传算法,数据清洗,数据转换,SVM,算法,KNN,算法,目录,概述,数据分析框架,数据分析方法,数据理解,&,数据准备,数据分析支撑工具,关联分析,聚类分析,分类与回归,时序模型,结构优化,数据清洗,&,数据探索,数据收集的方法多种多样,本文不再详述。在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理解,同时要对数据中的“噪声”进行处理,以支持后续数据建模,。,数据清洗,异常值判别,缺失值处理,数据结构统一(人为因素较多,无统一方法,本文不详述),数据探索,特征描述,分布推断,结构优化,数据探索,数据清洗,数据清洗和数据探索通常交互进行,数据探索有助于选择数据清洗方法,数据清洗后可以更有效的进行数据探索,给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值,。,常用的方法,(,数据来源于同一分布,且是正态,的),:拉,依达,准则、,肖维勒准则,、格拉布斯准则、狄克逊准则、,t,检验。,根据人们对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断异常值,。,比较困难,数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。目前常用的识别异常数据的方法有物理判别法和统计判别法,数据清洗:,1.,异常值判别,物理判别法,统计判别法,慎重对待删除异常值:,为减少犯错误的概率,可多种统计,判别,法结合使用,并尽力寻找异常值出现的原因;若有多个异常值,应逐个删除,即删除一个异常值后,需再行检验后方可再删除另一个异常值,检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,,校验是否正态分布可借助,W,检验、,D,检验,注意,判别方法,判别公式,剔除范围,操作步骤,评价,拉依达准则,(,3,准则),大于,+3,小于,-3,求均值、标准差,进行边界检验,剔除一个异常数据,然后重复操作,逐一剔除,适合用于,n185,时的样本判定,肖维勒准则(等概率准则),大于,+Zc(n),小于,-Zc(n),求均值、标准差,比对系数读取,Zc(n),值,,边界检验,剔除一个异常数据,然后重复操作,逐一剔除,实际中,Zc(n)f(n,),,,说明,x(n),离群远,则判定该数据为异常数据,将数据由小到大排成顺序统计量,求极差,比对狄克逊判断表读取,f(n,),值,,边界检验,剔除一个异常数据,然后重复操作,逐一剔除,异常值只有一个时,效果好;同侧两个数据接近,效果不好,当,n,处于,3,,,25,时,判别效果较好,T,检验,最大、最小数据与均值差值,大于,分别检验最大、最小数据,计算不含被检验最大或最小数据时的均值及标准差,逐一判断并删除异常值,异常值只有一个时,效果好;同侧两个极端数据接近时,效果不好;因而有时通过中位数代替平均数的调整方法可以有效消除同侧异常值的影响,常见统计判别法,由包含,m,个插补值的向量代替每一个缺失值,然后对新产生的,m,个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望(,E,步),后用极大化对数似然函数以确定参数的值,并用于下步的迭代(,M,步),基于完整的数据集,建立回归方程(模型),对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差,先根据欧式距离或相关分析确定距离缺失数据样本最近的,K,个样本,将这,K,个值加权平均来估计缺失数据值,取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值,数据清洗:,2.,缺失值处理,平均值填充,K,最近距离法,回归,极大似线估计,多重插补法,在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、,K,最近距离法、回归法、极大似线估计法等,随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析,数据探索,通过数据探索,初步发现数据特征、规律,为后续数据建模提供输入依据,常见的数据探索方法有数据特征描述、相关性分析、主成分分析等。,结构优化,描述已有数据特征,数据分布特征描述,数据探索要遵循由浅入深、由易到难的步骤,概率分布,特征描述,推断整体数据特征,参数检验,非参数检验,探索数据之间的关系,相关性分析,主成分分析,数据特征描述,中心位置,Diagram,2,Diagram,2,Diagram,3,图形特征,分散程度,中心位置,众数,中位数,/,四分位数,均值,分散程度,方差和标准差,极差、四分位差,标准分数,z-score,离散系数,图形特征,偏度,数据分布,偏斜,程度的,测度,峰度,数据分布扁平程度的测度,左偏分布,右偏分布,扁平分布,尖峰分布,数据概率分布,概率分布可以表述随机变量取值的概率规律,是掌握数据变化趋势和范围的一个重要手段。,离散分布,均匀分布,二项分布,几何分布,离散型均匀分布是一个离散型概率分布,其中有限个数值拥有相同的概率,1.,在每次试验中只有两种可能的结果,而且是互相对立的;,2.,每次实验是独立的,与其它各次试验结果无关;,3.,结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努力试验。,以下两种离散型概率分布中的一种:,在伯努利试验中,得到一次成功所需要的试验次数,X,。,X,的值域是,1,2,3,.,在得到第一次成功之前所经历的失败次数,Y,=,X,1,。,Y,的值域是,0,1,2,3,.,泊松近似,泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值相对很小,而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为,p,,那么在,n,次试验中出现,k,次的概率按照泊松分布应该为,连续分布,均匀分布,指数分布,正态分布,如果连续型随机变量具有如下,p=1/(b-a),的概率密度函数,其中,Xa,,,b,,则称服从上的均匀分布,指数分布可以用来表示独立随机事件发生的时间间隔,比如指数分布还用来描述大型复杂系统(如计算机)的平均故障间隔时间,MTBF,的失效分布,正态分布,若随机变量,X,服从一个数学期望为,、方差为,2,的高斯分布,记为,N(,,,2),。其概率密度函数为正态分布的期望值,决定了其位置,其标准差,决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是,=0,=1,的正态分布,数据分布初步推断,参数检验:数据的分布已知的情况下,对数据分布的参数是否落在相应范围内进行检验,假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法,可以分为参数检验和非参数检验。,非参数检验:一般是在不知道数据分布的前提下,检验数据的分布情况,检验方法名称,问题类型,假设,卡方检验,检测实际观测频数与理论频数之间是否存在差异,观测频数与理论频数无差异,K-S,检验,检验变量取值是否为正态分布,服从正态分布,游程检验,检测一组观测值是否有明显变化趋势,无明显变化趋势,二项分布假设检验,通过样本数据检验样本来自的总体是否服从指定的概率为,P,的二项分布,服从概率为,P,的二项分布,检验方法名称,问题类型,假设,适用条件,抽样方法,单样本,T,检验,判断一个总体,平均数等于,已知数,总体平均数等于,A,总体服从正态分布,从总体中抽取一个样本,F,检验,判断两总体,方差,相等,两总体方差相等,总体服从正态分布,从两个总体中各抽取一个样本,独立样本,T,检验,判断两总体,平均数,相等,两总体平均数相等,1,、总体服从正态分布,2,、两总体方程相等,从两个总体中各抽取一个样本,配对样本,T,检验,判断指标实验前后平均数相等,指标实验前后平均数相等,1,、总体服从正态分布,2,、,两组数据是同一试验对象在试验前后的测试值,抽取一组试验对象,在试验前测得试验对象某指标的值,进行试验后再测得试验对象该指标的取值,二项分布假设检验,随机抽样实验的成功概率的检验,总体概率等于,P,总体服从二项分布,从总体中抽取一个样本,总结,1,、参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设。,2,、二者的根本区别在于参数检验要利用到总体的信息,以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息。,相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础,0,0.4,0.6,0.8,1.0,0.2,负相关,正相关,极强相关,强相关,中等相关,弱相关,弱相关或无,(,线性,),相关,适用,条件,结构优化,相关性分析,用于分析的多个变量间可能会存在较多的信息重复,若直接用来分析,会导致模型复杂,同时可能会引起模型较大误差,因此要初步探索数据间的相关性,剔除重复因素,。,Spearman,秩相关系数,衡量,两,个变量之间,联系,(变化趋势),的强弱,在秩(排序)的相对大小基础上得到,对异常值更稳健,Pearson,相关系数,衡量,两个变量,线性,相关性的,强弱,在方差和协方差的基础上得到的,对异常值敏感,Kendall,相关系数,基于协同思想得到,衡量变量之间的协同趋势,对异常值稳健,特点,服从正态分布或接近正态的单峰分布,两个变量为连续数据,两个变量均为连续数据或等级数据,两个变量均为连续数据或等级数据,偏相关分析,二元变量相关分析,距离相关分析,研究两个变量,之间线性相关,关系时,控制可能对其产生影响的变量,对观测量之间或变量之间相似或不相似程度的一种测度,检验动机,:,样本数据只是总体的一个实现,因此,根据现有数据计算出来的相关系数只是变量相关系数的一个观测值,又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数,必须进行显著性检验。其原假设:在总体中,两个变量的相关系数,(,总体相关系数,),为零,检验意义,:,计算在原假设成立的情况下,(,也就是在两个变量相关系数为零的情况下,),,由于抽样的原因,(,收集样本数据的原因,),得到当前的样本相关系数,(,可能这个系数并不为零,甚至还比较大,),的概率。(,p,值越小说明越是小概率事件,不可能发生,拒绝原假设),检验方法,:,T,检验(常用):对于近似高斯分布的数据(如两个变量服从双变量正态分布),相关系数的 样本分布 近似地服从自由度为,N,2,的,t,分布;如果样本容量不是特别小(通常大于,30,),即使观测数据不服从正态分布,依然可使用,t,检验,结构优化,相关性分析,Karl Pearson,(,1901,)探究如何通过少数几个主成分,(principal component),来解释多个变量间的内部结构时提出主成分分析法,旨在从原始变量中导出少数几个主分量,使其尽可能多地保留原始变量的信息,且彼此间互不相关,内涵,:,将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法,结构优化,主成分分析,应用,:,数据的压缩和解释,即常被用来寻找和简化判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释,原理:,设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。,数据转换或统一成适合于挖掘的形式,通常的做法有数据泛化、标准化、属性构造等,本文详细介绍数据标准化的方法,即统一数据的量纲及数量级,将数据处理为统一的基准的方法。,基期标准化法,直线法,折线法,曲线法,选择基,期作为参照,,,各,期标准化数据各期数据,/,基期数据,数据转换,各方法都有缺点,要根据客观事物的特征及所选用的分析方法来确定,如聚类分析、关联分析等常用直线法,且聚类分析必须满足无量纲标准;而综合评价则折线和曲线方法用得较多,能简就简,,能用直线尽量不用曲线。,极值法:,z-score,法,:,某些数据在不同值范围,采用不同的标准化方法,通常用于综合评价,示例,Log,函数法:,Arctan,函数法:,对数函数法、模糊量化模式等,目录,概述,数据分析框架,数据分析方法,数据理解,&,数据准备,数据分析支撑工具,关联分析,聚类分析,分类与回归,时序模型,结构优化,分类,定义:,按照某种指定的属性特征将数据归类。需要确定类别的概念描述,并找出类判别准则。,分类的目的是获得一个分类函数或分类模型(也常常称作分类器),该模型能把数据集合中的数据项映射到某一个给定类别。,分类是利用训练数据集通过一定的算法而求得分类规则的。是模式识别的基础。,分类可用于提取描述重要数据类的模型或预测未来的数据趋势。,银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户,学习得到分类器。对一个新来的申请者,根据分类器计算风险,决定接受或拒绝该申请,分析影响变压器正常运行的因素,预测变压器是否有故障,若有故障,故障为放电故障、过热故障、短路故障等的哪一种。,持续时长,13,yes,no,7,2,%,96,98,%,设备类型,1,103,59%,设备类型,2,负荷,负荷,6,THEN,是否提薪,=,是,分类模型,(Model),训练数据,模型的使用,识别未知对象的所属,类别,模型正确性的,评价,已标记分类的测试样本与模型的实际分类结果进行,比较,模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。测试集与训练集相分离,否则将出现过拟合,(,over-fitting,),现象,分类模型,测试数据,(,唐旭,高级,4),提薪,?,是,分类,分类的主要算法:,KNN,算法、,决策树(,CART,、,C4.5,等)、,SVM,算法、贝叶斯算法、,BP,神经网络等,分类,分类的主要算法:,KNN,算法、,决策树(,CART,、,C4.5,等)、,SVM,算法、贝叶斯算法、,BP,神经网络等,算法介绍:,C4.5,是一种类似二叉树或多叉树的树结构。树中的每个非叶结点(包括根结点)对应于训练样本集总一个非类属性的测试,非叶结点的每一个分支对应属性的一个测试结果,每个叶结点代表一个类或类分布。从根结点到叶子结点的一条路径形成一条分类规则。决策树可以很方便地转化为分类规则,一种非常直观的分类模型的表示形式。,C45,属于一种归纳学习算法。归纳学习(,Inductive Learning,)旨在从大量经验数据中归纳抽取一般的判定规则和模式,它是机器学习(,Machine Learning,)中最核心、最成熟的一个分支。根据有无导师指导,归纳学习又分为有导师学习(,Supervised Learning,,又称为示例学习)和无导师学习,(Unsupervised Learning),。,C45,属于有导师的学习算法。,算法特点:,(,1,)模型直观清晰,分类规则易于解释;,(,2,)解决了连续数据值的学习问题;,(,3,)提供了将学习结果决策树到等价规则集的转换功能。,决策树示例:,套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:,女儿:多大年纪了?母亲:,26,。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。,分类,分类的主要算法:,KNN,算法、,决策树(,CART,、,C4.5,等)、,SVM,算法、,贝叶斯算法,、,BP,神经网络等,设每个数据样本用一个,n,维特征向量来描述,n,个属性的值,即:,X=x1,,,x2,,,,,xn,,假定有,m,个类,分别用,C1,C2,,,Cm,表示。给定一个未知的数据样本,X,(即没有类标号),若朴素贝叶斯分类法将未知的样本,X,分配给类,Ci,,则一定是,P(Ci|X)P(Cj|X)1jm,,,jI,根据贝叶斯定理,由于,P(X),对于所有类为常数,最大化后验概率,P(Ci|X),可转化为最大化先验概率,P(X|Ci)P(Ci),。如果训练数据集有许多属性和元组,计算,P(X|Ci),的开销可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率,P(x1|Ci),,,P(x2|Ci),,,,,P(xn|Ci),可以从训练数据集求得。,根据此方法,对一个未知类别的样本,X,,可以先分别计算出,X,属于每一个类别,Ci,的概率,P(X|Ci)P(Ci),,然后选择其中概率最大的类别作为其类别。,朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。,贝叶斯图像识别,贝叶斯方法是一个非常通用的推理框架。其核心理念可以描述成:,Analysis by Synthesis,(通过合成来分析)。,06,年的认知科学新进展上有一篇论文就是讲用贝叶斯推理来解释视觉识别的,一图胜千言,下图就是摘自这篇论文:,首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是,E,还是,F,还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像,分类,分类的主要算法:,KNN,算法、,决策树(,CART,、,C4.5,等)、,SVM,算法、,贝叶斯算法,、,BP,神经网络,等,BP,(,Back Propagation,)网络是,1986,年由,Rumelhart,(,鲁姆哈特,)和,McCelland,(,麦克利兰,)为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。,BP,网络能学习和存贮大量的输入,-,输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。,BP,神经网络模型拓扑结构包括输入层(,input,)、隐层,(hidden layer),和输出层,(output layer),。,BP,神经网络学习过程,正向传播:,输入样本,-,输入层,-,各隐藏层,-,输出层,判断是否转入反向传播阶段,若输出层的实际输出与期望输出不符,误差反传,误差以某种形式在各层表示,-,修正各层单元的权值,网络输出的误差减少到可接受的程度或达到预先设定的学习次数为止,BP,神经网络的不足,首先,由于学习速率是固定的,因此网络的收敛速度慢,需要较长的训练,时间。,其次,,BP,算法可以使权值收敛到某个值,但并不保证其为误差平面的全局,最小值。,再次,网络隐含层的层数和单元数的选择尚无理论上的指导,一般是根据经验或者通过反复实验,确定。,最后,网络的学习和记忆具有不稳定性。也就是说,如果增加了学习样本,训练好的网络就需要从头开始训练,对于以前的权值和阈值是没有记忆的,。,存款情况,库存情况,销售情况,人员规模,高风险,低风险,无风险,输入层,隐藏层,输出层,回归,产生,:英国统计学家,F.GALTON,(,法兰西斯,高尔顿,),(1822-1911),和其学生,K.Pearson,(,卡尔,.,皮尔逊,),(1856-1936),观察了,1078,对夫妇,以每对夫妇的平均身高为,X,,而取他们成年的儿子的身高为,Y,,得到如下经验方程:,Y=33.73+0.516X,定义:,假定同一个或多个独立变量存在相关关系,寻找相关关系的模型。不同于时间序列法的是:模型的因变量是随机变量,而自变量是可控变量。分为线性回归和非线性回归,通常指连续要素之间的模型关系,是因果关系分析的基础。(回归研究的是数据之间的非确定性关系),线性回归算法寻找属性与预测目标之间的线性关系。通过属性选择与去掉相关性,去掉与问题无关的变量或存在线性相关性的变量。,在建立回归模型之前,可先进行主成分分析,消除属性之间的相关性。最后通过最小二乘法,算法得到各属性与目标之间的线性系数。,分类,:,前提:,正态性假设:,总体误差项需服从正态分布,反之则最小二乘估计不再是最佳无偏估计,不能进行区间估计和假设检验,零均值性假设,:在自变量取一定值的条件下,其总体各误差项的条件平均值为零,反之无法得到无偏估计,等方差性假设,:在自变量取一定值的条件下,其总体各误差项的条件方差为一常数,反之无法得到无偏估计,独立性假设,:误差项之间相互独立(不相关),误差项与自变量之间应相互独立,否则最小二乘估计不再是有效估计,检验,:,回归模型,回归,-,线性回归,一元线性回归,只有一个变量,X,与因变量,Y,有关,,X,与,Y,都是连续型变量,因变量,Y,或其残差必须服从正态分布,多元线性回归,分析多个变量与因变量,Y,的关系,,X,与,Y,都是连续型变量,因变量,Y,或其残差必须服从正态分布,LOGISTIC,线性回归,分析多个变量与因变量,Y,的关系,,Y,通常是离散型或定性变量,该模型对因变量,Y,的分布无要求,模型显著性:,F,检验,读取,p,值并同置信度比较,判断回归模型显著性,系数显著性:,t,检验,读取,p,值并同置信度比较,判断该自变量是否显著影响因变量,拟合优度,残差检验:绘制残差图(标准化残差直方图及散点图),检验残差的正态性及独立性,若所描绘的点都在以,0,为横轴的直线上下随机散布,则回归直线对各个观测值的拟合情况良好,决定系数:度量自变量对因变量变化的解释程度,愈接近,1,则线性关系愈强,样本容量:,n 30,或,n 3(p+1),;其中,n,为样本容量,,p,为自变量数目,分类模型评估,分类模型评估,效果指标,测试集选取,指标呈现,保持法,随机二次抽样,交叉验证,自助法,基于统计,基于比率,误差、离差、,Kappa,统计量、,准确率置信区间、错误率观测差,混淆矩阵,ROC,曲线,KS,曲线,Lift,图,响应率曲线,目的:模型之间的比选以及单模型预测效果,捕获率曲线,/,增益图,准确率,敏感性,特异性,精度,KS,值,Lift,值,响应率,捕获率,分类模型评估,方法,描述,图示,保持法,将原始数据集随机地划分到两个独立的集合,:,训练集和检验集。通常,三分之二的数据分配到训练集,其余三分之一分配到检验集。模型的效果指标如准确率、误差等由训练集导出。,随机二次抽样,多次重复使用保持法,得到一组准确率等效果指标。,交叉验证,最常用的是,k-,折交叉法,将原始数据分成,k,份,每次用其中一份为测试集,其余为训练集运行,总共运行,k,次,记录误差。,自助法,有放回抽样。训练集的样本为,N,,放回原数据集,重新有放回地均匀抽取,N,个样本后,剩余的数据集作为测试集。,原始数据集,训练集,测试集,模型评估,建立模型,2/3,1/3,原始数据集,模型评估,建立模型,1/k,1/k,1/k,1/k,有放回抽取,N,样本,建立模型,测试集,模型评估,训练集(,N,),总数据集,测试集选取方法,效果指标,基于比率,1,0,合计,1,a,b,a+b,0,c,d,c+d,合计,a+c,b+d,a+b+c+d,预测类,实际类,以二分类为例,说明几个重要效果指标概念。下图为混淆矩阵。通过银行办理信用卡的例子做指标的业务解释。,最常用的评估指标,用以评价模型分类是否正确。但是,对于不平衡问题(即,0,类的占大多数),准确率去评价就不够。例如银行办理信用卡,模型只用一条规则“所有人不违约”,结果准确率达到,1000/1200=83.3%,。但这样的模型毫无意义。准确率适合于平衡问题。,正确识别正元组的百分比。如例中,敏感性为,80/200=40%,,因此该模型正确标识真元组(稀有类)的能力还是比较差的,但是还是高于违约的总占比,200/1200=16.7%,违约,不违约,合计,违约,80,120,200,不违约,20,980,1000,合计,100,1100,1200,预测类,实际类,正确识别负元组的百分比。例子中为,98%,。,预测为正元类中实际为正元类所占的百分比。衡量预测类,1,的精确性。例子中为,80%,。,该案例中模型对于违约的人群,可以识别,40%,;如果一个人通过模型判断为违约类,则,80%,可能该人为违约的。敏感性和精度是两个重要指标,可以综合这两个指标,如,F,等。,示例,敏感性,=a/(a+b),准确率,=(a+d)/(a+b+c+d),特异性,=d/(c+d),精度,=a/(a+c),分类模型评估,以真正率及敏感性为纵轴,假正率,=1-,特异性为横轴做图。给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。,ROC,曲线,增益图,KS,曲线,模型预测为概率值,即为,1,类的概率为多少,为,0,类的概率为多少。将,1,类、,0,类的概率 按照大小由高到底排列,并将各自的累计百分比画在一个图里。纵坐标代表累计百分比,横坐标为预测的概率区间。,0,、,1,曲线的最大距离为,KS,值,反映模型区分,0,、,1,类的能力,越大代表模型将,0,、,1,分开程度越大。一般大于,0.2,较好。如图,KS=0.47.,和捕获率曲线是一样的,详见捕获率曲线。,理想模型:,100%,预测正确下的曲线。这里假设,1,类占总数为,30%,。,模型的曲线越靠近理想曲线,预测水平越高。可用,Gini,系数衡量。,Gini,系数,=,模型曲线与随机曲线之间的面积,/,理想模型曲线与随机曲线之间的面积。越接近,1,越好。,分类模型评估,响应率曲线,捕获率曲线,在每个区间里进行计算,,1,类的累计数占该区间累计的总数比例作为,响应率,。比如在排序前,10%,中,模型,1,得出,1,类样本占比,80%,,模型,2,为,73%,。响应率越高越好,改图显示模型,1,较模型,2,更好。,是在每个区间段,计算,1,类的累计值占总体,1,类的百分比作为,捕获率,。衡量的是某累计区间抓住,1,类的对象占总体的比例。,随机概率:,不用模型随机抽取数据得到的比率。比如响应率,总数据中,1,类占比,20%,,那抽取,10%,数据理论占比应该还是,20%,。,横坐标:,按照模型结果概率得分从高到底排序,分成,10,个区间。适合于模型输出值为概率得分,如贝叶斯分类、后向传播等。,Lift,值,=,响应率,/,随机概率。比如对,10000,名浅在顾客进行概率打分,预测其购买商品的可能性,若实际中有,900,人会购买,则,9%,为随机概率。抽取概率排名前,10%,的人数,即,1000,人,预测,600,人购买,则前,10%,的响应率为,600/1000=60%,,则,Lift,值,=60%/9%=6.67.,Lift,图,三个指标在实际业务中使用比较多,因为其直观、通俗易懂;同时有利于划分不同的目标人群,前,10%,?、,20%,?根据业务需要挑选受众规模。,分类模型评估,目录,概述,数据分析框架,数据分析方法,数据理解,&,数据准备,数据分析支撑工具,关联分析,聚类分析,分类与回归,时序模型,结构优化,聚类分析,聚类分析对具有共同趋势或结构的数据进行分组,将数据项分组成多个簇(类),簇之间的数据差别应尽可能大,簇内的数据差别应尽可能小,即“最小化簇间的相似性,最大化簇内的相似性”。,示例,基于划分的聚类,基于层次的聚类,基于密度的聚类,基于网格的聚类,基于模型的聚类,对给定的数据集合,事先指定划分为,k,个类别。,典型算法:,k-,均值法,和,k-,中心点算法等,。,对,给定的数据集合,进行层次分解,不需要预先给定聚类数,但要给定终止条件,包括凝聚,法和,分裂法两类。,典型算法:,CURE,、,Chameleon,、,BIRCH,、,Agglomerative,只要,某簇邻近区域的密度超过设定,的阈值,,则扩大簇的范围,继续聚类。这类算法可以获得任意形状的簇。,典型,算法:,DBSCAN,、,OPTICS,和,DENCLUE,等,首先,将问题空间量化为有限数目的单元,形成一个空间网格结构,随后聚类在这些网格之间进行,。,典型,算法:,STING,、,WareCluster,和,CLIQUE,等,。,为,每个簇假定一个模型,寻找数据,对模型,的最佳拟合。所基于的假设是:数据是根据潜在的概率分布生成的。,典型,算法:,COBWEB,和神经网络算法等。,聚类分析,K,均值聚类,39,利用,K-means,聚类算法,把原始数据聚成三个不同的簇的应用实例如左图示(,K=3,),。,基本思路,:,(,1,)首先,随机选择,k,个数据点做为聚类中心;,(,2,)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止,。,应用实例,K-Means,算法,也被称为,K-,平均或,K-,均值,是一种得到
展开阅读全文