如何利用大数据进行数据挖掘与分析.pptx-资源下载-咨信网助力知识提升-让知识获取变得高效!

如何利用大数据进行数据挖掘与分析.pptx

1、埃森哲如何利用大数据进行数据挖掘与分析CONTENTS目录数据分析支撑工具数据分析支撑工具概述概述数据分析方法数据分析方法数据分析框架数据分析框架01概述数据分析即从数据、信息到知识的过程，数据分析需要数学理论、行业经验以及计算机工具三者结合分析误区数据挖掘工具支撑数学&统计学知识行业经验传统分析机器学习数学&统计学知识数据分析的基础，将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识工具支撑各种厂商开发了数据分析的工具、模块，将分析模型封装，使不了解技术的人也能够快捷的实现数学建模，快速响应分析需求。行业经验行业经验可在数据分析前确定分析需求，分析中检验方法是否合理，以及分析后指导

2、应用，但行业特征不同，其应用也不同，因此本文不展开介绍传统分析在数据量较少时，传统的数据分析已能够发现数据中包含的知识，包括结构分析、杜邦分析等模型，方法成熟，应用广泛，本文不展开介绍分析误区不了解分析模型的数学原理，会导致错误的使用模型，而得出错误的分析结论，影响业务决策，因此在选用分析模型时，要深入了解该模型的原理和使用限制机器学习不需要人过多干预，通过计算机自动学习，发现数据规律，但结论不易控制。数据挖掘数据挖掘是挖掘数据背后隐藏的知识的重要手段数据分析随着计算机技术发展和数据分析理论的更新，当前的数据分析逐步成为机器语言、统计知识两个学科的交集数据挖掘就是充分利用了统计学和人工智能技术

3、的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。数据挖掘计算机技术统计学、人工智能业务数据信息处理传统分析数据分析工具传统分析在数据量较少时，传统的数据分析已能够发现数据中包含的知识，包括结构分析、杜邦分析等模型，方法成熟，应用广泛，本文不展开介绍数据分析工具各种厂商开发了数据分析的工具、模块，将分析模型封装，使不了解技术的人也能够快捷的实现数学建模，快速响应分析需求。信息处理信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。数据分析随

4、着计算机科学的进步，数据挖掘、商务智能、大数据等概念的出现，数据分析的手段和方法更加丰富一系列以事实为支持，辅助商业决策的技术和方法，曾用名包括专家系统、智能决策等一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成对数据分析的体系化管理，数据分析的主体依然是数据挖掘结构分析分组分析杜邦分析预警分析常规分析揭示数据之间的静态关系分析过程滞后对数据质量要求高商务智能数据挖掘大数据技术数据可视化统计学和计算机技术等多学科的结合揭示数据之间隐藏的关系将数据分析的范围从“已知”扩展到“未知”，从“过去”推向“将来”从多种类型的数据中，快速获取知识的能力数据挖掘技术的衍生大数据时代，展示数据

5、可以更好辅助理解数据、演绎数据本文在描述数据分析的流程后，重点介绍通用的数据分析方法和主流的应用工具、软件。随着数据量的不断扩大，数据分析理论正处于飞速发展期，因此本文的方法侧重于基础原理介绍。数据分析02数据分析框架CRISP-DM为90年代由SIG组织（当时）提出，已被业界广泛认可的数据分析流程。1.业务理解(business understanding）确定目标、明确分析需求2.数据理解（data understanding）收集原始数据、描述数据、探索数据、检验数据质量3.数据准备(data preparation)选择数据、清洗数据、构造数据、整合数据、格式化数据4.建立模型(mod

6、eling）选择建模技术、参数调优、生成测试计划、构建模型5.评估模型(evaluation)对模型进行较为全面的评价，评价结果、重审过程6.部署(deployment)分析结果应用数据分析标准流程数据分析框架业务理解理解业务背景，评估分析需求理解业务背景：数据分析的本质是服务于业务需求，如果没有业务理解，缺乏业务指导，会导致分析无法落地。评估业务需求：判断分析需求是否可以转换为数据分析项目，某些需求是不能有效转换为数据分析项目的，比如不符合商业逻辑、数据不足、数据质量极差等。数据理解数据收集数据清洗数据收集：抽取的数据必须能够正确反映业务需求，否则分析结论会对业务将造成误导。数据清洗：原始数

7、据中存在数据缺失和坏数据，如果不处理会导致模型失效，因此对数据通过过滤“去噪”从而提取出有效数据数据准备数据探索数据转换探索数据：运用统计方法对数据进行探索，发现数据内部规律。数据转换：为了达到模型的输入数据要求，需要对数据进行转换，包括生成衍生变量、一致化、标准化等。建立模型选择方法、工具，建立模型建立模型：综合考虑业务需求精度、数据情况、花费成本等因素，选择最合适的模型。在实践中对于一个分析目的，往往运用多个模型，然后通过后续的模型评估，进行优化、调整，以寻求最合适的模型。模型评估建模过程评估模型结果评估建模过程评估：对模型的精度、准确性、效率和通用性进行评估。，模型结果评估：评估是否有遗

8、漏的业务，模型结果是否回答了当初的业务问题，需要结合业务专家进行评估。应用分析结果应用分析模型改进结果应用：将模型应用于业务实践，才能实现数据分析的真正价值：产生商业价值和解决业务问题。模型改进：对模型应用效果的及时跟踪和反馈，以便后期的模型调整和优化。业务理解数据理解数据准备建立模型模型评估开始是否明确需求否否数据探索结构分析分布特性特征描述分类与回归聚类分析时序模型关联分析结构优化分析结果应用数据分析框架图例流程概要方法分类处理方法模型检验理解业务背景，评估分析需求是是否满足要求收集数据否是是建立模型贝叶斯神经网络C4.5决策树指数平滑支持向量机灰色理论K均值算法FP-growth算法Ap

9、riori算法均方根误差均方误差正概率统计群间差异度群内相似度业务符合度支持度置信度均方根误差均方误差正概率统计灰色理论遗传算法数据清洗数据转换SVM算法KNN算法03数据分析方法数据清洗&数据探索数据收集的方法多种多样，本文不再详述。在对收集的数据进行分析前，要明确数据类型、规模，对数据有初步理解，同时要对数据中的“噪声”进行处理，以支持后续数据建模。数据清洗异常值判别缺失值处理数据结构统一（人为因素较多，无统一方法，本文不详述）数据探索特征描述分布推断结构优化数据探索数据清洗数据清洗和数据探索通常交互进行数据探索有助于选择数据清洗方法数据清洗后可以更有效的进行数据探索给定一个置信概率，并确

10、定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常值。常用的方法（数据来源于同一分布，且是正态的）：拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。根据人们对客观事物、业务等已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，判断异常值。比较困难数据清洗：1.异常值判别数据清洗的第一步是识别会影响分析结果的“异常”数据，然后判断是否剔除。目前常用的识别异常数据的方法有物理判别法和统计判别法13物理判别法统计判别法慎重对待删除异常值：为减少犯错误的概率，可多种统计判别法结合使用，并尽力寻找异常值出现的原因；若有多个异常值，应逐个删除，即删除一个异

11、常值后，需再行检验后方可再删除另一个异常值检验方法以正态分布为前提，若数据偏离正态分布或样本较小时，则检验结果未必可靠，校验是否正态分布可借助W检验、D检验注意判别方法判别公式剔除范围操作步骤评价拉依达准则（3准则）大于+3小于-3求均值、标准差，进行边界检验，剔除一个异常数据，然后重复操作，逐一剔除适合用于n185时的样本判定肖维勒准则（等概率准则）大于+Zc(n)小于-Zc(n)求均值、标准差，比对系数读取Zc(n)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除实际中Zc(n)f(n,)，说明x(n)离群远，则判定该数据为异常数据将数据由小到大排成顺序统计量，求极差，比对狄克逊判断

12、表读取f(n,)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除异常值只有一个时，效果好；同侧两个数据接近，效果不好当n处于3，25时，判别效果较好T检验最大、最小数据与均值差值大于分别检验最大、最小数据，计算不含被检验最大或最小数据时的均值及标准差，逐一判断并删除异常值异常值只有一个时，效果好；同侧两个极端数据接近时，效果不好；因而有时通过中位数代替平均数的调整方法可以有效消除同侧异常值的影响常见统计判别法由包含m个插补值的向量代替每一个缺失值，然后对新产生的m个数据集使用相同的方法处理，得到处理结果后，综合结果，最终得到对目标变量的估计在给定完全数据和前一次迭代所得到的参数估计的情况

13、下计算完全数据对应的对数似然函数的条件期望（E步），后用极大化对数似然函数以确定参数的值，并用于下步的迭代（M步）基于完整的数据集，建立回归方程（模型），对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充；但当变量不是线性相关或预测变量高度相关时会导致估计偏差先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本，将这K个值加权平均来估计缺失数据值取所有对象（或与该对象具有相同决策属性值的对象）的平均值来填充该缺失的属性值平均值填充K最近距离法回归极大似线估计多重插补法随着数据量的增大，异常值和缺失值对整体分析结果的影响会逐渐变小，因此在“大数据”模式下，数据清

14、洗可忽略异常值和缺失值的影响，而侧重对数据结构合理性的分析数据清洗：2.缺失值处理在数据缺失严重时，会对分析结果造成较大影响，因此对剔除的异常值以及缺失值，要采用合理的方法进行填补，常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等数据探索通过数据探索，初步发现数据特征、规律，为后续数据建模提供输入依据，常见的数据探索方法有数据特征描述、相关性分析、主成分分析等。结构优化描述已有数据特征-数据分布特征描述-数据探索要遵循由浅入深、由易到难的步骤概率分布特征描述推断整体数据特征-参数检验-非参数检验-探索数据之间的关系-相关性分析-主成分分析-数据特征描述中心位置Diagram 2D

15、iagram 2Diagram 3图形特征分散程度分散程度v方差和标准差v极差、四分位差v标准分数 z-scorev离散系数中心位置v众数v中位数/四分位数v均值图形特征v偏度数据分布偏斜程度的测度v峰度数据分布扁平程度的测度左偏分布右偏分布扁平分布尖峰分布数据概率分布概率分布可以表述随机变量取值的概率规律，是掌握数据变化趋势和范围的一个重要手段。离散分布均匀分布二项分布几何分布离散型均匀分布是一个离散型概率分布，其中有限个数值拥有相同的概率1.在每次试验中只有两种可能的结果，而且是互相对立的；2.每次实验是独立的，与其它各次试验结果无关；3.结果事件发生的概率在整个系列试验中保持不变，则这一

16、系列试验称为伯努力试验。以下两种离散型概率分布中的一种：在伯努利试验中，得到一次成功所需要的试验次数X。X的值域是1,2,3,.在得到第一次成功之前所经历的失败次数Y=X1。Y的值域是0,1,2,3,.泊松近似泊松近似是二项分布的一种极限形式。其强调如下的试验前提：一次抽样的概率值相对很小，而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为p，那么在n次试验中出现k次的概率按照泊松分布应该为连续分布均匀分布指数分布正态分布如果连续型随机变量具有如下p=1/(b-a)的概率密度函数,其中Xa，b，则称服从上的均匀分布指数分布可以用来表示独立随机

17、事件发生的时间间隔，比如指数分布还用来描述大型复杂系统（如计算机）的平均故障间隔时间MTBF的失效分布正态分布若随机变量X服从一个数学期望为、方差为2的高斯分布，记为N(，2)。其概率密度函数为正态分布的期望值决定了其位置，其标准差决定了分布的幅度。因其曲线呈钟形，因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是=0,=1的正态分布数据分布初步推断假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法，可以分为参数检验和非参数检验。参数检验：数据的分布已知的情况下，对数据分布的参数是否落在相应范围内进行检验非参数检验：一般是在不知道数据分布的前提下，检验数据的分布情况检验方法

18、名称问题类型假设卡方检验检测实际观测频数与理论频数之间是否存在差异观测频数与理论频数无差异K-S检验检验变量取值是否为正态分布服从正态分布游程检验检测一组观测值是否有明显变化趋势无明显变化趋势二项分布假设检验通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布服从概率为P的二项分布检验方法名称问题类型假设适用条件抽样方法单样本T检验判断一个总体平均数等于已知数总体平均数等于A总体服从正态分布从总体中抽取一个样本F检验判断两总体方差相等两总体方差相等总体服从正态分布从两个总体中各抽取一个样本独立样本T检验判断两总体平均数相等两总体平均数相等1、总体服从正态分布2、两总体方程相等从两个总

19、体中各抽取一个样本配对样本T检验判断指标实验前后平均数相等指标实验前后平均数相等1、总体服从正态分布2、两组数据是同一试验对象在试验前后的测试值抽取一组试验对象，在试验前测得试验对象某指标的值，进行试验后再测得试验对象该指标的取值二项分布假设检验随机抽样实验的成功概率的检验总体概率等于P总体服从二项分布从总体中抽取一个样本总结1、参数检验是针对参数做的假设，非参数检验是针对总体分布情况做的假设。2、二者的根本区别在于参数检验要利用到总体的信息，以总体分布和样本信息对总体参数作出推断；非参数检验不需要利用总体的信息。相关系数是考察变量之间的相关程度的变量，相关分析是优化数据结构的基础00.40.

20、60.81.00.2负相关正相关极强相关强相关中等相关弱相关弱相关或无(线性)相关结构优化相关性分析用于分析的多个变量间可能会存在较多的信息重复，若直接用来分析，会导致模型复杂，同时可能会引起模型较大误差，因此要初步探索数据间的相关性，剔除重复因素。衡量两个变量之间联系（变化趋势）的强弱在秩（排序）的相对大小基础上得到，对异常值更稳健两个变量均为连续数据或等级数据衡量两个变量线性相关性的强弱在方差和协方差的基础上得到的，对异常值敏感服从正态分布或接近正态的单峰分布两个变量为连续数据基于协同思想得到，衡量变量之间的协同趋势对异常值稳健两个变量均为连续数据或等级数据特点适用条件偏相关分析Spear

21、man秩相关系数Pearson相关系数Kendall相关系数二元变量相关分析距离相关分析研究两个变量之间线性相关关系时，控制可能对其产生影响的变量对观测量之间或变量之间相似或不相似程度的一种测度检验动机：样本数据只是总体的一个实现，因此，根据现有数据计算出来的相关系数只是变量相关系数的一个观测值，又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数，必须进行显著性检验。其原假设：在总体中，两个变量的相关系数(总体相关系数)为零检验意义：计算在原假设成立的情况下(也就是在两个变量相关系数为零的情况下)，由于抽样的原因(收集样本数据的原因)得到当前的样本相关系数(可能这个系数并不为零，甚至

22、还比较大)的概率。（p值越小说明越是小概率事件，不可能发生，拒绝原假设）检验方法：T检验（常用）：对于近似高斯分布的数据（如两个变量服从双变量正态分布）,相关系数的样本分布近似地服从自由度为N2的t分布；如果样本容量不是特别小（通常大于30），即使观测数据不服从正态分布，依然可使用t检验结构优化相关性分析KarlPearson（1901）探究如何通过少数几个主成分(principalcomponent)来解释多个变量间的内部结构时提出主成分分析法，旨在从原始变量中导出少数几个主分量，使其尽可能多地保留原始变量的信息，且彼此间互不相关内涵：将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量

23、，并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法应用：数据的压缩和解释，即常被用来寻找和简化判断事物或现象的综合指标，并对综合指标所包含的信息进行适当的解释原理：设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。结构优化主成分分析基期标准化法直线法折线法曲线法选择基期作为参照，各期标准化数据各期数据/基期数据极值法：z-score法:某些数据在不同值范围，采用不同的标准化方法，通常用于综合评价示例Log函数法：

24、Arctan函数法：对数函数法、模糊量化模式等数据转换数据转换或统一成适合于挖掘的形式，通常的做法有数据泛化、标准化、属性构造等，本文详细介绍数据标准化的方法，即统一数据的量纲及数量级，将数据处理为统一的基准的方法。各方法都有缺点，要根据客观事物的特征及所选用的分析方法来确定，如聚类分析、关联分析等常用直线法，且聚类分析必须满足无量纲标准；而综合评价则折线和曲线方法用得较多能简就简，能用直线尽量不用曲线。分类定义：按照某种指定的属性特征将数据归类。需要确定类别的概念描述，并找出类判别准则。分类的目的是获得一个分类函数或分类模型（也常常称作分类器），该模型能把数据集合中的数据项映射到某一个给定类

25、别。分类是利用训练数据集通过一定的算法而求得分类规则的。是模式识别的基础。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。银行根据客户以往贷款记录情况，将客户分为低风险客户和高风险客户，学习得到分类器。对一个新来的申请者，根据分类器计算风险，决定接受或拒绝该申请分析影响变压器正常运行的因素，预测变压器是否有故障，若有故障，故障为放电故障、过热故障、短路故障等的哪一种。持续时长 13yes no72%9698%设备类型 110359%设备类型 2负荷负荷6THEN是否提薪=是分类模型(Model)训练数据模型的使用p识别未知对象的所属类别p模型正确性的评价已标记分类的测试样本与模型的实际

26、分类结果进行比较模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。测试集与训练集相分离，否则将出现过拟合（over-fitting）现象分类模型测试数据(唐旭,高级,4)提薪?是分类分类的主要算法：KNN算法、决策树（CART、C4.5等）、SVM算法、贝叶斯算法、BP神经网络等分类分类的主要算法：KNN算法、决策树（CART、C4.5等）、SVM算法、贝叶斯算法、BP神经网络等算法介绍：C4.5是一种类似二叉树或多叉树的树结构。树中的每个非叶结点（包括根结点）对应于训练样本集总一个非类属性的测试，非叶结点的每一个分支对应属性的一个测试结果，每个叶结点代表一个类或类分布。从根结点到

27、叶子结点的一条路径形成一条分类规则。决策树可以很方便地转化为分类规则，一种非常直观的分类模型的表示形式。C45属于一种归纳学习算法。归纳学习（InductiveLearning）旨在从大量经验数据中归纳抽取一般的判定规则和模式，它是机器学习（MachineLearning）中最核心、最成熟的一个分支。根据有无导师指导，归纳学习又分为有导师学习（SupervisedLearning，又称为示例学习）和无导师学习(UnsupervisedLearning)。C45属于有导师的学习算法。算法特点：（1）模型直观清晰，分类规则易于解释；（2）解决了连续数据值的学习问题；（3）提供了将学习结果决策树到等

28、价规则集的转换功能。决策树示例：套用俗语，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。分类分类的主要算法：KNN算法、决策树（CART、C4.5等）、SVM算法、贝叶斯算法、BP神经网络等设每个数据样本用一个n维特征向量来描述n个属性的值，即：X=x1，x2，xn，假定有m个类，分别用C1,C2,，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样

30、准确度较高，否则可能较低。另外，该算法没有分类规则输出。分类贝叶斯图像识别贝叶斯方法是一个非常通用的推理框架。其核心理念可以描述成：AnalysisbySynthesis（通过合成来分析）。06年的认知科学新进展上有一篇论文就是讲用贝叶斯推理来解释视觉识别的，一图胜千言，下图就是摘自这篇论文：首先是视觉系统提取图形的边角特征，然后使用这些特征自底向上地激活高层的抽象概念（比如是E还是F还是等号），然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像分类分类的主要算法：KNN算法、决策树（CART、C4.5等）、SVM算法、贝叶斯算法、BP神经网络等BP（BackPropagat

31、ion）网络是1986年由Rumelhart（鲁姆哈特）和McCelland（麦克利兰）为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hiddenlayer)和输出层(outputlayer)。BP神经网络学习过程正向传播：输入样本-输入层-各隐藏层-输出层判断是否转入反向传播阶段若输出层的实际输出与期

32、望输出不符误差反传误差以某种形式在各层表示-修正各层单元的权值网络输出的误差减少到可接受的程度或达到预先设定的学习次数为止存款情况库存情况销售情况人员规模高风险低风险无风险输入层隐藏层输出层分类BP神经网络的不足首先，由于学习速率是固定的，因此网络的收敛速度慢，需要较长的训练时间。其次，BP算法可以使权值收敛到某个值，但并不保证其为误差平面的全局最小值。再次，网络隐含层的层数和单元数的选择尚无理论上的指导，一般是根据经验或者通过反复实验确定。最后，网络的学习和记忆具有不稳定性。也就是说，如果增加了学习样本，训练好的网络就需要从头开始训练，对于以前的权值和阈值是没有记忆的。回归产生：英国统计学家

33、F.GALTON（法兰西斯高尔顿）(1822-1911)和其学生K.Pearson（卡尔.皮尔逊）(1856-1936)观察了1078对夫妇，以每对夫妇的平均身高为X，而取他们成年的儿子的身高为Y，得到如下经验方程：Y=33.73+0.516X定义：假定同一个或多个独立变量存在相关关系，寻找相关关系的模型。不同于时间序列法的是：模型的因变量是随机变量，而自变量是可控变量。分为线性回归和非线性回归，通常指连续要素之间的模型关系，是因果关系分析的基础。（回归研究的是数据之间的非确定性关系）线性回归算法寻找属性与预测目标之间的线性关系。通过属性选择与去掉相关性，去掉与问题无关的变量或存在线性相关性的

34、变量。在建立回归模型之前，可先进行主成分分析，消除属性之间的相关性。最后通过最小二乘法，算法得到各属性与目标之间的线性系数。分类：前提：正态性假设：总体误差项需服从正态分布，反之则最小二乘估计不再是最佳无偏估计，不能进行区间估计和假设检验零均值性假设：在自变量取一定值的条件下，其总体各误差项的条件平均值为零，反之无法得到无偏估计等方差性假设：在自变量取一定值的条件下，其总体各误差项的条件方差为一常数，反之无法得到无偏估计独立性假设：误差项之间相互独立（不相关）,误差项与自变量之间应相互独立，否则最小二乘估计不再是有效估计检验：回归模型一元线性回归只有一个变量X与因变量Y有关，X与Y都是连续型

35、变量，因变量Y或其残差必须服从正态分布多元线性回归分析多个变量与因变量Y的关系，X与Y都是连续型变量，因变量Y或其残差必须服从正态分布LOGISTIC线性回归分析多个变量与因变量Y的关系，Y通常是离散型或定性变量，该模型对因变量Y的分布无要求模型显著性：F检验，读取p值并同置信度比较，判断回归模型显著性系数显著性：t检验，读取p值并同置信度比较，判断该自变量是否显著影响因变量拟合优度残差检验：绘制残差图（标准化残差直方图及散点图），检验残差的正态性及独立性，若所描绘的点都在以0为横轴的直线上下随机散布，则回归直线对各个观测值的拟合情况良好决定系数：度量自变量对因变量变化的解释程度，愈接近1则线

36、性关系愈强样本容量：n30或n3(p+1)；其中n为样本容量，p为自变量数目回归-线性回归分类模型评估分类模型评估效果指标测试集选取指标呈现保持法随机二次抽样交叉验证自助法基于统计基于比率误差、离差、Kappa统计量、准确率置信区间、错误率观测差混淆矩阵ROC曲线KS曲线Lift图响应率曲线目的：模型之间的比选以及单模型预测效果捕获率曲线/增益图准确率敏感性特异性精度KS值Lift值响应率捕获率分类模型评估方法描述图示保持法将原始数据集随机地划分到两个独立的集合:训练集和检验集。通常，三分之二的数据分配到训练集，其余三分之一分配到检验集。模型的效果指标如准确率、误差等由训练集导出。随机二次抽样

37、多次重复使用保持法，得到一组准确率等效果指标。交叉验证最常用的是k-折交叉法，将原始数据分成k份，每次用其中一份为测试集，其余为训练集运行，总共运行k次，记录误差。自助法有放回抽样。训练集的样本为N，放回原数据集，重新有放回地均匀抽取N个样本后，剩余的数据集作为测试集。原始数据集训练集测试集模型评估建立模型2/31/3原始数据集模型评估建立模型1/k1/k1/k1/k有放回抽取N样本建立模型测试集模型评估训练集（N）总数据集测试集选取方法效果指标基于比率10合计1aba+b0cdc+d合计a+cb+da+b+c+d预测类实际类以二分类为例，说明几个重要效果指标概念。下图为混淆矩阵。通过银行办理

38、信用卡的例子做指标的业务解释。最常用的评估指标，用以评价模型分类是否正确。但是，对于不平衡问题（即0类的占大多数），准确率去评价就不够。例如银行办理信用卡，模型只用一条规则“所有人不违约”，结果准确率达到1000/1200=83.3%。但这样的模型毫无意义。准确率适合于平衡问题。正确识别正元组的百分比。如例中，敏感性为80/200=40%，因此该模型正确标识真元组（稀有类）的能力还是比较差的，但是还是高于违约的总占比200/1200=16.7%违约不违约合计违约80120200不违约209801000合计10011001200预测类实际类正确识别负元组的百分比。例子中为98%。预测为正元类中实

39、际为正元类所占的百分比。衡量预测类1的精确性。例子中为80%。该案例中模型对于违约的人群，可以识别40%；如果一个人通过模型判断为违约类，则80%可能该人为违约的。敏感性和精度是两个重要指标，可以综合这两个指标，如F等。示例敏感性=a/(a+b)准确率=(a+d)/(a+b+c+d)特异性=d/(c+d)精度=a/(a+c)分类模型评估以真正率及敏感性为纵轴，假正率=1-特异性为横轴做图。给定一个二类问题，我们可以对检验集的不同部分，显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。ROC曲线增益图KS曲线模型预测为概率值，

40、即为1类的概率为多少，为0类的概率为多少。将1类、0类的概率按照大小由高到底排列，并将各自的累计百分比画在一个图里。纵坐标代表累计百分比，横坐标为预测的概率区间。0、1曲线的最大距离为KS值，反映模型区分0、1类的能力，越大代表模型将0、1分开程度越大。一般大于0.2较好。如图KS=0.47.和捕获率曲线是一样的，详见捕获率曲线。理想模型：100%预测正确下的曲线。这里假设1类占总数为30%。模型的曲线越靠近理想曲线，预测水平越高。可用Gini系数衡量。Gini系数=模型曲线与随机曲线之间的面积/理想模型曲线与随机曲线之间的面积。越接近1越好。分类模型评估响应率曲线捕获率曲线在每个区间里进行计

41、算，1类的累计数占该区间累计的总数比例作为响应率。比如在排序前10%中，模型1得出1类样本占比80%，模型2为73%。响应率越高越好，改图显示模型1较模型2更好。是在每个区间段，计算1类的累计值占总体1类的百分比作为捕获率。衡量的是某累计区间抓住1类的对象占总体的比例。随机概率：不用模型随机抽取数据得到的比率。比如响应率，总数据中1类占比20%，那抽取10%数据理论占比应该还是20%。横坐标：按照模型结果概率得分从高到底排序，分成10个区间。适合于模型输出值为概率得分，如贝叶斯分类、后向传播等。Lift值=响应率/随机概率。比如对10000名浅在顾客进行概率打分，预测其购买商品的可能性，若实际

42、中有900人会购买，则9%为随机概率。抽取概率排名前10%的人数，即1000人，预测600人购买，则前10%的响应率为600/1000=60%，则Lift值=60%/9%=6.67.Lift图三个指标在实际业务中使用比较多，因为其直观、通俗易懂；同时有利于划分不同的目标人群，前10%？、20%？根据业务需要挑选受众规模。分类模型评估聚类分析聚类分析对具有共同趋势或结构的数据进行分组，将数据项分组成多个簇（类），簇之间的数据差别应尽可能大，簇内的数据差别应尽可能小，即“最小化簇间的相似性,最大化簇内的相似性”。示例基于划分的聚类基于层次的聚类基于密度的聚类基于网格的聚类基于模型的聚类对给定的数据

43、集合，事先指定划分为k个类别。典型算法：k-均值法和k-中心点算法等。对给定的数据集合进行层次分解，不需要预先给定聚类数，但要给定终止条件，包括凝聚法和分裂法两类。典型算法：CURE、Chameleon、BIRCH、Agglomerative只要某簇邻近区域的密度超过设定的阈值，则扩大簇的范围，继续聚类。这类算法可以获得任意形状的簇。典型算法：DBSCAN、OPTICS和DENCLUE等首先将问题空间量化为有限数目的单元，形成一个空间网格结构，随后聚类在这些网格之间进行。典型算法：STING、WareCluster和CLIQUE等。为每个簇假定一个模型，寻找数据对模型的最佳拟合。所基于的假设是

44、：数据是根据潜在的概率分布生成的。典型算法：COBWEB和神经网络算法等。聚类分析K均值聚类K-Means算法，也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法。主要思想是：首先将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，然后把每个数据点划分到最近的类别中，使得评价聚类性能的准则函数达到最优，从而使同一个类中的对象相似度较高，而不同类之间的对象的相似度较小。40利用K-means聚类算法，把原始数据聚成三个不同的簇的应用实例如左图示（K=3）。基本思路：（1）首先，随机选择k个数据点做为聚类中心；（2）然后，计算其它点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不

45、断改变这些聚类中心的位置，直到这些聚类中心不再变化为止。应用实例聚类模型评估聚类评估指标评估指标公式定义公式定义图示定义图示定义凝聚度衡量一个族内对象凝聚情况分离度衡量族与族之间的差异轮廓系数综合了凝聚度和分离度相似度矩阵通过与理想相似矩阵比较，看聚类效果共性分类相关系数衡量共性分类矩阵与原相异度矩阵之间的相关度，用以评估哪种层次聚类方法最好。目的：评估聚类效果、确定合适的分类数量、聚类模型的选择关联规则定义：自然界中某种事物发生时其他事物也会发生，则这种联系称之为关联。反映事件之间依赖或关联的知识称为关联型知识（又称依赖关系）。要求找出描述这种关联的规则,并用以预测或识别。关联分析的目的是找

46、出数据集合中隐藏的关联网，是离散变量因果分析的基础。举例：通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。例如，在同一次购物中，如果顾客购买牛奶的同时，也购买面包（和什么类型的面包）的可能性有多大？这种信息可以引导销售，可以帮助零售商有选择地经销和安排货架。例如，将牛奶和面包尽可能放近一些，可以进一步刺激一次去商店同时购买这些商品。关联分析 Association 市场组合分析套装产品分析目录设计交叉销售喝咖啡（A）不喝咖啡（A）合计喝茶（B）15050200不喝茶（B）650150800

47、合计8002001000关联规则设关联规则：，A或B为项集，支持度=，表示同时包含A、B事务占总事务的百分比；置信度=，是预测性指标，表示A事务发生B事务发生的可能性。显然支持度为对称指标，即都一样，而置信度为非对称指标，二者不同。我们以茶和咖啡的案例做指标说明。基本概念AA合计BF11F10F1+BF01F00F0+合计F+1F+0F示例支持度（喝茶喝咖啡）=150/1000=15%；置信度（喝茶喝咖啡）=150/200=75%。即一个人喝茶那么他75%可能喝咖啡。再看，不管一个人是否喝茶，其喝咖啡的比例为800/1000=80%75%。即一个人喝茶其喝咖啡的可能性由80%降低到75%，因此

48、喝茶喝咖啡的高置信度实际上是一个误导，其忽略了喝咖啡的支持度。因此，支持度-置信度的评估框架是不完善的。置信度除以喝咖啡的支持度，即75%/80%=0.94。大于1表示正相关，而且越大相关性越强；等于1表示相互独立；小于1表示负相关。兴趣因子对于连续变量相关性用pearson相关系数，Pearson相关系数用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。相关性关联规则主要的关联算法：Apriori关联算法、FP-growth关联算法等；Apriori算法是最基本的一种关联规则算法，它采用布

49、尔关联规则的挖掘频繁项集的算法，利用逐层搜索的方法挖掘频繁项集。关联规则主要的关联算法：Apriori关联算法、FP-growth关联算法等；FP-Growth算法不产生候选集而直接生成频繁集的频繁模式增长算法，该算法采用分而治之的策略：在第一次扫描数据库之后，把数据库中的频繁项目集压缩到一棵频繁模式树中，形成投影数据库，同时保留其中的关联信息，随后继续将FP-tree分成一些条件树，对这些条件树分别进行挖掘。FP-tree的构建f，c，b组合满足条件关联规则模型评估关联规则目的：识别有意义（有价值）的关联模式客观度量评价项集：对称度量指标评价关联规则：非对称客观度量支持度相关性兴趣因子余弦J

50、accard集体强度置信度J度量Gini指标可信度因子互信息信任度主观度量可视化基于主观模板的度量基于主观兴趣的度量.时间序列：是按时间顺序的一组数字序列构成：组合模型：加法模型：假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动；Y=T+S+C+I乘法模型：假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数；长期趋势（T）:时间序列随时间的变化而逐渐增加或减少的长期变化的趋势季节变动（S）:时间序列在一年中或固定时间内，呈现出的固定规则的变动循环变动（C）:沿着趋势线如钟摆般地循环变动，又称景气循环变动不规则变动（I）:在时间序列中由于随机因素影响

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？