1、1885字看懂机器学习、数据挖掘、数据分析和统计分析之 间的联系与区别导读:与建模密切相关的领域包括统计分析、数据挖掘、机器学习和数据分析,它们对 应了不同类型的工作岗位,例如风险建模分析师、数据挖掘工程师、数据分析师、数据 运营专员、数据工程师等。本文将重点介绍这几个领域的定义、特征以及相互之间的联 系和区别。01机器学习机器学习是一门人工智能科学,研究如何在经验学习中改善具体算法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、强化学习等,详见图1。主成分分析
2、(PCA ) 因子分析(FA)变量聚类(VC ) 多维度分析(MDS )最近邻(NN )K近邻(KNN ) 朴素贝叶斯 线性判别分析(LDA )逻辑回归 决策树 人工神经网络层次聚类k均值聚类其法(k-means )线性回归与广义线性回归 决策树(CART算法、ID算法)人工神经网络聚类分析图1机器学习算法体系DBSCAN算法BIRCH算法 由度聚类 EM聚类SOM聚类Apriori 算法 非序列模式FP-growih算法 关联分析OGSP算法序列模式SPADE算法 e异常检测8基于密度目前机器学习领域使用最普遍的scikit-learn库将机器学习算法分为聚类、分类、回归和维度削减,此处不展
3、开介绍,感兴趣的读者请参考相关资料。02数据挖掘数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中,人 们事先不知道但又有用的信息和知识的过程。数据挖掘的关键词是隐含事先不知道有用的。如果一个模型规律是 的、预定义的且确定的,仅仅是通过数据来校准,那么不属于数据挖掘范畴。数据挖掘的对象按信息存储格式可分为:结构化数据,通常以二维表方式存储数据,如关系数据库、面向对象数据库、数 据仓库;半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等存储的数据;非结构化数据,如图像、语音、文本等。数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检测、时间序列 等,而基础
4、数据的处理等数据工程工作和可视化、最优化、预定义模型等那么不属 于数据挖掘。数据挖掘的范围如图2所示。时间序列是经典的统计模型, 用于提取时间序列之间隐含 的稳定的依赖关系聚类分群,聚类分群是无监督学习的一种, 用F将样本按照特征相似性分成 多个组,使得组内相似组间产生 差异化时间序列异常检测分类识别回归预测异常检测是指通过异常检测 算法发现异常离群值,一般 用于发现异常模式关联分析分类识别是有监督学习的一种, 基于已标记样本,通过机器学习 算法,拟合相关性规律,对新样 本打匕类别标签回归预测是有监督学习的一种, 基于已标记连续的Y取值通过机 器学习算法拟合相关性规律,对 未来新样本预测出y值
5、关联分析是对于非时序或时序 的数据,挖掘有件之间的共现 规律,提取相关性特征,最典 型的应用场景是购物篮分析、 链接分析、路径分析等图2数据挖掘的范围03数据分析1、数据分析的定义数据分析是一个相对宽泛的概念,我们分别从狭义和广义的角度进行介绍。(1)狭义角度:基于数据,按照特定分析思路和框架,提取有价值的信息。狭义 的数据分析可以基于建模、基于指标计算,也可以基于数据可视化报表。(2 )广义角度:还包含数据工程和数据处理,例如定义数据模型、数据架构、数 据处理,写SQL计算指标等。通常来说,数据分析仅指分析,不含处理,也不含工程,数据分析的核心本质是从数据到信息、从信息到决策的过程。2、数据
6、分析的思维模式数据分析的思维方式有两种,下面分别进行介绍。(1)F而上的数据驱动。获得数据后,从数据出发,分析并挖掘有用的信息,用于辅助决策。(2)刍上而下的问题或标驱动。在业务上发现特定问题或制订特定业务目标,需要通过数据挖掘背后原因,支持决策依据,形成行动方案。3、数据分析与数据运营的联系和区别数据分析和数据运营都是通过数据来支撑业务需求的。数据分析相比于数据运营 是一个更大范围的概念,倾向于强调分析技术的方法属性,关注分析过程以及分 析所带来的价值,例如辅助决策。数据运营关注具体的行动执行和运营过程,更强调业务属性,面向特定业务场景 中具体的运营问题,例如用户运营、产品运营、流量运营、内
7、容运营等。4、数据分析与数据工程的联系和区别数据分析更关注分析,虽然很大一局部工作是和数据处理、指标计算相关的。数据工程更关注工程角度,例如数据模型定义、数据库管理、数据体系架构等, 更关注数据如何通过管理和逻辑设计提高系统性能,以便提供基础设施的建设和 运行保障,满足业务运营和数据分析的需求。04统计分析统计分析属于传统学科,与概率论和数理统计密不可分,通常数据都是带有随机 因素的,通过数据揭示事物规律。统计实验设计也属于该范畴。统计分析按照层次可以分为描述性统计,揭示数据分布规律以及数据的统计可视化;诊断分析性统计,包括参数估计、假设检验、回归模型、逻辑回归、相关分析、 主成分分析等。统计
8、思维通常基于特定假设(而后还需要进行假设检验),例如样本独立同分布、 服从正态分布等。统计分析适合小数据量问题的分析,是统计机器学习的理论基 础。05者之间的联系与区别前面介绍了机器学习、数据挖掘、数据分析、统计分析的定义和特征,下面简单介绍一下四者之间的联系和区别。统计分析为机器学习,数据挖掘、数据分析提供了分析的工具、方法和手段。机器学习可以基于统计分析,也可以不基于,例如人工智能的符号主义和连接主 义、决策树模型就不是统计类模型(虽然用到了统计计数,但和回归模型有本质区别),神经网络模型也不是统计类模型。机器学习是数据挖掘的工具,数据挖掘是机器学习的应用。机器学习更强调底层技术,数据挖掘更贴合业务;与此类似的概念还有自然语言处理与文本挖掘。数据分析可以基于统计分析,也可以不基于。统计分析只是数据分析的一局部,只要是能够提供基于数据提取信息形成决策的,都属于数据分析,例如基于业务 指标报表的分析等。