基于Hadoop的电商数据挖掘技术分析.pdf

资源描述

1、中国新技术新产品2024 NO.3（下）-126-技术经济与管理随着科学技术的进步，数据呈爆发性增长，形成了巨大的数据流，导致数据处理的规模逐渐扩大，为企业数据处理带来了一定的难度。尤其是电商企业在实际发展建设的过程中会更依赖数据资源，企业在业务活动的过程中会产生大量的数据，为进一步了解消费者的购买行为，需要进一步挖掘相关数据内容，以此推动电商企业的发展。因此，在 Hadoop框架的支持下，有效应用数据挖掘技术已成为重点研究内容。1 Hadoop 框架介绍Hadoop 是目前应用较为广泛的一种编程开源框架，其在实际运用的过程中具有分布式的特点，在框架编程过程中主要应用 Java 语

2、言。Hadoop 框架示意如图 1 所示，在运行的过程中为集群式处理提供了强有力的支持，不仅可以在分布式的环境内处理大量的数据内容，对数据进行储存，还可以为多台计算机提供扩展支持，提供本地计算和储存服务。对 Hadoop 框架来说，Map Reduce 计算模型是其中最重要的组成部分，也是实现云计算的基础内容，在实际应用的过程中，整体流程比较简单，编程模式也更简化。Map Reduce 计算模型在计算过程中主要利用分布式运算技术，对某一类问题进行解决和计算，从综合的角度看，可以将其看成一种开发模型，为 Hadoop 提供服务。2 研究过程2.1 明确数据挖掘技术应用流程从综合角度看，可以将数据

3、挖掘技术的应用分为以下 5个步骤。1）需要陈述问题，阐明假设。在实际进行过程中，需要了解电商企业对数据的需求以及本次挖掘的最终目的，相关工作人员会对数据间的关系提出相应的假设，以此为中心，选择更合适的算法并制定科学有效的数据挖掘方案，需要注意保证方案的详细性以及全面性。2）数据收集。数据收集主要为两种方法。一种是人为干涉，即工作人员按照相应的计划和标准对工作流程进行控制，以此产生数据信息。另一种是避免人员干涉，即工作人员不得对工作造成影响，使其自然产生数据信息。数据的产生具有随机性的特点，例如消费者交易记录、Web 爬虫抓取信息等。在实际工作过程中需要将目标操作对象作为核心，在此基础上选择与其

4、具有关联性的数据集1。3）数据预处理。在对实际数据进行挖掘前，计算机会对大量的数据信息内容进行简单处理，筛选不可用信息以及异常数据信息，并对其进行相应处理。对电商数据信息来说，需要对涉及消费者个人隐私的内容进行敏感处理，剔除存在错误或者无价值的信息。降低后续数据挖掘的工作量和工作难度。对缺少的内容来说，需要进行相应的补全处理，同时还需要将不同的数据格式转化为同一种格式，为后续数据挖掘提供便利条件。4）数据挖掘。数据挖掘是整体数据挖掘技术的核心内容，在实际工作过程中，需要明确挖掘目标，选择合适的数据挖掘方法，例如聚类算法、关联规则法、分类法、偏差分析法以及时间序列预测法等，这几种方法都是现阶段较

5、为常用的数据挖掘方法，应用这些方法不仅可以满足电商企业的需求，还可以保证数据信息的全面性以及完整性。5）解析模型。完成数据挖掘后需要按照最初挖掘目标对其进行解析。在实际工作过程中，为进一步验证挖掘结果的准确性，需要对相关的角度进行验证工作，将有效价值信息提供给用户。2.2 应用阶段算法研究2.2.1 数据聚类分析聚类分析和关联规则挖掘是研究挖掘算法的重要途径与方法。聚类分析是一种探索性数据分析技术，可以便于发现数据中隐藏的模式和结构，关联规则是根据数据寻找数据间的关联，加强两者间的联系，从而帮助技术人员更好地了解事物发展规律。为构建 Hadoop 电商数据挖掘技术，选择两种数据挖掘技术进行分析

6、，阐述分析算法的同时，为后续电商系统数据挖掘分析做铺垫2。聚类算法类别多样，根据样本数据类型以及应用场景等因素选择算法。按照类别包括划分、层次、密度等聚类算法。在实际应用过程中，聚类算法通常是多种算法叠加。其中，划分聚类是确定簇个数 K，将样本集划分为 K 个簇，基于样本为中心进行反复迭代计算，根据初始中心变化确定是否产生最佳聚类结果。层次聚类算法是基于给定的聚类数据集合按照层次分解，因此也被称为数据类算法。将其理解为个体为类的开始，自上或自下的寻找同类聚合，见异类排除分类。密度聚类根据密度较高的点，将其链接，生成簇后确定相邻密度阈值。网格聚类是将空间量化，形成网络结构，便于聚类操作。在很多聚

7、类算法中，K-means 算法属于划分聚类算法的一种，通过迭代移动簇，寻找最佳聚类结果，该算法具有较好的特性，利用该算法有助于 Hadoop 电商数据挖掘技术应用。2.2.2 K-means 算法means 算法也称 K 均值算法，需要确定聚类个数，随机基于Hadoop的电商数据挖掘技术分析李梅1刘铭2黄彬彬1（1.四川华新现代职业学院，四川成都 610107；2.成都市铁路中学校，四川成都 610081）摘要：本文对 Hadoop 的电商数据挖掘技术的研究过程、理论依据进行了探讨，并对其应用结果进行验证。分析结果表明，基于 Hadoop 的电商数据挖掘技术具有较大的优势，可以对数据进行

8、高效处理和有效筛选，不仅能提高数据资源的有效利用率，还能提高工作效率和工作质量，因此值得推广和应用。关键词：Hadoop；电商数据；数据挖掘技术中图分类号：TP311文献标志码：A中国新技术新产品2024 NO.3（下）-127-技术经济与管理选择簇中的对象 K 作为初始质心。将其划分到其他簇中，经过迭代计算，更新样本点。K-means 算法计算需要随机选择样本集，将其随机划分为 K 个簇，将样本均值作为质心。中心为每个样本分配簇，计算分配后簇的样本均值。重复上述过程，直到质心不再变化、或准则函数收敛。计算过程如公式（1）所示。s a nanijijjmln,?2 （1）式中：s（

9、a，ni）为对象到聚类质心的距离，根据 a 建立 j 个属性值，nij为质心属性值。在迭代计算过程中，质心需要不断调整。按照规则计算 K-means 算法数据样本平方误差总和。K-means 算法的实际算法流程如图 2 所示，内部反复循环计算，确定 K 距离样本点的距离并归类的过程就是数据挖掘技术落实在实际工作的阶段。针对后期电商数据挖掘处理，能够运用传统K-means 算法进行计算，并在算法基础上优化执行，提高算法执行效率。2.3 确定关联规则2.3.1 关联规则定义关联规则挖掘，可以从数据集中发现项与项间的关系，根据样本数据查找其他组事件中是否有能关联数据的规则。频繁项集能够对数据进行分布

10、式处理，提取数据集中的高频率子项。利用频繁集构建事务间的关系，设置项目集合，根据每个元素，给定数据集，在算法运行过程中对频繁集处理，根据单个候选集出现次数对相关相集进行处理，满足用户需求。2.3.2 关联规则算法步骤关联算法挖掘过程分为两个步骤如图 3 所示。通常是寻找频繁集，设置 min 阈值，根据每个项集对比阈值，若大于或等于频繁项集则无法形成关联生成关联规则，需要根据频繁集寻找可信度大于最小阈值的关联规则。在算法步骤中，寻找频繁项集是关键，关联规则算法有 Apriori 算法和FP-Growth。鉴于 Apriori 算法有更好的扩展性，因此优先选择 Apriori 算法用于关联计算。2

11、.3.3 Apriori 算法Apriori 算法是一种基于水平数据分布的算法，具体流程如图 4 所示。通过反复式归一迭代，从频繁集中寻找，根据K 项集导出 K+1 项集，直到找不到为止。实际应用就是根据购买记录，按照 Apriori 算法执行，选定参数阈值，当认定某个商品阈值频率高于设定时，将其作为频繁项集。根据数据集中的项目在自动查找过程中生成候选集，满足条件的最小阈值确定为频繁项集。3 方法设计3.1 整体设计设计人员在进行实际设计的过程中，需要结合当下电商市场环境，将 Hadoop 与算法结合，构建完整的数据处理系统，具体框架如图5所示。系统主要部分包括以下阶段。第一阶段为准备阶段，由

12、平台和软件采集各类商品信息，Hadoop读取相关业务信息到 HDFS 中，完成数据存储与预处理。第二阶段是数据处理，根据不同数据对其挖掘分析，实现并行化处理，建立对应的数据分析模型。第三阶段根据数据处理结果转化，将数据转化为相应格式。第四阶段是根据集群处理，返回前端后呈现不同类别的图形展示。Hadoop 数据挖掘技术结合了批处理技术挖掘算法，有较强的实用性。经过前期分析测试，验证系统数据处理可行。3.2 数据准备由于电商类目较多，因此在对数据进行挖掘过程中，可以根据电商产品选择门店销售数据库，根据数据库进行设置，分析数据来源。对周期订单、预约订单等数据挖掘，寻找有价值的潜在信息，帮助企业管理者

13、科学决策。数据需要经过预处理，取读后进行挖掘处理。根据 K-means 聚类算法分析，对数据进行序列文件转换，对数据进行深入挖掘，取读后的数据转换格式，方便查找。当执行 K-means 算法时，要重视 MahoutAPI 调用，采用聚类数据转化的方式对阈值进行调整，避免阈值设置不合理影响 K-means 算法执行。执行后的数据能看到聚类分析结果的具体内容，输出目录中能清楚看到迭代转换次数。将其转换成 json 格式返回前端。使用图 1 Hadoop 系统框架示意图MapReduce 并行计算框架HDFs 分布式文件系统集群主控节点TaskTrackerDataNode本地Linux文件系统从节

14、点从节点分布式存储和并行计算集群从节点本地Linux文件系统本地Linux文件系统DataNodeTaskTrackerTaskTrackerDataNodeMapReduce 主控节点 JobTrackerHDfS 主控节点 NameNode中国新技术新产品2024 NO.3（下）-128-技术经济与管理Apriori 进行关联分析，设计 map 函数和 reduce 函数，分析客户与购买商品间的潜在联系。使用程序代码，选定数据集进行关联，获得候选集数据。将数据挖掘内容以图形绘制的表现出来，能直接发现潜在问题。结合企业与客户的实际需求，读取数据转化分析，将转化后的数据存在在 HD

15、FS 中，使用 Web 页面绘制并加载。4 结果验证讨论对 K-means 算法过程、公式进行分析，能够看出K-means 算法适用于大数据集的积累处理，经过 K-means 算法处理后数据更容易理解。该算法有较好的聚类应用效果，但是传统 K-means 算法存在一定不足，需要更改其单机运行模式，海量数据聚类受到单机限制，质心计算容易出现异常数据影响，针对传统 K-means 算法的不足，将其与 Hadoop集群融合，强化算法执行，加强算法的执行效果。4.1 Hadoop 平台聚类算法执行过程集群内需要对平台上的很多数据进行处理，将数据集分成多个块，将其存储后，经过分布式处理，保证函数能对每块

16、进行处理。将函数输入作为数据样本点和质心的距离，根据距离添加距离最近的簇，输出更新的簇标号和簇间样本点。在模型中，为提高算法效率，会加入函数提高计算的准确性。map（）作为输入，合并相同 key 值，输出合并结果。将计算结果输入，更新簇的质心，形成新的质心。旧的质心根据距离收敛阈值，判断聚类是否结束，反之继续中间的循环操作3。4.2 K-means 算法并行实现算法库中的 K-means 算法能够通过 Mappreduce 基于架构运行，不仅能保证 K-means 算法能够像普通程序一样读写运行，还能保证 K-means 算法在集群上执行，以分布式文件系统上读写数据。将聚类算法分配到不同机器上

17、，保证每个map 处理样本点的一个数据块。为提高执行效率，经过缓存的质心经过一次算法迭代，质心就会更新一次。经过函数反复迭代运行，在 K-means 算法执行过程中，通过 map 就能够实现数据划分，执行顺序如图 6 所示。K-means 算法并行化执行是从 KMeansDriver 类开始，逐步进入程序运行系统。4.3 基于 Hadoop 的电商数据挖掘技术系统效果分析电商平台数据挖掘后，主要用来预测消费者行为、探索市场趋势、提高营销效率和制定决策，因此实现可视化十分重要。可视化图形有多种类型，需要创建良好的试验环境才便于更好地输出数据。为更好地验证可视化效果，需要读取较多数据表，硬件环境、

18、软件环境缺一不可。搭建 Hadoop集群，从管理者角度和消费者角度，对数据处理分析。同等数据量下，传统算法与并行算法的结果对比见表 1，能够看出合并算法执行化速度更快，加快了数据挖掘分析速度。传统的 K-means 算法和 Hadoop 平台相结合，能够更快速地反馈结果，以不同视角展示订单关联图以及信息，保证及时对图 4 Apriori 算法流程图开始k=1剪枝结束是是否是扫描数据库是否min_supk是否最大k是否min_conf产生强关联规则产生候选项集 Ck（k=1，2，3，.）产生频繁项集 Lk（k=1，2，3，.）合并 k=k+1定义min_sup和 min_conf图 3 关联规则

19、挖掘基本步骤图 2 K-means 算法聚类算法流程开始输出结果数据集最小支持度最小置信度阶段1规则用户阶段2结束选择K个聚类中心是否满足终止条件计算新的聚类中心是否计算每一个样本点与K个中心的距离，把它归到最近的那个类中去中国新技术新产品2024 NO.3（下）-129-技术经济与管理数据进行处理和反馈，对企业来说体验良好。表 1 K-means 算法运行时间（单位：s）数据总量（万条）K-means算法并行K-means算法40112.3628.52100145.6840.78160149.8668.72220188.8886.86320280.96105.48数据挖掘

20、技术的应用，不仅是简单的整合数据信息，还需要对数据信息进行处理，探究数据间存在的关系，总结其中的模式以及规律并不断输出结果。从表 1 中可以看出，并行 K-means 算法提高了数据挖掘的效率，为后续工作节约了时间，推动整体工作发展，为电商工作提供了强有力的支持。5 结语综上所述，目前科学技术的不断进步和发展为电商企业提供了一定的活力和动力。电商企业在实际发展建设的过程中，除了需要产品以及店铺运营外，还需要大量数据信息的支持，在大数据时代下最不缺少的就是数据信息，目前数据信息的种类繁多。技术人员在 Hadoop 结构的支持下积极应用电商数据挖掘技术，不仅可以保证数据信息的完整性以及全面性，还可

21、以对数据信息进行相应处理，保证数据的有效性，避免出现错误信息或是重复信息等，为电商企业的发展与创新提供支持。参考文献1 李娟.基于 Hadoop 云平台的空间属性数据挖掘技术研究J.南京理工大学学报，2022，46（4）：419-4262 李奇，康琪.基于数据挖掘的高校教学质量评估系统分析J.现代教育论坛，2021，4（7）：8-9.3 孙海波.数据挖掘在跨境电商客户特征分析中的应用 J.电脑知识与技术，2021，17（15）：239-241.作者简介：李梅（1983）女，四川广安人，本科，讲师，研究方向为电子商务。电子邮箱：刘铭（1984），男，四川广安人，本科，中学一级教师，研究方向为移动互联，混合式教学。电子邮箱：图 6 K-means 算法并行化过程图 5 系统框架设计图可视化数据展示数据处理数据来源数据挖掘MapReduce 并行处理数据挖掘算法分析结果数据预处理存储mongdb数据采集微信公众号、系统平台HDFS/Hbase存储分析结果应用服务器springMVCHDFS/Hbase存储可视化工具(ECharts)HTMLJQucry请求响应中心点文件输入数据计算汇总Kmeans映射器Kmeans组合器Kmeans减速器Kmeans集群映射器

展开阅读全文