基于机器学习的商业运营管理研究与实现_刘雨昀.pdf

资源描述

1、第 31 卷第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号：1005-1228（2023）04-0097-06收稿日期：2022-08-23作者简介：刘雨昀（2000-），女，云南省玉溪人，本科，软件工程专业，主要研究方向：机器学习。1基本概述随着科学技术的发展，各个行业、各个领域逐渐形成智能化管理的趋势，以此来优化其他的业务，增强自身的商业竞争力。疫情三年，重置了中国商业的基本面，据赢商大数据统计，2022 年 1-4 月场日均总客流量仅 12861 人次，同比 2021 年

2、下降 19%，商场作为线下服务为主的实体商业，在“适者生存”规则下，企业需要加速转向精细化运营1。当下的商业市场主要由分散建设的交易机构群体组成，每天都在生成各式各样的交易数据，这些数据是散乱分布的，传统的行业专家只能根据经验或估算提出决策建议，且因数据过大，难免带着先入为主的观点得到似是而非的结论。依据数据的实时性、海量化等特点，依托大量样本数据的商业数据分析工作，是未来商业模式的改革趋势。如何利用已有的商业数据帮助企业深度挖掘消费者新的消费需求，以保证企业在消费市场逐步回暖中领跑下半场成为我们在商业研究领域的一项新挑战。目前，基于机器学习2对海量数据进行分析的方式，能够有效的帮助商圈的各个

3、商家优化服务、挖掘客户需求、提升服务效率，以获得当下最大的经济基于机器学习的商业运营管理研究与实现刘雨昀（北华航天工业学院计算机学院河北廊坊 065000）摘要：我国现代计算机技术日新月异，商业智能运营建设取得了空前发展，机器学习理论体系大量融合到现代的科技商业中，使得商业的精准化管理有飞跃性发展。文章旨在研究商业智能运营的分析方法及决策提取。文章以某商场 2019 年第二季度的部分销售数据为例，建立数据的聚类模型并对其进行关联规则分析，并提取决策信息。文章提出的基于 K-means 的聚类模型分别从客户和商铺的角度出发，更加充分的挖掘数据中的有效信息，将复杂繁琐的商业数据生成管理商业的决

4、策建议，为商业提供更加精准的运营决策。关键词：商业精准运营；机器学习聚类；PCA 降维；K-means；关联规则中图分类号：TP311.5，F830.33文献标识码：AResearch and Implementation of Business Operation Management Based on Machine LearningLIU Yu-yun（College of Computer Science,North China Institute of Aerospace Engineering,Langfang 065000,China）Abstract：The progress

5、of modern computer technology in our country is very fast,the construction of intelligent commercial operation has achieved unprecedented development.A large number of machine learning theoretical systems have been integrated into modern technology and business,which makes the precise management of

6、business develop rapidly.In this paper,we aims to study the analysis and decision making of intelligent commercial operations.By taking part of the sales data of a shopping mall in the second quarter of 2019 as an example,we build a clustering model and perform association rule analysis on it,then w

7、e extract decision information via the analysis.The K-means-based clustering model proposed in this paper starts from the perspective of the customers and shops,respectively.This model can find valid information from the data,and generate complex and tedious business data to decision advises.Thus,ou

8、r model provides more precise operational strategies.Key words:commercial precision operation;machine learning clustering;PCA dimensional reduction;K-means;association rule analysisDOI:10.19414/ki.1005-1228.2023.04.003电脑与信息技术 2023 年 8 月98效益。如何高效的使用机器学习完成上述目标是当下研究的必要趋势。本文的主要贡献如下：（1）通过 ETL 在海量数据中筛选出聚类

9、的特征指标，再利用 PCA 降低特征维度，在保留了大量必要的商业信息数据的同时还减少了数据量，降低后续数据建模和算法分析的时间复杂度。（2）通过 K-means 聚类算法从客户和店铺两个维度提出商业决策建议，既结合商业自身的营销数据又综合考虑了面向顾客的消费需求，通过对聚类结果的详细分析，有效的将海量数据转化成合理的营销决策建议。（3）通过 Apriori 算法对客户的消费行为进行关联规则分析，能够得到客户消费行为与店铺之间的强关联关系，最终提供给店铺揽客、留客等方面营销决策。2基于 K-means 的商场管理聚类分析方法现代化经济商圈运作11分为机会分析、店铺目标和策略制定和客户关系管理三大

10、阶段，不同阶段需要结合商圈不同形态的下的消费者特征、经济情况、店铺运维特征、劳动力保障、法规等进行综合分析，通过收集和整理多样化的数据信息，划分管理规则，分析客户行为信息，从而为商圈运作提供决策支持。商圈运作分析的主要目的是帮助企业制定开拓市场目标、有效进行市场竞争、开展精准营销，通过挖掘分析各类店铺和客户的信息，为企业管理提供决策建议。企业在收集数据的同时也会受到决策本身的反馈影响。文章的研究主要从客户和店铺的角度为商圈运作提供理论上的营销策划依据文章中的商场管理分析基于 K-means 聚类模型对数据进行挖掘，建立管理决策的模型。所谓的聚类，就是将样本划分为由类似对象组成的多个类的过程。聚

11、类后，我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测，也可以探究不同类之间的相关性和主要差异。由此建立店铺-客户商场管理模型。商圈数据随着不同时间的商业情况，会导致商场的数据密度不同，在常用的聚类分算法中，基于密度的数据聚类算法显然不适用于可变密度数据集，故本文采用基于中心体集群的聚类算法。本文采用的数据及主要包含了商圈用户消费记录及商铺信息。该数据记录了从 4 月到 6 月所用用户的消费记录，共 58590 条。每条记录表示用户的一笔消费，字段信息见表 1:经过数据清洗、删除噪声数据等操作提升数据质量，可对此数据进行进一步的操作。2.1基于 K-means 店铺的聚类分析方

12、法时间数据需要先经过预处理将划分为周中数据和周末数据两类，预处理后从数据集中提取了平均每周周中交易额(weekdays_amountperweek，记为 Da、平均每周周末交易额(weekends_amountperweek，记为 Ea)、平均每周周中交易次数(weekdays_countperweek，$记为 Dc)、平均每周周末交易次数(weekends_countperweek，记为 Ec)、平均每周周中客单价(weekdays_personal_amount，记为 Dp)、平均每周周末客单价(weekends_personal_amount，记为 E

13、p)六个特征数据组成店铺分类的数据集，求出每个特征的均值，有：=niiiizna1)6,1(1（1）其中，ai表示特征均值，n 表示特征样本总数（本数据集中 n 取值为 58590），zi代表一个特征。数据减去均值后为 X=z1-a1,z2-a2,z58590-a58590，再求取协方差矩阵、特征值以及对应的特征向量，标准化以后选择两个较大的特征值对应的特征向量C(c1i,c2i)即可。随机初始化 K 个由六个参数数据对应的向量作为质心，将降维后的特征向量组成二维向量，将样本向量 F 代入公式（2）（2）计算对应的欧氏距离Fi=(c1i,c2i),i (1,n)（3）其中，n 表示特征训练集数

14、量，在文中 n=2.计算出两个空间点的欧式距离，从而将这些向量所对应的数据点分配到 K 个质心去。计算每个质心里所有样本的平均距离中心,寻找最靠近均值点更新聚类中心。计算机聚类评价指标 SC，针对单个样本的轮廓系数 s，定义如下：第 31 卷第 4 期99刘雨昀，基于机器学习的商业运营管理研究与实现（4）其中，a 表示某个样本与其所在簇内其他样本的平均距离，b 表示某个样本与其他簇样本的平均距离。所有样本的 s(i)的均值称为聚类结果的轮廓系数SC，轮廓系数 SC 的取值范围为-1,1,取值越接近 1则越说明聚类效果越好，相反越接近-1 则说明聚类效果越差，0 表示有簇重叠。可以作为聚类是否

15、合理、有效的度量，计算公式如下：（5）其中，N 表示样本总数。基于 K-means 聚类的店铺聚类分析流程如图 1所示：图 1 基于 K-means 聚类的店铺聚类分析流程图2.2基于 K-means 客户聚类分析方法时间数据需要先经过预处理将划分为上午交易数据和下午交易数据两类，预处理后从数据集中提取了每周平均人午交易次数(amperweek,记为 Aw)、每周人均下午交易次数(pmperweek,记为 Pw)、每周人均交易额(amountperweek,记为 Ap)、每周人均交易次数(countperweek,记为 Cp)四个特征数据组成客户分类的数据集，与基于 K-means 聚类的店铺

16、聚类分析方法类似，完成客户的聚类。聚类分析方法流程可以扩展为以下步骤：Step1:处理数据中的非法数据，按照数据预处理的步骤建立符合 K-means 聚类要求的数据集；Step2:导入数据集，使用 pandas 库提取出指标组成数据训练集；Step3:使用手肘法选取 K 值，并随机初始化 K 个质心；Step4:使用 K-means 算法对数据进行聚类分析，计算质心到其他各点的欧式聚类并计算该质心中的所有样本的距离均值，判断是否需要更新质心；Step5:完成聚类以后，计算聚类评价指标轮廓系数9SC，判断轮廓系数 SC 是否大于 0;若结果大于 0，则表明聚类结果良好，则可以保留聚类结果，反之则

17、再次重复 Step2-Step5；Step6:分析聚类结果，将结果可视化并给出对应的决策。汇总不同的客户去过的店铺信息进行关联分析，利用 Apriori 算法中的最小支持度生成相应的频繁项集，再利用最小置信度筛选出合适的强关联规则。通过不断调整设置的阈值，我们可以将关联规则控制在一定范围内，方便可视化操作，能更直观地看出店铺之间的关联性，以利于研究客户消费行为与店铺之间的关系，从而给店铺提供有效的精准营销决策。3模型设计与测试结果3.1实验测试3.1.1 数据处理原始数据通过预处理提取到对应的店铺、客户指标数据集，通过可视化可以观察到得到的数据集密度不均匀，且数据分布属于凸数据集，聚类算法选择

18、K-means 符合数据情况。店铺、客户特征指标数据分布如下图 2、图 3 所示：图 2店铺特征数据分布图图 3客户特征数据分布图电脑与信息技术 2023 年 8 月100 将店铺的六维特征和客户的四维特征通过PCA6 降维至二维以便可视化分析，并且计算降维后的店铺和客户前二维特征的累计方差贡献率。店铺的数据降至二维以后，前二维的数据贡献率为99.995%；客户的数据降至二维以后，前二维的数据贡献率为 99.999%，说明数据降至二维以后数据信息损失并不大，能够使用降维后的数据继续进行聚类分析。3.1.2 聚类分析（1）店铺聚类由于 K-means 算法需要预先设定 K 值，因而采用手肘法获

19、取 K 值。遍历 K 值，K9 的时候质心过多而无法得到更多新的质心，且 K=1 的质心是整个数据集的中心，接近固定值，对研究无意义，故 K的范围选取 2-9 计算 SSE 得到最佳的 K 值，SSE 曲线如下图 4 所示:图 4店铺-手肘法选取 K 值的 SSE 曲线图由图 4 可见，随着 K 值的增大，在区间内的 SSE斜率呈现减缓的趋势，根据降低的趋势寻找最佳的拐点，不同 K 值的 SSE 值见表 2:可以看出变化率在 K=3 的拐点变化率最大，将K=3 作为聚类数目最合适。当 K=3 时，生成的聚类可视化结果如图 5 所示。图 5 展示了 K=3 时使用 K-means 算法对店铺进行

20、聚类后的生成的三个簇，紫色表示每一类的中心点，其余一种颜色代表一个类别，不同颜色类别的店铺在不同时期的所得到的收益和揽客能力是不同的。聚类完成以后需要使用轮廓系数法进行模型评估，轮廓系数的值 00.4911 满足条件，聚类性能较为良好，因此通过对形成的簇进行分析额能够提供给商场管理一些合理的决策建议。图 5K=3 时店铺聚类结果二维投影的可视化图（2）客户聚类同样我们使用手肘法，先对 K 值进行设置，K值迭代范围为 2,9，得到的 SSE 曲线及变化率拐点表见表 3:图 6K=4 时客户聚类结果二维投影的可视化图由图 6 可见，随着 K 值的增大，区间内 SSE 的斜率逐渐变小，根据 SSE

21、曲线图的下降趋势结合表3 显示的拐点值，可以看出当 K=4 变化率最大，将K=4 作为客户聚类最合适，所生成的聚类可视化如下图 7 所示:图 7 展示了 K=4 时使用 K-means 算法对客户进行聚类后的生成的四个簇，紫色代表每个类别的中心第 31 卷第 4 期101点，其余一种颜色代表一个类别，不同类型的客户消费能力和消费时间是不同的。聚类完成以后需要使用轮廓系数法进行模型评估，轮廓系数的值 00.5361 满足条件，聚类性能较为良好，因此通过对形成的簇进行分析额能够提供给商场管理一些合理的决策建议。图 7K=4 时客户聚类结果二维投影的可视化图3.1.3 关联分析首先设定一个项集，我

22、们认为 last_4_number 和ref_number 一致的为同一个用户，最后筛选得到 2664 条数据。为保证生成的关联规则数量在 5 个左右，设定最小支持度 MIN_Support=0.06 和最小置信度 MIN_Conf=0.38，读取数据，根据最小支持度生成对应数据集内所有的 K-1 项集，根据 Apriori 算法的两条性质进行滤除、剪枝，得到K-1候选集，在循环上述操作，不断构造新的候选项集，为减少遍历次数和保证项集合不超过 K，使用输入的两个项集有 K-2 项相同才合并的原则构造新的候选集。而后分别对二项集以及二以上的项集(需进行组合)计算置信度，满足所设置的最小置信度，存

23、储到强关联规则的列表中，而后逐一输出。图 8关联规则过滤结果图3.2实验结果3.2.1 结果分析本文的实验结果由聚类和关联规则两大部分组成。（1）聚类结果店铺聚类结果的标签如下图 9 所示:图 9店铺聚类结果部分标签图结合店铺聚类结果及可视化聚类图可知，商场60 家店铺可分为三种类型，根据图 6 可以看出蓝色标记所表示的店铺的销售能力、收益水平相对是较弱的，绿色标记相对于蓝色标记的店铺更高一点，橙色所表示的店铺收益水平和销售能力是最高的;不同的三种颜色标记的店铺周中、周末的客流量接近。客户聚类结果的标签如下图 10 所示:图 10客户聚类结果部分标签图结合客户聚类结果及可视化聚类图可知，客户

24、分为四类，按照消费能力来划分的话，可以将客户划分为高消费、中消费、次低消费、低消费四类，图 7 中绿色对应着低消费客户，橙色对应次低消费客户，红色对应中消费客户，蓝色对应高消费客户；同种颜色的客户也意味着他们的交易时间近似。（2）关联规则结果关联规则所得到的结果通过桑基图可视化能够更直观的看出店铺之间的流动关联。根据图 8 和图 11 能够定位一些热门的店铺以及店铺之间的联系。1 号店铺与 17、18、39、57 号店铺关系密切，说明去过 1 号店铺的客户很有可能还会再去 17、18、39、57 号店铺；38、20 号店铺与 5 号店铺关系密切，说明去过 38 号或 20 号店铺的客户很有可能

25、会去 5 号店铺购买；根据桑吉图取值 7 号店铺刘雨昀，基于机器学习的商业运营管理研究与实现电脑与信息技术 2023 年 8 月102关联总和取值为 1.93，1 号店铺关联总和取值为 1.61，由上述数据可得 1 号与 7 号店铺是热门店铺，可以观察这些热门店铺售卖商品和营销策略，并学习热门店铺的销售行为。图 11可视化店铺联系桑基图3.2.2 决策建议根据上述聚类和关联规则的分析，能够提供如下的营销决策:（1）根据店铺销售水平、收益水平的能力，对不同类型的店铺指定不同的租金收纳标准，由于同类型的店铺的周中、周末客流量接近，可以提供店铺一些办理活动的时间决策，商场也可以给予低收益的店铺一些优

26、惠政策或免费进行相关的销售培训等操作来提升店铺收益。（2）由于客户间的消费能力水平不同，中高收入的店铺可以考虑提供客户会员制服务，基给予高消费客户一些店铺购买优惠，从而能够吸引新客户，留住老客户，增加商场多样化的销售服务。（3）可以利用店铺之间的相互联系，进一步得到商品信息，能够对每位客户都实现精准营销，店铺之间联合活动，优惠增加客户购买欲，热门店铺可以给予一些奖励，实现内部商业竞争，以提高整体竞争力。4结束语通过挖掘有效的商业信息数据，利用大数据处理和机器学习算法，能够为企业提供可信的决策建议，这有利于提高企业的市场竞争力。我们分别对店铺和客户进行分类，能够方便商业实现精准营销，整体来说，本

27、文对获取的海量数据进行处理，转化成为能够提供商业价值的信息，进而反馈给运营者。在建立模型过程中，针对具体实现进行详细说明，给出了针对此数据集提供的决策建议，由于数据属性有限，例如，数据集中的银行名称等冗余信息，缺少针对客户分析的具体信息，仅能够从消费水平角度进行分析，导致分析单一且模型建立后难以解释。因此，以后还需在数据收集、处理方面多多注意，未来能够使机器学习技术在商业领域应用更加广泛，综合开发更加成熟的智能商业市场。参考文献：1 张庸,张艳莹.精细化运营分析系统构建 JPTV 精细化运营体系 J.数字传媒研究,2022,39(02),76-802 韩亚娟,高欣.基于机器学习组合模型的电商商

28、品销量预测 J.计算机系统应用,2022,31(01):315-321.3 Tleis M,Callieris R,Roma R.Segmenting the organic food market in Lebanon:an application of k-means cluster analysisJ.British Food Journal,2017,119(7):1423-1441.4 杨俊闯,赵超.K-Means 聚类算法研究综述 J.计算机工程与应用,2019,55(23):77-14+63.5 吴广建,章剑林,袁丁.基于 K-means 的手肘法自动获取K 值方法研究 J.软件

29、,2019,40(05):167-170.6 乔玲,段梦,贲兆强.PAC-改进 K-means 综合评价方法的研究与应用 J.工业控制计算机,2015,28(11):89-90.7 陈秀枝.引入关联分析的用户行为信任评估在云计算平台中的研究 J.计算机安全,2012,(05):47-50.8 牛丽敏.Apriori 算法分析与改进综述 J.桂林电子科技大学学报,2007,(01):27-30.9 朱连江,马炳先，赵学泉.基于轮廓系数的聚类有效性分析 J.计算机应用,2010,30(S2).10 Kumar Yadav Dinesh,Yadav Vikash,Shukla Rati.An Eff

30、icient Collaborative Recommender System for Textbooks using Silhouette index and K-Means Clustering TechniqueJ.International Journal of Advanced Intelligence Paradigms,2019,01(01):1-1.11 叶娟娟.我国智慧社区商圈经济发展对策研究 J.齐齐哈尔大学学报(哲学社会科学院),2020,(01),82-85.12 Tauri,Lang Mait,Sims Allan,Laarmann Diana.Planning of Commercial Thinnings Using Machine Learning and Airborne Lidar DataJ.Forests,2022,13(02):206-206.13 陈波红.基于某百货商场销售数据的 K-means 聚类分析J.全国流通经济,2021,(01):15-17.

展开阅读全文