基于改进型深度学习算法的计算机数据分析.pdf

资源描述

1、Microcomputer Applications Vol.39,No.9,2023文章编号：10 0 7-7 57 X（2 0 2 3)0 9-0 0 9 4-0 5研究与设计基于改进型深度学习算法的计算机数据分析微型电脑应用2 0 2 3年第39 卷第9 期边陆，林少波，郭栋，代素敏，韩飞飞，程鹏（北京中电飞华通信有限公司，北京10 0 7 0 0）摘要：为了实现企业生产运营中大量数据的处理和分析，提出使用分布式文件系统和数据库完成大量数据的存储任务，根据用户需求使用批处理和流处理框架进行数据分析。在数据降维中采用非负矩阵分解的方法，将原始业务数据集映射到低维空间，并引入局部正则化保留数

2、据的部分高维特征。基于深度学习算法建立关系抽取模型，采用BERT模型完成文本信息的实体抽取，编码器中加入前向反馈机制和多头注意力机制。实验表明，系统的分类精度最高达到0.97，算法模型提取出的正确样本条数最多可达到47 个。关键词：数据分析；深度学习模型；流处理框架；数据降维；关系抽取模型中图分类号：TP37文献标志码：AComputer Data Analysis Based on Improved Deep Learning AlgorithmBIAN Lu,LIN Shaobo,GUO Dong,DAI Sumin,HAN Feifei,CHENG Peng(Beijing Zhongd

3、ian Feihua Communication Co.,Ltd.,Beijing 100700,China)Abstract:In order to process and analyze large amounts of data in the production and operation of enterprises,the distributedfile systems and databases are used to complete large amounts of data storage tasks,and batch processing and stream proc

4、essingframeworks are used for data analysis according to user needs.In the data dimensionality reduction,the method of non-negativematrix decomposition is used to map the original business data set to a low-dimensional space,and local regularization is intro-duced to retain some of the high-dimensio

5、nal features of the data.A relationship extraction model is established based on thedeep learning algorithm,the BERT model is used to complete the entity extraction of the text information,and the forwardfeedback mechanism and the multi-head attention mechanism are added to the encoder.Experiments s

6、how that the classificationaccuracy can reach up to 0.97,and the number of correct samples extracted by the algorithm model can reach up to 47.Key words:data analysis;deep learning model;flow processing framework;data dimension reduction;relational extractionmodel0引言“工业4.0 利用最新的信息技术促进了企业的协同发展，使企业内部的

7、各个系统信息互联，推动了企业的横向集成和纵向集成1-2 。在数据处理分析研究中：文献3 针对工业生产过程中出现的多源异构问题，提出了基于XML文档技术的异构数据转换集成方法，将异构数据转换为文档实现数据源的有效集成；文献4 利用Hadoop大数据框架建立了数据分析的分布式平台，实现了企业业务信息的互通互联和资源共享；文献5 应用了Spark大数据处理技术，优化了数据查询速率，通过并行化计算完成图像数据的快速检索；文献6 提出了一种端到端的实体关系抽取模型，使用词序关系和语法树结构完成信息抽取，加快了数据处理过程中信息作者简介：边陆（197 6 一），男，硕士，工程师，研究方向为软件工程；林少波

8、（198 6 一），男，本科，工程师，研究方向为电子信息工程；郭栋（198 3一），男，硕士，工程师，研究方向为计算机科学与技术；代素敏（198 9一），女，硕士，工程师，研究方向为计算机技术；韩飞飞（198 9一），女，硕士，工程师，研究方向为计算机应用技术；程鹏（198 6 一），男，硕士，研究方向为产品管理与产品设计。94抽取的效率。当前研究中，对于有高噪声、强余的高维数据的处理效果较差，在数据分析和组织过程中计算量过大且复杂程度较高，在有效分离数据类别的同时，无法保证相同特性的数据聚集。1数据分析算法1.1高维数据降维方法本研究基于非负矩阵分解的方法进行数据降维，将企业业务数据的各部分

9、累加构成全局数据，并在特征提取过程中保证所有数据为非负值，直接利用数据关系进行矩阵分解。根据系统中业务数据的局部与整体之间的关系建立矩阵分解模型，实现企业高维数据的非线性维数约减7。给定非负矩阵X=1,2，,JER ，为2 个非负矩阵的积8 ，可Microcomputer Applications Vol.39,No.9,2023表示为X=UXV,UE RX,VE RX式中，U、V 表示两个系统中业务数据的非负矩阵，n表示样本数量，d表示特征数量。将业务数据集分解为U、V 两个矩阵,U=u i，u z，,un表示权重向量矩阵,V=i，U 2，,U,表示基向量矩阵。基向量矩阵V为一个r维的向量空

10、间R，R 中的点可表示为原始数据集中的向量，经过矩阵分解后忽略了数据的高维几何结构。为了保留业务数据的部分高维特征，在矩阵分解中引入局部正则化，根据目标函数提出相应的优化方案。局部约束非负矩阵算法的降维流程如图1所示。开始原始业务数据集立计算映射矩阵立初始化矩阵U、到达最大选代次数？更新矩阵V更新矩阵图1局部约束非负矩阵算法的降维流程本研究对降维过程中算法的稀疏度进行了控制，算法的稀疏度可表示为/n-(ZI:1)/VZaisp():Vn-1式中，n表示数据集中向量的维度，表示业务数据集中的样本。通过调整正则化参数使矩阵分解模型更加稳定，避免出现过拟合的情况，模型的损失函数可表示为(3)式中，Y

11、表示模型输出的数据，X表示输入的原始数据，表示模型系数，表示常数参数9。对于企业信息系统中n个d维的样本X=i，2，,n,在高维空间的损失函数为9,通过求解模型的权重系统，将数据集从高维映射到低维后重构系数不变,低维空间中 n个r 维样本V=ui，U 2，,的损失函数10 可表示为IV,-VW,I =tr(V(I-W)(I-W)TVT)=tr(VGVT)i=1(4)式中，W表示重构系数，I表示单位矩阵，G表示映射关系。在矩阵分解过程中需要保持稳定的同时控制稀疏性，在低维空间中保留原始数据高维的结构，得到的目标函数可表示为minlX-UVI/+tr(VGVT)+入2 IUll2+(/V)(5)式

12、中，入1、入2、入3表示平滑系数，0 表示模型参数。通过调节不研究与设计同项的比重控制降维后基矩阵的稳定性，通过局部线性化正(1)则保留信息系统中高维数据集的数据内部几何结构，控制权重矩阵保证低维数据特征的稳定性。1.2基于改进型深度学习的关系抽取企业系统中智能搜索、自动问答和信息推荐等应用需要从文本数据中提取多个实体之间的关系，形成相关的知识图谱，在深度学习中构建复杂的知识库。本研究基于预训练模型建立关系抽取模型，在解决关系分类任务时定义了编码器模型。系统数据库中，=o，i，a n 表示词语序列，o=CLS为特殊的开始标记，=SEP 为结束标记。数据序列中，si=（i，j）、S2=（k，l)

13、为一对整数，关系语句用三元组r=（，1，s 2)表示，Si、S2 表示实体区间，关系语句中的第一重构线性结构个实体用i，j-表示，第二个实体用，ai-表立示。通过关系表示函数映射到向量hr，向量h，为s1、S2 之间映射到低维空间的词语序列关系。本研究关系表示模型的结构如图2 所示。输出特征矩阵V重构系数是是发生变化?香输出特征矩阵V分类验证结束微型电脑应用2 0 2 3年第39 卷第9 期相似度线性和归一化层线性和归一化层残差和归一化残差和归一化前向反馈前向反馈残差和归一化残差和归一化多头注意力机制多头注意力机制二(2)位置嵌入输入向量图2 关系表示模型结构模型输人的关系语句词语序列为=ao

14、,Elstanai,aj-Elend,E2startck,a-E2end其中，E1start、El e n d 、E2 s t a r 、E2 e n a 为4个标记，用来扩展关系语句。第一个实体区间表示更新为3,=（i十1，j十1),第二个实体区间表示更新为32=（k十3,l十3）。从编码器中提取固定长度作为关系表示的方法，采用2 个实体的开始标记对应的隐藏层输出进行拼接。在关系抽取任务中的有监督关系抽取中，给定有关系描述r和预测关系的类型t，固定的关系类型字典设为T，当t=0时表示关系语句汇总的实体之间的缺乏关系。在有监督任务中设定一个新的分类层，可表示为WERk*H其中，k表示业务数据关

15、系类型的数量，H表示关系标识的大小。在关系抽取任务中对于关系描述r对应的词序列，经过编码器训练后得到隐藏层输出向量，再经过线性归一化后得到固定长度的向量hr。通过预先学习得到关系类别表示，95输入向量(6)(7)Microcomputer Applications Vol.39,No.9,2023关系语句表示和关系类别为Softmax得到的关系分类。在FS关系抽取中，利用查询关系语句对数据序列中的一组候选关系语句进行排序和匹配，在数据集汇中给定K组有N个被标记的关系语句S=（r o，t o），（r，t），其中t；E(1，,K)。对于少样本任务关系，对待查询的关系语句的数据序列，经过transf

16、ormer编码器训练得到固定长度的向量hr。对于候选关系语句可以进行相同的操作，得到关系表示向量，并将待查询语句和候选语句作为向量点积，Softmax查询语句和候选关系语句作为向量点积的相似度进行关系分类。2数据分析系统数据分析是体现企业各类业务数据价值的过程，对于不同来源和不同结构的数据，数据分析方法可分为结构化数据分析、文档数据分析、多媒体数据分析、Web数据分析等，最大限度地发挥数据价值。系统能够选择特定的数据源对数据维度进行加工处理，根据用户需求选择数据字段、数据量限制、排列方式等，根据数据属性创建数据集，通过属性编辑控制模块显示内容。数据分析系统架构如图3所示。研究与设计据进行降维处

17、理，通过提取业务数据之间的关联结构，形成新的数据特征，构建原始数据的低维表现形式，减少数据分析过程中计算的数据量，同时不影响原始数据集特征。进行降维处理的同时减少了原始业务数据集中的噪声干扰，消除了原始数据之间的相关性。3应用测试实验采用数据库服务器、计算机、交换机、路由器等设备建立实验测试环境，并将HBase、Flu m e、K a fa k a 等组件集成到计算机数据分析平台上，操作系统为Ubuntu16.04。在实验计算机上安装ZooKeeper，并配置系统的环境变量，对Ha-doop和Hbase进行集群监控。实验测试环境架构如图4所示。一从节点从节点从节点11111微型电脑应用2 0

18、2 3年第39 卷第9 期1主节点实验计算机系统客户端资源管理器节点管理器节点管理器应用程序管理器数据分析任务分布式缓存数据库接口消息队列流计算HIVE数据仓库深度学匀算法日志收集工具关系型数据库HDFS分布式存储HDFS节点HDFS节点HDFS节点HDFS节点图3数据分析系统架构本研究数据分析系统的数据处理模式可分为流处理和批处理，流处理针对企业中实时的应用场景，批处理适用于对时延要求不高的场景，将业务数据收集起来作为一个整体进行处理。系统应用了Hadoop开源分布式框架进行大数据处理和分析，具有较高的可靠性和可拓展性，通过将存储和计算分布到大量的集群上，增加了系统的存储容量和计算效率。系统

19、应用深度学习算法模型完成数据的预处理，改善数据质量并提高数据分析的效率，能够提取目标实体完成信息抽取任务。算法模型基于数据特征对系统中的高维业务数实验计算机系统客户端实验计算机协调器图4实验测试环境架构任务调度通过VMware软件创建3 台虚拟机，操作系统为Cen-tOS7，将虚拟机分别命名为FXdata1、FXd a t a 2、FXd a t a 3，并设定为固定IP。虚拟机的设置信息如表1所示。实验环境中硬件设备配置参数如表2 所示。表1虚拟机的设置信息类型FXdata 1文件系统名称节点数据库服务器资源管理数据库IP地址192.168.171.210192.168.171.211192

20、.168.171.212表2 设备配置参数类型参数内存32GDDR43200MHzCPUTUFB560MPLUSi7-11700KF显卡RTX3060TiXTRI08G服务器R740T3204661TSATA750W交换机NETCORES5G596数据库服务器路由器交换机服务网关FXdata 2数据节点管理节点管理节点RSRS管理服务器FXdata 3数据节点资源节点RSMicrocomputer Applications Vol.39,No.9,2023完成实验环境中设备的配置后，建立数据分析实验的数据集，如表3所示。表3实验数据集序号数据集名称1Y2DN3GOO4DAR5POO6CAM7F

21、AN进行数据降维分类实验时，首先设定模型参数的范围为0.11.0,间隔为0.1，主要参数入1、入2、入3的取值范围设置为入=（0.0 0 1,0.0 1,0.1，1,10,10 0,10 0 0）。文献3系统和文献4 系统中的数据分类算法作为对照实验。实验数据集的维度设定为0 10 0，得到3种算法在数据集上的分类精度，如图5所示。211.00.80.60.40.200102030405060708090100数据集维度本研究系统-一-文献3 系统图5数据集分类精度由图5可知不同算法在不同数据维度下的分类精度，随着数据维度的增加，算法的识别率逐渐提高。在数据维度低于10 时，只有文献3 系统的

22、识别率在0.2 以下，文献4 系统的分类精度为0.7 2，文献3 系统的分类精度不超过0.8，文献4 系统的分类精度为0.8 6。本研究系统在数据降维分类中具有较好的分类精度，数据维度低至10 时，系统的分类精度达到0.48，数据维度增加到50 时，分类精度增长到0.9左右，数据维度越高，原始数据中保留的信息就越多，数据维度超过7 0 后，系统的识别率基本保持稳定，分类精度最高达到0.9 7,在数据维度较高时算法的特征提取性能高于其他系统算法。在表3实验数据集下，抽取文本中包含的所有时间关系实体，利用序列标注进行关系抽取，每个数据集样本数据设定为50 个，LSTM模型作为对比实验，得到在数据集

23、中提取出的正确样本条数如图6 所示。具体数据如表4所示。研究与设计5040样本数特征数9012305108107521452238543541247528100353042566175014585文献4 系统CNM微型电脑应用2 0 2 3年第39 卷第9 期类别数3015202103081234567数据集序号5本研究模型L5697.LSTM模型图6 关系抽取结果表4正确样本数数据集序号本研究模型132225335447544622741根据对关系抽取结果分析可得出，单独的LSTM模型训练学习效果较差，对实验数据序列中实体和方向与本研究关系抽取模型相比仍有一定的差距，导致提取出的正确样本数量

24、较少，学习能力有待提高。其中，在数据集4和数据集7中提取出35个正确样本，在数据集5提取出的样本数最高，达到39 个，在数据集6 中得到的结果不超过2 0 个。本研究关系抽取模型提取出的正确样本条数较多，能够根据特征在数据集中找出对应的语句，在信息标注中不依赖其他特征成分，关系抽取的效果较高。在数据集4、数据集5和数据集7 中提取到的样本数量都超过40 个，最高可达到47个。4总结本研究建立数据分析系统处理多源异构大数据，基于大数据框架完成数据的分布式存储和计算，数据计算框架中使用了改进型深度学习算法模型，对高维复杂的数据进行降维处理，并构建预训练的关系表示模型完成关系抽取任务，从非结构的数据

25、序列中提取实体与实体之间的信息，并结合抽取的实体信息进行判别，将关系语句映射到固定长度的向量上。本研究在数据分析方面的分析方法较为单一，对于半结构化数据或其他类型数据的处理没有进行深度的研究，还需对其他数据分析方法进行深入分析，完善数据分析系统的功能应用。LTSM模型20243135391735Microcomputer Applications Vol.39,No.9,20231孟超，张绍良，杨永均，等.基于大数据的矿区地灾信息智能分析系统开发与应用J.中国矿业，2 0 2 1，30(12):58-63.2 薛庆辉，刘哨东.大数据时代经济统计应用问题分析及思考J.产业与科技论坛，2 0 2

26、1，2 0（2 4）：57-58.3林焰清.大数据时代高校智慧党建与思政教育一体化建设的探索与实践J.产业与科技论坛，2 0 2 1,2 0(22):258-259.4边荣正，张鉴，周亮，等，面向复杂多流形高维数据的t-SNE降维方法J.计算机辅助设计与图形学学报，2021,33(11):1746-1754.5王焕，杨波.基于大数据分析的配网项目管理评价研究J.青岛大学学报（工程技术版），2 0 2 1，36（4)：16-21.6 刘岩，袁瑞铭，郑思达，等.应用DBN深度学习算法的电能计量反窃电技术研究J.计算技术与自动化，(上接第8 9页）情况进行了综合分析，得出了更准确的电力业扩电源资源；

27、而大数据分析方法主要对馈线的负荷分布进行分析，缺少对用户情况、馈线地理位置等信息分析。因此，所以本文所提方法的分析准确性高于大数据分析方法。4总结为了解决电力业扩电源资源分析准确率低的问题，本文提出了一种基于时空分布特征的电力业扩电源资源分析方法。首先对配电线路进行可开放容量评估，然后根据电网地理信息系统对电力业扩工程电源资源和用电客户资源进行标注，并用时空分布特征算法对电力业扩工程电源资源进行分析，最后在某城市进行实例应用，其结果验证了本文所提方法的有效性。下一步将结合移动作业技术对电力业扩电源资源接入做进一步研究。参考文献1管林林，电力营销业扩报装流程的规范化管理J.数码设计（下）,2 0

28、 2 1,10(1)：143.2 刘东.电力营销业扩报装流程的规范化管理解析J.新型工业化，2 0 2 1,11（8）：2 0 3-2 0 4.3孙伟卿，黄福泉，张巍.考虑需求响应的馈线可开放容量评估J.电力自动化设备，2 0 2 1，41（6）：156-16 3.4赵会茹，张士营，赵一航，等.基于自适应噪声完备经验模态分解-样本摘-长短期记忆神经网络和核密度估计的短期电力负荷区间预测J.现代电力，2 0 2 1，38(2):138-146.5唐冬来，刘友波，熊智临，等.基于时空关联矩阵的配研究与设计2021,40(4):151-155.参考文献7 张瑶，崔云天，邓秋卓，等.基于光谱数据降维的

29、农田土壤-作物全氮含量协同检测J.农业机械学报，2021,52(S1):310-315.8 G E CJ,O LIVEIR A R A D,G U I Y H,e t a l.U n s u-pervised Deep Learning and Analysis of HarmonicVariation Patterns Using Big Data from Multiple Lo-cationsJJ.Electric Power Systems Research,2021,194(5):107042.9XU L X,CAI F H,HU Y X,et al.Using Deep Learn

30、-ing Algorithms to Perform Accurate Spectral Classifi-cationJJ.Optik,2021,231(13):166423.10LIU Y Y,MA X H,ZHANG X W,et al.Shale GasWell Flowback Rate Prediction for Weiyuan FieldBased on a Deep Learning Algorithm JI.Journal ofPetroleum Science and Engineering，2 0 2 1,2 0 3:108637.（收稿日期：2 0 2 1-12-30

31、）电台区反窃电预警方法J.电力系统自动化，2 0 2 0，44(19):168-176.6 朱朱纯.地理信息系统在电网管理中的应用探析J.企业改革与管理，2 0 2 1（16)：6 3-6 4.7 欧阳邵杰，胡建军，袁黎，等.兼顾效率和公平的电网企业业扩服务综合评价方法J.电力与能源，2 0 19，40(2):194-199.8 欧阳红，刘翔，张提，等.电力营销服务移动作业应用系统研究与设计J.计算机应用与软件，2 0 19，3 6(11):14-19.9 张小斐，魏玲，王自强，等.基于负荷特性的大用户业扩辅助分析方法J.电测与仪表，2 0 19，56（12）：44-48.10高曦莹，潘明明，

32、王志斌，等.基于技术经济比较的低压用户业扩报装供电方案综合评价J.供用电，2 0 19，36(10):61-66.11关浩华.业扩数据统计的智能化应用研究.微型电脑应用，2 0 2 0,36（7)：115-117.12唐冬来，倪平波，胡州明，等.基于竞争图谱的电动物流汽车充电站需求响应策略J.电力系统自动化，2021,45(21):189-196.13刘旭，刘晴，董武，等.基于炳权-灰色模型的电力通信风险预测研究J.信息技术，2 0 2 1（7）：16 0-16 4.14魏巍.地理信息系统GIS在配电网自动化中的应用J.集成电路应用，2 0 2 0 37（8）：32-33.15黄贵朋，黄亚东，孙雷鸣，等.D5000系统在电网中的研究和应用J.科技风，2 0 2 1（3）：9 1-9 2.（收稿日期：2 0 2 1-11-2 5）98微型电脑应用2 0 2 3年第39 卷第9 期

展开阅读全文