收藏 分销(赏)

基于“CPU GPU”的人工智能运行平台的实时监控方法.pdf

上传人:自信****多点 文档编号:620514 上传时间:2024-01-18 格式:PDF 页数:5 大小:1.63MB
下载 相关 举报
基于“CPU GPU”的人工智能运行平台的实时监控方法.pdf_第1页
第1页 / 共5页
基于“CPU GPU”的人工智能运行平台的实时监控方法.pdf_第2页
第2页 / 共5页
基于“CPU GPU”的人工智能运行平台的实时监控方法.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期年月计算技术与自动化C o m p u t i n gT e c h n o l o g ya n dA u t o m a t i o nV o l ,N o J u n 收稿日期:作者简介:吴文炤(),男,福建福州人,硕士研究生,研究方向:深度学习,图像识别,语音识别等在电力领域的研究与应用.通信联系人,E m a i l:z w u w e n c o m文章编号:()D O I:/j c n k i j s j s y z d h 基于“C P UG P U”的人工智能运行平台的实时监控方法吴文炤,王卫卫,邱镇,郭庆,程琳(国网信息通信产业集团有限公司,北京 ;安徽继远软件有

2、限公司,安徽 合肥 )摘要:人工智能运行平台监控的实时性要求相当高,单C P U难以满足实时人工智能运行平台的实际应用要求.为了改善人工智能运行平台的监控效率,设计了基于“C P UG P U”的人工智能运行平台的实时监控方法.首先分析了当前人工智能运行平台的监控研究进展,然后设计了人工智能运行平台整体流程,采用G P U作为加速部分,配合C P U共同承担实时监控任务,最后进行了仿真对比测试,相对于单C P U,C P UG P U的平台监控速度更快,可以满足平台实时控制要求,具有更高的实际应用价值.关键词:人工智能;中央处理器;图形处理器;对比测试;实时控制中图分类号:T P 文献标识码:

3、AR e a l t i m eM o n i t o r i n gM e t h o do fA IO p e r a t i o nP l a t f o r mB a s e do n“C P U G P U”WU W e n z h a o,WANG W e i w e i,Q I UZ h e n,GUOQ i n g,CHE NGL i n(S t a t eG r i dI n f o r m a t i o n&T e l e c o mm u n i c a t i o nG r o u pC o,L t d,B e i j i n g ,C h i n a;A n h u

4、 i J i y u a nS o f t w a r eC o,L T D,H e f e i,A n h u i ,C h i n a)A b s t r a c t:T h e r e a l t i m em o n i t o r i n gr e q u i r e m e n t so f t h ea r t i f i c i a l i n t e l l i g e n c eo p e r a t i o np l a t f o r ma r eq u i t eh i g h As i n g l eC P Uc a nn o tm e e t t h e r e

5、a l t i m e r e q u i r e m e n t s o f t h e a r t i f i c i a l i n t e l l i g e n c e o p e r a t i o np l a t f o r m I no r d e r t o i m p r o v e t h em o n i t o r i n ge f f i c i e n c yo f t h e a r t i f i c i a l i n t e l l i g e n c e o p e r a t i o np l a t f o r m,a r e a l t i m

6、em o n i t o r i n gm e t h o do f t h e a r t i f i c i a l i n t e l l i g e n c e o p e r a t i o np l a t f o r mb a s e do n“C P UG P U”i sd e s i g n e d F i r s t l y,t h em o n i t o r i n gr e s e a r c hp r o g r e s so f t h ec u r r e n t a r t i f i c i a l i n t e l l i g e n c eo p e

7、r a t i o np l a t f o r mi sa n a l y z e d,t h e n t h e o v e r a l l f r a m e w o r ko f t h e a r t i f i c i a l i n t e l l i g e n c e o p e r a t i o np l a t f o r mi s d e s i g n e d,w h i c hu s e sG P Ua s t h e a c c e l e r a t i o np a r ta n dc o o p e r a t e sw i t hC P Ut o j o

8、 i n t l yu n d e r t a k e t h e r e a l t i m em o n i t o r i n g t a s k F i n a l l y,t h e s i m u l a t i o nc o m p a r i s o n t e s t i sc a r r i e do u t C o m p a r e dw i t ha s i n g l eC P U,t h ep l a t f o r mm o n i t o r i n g s p e e do fC P UG P Ui s f a s t e r,w h i c hc a nm

9、 e e t t h e r e a l t i m e c o n t r o l r e q u i r e m e n t so f t h ep l a t f o r ma n dh a sh i g h e rp r a c t i c a l a p p l i c a t i o nv a l u e K e yw o r d s:a r t i f i c i a l i n t e l l i g e n c e;c e n t r a l p r o c e s s i n gu n i t;g r a p h i c sp r o c e s s i n gu n i

10、t;c o m p a r a t i v e t e s t;r e a l t i m ec o n t r o l近年来,我国人工智能技术应用广泛,就当前人工智能平台的应用领域而言,其已经成为网络数据引擎、数据整合计算、金融数据统计等多样数据分析的核心.在数据流分析处理性能开发中,数据交互的多样性使平台运行过程中的数据流各不相同,不同类型的数据流之间存在节点类型差异,正常流量特征与异常流量特征之间存在差异,数据流的差异化监控是判定平台运行健康与否的关键,因此在平台监控方法设计研究上,诸多研究人员及学者不断提出新的解决方法与算法.但就目前人工智能平台面临的问题,主要在于不同链路层网络拓扑结

11、构过于复杂,导致不同层级上的流量异常数第 卷第期吴文炤,等:基于“C P UG P U”的人工智能运行平台的实时监控方法据在监控过程中无法跨资源监控,加之软件与硬件处理算法的不同,难免会出现局部流量溢出,监控精度降低的问题.因此,有必要利用现有资源,通过C P UG P U的方式,提出一种全新的监控方法,用以解决上述问题.基于“C P UG P U”的人工智能运行平台异构并行数据调度分析根据C P UG P U的双路数据链路流量监控特点,首先对人工智能平台运行过程中,并行数据进行异构数据调度分析.从链路的每一个节点入手,通过差分多次动态调度,对C P U与G P U资源调度浮点数据进行资源调度

12、分析,从而获得存在差异的异构并行数据特征.以下为具体实现步骤,其中,将平台链路中任意一个调度节点定义为分析计算节点.()对人工智能平台整个所有节点进行集合整理,将调度矩阵下发至对应节点,获取节点对应矩阵后的变化数据,将数据分至C P U与G P U进行异构分析,获得并行资源节点的调度消耗;()根据上述获得的并行资源节点的调度消耗,计算获得每一个节点在调度过程中的个体计算能力、数据交互系数比值以及资源类别综合交互能力,并将其设定为并行异构数据的全局分析系数.通过并行异构数据的全局分析系数,对C P U与G P U内部资源调度消耗进行全局异构算力分析,得到二者的内部浮点计算下的调度值;()将所得调

13、度值进行单位化处理,得到关于节点调度性能矩阵,根据矩阵动态不规则性对其进行能力划分;()在划分的节点中,根据不同节点在并行交互过程中发送请求数据计算能力的不同,将其按照对应比例分发至相应算力区块,对应算力越高,说明其匹配的节点算力加权系数越大,在整个并行交互过程中,承担的C P U与G P U算力负载越大.因此,每一个节点会发出多次请求以平衡自身数据计算带来的负载,避免数据节点出现长尾现象;()为了适应C P UG P U的双路并行特点,在调度分析过程中,所得节点分析通道阈值对应两个存储阵列,根据分析节点动态调度矩阵变化的不同,动态切换存储阵列系数,以此保持全局请求任务节点的调度正常,其实现过

14、程可以通过函数关系式描述为:SWe()d o()式中,S为调度任务;W为全局调度节点集合;e为参与调度计算的与C P U、G P U浮点计算相关的节点;d为节点调度矩阵;o为矩阵变化系数;由此可以得到并行异构节点的判定函数为:ifSx,SxSnxn nxn()式中,i为存储阵列;f为存储阵列中的并行节点;S为存储于第存储阵列内的调度任务;S为存储于第存储阵列内的调度任务;Sn为两个存储阵列交替变化n次后所在存储阵列内的调度任务;x为节点并行算力对应的异构权值.当监控窗口打开时,C P U与G P U的监控能力根据当前全局节点对应的调度任务数量、队列状态以及网络开销程度进行异构数据的判断;当节点

15、瞬态算力时,则所在队列的存储n d i f i f数据 处理函数可以表达为:STTi()To/S()d o()式中,T为节点列队状态系数;为C P U对应节点并行状态下交互分析算力的加权系数;为G P U对应节点并行状态下交互分析算力的加权系数.根据并行分发比例完成对数据节点的资源交换,并将交换后的节点参量作为新的分析对象.()根据上述C P U与G P U分发数据比例后的反馈参量,对部分数据进行计算权值计算,获得部分节点在C P U与G P U调度任务下的数据交互能力,以此了解节点在网络空闲时间下存储阵列内的资源调度情况.一般情况下,C P U调度的节点算力与G P U资源调度所消耗的节点算

16、力保持一致,以此保证全局并发节点的负载均衡;()在上述分析过程中,当存储阵列中的节点数量为时,为当前并发数据中存在一路空值数据,此时空值对应的链路层即为异构层,对应的C P U与G P U浮点计算权值为O(n),即相对应的全局节点计算负载的异构系数为O(n).根据节点调度过程中分布的线性关系,并发数据节点的数据负载与数据算力总值为,由此可知另一路节点对应的C P U与G P U浮点计算权值为O(),此时节点已经完成数据的并发列队过程,可以判定对应O(n)的链路层存在节点的异构并发行为.平台监测数据的并行硬件映射根据上述并行异构分析结果,可得到C P U计算技术与自动化 年月G P U并行异构分

17、析处理原理,如图所示,通过对其C P U与G P U的数据矩阵并发转置计算,使主机硬件参量值与平台并行数据保持一致,实现平台监测数据的并行硬件映射.为了保证计算过程中不会受到外部计算量扰动,算法将计算过程约束在系统内核空间内完成,利用内核资源跨区域性,由G P U主导整个计算过程,完成平台数据与硬件参量的 映 射 资 源 规 划,其 中 采 用O p e n C L数 据 模型 作为G P U并行数据映射的基础模型,经过映射算法后会在内核内创建一个N维指令空间I F T a n e .图C P UG P U并行异构分析处理原理按照上述思路,数据与硬件的映射转置函数可以通过矩阵进行表达:WSn

18、n nMMT()式中,WS为用于映射转置的调度任务;n为单位矩阵内用于交换转置的数据量;M为每一个转置过程中消耗的硬件算力;T为转置映射到硬件的数据节点坐标位置.对转置映射矩阵进行节点空间划分,得到:Gi dGi d,Gi d()()式中,Gi d为全局节点i d的转置空间;Gi d为链路i d为位置上的节点置换空间;Gi d为链路i d为位置上的节点置换空间.对其进行置换映射坐标计算,得到横向坐标x与纵向坐标y上的转置映射节点总长度为:Gi dnMnMT()/MT()线性二阶映射计算,得到硬件映射所得监控数据的坐标系数kx、ky分别为:kxGi dx()Gi dx()in Gi dx()()

19、kyGi dy()Gi dy()iGi dy()()式中,i为线性二阶计算过程中数据节点在硬件上的映射系数.数据流量监控的C P UG P U并行监控对上述数据计算所得参量进行整合分析,完成人工智能平台运行的C P UG P U并行监控,具体实现如下.考虑到上述参量计算处于C P U与G P U双重约束之下,因此在量监控类型上有所限制.为了解决限制问题,利用映射关系引入镜像流量监控方法,在C P U与G P U上创建镜像数据.创建镜像数据在一定程度上增加了运算量,但C P UG P U架构计算的应用程序在整体性能上相比在C P U上计算增加了约 倍的速度,因此,创建镜像数据对效率的影响可以忽略

20、.通过网络流量分布的拓扑结果,将实际网络状态镜像到C P U与G P U响应端口,进而生成O p e n S t a c k节点,利用硬件设备桥接平台网络,实现流量的监听,达到监控平台的目的.整个监听系统架构如图所示.图监控方法中监听系统架构结构示意图利用C P U节点调度资源算力,对人工智能平台的网络流量、数据接口流量、接口转发进程进行监控,同时利用G P U资源跨层级监听的特点,对节点监听过程中的协议类型、时间、节点长度以及源地址等属性数据进行监听.在并发监控过程中,C P U与G P U双路资源保持监听平台原有数据接口列表不变,以此保证整个接管监听过程中平台数据周期不变,能够长久持续化监

21、控.第 卷第期吴文炤,等:基于“C P UG P U”的人工智能运行平台的实时监控方法最后,根据双路监控返回的镜像数据流与平台运行数据库之间的差异大小,判定平台运行状态.为了更为精准地对C P U与G P U镜像数据做出分析,采用O p e n S t a c k模型作为判定模型,对其流量状态进行判定,得到以时间为发展逻辑的流量溯源报告,实现人工智能平台运行的实时监控.应用测试对提出的监控方法进行性能指标测试,测试采用实例数据引入、仿真环境下多方法对比的方式,来完成相应指标数据的对比分析.测试过程中,选择R B F神经网络、拓扑结构的人工智能平台监测方法作为对比方法,测试环境采用仿真工具O p

22、 e n G L生成逻辑场景,数据抽取自重庆某人工智能科技公司平台数据.设置测试条件由仿真测试工具O p e n G L生成逻辑场景,在创建场景中生成个相同环境变量的独立仿真空间,用于种测试方法的同步独立运行;在个独立仿真空间末端指向相同的O p e n G L仿真逻辑日志模块O p e n S T,用于对种方法测试数据的整理与输出.创建场景所用数据经过整理抽取,如表所示.表中数据流样本集合分别对应来自人工智能平台的搜索引擎、管理系统、电子邮件系统、数据处理与金融消费系统.表仿真场景创建测试数据样本集合节点数量数据流长度T o k e n均值测试包规模/MB数据属性E n r o n 逻辑数据

23、QU L G 混合数据BM S 数值数据F B L P 逻辑数据AO L 数值数据 流量异常监控测试利用表数据生成组信号数据,分别对应人工智能平台的调度数据与对应的硬件控制数据流,使其平台流量发生异常,如图所示.与此同时,由仿真测试场景中种不同监控方法对其异常进行监测,得到流量监测图如图所示.通过对比图与图可知,参测三种测试是方法分别与仿真测试工具生成图中数据变化对比,R B F神经网络所得曲线对应数据变化与之差距较大,因此对应的流量异常监测位置与实际目标位置距离较远;拓扑结构方法所得流量变化曲线相比R B F神经网络与仿真生成曲线局部相似度较高,控制曲线变化与实际变化出入较大,所得异常流量位

24、置监测结果也有较大误差;本文方法测试所得曲线不论是走势变化,还是异常流量监测目标位置,均与仿真工具生成的曲线图有着较高的相似度,说明本文方法能够更为精准地完成人工智能平台数据变化监控.图测试样本仿真数据流变化图不同监控方法测试所得流量监测图计算技术与自动化 年月 有效性校验为了验证上述测试结果客观有效,按照上述测试参量,重复上述实验 次,得出 组监控误差值.误差均值指标为 ,为测试过程中人工智能平台 流 量 并 发 调 度 监 测 误 差 不 得 大 于 k b p s/m s,具体测试结果如图所示.根据图可知,R B F神经网络误差均值为 ,高于指标值 ,说明R B F神经网络的实际监测流量

25、误差大于 k b p s/m s;相比之下,拓扑结构方法较好于R B F神经网络,误差均值下降至 ,结合指标值 分析可知,R B F神经网络在流量监听稳定性控制方面存在不足,虽然能够将误差控制在一定的范围内,但其约束值域范围较大,误差抑制作用不大;本文方法获取的数据在数值变化上看,其波动最小,且具有规律性,数值误差与指标值误差最小,说明本文方法所得监控结果能够满足相应指标,且监控数据具较好的稳定性.这是因为本文方法通过C P UG P U的方式,双路并行调度分析资源节点数据交互能力,判定资源调度情况,以映射算法约束计算过程在系统内核,避免受到不同链路层网络拓扑结构过于复杂的影响,利用G P U

26、可以使不同层级上的数据监控实现跨层级,且通过创建镜像数据的方法,可以避免局部流量溢出,使得监控精度更为精准.图监控系统平台的监控校验结果结论从人工智能平台运行数据类型入手,按照不同类型流量对应的硬件处理核心不同进行参量优化.通过C P UG P U的设计引入,实现了提升监控精度,优化人工智能平台流量监控实时性的效果,为人工智能平台的流量监控研究提供了设计思路与相关参量优化标准.但是该方法还不完善,主要限制在于C P U与G P U自身参量有所不同,对应的参量综合算力存在差异,造成方法在实际应用的过程中限制条件较多,诸如平台整体算力限制、监控接口数量限制、资源监控总量限制等.基于上述问题,在日后

27、的研究中可以考虑引入不同自适应算法与之结合,使其能够动态适应应用平台监控参量,使方法更加完善.参考文献袁三男,王孟彬,陶倩昀,等异构多处理平台并行实时编码算法研究J上海电力大学学报,():李杰,杨黎霞,许磊,等基于S o c k e t的网络通信流量异常监测方法J信息与电脑(理论版),():许文杰,陈智海,林志华大型I P承载网络异常流量监测预警方法的研究J信息与电脑(理论版),():张璇,陈瑛基于MA P S监控策略的F C交换机自动化运维方案设计J微型电脑应用,():严瑞阳,丁小曼,邓新桃,等面向A I E C G算法研究的软件平台设计与实现J中国医疗器械杂志,():高嵩,张蒙,李军,等基

28、于网源在线监测平台的电网A C E调节异常分析及对策J山东电力技术,():,杨航,郭乔进,吴其华,等 O p e n S t a c k平台拓扑网络流量监控方法研究J信息化研究,():张琼瑶,黄基,李倩文,等基于人工智能的大数据治理平台实践与探索J中国数字医学,():翁春燕,蔡迪阳人工智能技术在高校信息化服务中的应用与研究J信息记录材料,():方创新,宋浩,林煜明,等 C P U G P U异构环境下的大规模商品知识查询处理J华东师范大学学报(自然科学版),():朱紫钰,汤小春,赵全面向C P U G P U集群的分布式机器学习资源调度框架研究J西北工业大学学报,():周慧芬网络异常流量监测系统优化设计J微型电脑应用,():赵嘉豪,周赣,黄莉,等 C P U G P U异构计算框架下的高性能用电负荷预测J电力自动化 设备,():,徐坤浩,聂铁铮,申德荣,等基于C P U G P U异构体系结构的并行字 符 串 相 似 性 连 接 方 法 J计 算 机 研 究 与 发 展,():陈垦一种O p e n S t a c k的业务保障设计J计算技术与自动化,():

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服