收藏 分销(赏)

基于国产架构的人工智能平台关键技术研究.pdf

上传人:自信****多点 文档编号:2351836 上传时间:2024-05-28 格式:PDF 页数:4 大小:2.41MB
下载 相关 举报
基于国产架构的人工智能平台关键技术研究.pdf_第1页
第1页 / 共4页
基于国产架构的人工智能平台关键技术研究.pdf_第2页
第2页 / 共4页
基于国产架构的人工智能平台关键技术研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年12 月计算机应用文摘第39 卷第2 3期基于国产架构的人工智能平台关键技术研究李瑞杰(宝德投资控股有限公司,广东深圳518 0 0 0)摘要:随着数字经济的发展,人工智能逐步成为引领未来世界的关键技术,该技术是提升核心竞争力的关键因素,高可靠的人工智能平台可为人工智能产业发展及数字经济建设提供高水平的算力支撑,并有效缓解高算力平台不足的情况。基于此,文章提出了基于国产架构的人工智能平台,该平台可实现基于AI的“赋能”,从而使人工智能与实体经济加速融合,进而助力“国产化”生态圈的构建,可为高性能计算、数据中心、人工智能等应用领域提供框架性解决方案。关键词:人工智能;算力;国产化中图法

2、分类号:TP18Research on key technology of artificial intelligence platform based on(Shenzhen Powerleader Investment Holding Co.,Ltd.,Shenzhen,Guangdong 518000,China)Abstract:With the development of the digital economy,artificial intelligence has gradually become akey technology leading the future world.

3、This technology is a key factor in enhancing corecompetitiveness.Reliability artificial intelligence platforms can provide high-level computing powersupport for the development of the artificial intelligence industry and the construction of the digitaleconomy,and effectively alleviate the shortage o

4、f high computing power platforms.Based on this,the article proposes an artificial intelligence platform based on a domestic architecture,which canachieve Al based“empowerment,accelerate the integration of artificial intelligence and the realeconomy,and assist in the construction of a“localization ec

5、osystem,It can provide frameworksolutions for application fields such as high-performance computing,data centers,and humanintelligence.Key words:artificial intelligence,computing power,localization1引言算力规模的增长对数字经济的发展具有重大战略意义,每增长1个百分点就能带动数字经济增长0.4个百分点,带动GDP增长0.2 个百分点。目前,人工智能已成为决定企业经济效益的关键因素,可通过人机协同模式推

6、动传统行业的效率提升及动能转换。因此,人工智能不再只是创业企业的标签,而是逐渐成了各行业的生产要素。近年来,“类ChatGPT”应用的出现引发了人们对算力的关注。未来,海量数据、大算力和大模型将成为人工智能发展的必备要素 1。2人工智能平台概述受到自身结构限制,通用CPU难以满足深度学习的高并行度、高密度和高数据带宽等需求。同时,国产CPU与进口CPU的性能差距较大,难以应对深度学习的计算需求。为解决这个问题,人们一般采用文献标识码:Adomestic architectureLI Ruijie异构计算的方法,在通用计算平台上使用 GPU,FPGA或ASIC等协处理器计算资源,同时配合CPU对

7、深度学习模型进行加速计算。其中,异构计算的优势在于可以利用不同类型的计算单元的长处,为其分配最合适的计算任务,从而缓解CPU的计算压力并加速深度学习的计算过程 2 本文将设计一款高性能计算平台,平台中节点由4UAI服务器构成,AI服务器内含8 个昇腾9 10 型AI处理器,HBM缓存为32 GB,其缓存速率为12 0 0 GB/s,AI算力为2 4 PFLOPS FP16。同时,该平台可充分释放CPU,GPU,NPU和FPGA服务器集群的算力,并围绕“鲲鹏+异腾+MindSpore生态,兼容私有云和公有云,在帮助AI开发人员实现超大规模人工智能模型训练与评估的同时,满足用户的高速大规模数据处理

8、需求。3人工智能平台架构如图1所示,本文旨在构建“一站式AI开发应用2023 年第2 3期平台+智能数据处理+云边端协同管理PaaS软件”平台,从而为客户提供完整且易用的端到端AI模型开计算机应用文摘发部署、智能化数据处理、云边端全场景全流程闭环的人工智能平台产品。企业应用视觉平台语音平台文本审核舆情分析行业图谱商业推荐风险评估辅助决策标准开放91赋能应用一站式AI开发部署平台:数据标注、分布式训练/计算、AutoML、推理校验、云边协同智能化数据处理:海量数据存储管理、数据ETL、时序分析、关联分析、预测分析、辅助决策使能不同等级开发者,有效降低AI开发与落地门槛WEBUI简单易用4人工智能

9、平台的关键技术4.1(CPU与 GPU解耦/重构技术本文基于昇腾系列芯片和 MindSpore 框架,旨在实现AI任务的全生命周期支持,从而通过AI赋能企业客户,进而为广大客户提供一站式、端到端的解决方案。如图2 所示,本文平台兼容MindSpore,TensorFlow和PyTorch等主流深度学习框架,提供包含数据预处理、数据标注、模型训练、模型超参调优和数据处理模型训练优化/评估模型转化基于Ascend&MindSpore模型发布调度适配框架MindsporeIP和芯片Ascend半自动/自动化数据处理TensorFlowNVIDIA Toolkits.X86ARMNetworkdevi

10、ce低代码/无代码开发图1平台建设图模型部署等在内的一站式开发环境,从而帮助AI开发者和研究人员快速搭建人工智能开发环境,进而实现AI应用的开发。其中,平台底层兼容ARM64架构服务器、Nvidia GPU和ARM64HuaweiNPU训练芯片,可为上层用户任务提供标准的管理接口,同时保证不同用户、不同任务之间互相隔离且互不影响。此外,本文平台采用最先进的云原生集群技术,支持自动化部署、更新和维护,可便捷地完成扩容或训练节点迁移,从而避免复杂的手工配置和处理,进而提高效率并降低成本。人工智能应用基于NIVIDIA&主流框架TensorFlow框架PyTorch其他框架PyTorchMindsp

11、oreStoragedevice数据湖Data LakeCaffeCANNNVIDIAGPUS多框架分布式计算CNTKOthersothersHuaweiAscend910异构算力调度管理IP和芯片NIVIDIA标准开放灵活赋能图2 平台兼容性4.2计算与存储深度融合架构设计在传统的冯诺依曼架构下,计算节点与存储节点分离,导致应用与底层存储的I/O传输制约了应用响应。如图3所示,本文提出一种基于国产服务器的超融合云平台,该平台依托超融合架构,不仅能将虚拟化计算和存储整合至同一系统平台,还能整合网络及其他平台和服务。同时,超融合架构支持多套单元设备通过网络聚合,从而实现模块化的无缝横向扩展,进而

12、形成统一的资源池 3。其中,超融合架构底层由服务器虚拟化软件和分布式存储构成。4.2.1云管理平台云管理平台(WinCenter)可统一管理虚拟化数据中心的所有资源,包括服务器、存储、网络、虚拟机和镜像资源,同时可根据需求调整硬件资源的能力,从而全面支撑IT的运营与维护保障工作,该平台的主要功能如下:(1)物理机管理:负责发现和纳管、网络管理、性能监控;(2)资源池管理:负责管理物理主机和虚机,统计信息、资源池内物理机HA;(3)虚拟机管理:负责虚拟机的全生命周期管理;(4)虚拟机模板管理;(5)高可用(HA)。4.2.2分布式存储分布式存储系统将数据分散存储于多台相互独立的服务器中,可增加数

13、据的可靠性和可扩展性,该系统架构的核心设计原则如下。(1)分布式、无共享架构。该系统采用基于策略92的分布式哈希表数据路由算法,使客户端无需查找元数据节点,仅通过计算就能直接寻址到数据所在的存储节点,大幅缩短了数据IO访问路径,提升了系统性计算机应用文摘能。同时,系统中无集中管理和控制节点,每个数据节点都具备其他数据节点的功能,节点之间可通过内部高效的分布式协议完成相互协作和通信。VMVM2023年第2 3期VMVMVMVM计算服务品传统存储容量和性能不具备和”计算能力“匹配的可扩展性,无法承受大量的随机/O(2)全余可靠性设计。在真实环境下,硬件可能具有不可靠性,存在磁盘损坏、服务器岩机、网

14、络失效等问题。为了应对这些突发的硬件问题,同时保障数据的完整性及业务的正常运行,分布式存储系统通过全穴余设计等弥补硬件不可靠带来的数据可靠性和可用性问题 4(3)自动化管理运维。分布式存储设计的设计目标之一是简化数据中心存储系统的运维,从而实现全流程自动化。因此,分布式储存系统采用去中心化的分布式集群管理技术和数据多副本存储技术,具有高可扩展和高可靠的分布式存储功能特性。其中,分布式存储功能包括:存储接口层:通过标准的iSCSI接口或私有的RBD接口向应用提供卷设备访问功能,该层主要负责与应用程序进行通信并将存储设备暴露为卷设备,使应用程序方便地访问存储空间;存储服务层:该层提供各种高级存储特

15、性,如快照、精简配置、本地化Cache、分级存储及容灾备份等,这些特性可以提高数据的可靠性和可用性,同时可以提供高效的存储和备份解决方案;存储管理层:该层主要负责实现存储软件的自动化安装部署、自动化配置、在线升级、软硬件系统监控、告警日志等运维管理功能,旨在为用户提供Web GUI管理界面和命令行管理系统。5AI应用软件与计算平台硬件的协同技术人工智能研发工作中集合了前沿的数学、算法知识和业界顶尖的工程技术。训练如盘古一般的复杂大模型需要利用上千个GPU5,本文提出的人工智能平台可为人工智能应用提供基于无监督学习开发的人工智能模型监控模块。模型性能一旦下降,平台将重新收集数据以迭代增量训练模型

16、,从而再次完成计尊服务器/0存储传统SAN存储图3超融合架构与传统架构对比模型的量化与优化,进而部署设备对接并测试新模型的性能改进情况。本文自研了高性能的 AutoDL/AutoML组件,不需要人工介入即可实现增量训练模型的迭代,极大地提升了人工智能模型迭代的效率,同时延长了模型的生命周期。本文平台基于“k8s+docker的虚拟化环境,能够管理复杂的异构训练资源集群,目前已实现无网环境(远程)下私有云的一键部署,能在众多IDC 机房、科研机房中落地实施。其中,自动化运维包含一键部署工具脚本、全息的分布式训练日志、平台运行日志、资源预警、服务告警、数据备份和完善的网络安全配置策略,有助于科研人

17、员与算法工程师实现设备的快速维护和管理 6 9 6结束语面对日益增长的AI能力需求,本文基于国产架构实现了人工智能平台,该平台有助于研发人员高效便捷地完成AI产品开发及AI能力内化,可实现生产数据的高效利用。利用该平台,研发人员可使人工智能技术轻量落地,从而形成AI能力反哺生产的良好闭环过程,进而深度释放行业数据潜力并加速实现企业的智能化转型参考文献:1】邓睿.人工智能服务器技术全局研究 J.无线互联科技,2020,17(23):95-96.2高旭超.基于人工智能及联邦学习的工程大脑技术研究J.铁道建筑技术,2 0 2 3(3):1-4+13.3拓晓瑞,林世爵,刘启强.广东人工智能核心技术发展

18、情况及建议 J.广东科技,2 0 2 3,32(2):17-19.【4 朱洪斌,周春云.国产人工智能平台应用推广J.电子制作,2 0 2 1(16):9 5-9 7.(下转第9 5页)计鲜服务器/0HOD550THH存修x86服务器超融合架构基于分布式存储的可扩展性,存储性能随着服务器增加有线性的提升,保证业务的可靠性计算00SSD存储池86服务器超融合架构HOD存价x86服务器$50TT2023 年第2 3期向量输入到神经网络中进行训练。神经网络一般包括输入层、隐藏层和输出层。在DNN中,隐藏层可以有多层,从而形成深度神经网络。DNN模型的训练需要使用大量的标注数据,通过反向传播算法来调整神

19、经网络中节点的权重和参数。由于DNN可较好地解决输人与输出之间的非线性映射关系,因此在处理语音信号时可以显著提高识别准确率 7 。目前,DNN已被广泛应用于语音识别和其他领域,它可通过逐层提取特征和学习数据之间的非线性映射,从而有效地发现数据间的规律和联系,进而提高数据的处理效率和准确率 8 3应用前景随着人机交互和人工智能技术不断融人人们的日常生活,语音识别技术目前已成为人工智能的重要组成部分。目前,该技术能够实现家庭智能家居、汽车导航、智能客服等场景下的人机交互,极大地方便了人们的生活 9 。未来,语音识别技术还将不断融人汽车、医疗、金融、零售和工业等领域,从而有效地提高识别准确性和应用效

20、能。近年来,深度学习技术已被广泛应用于语音识别领域,这不仅提高了语音识别的效率和准确性,还提高了它的普及率。同时,云计算和物联网技术的普及正在迅速推动语音识别技术向更广泛的应用场景拓展。未来,低成本的语音识别设备和技术将会更为普及,从而更广泛地服务于人们的生产和生活。值得注意的是,语音识别技术将会在未来与其他技术相互融合,形成更为完整和高效的人机交互系统。例如,自然语言处理技术将会与语音识别技术相结合,从而实现更加自然流畅的交互效果;深度学习技术将与计算机视觉技术相结合,从而实现语音与图像的深度交互 10 4结束语语音信号处理和模式识别的结合是机器学习在语音识别领域取得重大进展的关键因素。本文

21、探讨(上接第9 2 页)5吴超楠.我国人工智能关键核心技术的后发追赶路径研究D.重庆:重庆邮电大学,2 0 2 2.6】张宁雨,潘艳红,王泊涵,等.一种基于国产服务器的轻量化的超融合云平台设计 J.信息技术与信息化,2 0 2 0(12):59-62.7 王先强,张睿,张华.调控终端安全管控技术研究与应用J.四川电力技术,2 0 2 1,44(4):43-49.计算机应用文摘了隐马尔可夫模型和深度神经网络,介绍了HMM的基本原理和应用方法,并举例说明了它在语音识别中具体应用。同时,本文详细阐述了DNN 的原理和使用方法,说明了它在识别准确率和处理效率方面的特点。综上所述,语音信号处理和模式识别

22、的结合在语音识别中发挥了非常重要的作用。未来,更多的机器学习方法将被引人语音识别领域,从而构建更加准确和高效的语音识别系统。参考文献:1 靳双燕.基于隐马尔可夫模型的语音识别技术研究 D.郑州:郑州大学,2 0 13.2王泳.基于互信息与先验信息的机器学习方法研究 D.北京:中国科学院研究生院(自动化研究所),2 0 0 8.3陈严,李浩.基于机器学习算法的中文语音识别效果评估方法 J.信息记录材料,2 0 2 2,2 3(8):9 7-9 9.4 孙仕亮,赵静.模式识别与机器学习M.北京:清华大学出版社,2 0 2 0.5梁伊雯,韩子奇,张志明,等.室内服务机器人人机交互对象语音识别实验 J

23、.实验室研究与探索,2 0 2 3,42(1):30-35.6陈英.基于语音反演机器学习方法的声道模型研究 D.南京:南京邮电大学,2 0 13.7 张祖红.语音信号的处理技术及其应用分析 J.电子技术,2 0 2 2,51(12):151-153.8颜佟佟,鲁征浩,徐大诚.基于压电振动能量采集器的信息感知与模式识别系统 J.传感器与微系统,2 0 2 2,41(7):37-39+43.9 】丁晓鸽,王成义.基于MATLABGUI的语音信号去噪处理J.信息技术与信息化,2 0 2 3(2):2 6-2 9.10 罗海涛.基于时域特征的语音信号端点检测 J.电脑知识与技术,2 0 2 2,18(

24、13):9 6-9 8.作者简介:汤湛成(19 7 8 一),本科,系统架构师,研究方向:数据处理、算法开发、云计算与大数据平台、性能优化。刘杰(19 8 6 一),本科,管理工程师,研究方向:5G、智能化、数据处理及应用。邵德伟(19 7 5一),本科,管理工程师,研究方向:SaaS 平台架构、融合通信呼叫系统、智能语音交互、虚拟化及容器化技术。【8 冷迪.企业数据中心超融合架构的特点和发展趋势研究J.科技创新与应用,2 0 15(35):37-38.9丁立德.支持国产计算平台的深度学习加速技术研究D.北京:中国电子科技集团公司电子科学研究院,2 0 2 0.作者简介:李瑞杰(19 6 7 一),本科,工程师,研究方向:计算机技术、通信技术、电子设备制造。95

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服