收藏 分销(赏)

基于传统机房构建AI实验平台的实践研究.pdf

上传人:自信****多点 文档编号:2192613 上传时间:2024-05-22 格式:PDF 页数:4 大小:1.35MB
下载 相关 举报
基于传统机房构建AI实验平台的实践研究.pdf_第1页
第1页 / 共4页
基于传统机房构建AI实验平台的实践研究.pdf_第2页
第2页 / 共4页
基于传统机房构建AI实验平台的实践研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、实验室建设与管理基于传统机房构建 AI 实验平台的实践研究陈春林1,曹旭斌2(1.西南财经大学经济管理实验教学中心,成都611130;2.西南财经大学信息化与大数据管理中心,成都611130)摘要:人工智能教学正在融合到各个学科中,其理论教学和实践教学同样重要,并且人工智能的实验教学对实验条件有着特定的复杂要求。该文介绍了基于传统实验室机房进行架构改造、构建人工智能实验教学平台的方法实践和思考。通过充分利用现有的工作站等硬件资源进行软件系统层面的架构实现,充分引入 K8s、Docker 等开源技术方案,在不影响日常教学活动的前提下创建能够充分提高教学和科研效率的人工智能教学全流程实验环境,优化

2、运行机制和服务模式,实现教学资源的按需定制,提升教学治理水平,为人工智能的实验教学环境建设提供了有益的思路和方法。关键词:人工智能;实验教学平台;K8s;Jupyter;vGPU中图分类号:G482文献标志码:ADOI:10.12179/1672-4550.20220515A Practical Study of Building AI Experiment Platform Based onTraditional Computer RoomCHENChunlin1,CAOXubin2(1.EconomicMnagementExperimentalTeachingCenter,Southwes

3、tUniversityofFinanceandEconomics,Chengdu611130,China;2.InfomationandBigDataManagementCenter,SouthwestUniversityofFinanceandEconomics,Chengdu611130,China)Abstract:Artificialintelligenceteachingisbeingintegratedintovariousdisciplines,itstheoreticalandpracticalteachingareequallyimportant,andtheexperime

4、ntalteachingofartificialintelligencehasspecificandcomplexrequirementsforexperimentalconditions.ThispaperintroducesthepracticeandreflectiononthemethodofarchitecturetransformationandconstructionofAIexperimental teaching platform based on traditional laboratory rooms.By fully utilizing existing hardwar

5、e resources such asworkstationsforsoftwaresystemarchitectureimplementationandthoroughlyintroducingopen-sourcetechnologysolutionssuchasKubernetes(K8s)andDocker,anall-processAIteachingexperimentenvironmentthatsignificantlyimprovesteachingandresearchefficiencycanbecreatedbasedontheworkinthispaper.Thisi

6、sachievedwithoutimpactingregularteachingactivities.Theapproachoptimizesoperatingmechanismsandservicemodels,realizesdemand-customizedteachingresources,enhancesthelevelofteachingmanagement,andprovidesbeneficialinsightsandmethodsfortheconstructionofanexperimentalteachingenvironmentforartificialintellig

7、ence.Key words:artificialintelligence;experimentalteachingplatform;K8s;Jupyter;vGPU1数据科学和人工智能的教学趋势和需求兼具技术属性和社会属性并高度融合的人工智能技术,因其对整个社会经济生活模式产生的重大需求变革,不仅在计算机科学与技术相关专业提出了新的学科建设方向,在各学科专 业 也 都 提 出 了“人 工 智 能+X”的 学 科 要求1。以笔者所在高校设置专业为例,开设了人工智能的机器学习类(含深度学习、强化学习)等必修课程的专业占全校 2021 级本科专业总数近三分之一。在人工智能渗透到各类学科教育的过程中

8、,实践必然成为教学中重要的一环。其教学要求理论与实践并需且紧密结合:理论层次上,从交叉学科领域的基础理论前沿研究中形成的逻辑和解决模式提出了解决某类问题的优化方法模型,选择采用算法的类型、算法中超参数的调教设定等需要理论教学带来认知;实践层次上,则是将所 收稿日期:20220823;修回日期:20230501 基金项目:四川省高等教育学会教育信息化研究课题项目(GJXHXXH21-YB-01)。作者简介:陈春林(1983),男,硕士,实验师,主要从事实验教学和高性能计算研究。E-mail:第 21 卷第 4 期实验科学与技术 Vol.21No.42023 年 8 月ExperimentScie

9、nceandTechnology Aug.2023涉及和选定的算法应用到实际问题的过程,实操、验证和探索各类理论算法中条件限定、准确度以及性能要求。融合学科的人工智能领域的教学依赖专业且易用的编程环境、高效且稳定的计算资源、安全且便捷的数据资源和可靠且灵活的教学模式。传统计算机房能够基于预装好的操作系统和硬件提供有效但相对固化的实验教学环境,以笔者所在学校为例,学校提供了 50 台配置有 NVIDIAGPU的计算机在实验室满足日常教学课程。但传统的计算机房的开放局限于教学课程安排和场地日常工作开放时间,而现场的开放也同时面临着座位数量、课程间隔时间、班级隔离、设备维护等需求和影响,传统计算机房

10、很难做到全天候、无需教师看管的开放模式,实验室的使用效率潜力依然有提升空间。为构建满足新时代背景下泛在学习的教育服务供给能力,本文将介绍一种有效的方法,在不改变原有计算机实验室的使用模式和教学体验的基础上,进行基础设施改造,将传统机房的计算能力虚拟化,建立有效调度计算能力并即开即用的计算环境,通过 Web 提供泛在人工智能实验教学平台服务,使教学双方能够使用移动终端。在改造后的实验室中,无论是平板还是笔记本还是PC 甚至手机的浏览器均可利用平台配备完善的环境进行相关算法的开发研究和应用实践。2人工智能实验教学平台的架构设计通过分析数据科学和人工智能的教学需求,根据现有硬件资源条件,需要实现对于

11、基础设施的计算能力、存储能力的虚拟化调度改造,同时也需实现实验教学环境的虚拟化,即提供可基于Web 访问的实验教学环境和管理平台。2.1基础设施服务基础设施服务能力包含计算和存储服务的能力,同时还包括调度管理等服务的能力。2.1.1计算能力的调度为实现虚拟化调度分布在实验室 50 台终端的CPU、GPU 和内存的计算能力,我们采用容器虚拟化模式。计算机的虚拟化有全虚拟化、半虚拟化和容器虚拟化等技术,其中全虚拟化和半虚拟化以 VMwarevSphere、MicrosoftHyper-V 和 Xen为代表,但其虚拟化界面和应用程序界面隔离并独占使用,容器虚拟化适用于相同操作系统内核的应用程序部署。

12、Docker 作为一种容器技术,性能损失小,用于创建、运行和管理容器。Kuber-netes(简称 K8s)是一个容器编排平台,负责管理和调度容器化应用程序。这两者相互配合,可以实现高度自动化、可扩展和易于维护的基础设施服务。通过在传统实验室内终端上的 Linux 系统建立容器服务,将容器服务集中以 K8s 进行编排服务2,因 Docker 容器通过使用 cgroups 技术大大降低了控制系统资源的粒度,从而大幅度地提高了对系统资源的利用率3,其计算性能损耗可忽略不计4,但同时又能够满足终端在日常教学实验课程中的正常使用。容器以内核级的虚拟化实现了相比在终端上建立虚拟机来获取 GPU 的计算能

13、力有着更高的性能和效率。为使容器能够将独享的GPU 分割为多个(在本实践中为两个)vGPU 以提供更多的 GPU 实例5,本文综合对比了目前多种方案(如表 1所示),选择以 TKE 方案为基础进行镜像生成和 K8s 编排集成,实现了将原有 50 张显存为 8G 的 GPU 卡分割为 100 张显存单位为最小的 4GBvGPU,使使用者数量扩展了一倍。表1vGPU 分割方案对比方案类型K8s分割粒度授权模式虚拟方式NvidiavCSYes最小4GB显存订阅收费DriverTKEGPU-managerYes0.1卡、100M显存开源vCUDAAliyuncGPUYes物理卡数量/指定数量开源vCU

14、DA4paradigmvGPUYes物理卡数量/指定数量,支持虚拟显存开源vCUDA2.1.2存储能力的调度在存储服务方面,为减少新的投入,采用现有的集中式存储阵列。由于现有集中式存储阵列采用 SAN 存储,而 K8s 采用文件存储,采用已经连接到 SAN 存储的存储池中新建虚拟机,把集中式存储阵列 LUN 挂载给该主机,通过该主机142实验科学与技术第 21 卷将整个平台所需至少 4T 容量的存储需求以卷(volume)的形式作为 K8s 的存储层抽象。存储服务提供 3 个使用方向:K8s 中主节点运行所需的存储;人工智能实验教学平台的使用者在利用平台进行数据标注、数据和算法训练时所需的数据

15、存储;保存平台和使用者所需的 Docker 镜像的仓库存储。当存储需求增加已有存储无法满足时,可通过扩展 SAN 存储的分配容量进行卷扩容,满足新增需求。为了便于平台使用者能够脱离平台在本地系统中也能获取数据,将容器所挂载的数据存储与容器解耦部署,通过 Docker 容器的定义声明,将存储资源挂载到容器中,并实现数据的读写和持久化。在挂载容器卷的同时,使用 NFS6的模式将数据存储开放给使用者,使用者仅需通过设定的账号密码即可获取数据或共享数据给平台其他用户。由此,使用者在启动容器服务时,可随时进行数据的上传、下载和共享。2.1.3资源服务能力的调度在设计整体结构时,考虑到位于传统实验室的终端

16、的开关机较为频繁,环境并不满足长时间开启服务的条件。为解决实现 K8s 的主机集群服务长期稳定,通过数据中心现有 Vmarevsphere 资源池建立虚拟机提供 K8s 的主服务节点,将传统实验室内的 50 台工作站终端作为计算节点加入。数据中心和传统实验室通过光纤实现千兆链接,并划分为同一虚拟 vlan。资源服务能力的调度包含计算资源调度和物理资源调度两部分。计算资源的调度以 K8s 调度分布在实验室的计算节点,通过容器实现算力资源轻量级虚拟化,快速完成计算所需资源的封装与隔离;K8s 完成对容器集群的编排、调度、容器生命周期管理等。结合教学和科研需求,可以将分布在 50 台计算节点终端的计

17、算资源根据需求进行 CPU、内存和 vGPU 的模式预置提供可选项,如“实验教学 A-1CPU2G 内存4G 显存”和“实验教学 B-2CPU8G 内存8G 显存”等,帮助使用者在应用分布式训练时可以实现多节点多卡、单节点单多卡训练7。物理资源调度根据日常教学计划预先确认实验室在日间的使用空闲时间,结合非授课时间和晚间及节假日,将实验室可用于远程教学、学生自主实验和教师科研实验可使用的时间段进行公告,提前根据需求利用传统实验室已有的教室管理系统进行远程开关机和系统的切换,满足物理资源的调度需求。2.2实验教学环境的微服务化围绕机器学习和深度学习的教学科研需求特色,从数据处理、算法开发、训练、模

18、型泛化的实验流程出发,抽象出人工智能学习的实验教学平台的模式。结合机器学习业务特点,封装优化后的机器/深度学习框架和分布式训练框架,如TensorFlow、PyTorch8、MXnet,和分布式机器学习框架 Horovod 等到容器中。透过 Jupyter 服务使上述的实验流程通过 Web 模式提供9,针对一些常用的数据处理分析软件,如 MATLAB,进行容器化改造,通过 VNC 界面提供10。同时,在集群管理的优势下,可以通过网络地址转换(NAT)11的方式,将集群内的容器服务能力映射出,以保持平台系统的开放性,支持 SSH 和 Tensorboard12。在用户授权上,使用校内现有身份认证

19、系统进行用户甄别准入,并在平台系统内,根据学生和教师身份给予相应的资源使用权限。3人工智能实验教学平台的优势1)提升资源利用率。基于现有传统实验室的计算终端改造,机器一体两用,日常供正常教学实验,空闲时间快速切换系统启动容器服务,在10 分钟内即可组建成人工智能实验教学平台提供算力支撑;同时通过按需分配、多任务隔离并行等功能,进一步提升资源利用率。2)实现教学和科研效率提升。通过平台实现秒级的预置环境创建,同时提供数据准备、算法模型构建、训练调优、模型管理和部署应用等功能,实现机器学习生命周期流程管理。3)工具服务化,形成全面的机器学习技术工具链服务于人工智能教学全生命周期。集成常用软件如 M

20、ATLAB 并能实现即开即用、按需使用的服务模式。通过 K8s 的网络发现服务开放并预留了标准 API 扩展13接口,从而提升平台的可用性。平台集成 TensorFlow、PyTorch、MXnet等多个主流机器学习框架,也集成了 Harbor 等容器仓库框架,能够在后期进行容器镜像扩展。4结束语本平台的设计与实践,是推进实验教学智能第 4 期陈春林,等:基于传统机房构建 AI 实验平台的实践研究143发展的有益尝试,在推动实验教学变革,构建新技术赋能的教学环境,探索基于人工智能的新教学模式,重构教学流程方面做出了积极的探索。在重构教学流程的过程中,我们不仅致力于改进既有教学模式,同时也在寻求

21、如何优化运行机制和服务模式。通过优化运行机制和服务模式,实现教学资源的按需定制,从而提升教学治理水平。此外,通过推动在线学习,发展以学习者为中心的学习平台,提供按需定制的学习资源,创新服务供给模式,实现实验教学的智能化。在今后的平台建设中,还有以下需要改进和考虑的内容。1)进一步提升实验教学的智能化。举例来讲,在当前使用 Jupyter 服务实现人工智能全流程开发实验教学的模式中,可以嵌入 Jupyter 的相关教学管理插件,如 AutoGrade 等,进一步提升实验教学的智能化水平。2)扩大平台的教学适用性。基于容器化服务的特性,将多种类的实验教学软件进行容器化改造和测试,在资源存量允许的情

22、况下,实现实验教学软件在本平台上的 Web 化访问,提升实验教学软硬件的使用效率,方便广大师生在教学科研中使用。3)开源软件的应用需要更多的投入。本人工智能实验教学平台从集群编排使用的 K8s 软件、计算终端使用的 linux 操作系统、容器镜像服务harbor 以及计算框架 horovod、GPU 虚拟化分割vGPU 的 TKE 方案、教学框架 Jupyter 等,均为开源社区所提供,需更加重视安全性和日志代码审查,及时更新漏洞,加强人员投入并反哺社区形成良性循环。参考文献曾海军,张钰,苗苗.确保人工智能服务共同利益,促进教育系统变革人工智能与教育:政策制定者指南解读J.中国电化教育,202

23、2(427):18.1王骏翔,郭磊.基于Kubernetes和Docker技术的企业级容器云平台解决方案J.上海船舶运输科学研究所学报,2018,41(3):5157.2武志学.云计算虚拟化技术的发展与趋势J.计算机应用,2017,37(4):915923.3缪静文,王召,俞俊,等.桌面云环境下的高性能vGPU计算性能分析J.计算机技术与发展,2019,29(11):184189.4李伟男.应用差异化更新技术实现GPU虚拟化场景性能优化D.上海:上海交通大学,2018.5瑛宣.Linux下NFS(网络文件系统)的建立与配置方法J.计算机与网络,2013,39(21):4445.6卢怡萱.用于T

24、ensorflow分布式训练和高性能推理的机器学习平台改进D.北京:北京交通大学,2021.7黄玉萍,梁炜萱,肖祖环.基于TensorFlow和PyTorch的深度学习框架对比分析J.现代信息科技,2020,4(4):8082.8贺宗平,张晓东,刘玉.基于Jupyter交互式分析平台的微服务架构J.计算机系统应用,2019,28(8):6370.9朱永强,汤雄.基于VNC的远程桌面传输协议分析与研究J.计算机系统应用,2016,25(11):284287.10刘风华,丁贺龙,张永平.关于NAT技术的研究与应用J.计算机工程与设计,2006(10):18141817.11费宁,张浩然.TensorFlow架构与实现机制的研究J.计算机技术与发展,2019,29(9):3134.12马琳,宋俊德,宋美娜.开放平台:运营模式与技术架构研究综述J.电信科学,2012,28(6):125140.13编辑王燕144实验科学与技术第 21 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服