1、 第 卷 第 期 年 月:高校高性能计算平台协同化建设模式探究张 焱,邓伯军,王 勤(南京航空航天大学 信息化处;马克思主义学院;通用航空飞行科室,南京)摘要:目前高校学科发展导致高性能计算需求激增,因此如何高效整合计算资源、稳定提供计算服务具有现实意义。高性能计算平台需要以服务师生为出发点,从管理体系、技术体系、服务体系以及合作体系等方面协同建设,以“完善管理制度、打造多样开放氛围,升级平台技术、优化管理使用流程,注重服务水平、提供差异化高性能服务,争取多方合作、打造良性业务支撑”为四大策略,推动高校高性能计算平台资源的有效利用。实践表明,高校高性能计算平台协同化建设模式能有效支撑学校人才培
2、养和提高资源利用效率。关键词:高性能计算;协同化;开放共享;利用率中图分类号:文献标志码:文章编号:(),(;,):,“,”,:();收稿日期:作者简介:张 焱(),男,江苏南京人,博士生,处长,主要研究方向为信息化管理以及大数据分析和网络安全意识形态等。:;:引 言随着科学技术的不断发展,数据信息爆炸式增长,各领域研究问题的计算量也大幅提升,科学研究越来越依赖于高性能计算资源。年国务院发布的“十四五”数字经济发展规划文件中就曾明确指 第 期张 焱,等:高校高性能计算平台协同化建设模式探究出,要加快构建算力、算法、数据、应用资源协同的全国一体化数据中心体系,推进云网协同发展,提升数据中心跨网络
3、、跨地域的数据交互能力。科学计算已经成为与理论研究和科学实验并列的第 种 科 学 研 究 方 法。高 性 能 计 算(,)作为一种由数千甚至更多处理器组成的能提供高响应效率的并行处理系统,能计算普通计算机和服务器不能完成的大型复杂数据运算,是开展科学计算的主要基础设施,是国家科技发展水平和创新能力的重要标志。如高性能计算能以极低的成本模拟高温、高压以及强磁场等极端环境下研究对象的变化,反复运行来获取实验全过程、全时空的变化信息,并对各种条件下的获得所有数据进行比较,这些都是真实实验无法达到或实验代价过于昂贵而被认为不值得的。高校高性能计算平台建设背景 高校建设高性能计算平台的必要性高校作为科学
4、研究的主力军之一,要建成世界一流大学,关键的一条标准就是科研成果和学术声誉。商业上的计算需求,有各种各样的商业解决方案可以满足,但高校科研工作很多找不到更适合商业云计算方案,难以马上落地成技术。因此,这时学校如果有超算平台,就能支持很多基础科研开展,实施起来更方便灵活。我校作为一所包含理、工、管、经、哲、法、文、艺等多学科协调发展的综合研究型大学,其中,理、工等主要学科对高性能计算有着迫切需求,特别是在航空航天、动力工程、机械设计、电气工程、电子信息、材料科学、人工智能以及数理分析等学科领域。目前有多个科研团队承担着国家自然科学基金和军事攻关等研究项目,这都依赖于高性能计算平台来承担海量的计算
5、任务。高校不少课题组均拥有一定数量的计算机,但这些计算机由各单位独立管理与使用,缺乏专门的机房及维护人员,导致师生不仅需专注于科研还需考虑机房基础设施(如空调、配电等)建设和仪器正常运行;此外,分散配置的计算机缺乏资源共享,导致多数设备重复购置,没有科学合理地利用资源,投资效益高。基于以上情况,建设满足高校学科发展的高性能计算平台,以“服务用户”为理念,充分发挥集群性能,不断探索平台在建设和管理领域的需求与创新,具有举足轻重的作用。高校建设高性能计算平台的优势随着高性能计算需求的增加以及国家、政府、科研机构等对科学计算的大力投入,各地的超算平台如雨后春笋一般蓬勃发展。相比于公共超算平台通用性强
6、、易于扩展的优点,高校高性能计算平台在数据传输速率、沟通交互成本以及数据安全可控等方面均具有其独特的优势。()数据传输效率高。高校校园网络环境良好,数据连接系统完善。随着信息化水平的提升以及学校对信息化的投入,多数高校基于一校多地多校区的办学格局,在各校区之间实现全光网络互联,校园主要区域实现 与 网络全覆盖,进一步提升网络的实时性和覆盖度。其中,我校在各学院建立计算室与高性能计算平台直连,并通过物联网技术及支持海量设备链接的 网络,实现对各设备的高效管理,能提供精准的资源覆盖,实现快速接入。()沟通交互成本低。高校高性能计算平台建设的出发点是服务师生,助力科学研究与人才培养,因此通常设有专门
7、的管理服务中心,聚焦用户具体业务而非平台本身。校内师生可直接与管理人员进行交流,以期平台提供差异化服务。同时在作业运行期间,任何与平台有关的问题均可直接向管理人员反映,沟通交互成本低,应急措施快速。()数据安全可控。高校信息系统安全稳定,网络安全管理制度体系完善,用户权限管理严格,任何使用平台的校内用户均需与校内统一身份认证平台对接,数字校园、智慧校园的开展,有效保障了数据的机密性和完整性,数据安全可靠。高性能计算平台简介为支持学校“双一流”建设,保障学校人才培养、科学研究、学科建设等计算服务需求,自 年开始规划建设高性能计算平台。截至 年,平台已陆续投入使用多套集群,现有计算总核心数达 个,
8、峰值计算能力为,存储容量达。集群系统架构如图 和图 所示:平台持续发展建设模式探索基于高校高性能计算平台的优势,为进一步提升平台的服务支撑能力,吸引校内用户广泛使用,保障平台稳定、安全、高效运行。学校利用信息化手段,从管理、技术、服务以及合作体系 个方面出发,进一步探索平台协同化建设管理模式。完善管理制度,打造多样开放氛围管理制度体系建设是高校高性能计算平台开放共享的基础性、长期性工作,需要与高校学科发展规划和文化价值理念相融合,随着平台发展不断进行完善与修订,持续进行优化。高性能计算中心制定了“南京航空航天大学高性能计算平台服务管理办法”“南京航空航天大学高性第 卷图 高性能计算集群一期系统
9、架构图 高性能计算集群二期系统架构能计算中心机房安全管理规定”“高性能计算平台用户使用手册”等一系列规章制度来规范平台的开放政策和使用模式。建立“产出导向、鼓励创新”的激励机制,制定“平台共享实施细则”来扩展平台覆盖范围,提高平台利用效率,鼓励用户产出优质成果。如设立青年教师专项来为符合要求的青年教师提供免费机时支持,缓解青年教师科研经费压力,帮助青年教师成长;设立实践教学专项,满足相关课程的实践需求,助力教学实施;设立平台共建专项,鼓励用户研究平台性能优化技术,提升平台服务水平;设立成果奖励专项,为依托平台开展高质量研究、产出高质量成果的用户提供机时奖励。升级平台技术,优化管理使用流程为保证
10、平台 持续稳定运行,机房配有一整套智能动环管理系统,包括:温湿度监控、配电间监控、漏水监测、空调监控、短信提醒、雷电防控、消防报警等。并利用信息化手段,与管理人员通信设备相连,对机房存在的故障问题及时发送预警信息,提醒管理人员进行相应处理,实现疫情常态化防控下的远程机房监控。图、分别为高性能计算平台的动环管理系统和实时监控系统。图 高性能计算平台动环管理系统 平台坚持“客户思维”,简化用户开户、技术协议签订以及资源申请流程,改纸质为线上办事大厅办理,让“数据多跑路,师生少跑腿”,提高平台使用效 第 期张 焱,等:高校高性能计算平台协同化建设模式探究图 高性能计算平台实时监控系统率,降低管理成本
11、。技术协议签署流程如图 所示,平台开放共享专项申请流程如图 所示。除此之外,平台技术人员还创新性的使用图形化管理系统,让用户无须撰写复杂的脚本即可提交和运行作业,方便用户使用。同时不断升级动态资源调度技术,对项目周期短,社会价值高的任务优先提供资源;对项目周期长,平台性能要求低的任务降低作业优先级,保证用户公平合理地共享集群资源,提高系统利用率和吞吐率。图 技术协议签署流程图 平台开放共享专项申请流程 注重服务水平,提供差异化高性能服务高性能计算平台与其他仪器设备不同,没有固定的操作规程,用户不同,具体需求则不同。平台管理人员根据用户类别进行细分,创办难度不等的培训班,撰写对应用户使用手册,提
12、供更精准的差异化服务。针对刚开始接触平台的新用户加强宣传、培训与服务,帮助其尽快掌握一些高性能计算的基础知识;针对科研产出率高的用户进行重点服务与支持,甚至特别定制适合用户使用的操作系统;针对自己开发软件的用户提供深入开发帮扶,鼓励中心技术人员积极参与,协同创新。平台还定期与用户组织交流会,了解用户在使用过程中所遇难题及期望平台所能提供的服务,分析撰写“用户常见问题与解答”等技术文档,帮助用户了解高性能计算的专业知识,并逐步升级平台性能,提供更优质的服务。争取多方合作,打造良性业务支撑为培养具有较高学术水平和创新能力的高性能计算人才,提高后备储蓄力量,平台与研究高性能计算相关的课题组和学院展开
13、合作,为他们免费提供场地、实验数据和设备资源,组成创新开发团队,共同探索资源调度方法以及软硬件协同配置方案。同时,在团队老师的带领下共同申报国家、省部级重大项目,寻找最佳平台建设方案,达到合作共赢,协同发展的新态势。同时,平台管理人员还将当前领域内的重大热点引入校园,定期组织有关的学术报告,让学生对新兴热点技术有所了解;开展高性能计算大赛,鼓励全校师生积极参与,丰富校园学术氛围,推广平台使用;在满足校内用户服务需求的前提下,与大规模超算平台互动,实现资源的有效整合,从资源池中获取支持,保证高校计算平台的可持续发展,自我造血;加强与兄弟院校、研究所、企业之间的交流合作,充分发挥各第 卷专业联合优
14、势,实现“产、教、学、研”多元一体化共享平台建设,为国家和地方经济提供计算服务。高校高性能计算平台使用情况高性能计算平台自 年 月投入使用以来,师生广泛参与,覆盖了全校所有理工科学院和专业技术部门,年用户数即超过 人,完成作业量超过 万件,服务项目数超 个,其中与航空航天相关的学科使用尤为明显。如图、分别为 年学校高性能计算平台的用户分布和项目分布情况。图 年南航高性能计算平台用户分布图 年南航高性能计算平台项目分布 同时,高性能计算平台作为计算机科学与技术学院一级学科的重要平台以及学校筹建“先进计算产业学院”的重要载体,面向全校师生开展“跨学科实验室探索”教学活动,为近 名学生提供教学支撑,
15、助力人才培养。图 教学活动现场图 结 语高性能计算平台建设是新世纪高校学科建设和人才培养的重要组成部分。学校从高校平台数据传输效率高、沟通交互成本低、数据安全可控等优势出发,以信息化技术为手段,进一步探索平台在管理体系、技术体系、服务体系以及合作体系四大方面的创新,以期提高平台开放共享能力,为用户提供更好的服务。实践结果表明,协同化的平台建设模式能有效提高资源的利用效率和支撑学校人才培养。参考文献():王 韬 基于大数据环境下的网络安全研究 计算机产品与流通,():高金金 高校高性能计算平台的建设与运维探讨 山西电子技术,():陈红梅,李 皓,钱同惠,等 高性能计算机发展历程及现状软件导刊,(
16、):李小菲,钟建军,张 彬,等 高性能计算平台在高校中的应用与建议 现代信息科技,():姚 舸 共享时代下高校高性能计算系统的设计与实践 实验室研究与探索,():陈园园,崔贯勋 高性能计算平台建设、运行与服务模式的探索 计算机技术与发展,():卫婷婷 挑战者归来 记南昌大学信息工程学院教授徐子晨 科学中国人,():孟玲玲 高性能计算集群系统建设与运行管理研究 软件导刊,():李 硕,毛承国,陈 翔,等 高性能计算资源管理平台设计信息技术与信息化,():孟令芬 集群作业调度算法研究 青岛:中国石油大学,林 皎,张武生,徐伟平,等 百万亿次集群机的建设与部署实验室研究与探索,():李 京,张焕杰 中科大超算中心:发力学科探索 中国教育网络,():李小菲,钟建军,张 彬,等 高性能计算平台在高校中的应用与建议 现代信息科技,():李薛剑 高性能计算平台在高校中的应用及服务模式探索电脑知识与技术,():林 皎,陈玉洁,张武生,等 高性能计算平台建设的探索与实践 实验技术与管理,():好奇 创新意识的萌芽;兴趣 创新思维的营养;质疑 创新行为的举措;探索 创新学习的方法。