1、中期数值预报系统在神威机上的并行移植中期数值预报系统在神威机上的并行移植 文延华 徐晓春 李海军 摘要:摘要:欧洲中期天气预报中心发布的中期数值预报产品,被公认为世界之冠,它的中期数值预报业务系统代表了世界上最先进的气象科学和技术水平。T106(全球分析同化和中期数值天气预报)系统是欧洲中期天气预报中心在八十年代末设计的多任务并行计算数值天气图 1 是 T106 全球分析同化和中期数值天气预报软件资料同化中分析部分分析部分简单的流程。其中,带号的过程是在原 T106 多任务模型中采用了多任务处理的过程。经过对 T106 分析预报系统软件同化部分的深入研究和思考,我们认为分析部分分析部分是可以并
2、行化的。主要可并行化的点与原 T106 多任务模型中采用多任务处理的点存在一定的对应关系。三三 并行移植并行移植 h并行点的选取 T106 软件资料同化部分,存在十个可并行点,即原 T106 多任务模型中采用多任务处理的点。这十个可并行点所用时间见表 1。该表统计的时间是在 400MHZ 的 ALPHA 21164 工作站上运行时取得的。可并行化的程序段 可并行点运行时间(单位:秒)占总时间的百分比 初估场的勒让德逆变换(SCANIS)22.62 22.62 3.917%3.917%产生复合观测(SUPOBS)1.465 1.465 0.254%0.254%资料检查和分析误差估值(DATACH
3、)53.58 53.58 9.278%9.278%估算分析值(ANAEVA)31.97 31.97 5.536%5.536%估算格点分析值(GRPEVA)292.07 292.07 50.575%50.575%产生复合观测(HUMSUP)0.53 0.53 0.092%0.092%资料检查和分析误差估值(DATACH)3.15 3.15 0.545%0.545%估算分析值(HUMEVA)3.14 3.14 0.544%0.544%估算格点分析值(GRPEVA)44.83 44.83 7.763%7.763%分析资料的直接谱变换(SCANDS)15.14 15.14 2.622%2.622%总结
4、 468.4 468.4 81.125%81.125%表 1 可并行点运行时间表 由表 1 可见,可并行点运行时间占总时间的 81.125%,并行化的工作还是很有必要的,尤其是占百分比较大的四个可并行点:估算格点分析值,资料检查和分析误差估值,估算格点分析值,估算分析值。3针对这十个可并行点,我们进行了细致的分析。根据各并行点的程序流程、共享变量使用情况、I/O 操作的具体实施、对整个系统效率的影响程度,最终决定选取两个并行点:质量和风的分析中执行时间最长的点估算格点分析值(TGRPEV)和湿度分析中执行时间最长的点估算格点分析值(THGRPEV)。h并行机制的确定 根据这两个并行点的程序流程
5、与数据访问方式,我们决定使用与 CRAY 的多任务类似的并行机制。先创建所有的进程,然后主进程运行单任务段,子进程处于等待状态。当主进程到达并行点起点时,唤醒子进程,所有的进程并行执行。并行点结束后,主进程继续执行后面的单任务段,子进程回到等待状态,直到下一个并行点再次被唤醒。并行的具体实现方法与原 T106 多任务的实现一致。质量和风的分析中估算格点分析值(TGRPEV)和湿度分析中估算格点分析值(THGRPEV)均是按纬圈来并行的。把全球分成 160 个纬圈,每个任务每次对一个纬圈进行操作,并且预先确定该任务下一次要处理的纬圈。这样,当每个任务处理当前纬圈时,可以预读单元 NGPFG 中下
6、一个纬圈的初估值。各纬圈之间的操作是独立的。T106 资料同化系统主要流程动态空间使用情况见表 2。考虑到使用的总空间和多任务空间的量不算太大以及单任务、多任务段共享变量的继承关系,决定仍然使用 CRAY 指针的形式声明变量,数据不分布。流 程 总空间(单位:字)多任务空间(单位:字)(1)初始化 12288 12288 0 0(2)初估场的勒让德逆变换 107562 107562 100420 100420(3)观测资料加工扫描 942246 942246 0 0(4)生成质量和风的分析压缩数组 419742 419742 0 0(5)质量和风的分析 1129221 1129221 5147
7、30 514730(6)质量和风的统计 908978 908978 0 0(7)质量和风的格点估算 664758 664758 584135 584135(8)湿度分析 719189 719189 509404 509404(9)湿度统计 908978 908978 0 0(10)湿度的格点估算 638718 638718 559734 559734(11)分析资料的直接谱变换 1013189 1013189 122108 122108 表 2 T106 资料同化系统主要流程的空间使用情况表 h存储管理的修改 T106软件根据CRAY机全共享的特点,专门使用了一套内存管理程序来控制内存的使用。
8、在作业开始时,根据计算申请一个总空间,将该空间分为多个段,每个任务占一段,主任务占最大的一段,因为串行段中的空间分配只在主任务这一段空间中实现,其他各任务的空间段相等。并行段中每个任务分配空间只在自己的空间段完成。4T106 多任务模型中多任务状态时的 I/O 操作共有四类:a)子任务先输出到不同的子文件,然后在多任务状态结束前,利用锁,将多个子文件合并到一个主输出文件。b)子任务将报警或出错信息直接输出到同一个输出文件。c)子任务输出到不同的子文件,在多任务状态结束后,主任务读所有的子文件。d)多个任务读/写同一个文件的不同纪录。我们选定的两个并行点:质量和风的分析中估算格点分析值(TGRP
9、EV)和湿度分析中估算格点分析值(THGRPEV)的 I/O 情况见表 3。分析一下这几种 I/O 情况,首先,c)在这两个并行点中并不存在,所以这一类文件操作只由主 PE 完成;对于 a),b)只需用普通的文件操作加锁,就可以控制;对于 d),则比较复杂。因为多个任务需要读/写同一个文件的不同纪录,这与一般的 I/O 操作大不相同,CRAY 机用一整套系统专用 I/O 库实现了该功能。为了将 T106 资料同化系统准确、高效地移植到神威机上,我们专门编写了一套 I/O 库,并且用上了神威超级计算机系统提供的并行I/O 功能。四、并行移植结果四、并行移植结果 表 4 列出了 T106 资料同化
10、系统在 CRAY 机和神威 I 计算机系统上的运行时间。因为每一天各个时刻合适的观测资料的个数不同,所以资料同化系统对每天各个时刻资料处理时间都不尽相同,表中给出的是对某一天 00、12 世界时资料处理的运行时间。运行结果的正确性经气象局专家认可。小数据量(单位:秒)大数据量(单位:秒)时间 机器 1PE 2PE 4PE 1PE 2PE 4PE CRAY C92 2039.9 1915.2 2453.4 神威 I 计算机系统 757 602.6 525 1352.6 1012.9 839 表 4 T106 软件资料同化部分运行时间表 由表 4 可见,将 T106 软件资料同化部分并行移植到神威
11、 I 计算机系统上已经成功实现,并且效率比 CRAY 机高 1 至 2 倍。五、结束语五、结束语 T106 资料同化系统在神威机上的成功并行移植为神威计算机在气象领域的应用开了一个头,随后,包括 T106 资料同化系统在内的集合数值天气预报系统在神威机上经过了实时实验运行和用户试用等阶段后,通过了气象局专家的测试和验收,在国家气象中心投入准业务运行。目前,数值天气预报已经成为气象工作者进行天气分析和预报的主要手段,数值预 6报产品已成为现代天气预报的基础。中国气象局拟在“九五”期间增加非常规资料的应用,提高资料分析同化的水平和模式分辨率,采用更完善、更复杂的物理过程等方法,提高预报准确率,同时还要建立全球、有限区、中尺度数值天气预报和集合预报体系,这必然带来计算量的急剧增加,对巨型机的需求是十分巨大和迫切的。神威计算机系统凭借其强大的计算资源和计算能力,在气象领域,在国民经济和社会发展建设中,必将发挥越来越重要的作用。7