收藏 分销(赏)

系统结构chpt8.pptx

上传人:精**** 文档编号:4237082 上传时间:2024-08-28 格式:PPTX 页数:31 大小:407.06KB
下载 相关 举报
系统结构chpt8.pptx_第1页
第1页 / 共31页
系统结构chpt8.pptx_第2页
第2页 / 共31页
系统结构chpt8.pptx_第3页
第3页 / 共31页
系统结构chpt8.pptx_第4页
第4页 / 共31页
系统结构chpt8.pptx_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、计算机系统结构第一章第一章 基本概念基本概念第二章第二章 指令系统指令系统第三章第三章 存储系统存储系统第四章第四章 输入输出系统输入输出系统第五章第五章 标量处理机标量处理机第六章第六章 向量处理机向量处理机第七章第七章 互连网络互连网络第八章第八章 并行处理机并行处理机第九章第九章 多处理机多处理机第八章第八章 并行处理机并行处理机两种并行性概念:两种并行性概念:同时性并行同时性并行Simultaneity:两个或两个以上事件在同一时刻发生。两个或两个以上事件在同一时刻发生。并发性并行并发性并行Concurrency:两个或两个以上事件在同一时间间隔内发生。两个或两个以上事件在同一时间间隔

2、内发生。三条技术途径:三条技术途径:资源重复:资源重复:通过重复设置多个处理部件来提高速度。通过重复设置多个处理部件来提高速度。时间重叠:时间重叠:流水线流水线资源共享:资源共享:分时系统,分布式系统分时系统,分布式系统第八章第八章 并行处理机并行处理机8.1 并行处理机模型并行处理机模型8.2 并行处理机的基本结构并行处理机的基本结构8.3 并行处理机实例并行处理机实例并行处理机采用同时性并行,资源重复技术。并行处理机采用同时性并行,资源重复技术。8.1 并行处理机模型并行处理机模型并行处理机定义:并行处理机定义:多个多个PU按照一定方式互连,在同一个按照一定方式互连,在同一个CU控制下,对

3、各自的控制下,对各自的数据完成同一条指令规定的操作。数据完成同一条指令规定的操作。从从CU看,指令是串行执行的,从看,指令是串行执行的,从PU看,数据是并行处理的。看,数据是并行处理的。并行处理机也称为阵列处理机。按照佛林分类法,它属于并行处理机也称为阵列处理机。按照佛林分类法,它属于SIMD计算机。计算机。并行处理机的应用领域:并行处理机的应用领域:主要用于高速向量或矩阵运算中。主要用于高速向量或矩阵运算中。并行处理机的操作模型可用五元组来表示:并行处理机的操作模型可用五元组来表示:M(N,C,I,M,R),其中:其中:N为为PE个数。如个数。如IlliacIV有有64个个E。C为由控制部件

4、为由控制部件CU直接执行的指令集,包括标量指令和直接执行的指令集,包括标量指令和 程序控制指令。程序控制指令。I为所有为所有PE并行执行的指令集,包括算术运算、逻辑运算、并行执行的指令集,包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执对它的数据所执行的局部操作。行的局部操作。M为屏蔽操作集,每种屏蔽将为屏蔽操作集,每种屏蔽将PE划分为允许操作和禁止操划分为允许操作和禁止操作两个子集。作两个子集。R是数据寻径集,说明互连网络中是数据寻径集,说明互连网络中PE间通信所需要的各种设间通信所需要的各种设置模式。置模式。P0M0PE0P1M

5、1PE1P2M2PE2Pn-1Mn-1Pen-1互连网络控制器HJSiegel提出的并行处理机模型系统型号SIMD计算系统结构和性能语言、编译器和软件支持MasParMP-1系列102416384个PE,26 GIPS或 1.3 Gflops;每个PE带16KB本地存储器,X-Net网格加一个多级交叉开关互连网Fortran77,MasPar Fortran(MPF)和 MasPar并行应用语言;X窗 口 UNIX/OS,符号调试程序,可视化和动画制作程序典型并行处理机Active Memory Technology DAP600系列1K位/PE方形网格互连成4096PE的细粒、位片SIMD阵

6、列,正交4-邻位链接,20GIPS和560Mflops峰值性能由主机VAX/VMS或UNIX Fortran-plus 或 DAP上APAL提供,主机的Fortran77或C;与Fortran90标准有 关 的 Fortran-plusThinking Machines公司CM-265536个PE排成10维超立方体,每个PE可有1M位存储器,32个PE共享FPU选件,峰值速度28 Gflops和持续速度5.6 Gflops由 VAX,Sun或Symbolics 360主机驱动,PARIS支持的Lisp编译器、Fortran90、C*和*Lisp8.2 并行处理机的基本结构并行处理机的基本结构并

7、行处理机有两种典型结构:并行处理机有两种典型结构:分布存储器并行处理机分布存储器并行处理机共享存储器并行处理机共享存储器并行处理机一台并行处理机由五个部分组成:一台并行处理机由五个部分组成:多个处理单元多个处理单元PE多个存储器模块多个存储器模块M一个控制器一个控制器CU一个互连网络一个互连网络ICN一台输入输出处理机一台输入输出处理机IOP8.2.1 分布存储器并行处理机分布存储器并行处理机8.2.2 共享存储器并行处理机共享存储器并行处理机8.2.3 并行处理机的特点并行处理机的特点8.2 并行处理机的基本结构并行处理机的基本结构目前的大部分并行处理机是基于分布式存储器模型的系统。比较容易

8、构成MPP(Massively Parallel Processor),几十万个PE。必须依靠并行算法来提高PE的利用率。因此,应用领域很有限。CU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。8.2.1 分布存储器并行处理机分布存储器并行处理机IOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。数据在局部存储器中的分布是一个很关键的问题。标量指令与向量指令可以并发执行。LM0互连网络PE0CULM1PE1LMn-1PEn-1IOP共享的多体并行存储器 SM 通过互连网络与各处理

9、单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储冲突的影响。8.2.2 共享存储器并行处理机共享存储器并行处理机共享存储器模型的处理单元数目一般不多,几个至几十个。Burroughs Scientific Processor(BSP)采用了这种结构。16个PE通过一个1617的对准互连网络访问17个共享存储器模块。存储器模块数与PE数互质可以实现无冲突并行访问存储器。PE0互连网络CUPE1PEn-1IOPSM0SM1SMk-1并行处理机的

10、主要特点如下:速度快,而且潜力大模块性好,生产和维护方便可靠性高,容易实现容错和重构效率低(与流水线处理机、向量处理机等比较)。通常作为专用计算机,因此,在很大程度上依赖于并行算法。它依靠的是资源重复,而不是时间重叠,它的每个处理单元要8.2.3 并行处理机的特点并行处理机的特点担负多种处理功能,其效率要低一些。另一方面,它依靠增加PE个数,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。需要有一台高性能的标量处理机。如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那

11、么对于标量运算占10的题目来说,总的有效速度就不过是每秒一千万次。IlliacIV 是最先采用SIMD结构的并行机随后一个方向是用位片PE制造的并行机,如Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算PE的中粒度SIMD计算机。并行处理机的两个发展方向:保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储器。8.3 并行处理机实例并行处理机实例Burroughs公司的BSP是典型代表。GF-11是由IBM Watson实验室研制、作科学模拟研究用的。MasPar MP1是中粒度并

12、行处理机的典型代表。下面介绍并行处理机的两种典型代表:采用阵列结构分布存储器的IlliacIV并行处理机 去掉阵列结构和分布存储器BSP并行处理机。1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位的浮点数,每个局部存储器PEM为2K?64位,总的运算速度为1GFLOPS。8.3.1 IlliavIV 并行处理机并行处理机美

13、国Burroughs公司和伊利诺依大学于1972年共同设计和生产,1975年实际投入运行。用了4倍的经费,只达到1/20的速度。只实现了8?864个PE,只达到50MFLOPS。IlliacIV系统的影响非常大。它是并行处理机的典型代表,也是分布存储器并行处理机的典型代表。IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器,一台标准的Burroughs B6700计算机。IlliacIV系统由三大部分组成。IlliacIV处理机阵列:8 X 8,包括PE、PEM和互连网络。阵列控制器CU,输入输出处理机:一台标准的Burroughs B6700计算机。1、阵列控制器阵列

14、控制器CU实际上是一台小型控制计算机。对阵列处理单元实行控制和完成标量操作。标量操作与各PE的数组操作可以重叠执行。控制器的功能有以下五个方面:(1)对指令进行译码,并执行标量指令;(2)向各处理单元发出执行数组操作指令所需的控制信号;(3)产生和向所有处理单元广播公共的地址;(4)产生和向所有处理单元广播公共的数据;(5)接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。2、输入输出系统IlliacIV的输入输出系统由磁盘文件系统DFS、I/O分系统和一台B6700处理机组成。I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM三个部分组成。3、I

15、lliacIV处理阵列IlliacIV处理阵列由8864个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。每一个PUi只和它的东、西、南、北四个近邻直接连接。PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64南北方向上同一列的PU连成一个环,东西方向上构成一个闭合螺线。采用闭合螺线最短距离不超过7步。而普通网格最短距离不超过8步。例如:从PU0到PU36的距离:采用普通网格必须8步:PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 P

16、U35 PU36或(等于8步的很多,大于8步的更多)如果采用闭合螺旋线,只需要7步:PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36普通网格必须8步:PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36或 闭合螺旋线只要7步:PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36或 PU0 PU63 PU55 PU47 PU39 PU38 PU37 PU36或 本 章 重 点1、并行处理的基本结构和特点2、阵列结构3、典型的并行处理机算法练习题:8.38.6(改为n个PE)8.12

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服