计算机标准体系结构课后习题原版答案张晨曦著.doc

资源描述

第1章计算机系统结构基础概念 1.1 解释下列术语层次机构：根据计算机语言从低级到高级次序，把计算机系统按功效划分成多级层次结构，每一层以一个不一样语言为特征。这些层次依次为：微程序机器级，传统机器语言机器级，汇编语言机器级，高级语言机器级，应用语言机器级等。虚拟机：用软件实现机器。翻译：先用转换程序把高一级机器上程序转换为低一级机器上等效程序，然后再在这低一级机器上运行，实现程序功效。解释：对于高一级机器上程序中每一条语句或指令，全部是转去实施低一级机器上一段等效程序。实施完后，再去高一级机器取下一条语句或指令，再进行解释实施，如此反复，直到解释实施完整个程序。计算机系统结构：传统机器程序员所看到计算机属性，即概念性结构和功效特征。在计算机技术中，把这种原来存在事物或属性，但从某种角度看又仿佛不存在概念称为透明性。计算机组成：计算机系统结构逻辑实现，包含物理机器级中数据流和控制流组成和逻辑设计等。计算机实现：计算机组成物理实现，包含处理机、主存等部件物理结构，器件集成度和速度，模块、插件、底板划分和连接，信号传输，电源、冷却及整机装配技术等。系统加速比：对系统中某部分进行改善时，改善后系统性能提升倍数。 Amdahl定律：当对一个系统中某个部件进行改善后，所能取得整个系统性能提升，受限于该部件实施时间占总实施时间百分比。程序局部性原理：程序实施时所访问存放器地址不是随机分布，而是相对地簇聚。包含时间局部性和空间局部性。 CPI：每条指令实施平均时钟周期数。测试程序套件：由多种不一样真实应用程序组成一组测试程序，用来测试计算机在各个方面处理性能。存放程序计算机：冯·诺依曼结构计算机。其基础点是指令驱动。程序预先存放在计算机存放器中，机器一旦开启，就能根据程序指定逻辑次序实施这些程序，自动完成由程序所描述处理工作。系列机：由同一厂家生产含有相同系统结构、但含有不一样组成和实现一系列不一样型号计算机。软件兼容：一个软件能够不经修改或只需少许修改就能够由一台计算机移植到另一台计算机上运行。差异只是实施时间不一样。向上（下）兼容：按某档计算机编制程序，不加修改就能运行于比它高（低）档计算机。向后（前）兼容：按某个时期投入市场某种型号计算机编制程序，不加修改地就能运行于在它以后（前）投入市场计算机。兼容机：由不一样企业厂家生产含有相同系统结构计算机。模拟：用软件方法在一台现有计算机（称为宿主机）上实现另一台计算机（称为虚拟机）指令系统。仿真：用一台现有计算机（称为宿主机）上微程序去解释实现另一台计算机（称为目标机）指令系统。并行性：计算机系统在同一时刻或同一时间间隔内进行多个运算或操作。只要在时间上相互重合，就存在并行性。它包含同时性和并发性两种含义。时间重合：在并行性概念中引入时间原因，让多个处理过程在时间上相互错开，轮番重合地使用同一套硬件设备各个部分，以加紧硬件周转而赢得速度。资源反复：在并行性概念中引入空间原因，以数量取胜。经过反复设置硬件资源，大幅度地提升计算机系统性能。资源共享：这是一个软件方法，它使多个任务按一定时间次序轮番使用同一套硬件设备。耦合度：反应多机系统中各计算机之间物理连接紧密程度和交互作用能力强弱。紧密耦合系统：又称直接耦合系统。在这种系统中，计算机之间物理连接频带较高，通常是经过总线或高速开关互连，能够共享主存。松散耦合系统：又称间接耦合系统，通常是经过通道或通信线路实现计算机之间互连，能够共享外存设备（磁盘、磁带等）。计算机之间相互作用是在文件或数据集一级上进行。异构型多处理机系统：由多个不一样类型、最少担负不一样功效处理机组成，它们根据作业要求次序，利用时间重合原理，依次对它们多个任务进行加工，各自完成要求功效动作。同构型多处理机系统：由多个同类型或最少担负相同功效处理机组成，它们同时处理同一作业中能并行实施多个任务。 1.2 试用实例说明计算机系统结构、计算机组成和计算机实现之间相互关系。答：如在设计主存系统时，确定主存容量、编址方法、寻址范围等属于计算机系统结构。确定主存周期、逻辑上是否采取并行主存、逻辑设计等属于计算机组成。选择存放芯片类型、微组装技术、线路设计等属于计算机实现。计算机组成是计算机系统结构逻辑实现。计算机实现是计算机组成物理实现。一个体系结构能够有多个组成。一个组成能够有多个实现。 1.3 计算机系统结构Flynn分类法是按什么来分类？共分为哪几类？答：Flynn分类法是根据指令流和数据流多倍性进行分类。把计算机系统结构分为：（1）单指令流单数据流SISD （2）单指令流多数据流SIMD （3）多指令流单数据流MISD （4）多指令流多数据流MIMD 1.4 计算机系统设计中常常使用4个定量原理是什么？并说出它们含义。答：（1）以常常性事件为关键。在计算机系统设计中，对常常发生情况，给予它优先处理权和资源使用权，以得到更多总体上改善。（2）Amdahl定律。加紧某部件实施速度所取得系统性能加速比，受限于该部件在系统中所占关键性。（3）CPU性能公式。实施一个程序所需CPU时间 = IC ×CPI ×时钟周期时间。（4）程序局部性原理。程序在实施时所访问地址分布不是随机，而是相对地簇聚。 1.5 分别从实施程序角度和处理数据角度来看，计算机系统中并行性等级从低到高可分为哪几级？答：从处理数据角度来看，并行性等级从低到高可分为：（1）字串位串：每次只对一个字一位进行处理。这是最基础串行处理方法，不存在并行性；（2）字串位并：同时对一个字全部位进行处理，不一样字之间是串行。已开始出现并行性；（3）字并位串：同时对很多字同一位（称为位片）进行处理。这种方法含有较高并行性；（4）全并行：同时对很多字全部位或部分位进行处理。这是最高一级并行。从实施程序角度来看，并行性等级从低到高可分为：（1）指令内部并行：单条指令中各微操作之间并行；（2）指令级并行：并行实施两条或两条以上指令；（3）线程级并行：并行实施两个或两个以上线程，通常是以一个进程内派生多个线程为调度单位；（4）任务级或过程级并行：并行实施两个或两个以上过程或任务（程序段），以子程序或进程为调度单元；（5）作业或程序级并行：并行实施两个或两个以上作业或程序。 1.6 某台主频为400MHz计算机实施标准测试程序，程序中指令类型、实施数量和平均时钟周期数以下：指令类型指令实施数量平均时钟周期数整数 45000 1 数据传送 75000 2 浮点 8000 4 分支 1500 2 求该计算机有效CPI、MIPS和程序实施时间。解：（1）CPI ＝(45000×1＋75000×2＋8000×4＋1500×2) / 129500＝1.776 （2）MIPS速率＝f/ CPI ＝400/1.776 ＝225.225MIPS （3）程序实施时间= (45000×1＋75000×2＋8000×4＋1500×2)／400=575s 1.7 将计算机系统中某一功效处理速度加紧10倍，但该功效处理时间仅为整个系统运行时间40%，则采取此增强功效方法后，能使整个系统性能提升多少？解由题可知：可改善百分比 = 40% = 0.4 部件加速比 = 10 依据Amdahl定律可知：采取此增强功效方法后，能使整个系统性能提升到原来1.5625倍。 1.8 计算机系统中有三个部件能够改善，这三个部件部件加速比为：部件加速比1=30；部件加速比2=20；部件加速比3=10 （1）假如部件1和部件2可改善百分比均为30%，那么当部件3可改善百分比为多少时，系统加速比才能够达成10？（2）假如三个部件可改善百分比分别为30%、30%和20%，三个部件同时改善，那么系统中不可加速部分实施时间在总实施时间中占百分比是多少？解：（1）在多个部件可改善情况下，Amdahl定理扩展：已知S1＝30，S2＝20，S3＝10，Sn＝10，F1＝0.3，F2＝0.3，得：得F3＝0.36，即部件3可改善百分比为36%。（2）设系统改善前实施时间为T，则3个部件改善前实施时间为：（0.3+0.3+0.2）T = 0.8T，不可改善部分实施时间为0.2T。已知3个部件改善后加速比分别为S1＝30，S2＝20，S3＝10，所以3个部件改善后实施时间为：改善后整个系统实施时间为：Tn = 0.045T+0.2T = 0.245T 那么系统中不可改善部分实施时间在总实施时间中占百分比是： 1.9 假设某应用程序中有4类操作，经过改善，各操作取得不一样性能提升。具体数据以下表所表示：操作类型程序中数量（百万条指令）改善前实施时间（周期）改善后实施时间（周期）操作1 10 2 1 操作2 30 20 15 操作3 35 10 3 操作4 15 4 1 （1）改善后，各类操作加速比分别是多少？（2）各类操作单独改善后，程序取得加速比分别是多少？（3）4类操作均改善后，整个程序加速比是多少？解：依据Amdahl定律可得操作类型各类操作指令条数在程序中所占百分比Fi 各类操作加速比Si 各类操作单独改善后，程序取得加速比操作1 11.1% 2 1.06 操作2 33.3% 1.33 1.09 操作3 38.9% 3.33 1.37 操作4 16.7% 4 1.14 4类操作均改善后，整个程序加速比：第2章指令集结构分类 2.1 解释下列术语堆栈型机器：CPU 中存放操作数单元是堆栈机器。累加器型机器：CPU 中存放操作数单元是累加器机器。通用寄存器型机器：CPU 中存放操作数单元是通用寄存器机器。 CISC：复杂指令集计算机 RISC：精简指令集计算机寻址方法：指令系统中怎样形成所要访问数据地址。通常来说，寻址方法能够指明指令中操作数是一个常数、一个寄存器操作数或是一个存放器操作数。数据表示：硬件结构能够识别、指令系统能够直接调用那些数据结构。 2.2 区分不一样指令集结构关键原因是什么？依据这个关键原因可将指令集结构分为哪3类？答：区分不一样指令集结构关键原因是CPU中用来存放操作数存放单元。据此可将指令系统结构分为堆栈结构、累加器结构和通用寄存器结构。 2.3 常见3种通用寄存器型指令集结构优缺点有哪些？答：指令系统结构类型优点缺点寄存器-寄存器型（0，3）指令字长固定，指令结构简练，是一个简单代码生成模型，多种指令实施时钟周期数相近。和指令中含存放器操作数指令系统结构相比，指令条数多，目标代码不够紧凑，所以程序占用空间比较大。寄存器-存放器型（1，2）能够在ALU指令中直接对存放器操作数进行引用，而无须先用load指令进行加载。轻易对指令进行编码，目标代码比较紧凑。因为有一个操作数内容将被破坏，所以指令中两个操作数不对称。在一条指令中同时对寄存器操作数和存放器操作数进行编码，有可能限制指令所能够表示寄存器个数。指令实施时钟周期数因操作数起源（寄存器或存放器）不一样而差异比较大。存放器-存放器型（2，2）或（3，3）目标代码最紧凑，不需要设置寄存器来保留变量。指令字长改变很大，尤其是3操作数指令。而且每条指令完成工作也差异很大。对存放器频繁访问会使存放器成为瓶颈。这种类型指令系统现在已不用了。 2.4 指令集应满足哪多个基础要求？答：对指令集基础要求是：完整性、规整性、高效率和兼容性。完整性是指在一个有限可用存放空间内，对于任何可解问题，编制计算程序时，指令集所提供指令足够使用。规整性关键包含对称性和均匀性。对称性是指全部和指令集相关存放单元使用、操作码设置等全部是对称。均匀性是指对于多种不一样操作数类型、字长、操作种类和数据存放单元，指令设置全部要相同对待。高效率是指指令实施速度快、使用频度高。 2.5 指令集结构设计所包含内容有哪些？答： (1) 指令集功效设计：关键有RISC和CISC两种技术发展方向； (2) 寻址方法设计：设置寻址方法能够经过对基准程序进行测试统计，察看多种寻址方法使用频率，依据适用频率设置必需寻址方法。 (3) 操作数表示和操作数类型：关键操作数类型和操作数表示选择有：浮点数据类型、整型数据类型、字符型、十进制数据类型等等。 (4) 寻址方法表示：能够将寻址方法编码于操作码中，也能够将寻址方法作为一个单独域来表示。 (5) 指令集格式设计：有变长编码格式、固定长度编码格式和混合型编码格式3种。 2.6 简述CISC指令集结构功效设计关键目标。从目前计算机技术见解来看，CISC指令集结构计算机有什么缺点？答：关键目标是增强指令功效，把越来越多功效交由硬件来实现，而且指令数量也是越来越多。缺点： (1) CISC结构指令集中，多种指令使用频率相差悬殊。（2）CISC结构指令复杂性带来了计算机体系结构复杂性，这不仅增加了研制时间和成本，而且还轻易造成设计错误。（3）CISC结构指令集复杂性给VLSI设计增加了很大负担，不利于单片集成。（4）CISC结构指令集中，很多复杂指令需要很复杂操作，所以运行速度慢。 (5) 在CISC结构指令集中，因为各条指令功效不均衡性，不利于采取优异计算机体系结构技术（如流水技术）来提升系统性能。 2.7 简述RISC指令集结构设计标准。答（1）选择使用频率最高指令，并补充部分最有用指令；（2）每条指令功效应尽可能简单，并在一个机器周期内完成；（3）全部指令长度均相同；（4）只有Load和Store操作指令才访问存放器，其它指令操作均在寄存器之间进行； (5) 以简单有效方法支持高级语言。 2.8 指令中表示操作数类型方法有哪多个？答：操作数类型有两种表示方法：（1）操作数类型由操作码编码指定，这是最常见一个方法；（2）数据能够附上由硬件解释标识，由这些标识指定操作数类型，从而选择合适运算。 2.9 表示寻址方法关键方法有哪些？简述这些方法优缺点。答：表示寻址方法有两种常见方法：（1）将寻址方法编于操作码中，由操作码在描述指令同时也描述了对应寻址方法。这种方法译码快，但操作码和寻址方法结合不仅增加了指令条数，造成了指令多样性，而且增加了CPU对指令译码难度。（2）为每个操作数设置一个地址描述符，由该地址描述符表示对应操作数寻址方法。这种方法译码较慢，但操作码和寻址独立，易于指令扩展。 2.10 通常有哪多个指令格式，请简述其适用范围。答： (1) 变长编码格式。假如系统结构设计者感爱好是程序目标代码大小，而不是性能，就能够采取变长编码格式。（2）固定长度编码格式。假如感爱好是性能，而不是程序目标代码大小，则能够选择固定长度编码格式。 (3) 混合型编码格式。需要兼顾降低目标代码长度和降低译码复杂度时，能够采取混合型编码格式。 2.11 依据CPU性能公式简述RISC指令集结构计算机和CISC指令集结构计算机性能特点。答：CPU性能公式：CPU时间＝IC×CPI×T 其中，IC为目标程序被实施指令条数，CPI为指令平均实施周期数，T是时钟周期时间。相同功效CISC目标程序指令条数ICCISC 少于RISCICRISC，不过CISCCPICISC和TCISC全部大于RISCCPIRISC和TRISC，所以，CISC目标程序实施时间比RISC更长。第3章流水线技术 3.1解释下列术语流水线：将一个反复时序过程，分解成为若干个子过程，而每一个子过程全部可有效地在其专用功效段上和其它子过程同时实施。单功效流水线：指流水线各段之间连接固定不变、只能完成一个固定功效流水线。多功效流水线：指各段能够进行不一样连接，以实现不一样功效流水线。静态流水线：指在同一时间内，多功效流水线中各段只能按同一个功效连接方法工作流水线。当流水线要切换到另一个功效时，必需等前面任务全部流出流水线以后，才能改变连接。动态流水线：指在同一时间内，多功效流水线中各段能够根据不一样方法连接，同时实施多个功效流水线。它许可在一些段正在实现某种运算时，另部分段却在实现另一个运算。部件级流水线：把处理机中部件进行分段，再把这些部件分段相互连接而成。它使得运算操作能够按流水方法进行。这种流水线也称为运算操作流水线。处理机级流水线：又称指令流水线。它是把指令实施过程根据流水方法进行处理，即把一条指令实施过程分解为若干个子过程，每个子过程在独立功效部件中实施。处理机间流水线：又称为宏流水线。它是把多个处理机串行连接起来，对同一数据流进行处理，每个处理机完成整个任务中一部分。前一个处理机输出结果存入存放器中，作为后一个处理机输入。线性流水线：指各段串行连接、没有反馈回路流水线。数据经过流水线中各段时，每一个段最多只流过一次。非线性流水线：指各段除了有串行连接外，还有反馈回路流水线。次序流水线：流水线输出端任务流出次序和输入端任务流入次序完全相同。乱序流水线：流水线输出端任务流出次序和输入端任务流入次序能够不一样，许可后进入流水线任务先完成。这种流水线又称为无序流水线、错序流水线、异步流水线。吞吐率：在单位时间内流水线所完成任务数量或输出结果数量。流水线加速比：使用次序处理方法处理一批任务所用时间和按流水处理方法处理同一批任务所用时间之比。流水线效率：即流水线设备利用率，它是指流水线中设备实际使用时间和整个运行时间比值。数据相关：考虑两条指令i和j，i在j前面，假如下述条件之一成立，则称指令j和指令i数据相关：（1）指令j使用指令i产生结果；（2）指令j和指令k数据相关，而指令k又和指令i数据相关。名相关：假如两条指令使用了相同名，不过它们之间并没有数据流动，则称这两条指令存在名相关。控制相关：是指由分支指令引发相关。它需要依据分支指令实施结果来确定后面该实施哪个分支上指令。反相关：考虑两条指令i和j，i在j前面，假如指令j所写名和指令i所读名相同，则称指令i和j发生了反相关。输出相关：考虑两条指令i和j，i在j前面，假如指令j和指令i所写名相同，则称指令i和j发生了输出相关。换名技术：名相关两条指令之间并没有数据传送，只是使用了相同名。能够把其中一条指令所使用名换成别，以此来消除名相关。结构冲突：因硬件资源满足不了指令重合实施要求而发生冲突。数据冲突：当指令在流水线中重合实施时，因需要用到前面指令实施结果而发生冲突。控制冲突：流水线碰到分支指令或其它会改变PC值指令所引发冲突。定向：用来处理写后读冲突。在发生写后读相关情况下，在计算结果还未出来之前，后面等候使用该结果指令并不见得是立即就要用该结果。假如能够将该计算结果从其产生地方直接送到其它指令需要它地方，那么就能够避免停顿。写后读冲突：考虑两条指令i和j，且i在j之前进入流水线，指令j用到指令i计算结果，而且在i将结果写入寄存器之前就去读该寄存器，所以得到是旧值。读后写冲突：考虑两条指令i和j，且i在j之前进入流水线，指令j目标寄存器和指令i源操作数寄存器相同，而且j在i读取该寄存器之前就先对它进行了写操作，造成i读到值是错误。写后写冲突：考虑两条指令i和j，且i在j之前进入流水线，，指令j和指令i结果单元（寄存器或存放器单元）相同，而且j在i写入之前就先对该单元进行了写入操作，从而造成写入次序错误。这时在结果单元中留下是i写入值，而不是j写入。链接技术：含有先写后读相关两条指令，在不出现功效部件冲突和Vi冲突情况下，能够把功效部件链接起来进行流水处理，以达成加紧实施目标。分段开采：当向量长度大于向量寄存器长度时，必需把长向量分成长度固定段，然后循环分段处理，每一次循环只处理一个向量段。半性能向量长度：向量处理机性能为其最大性能二分之一时所需向量长度。向量长度临界值：向量流水方法处理速度优于标量串行方法处理速度时所需向量长度最小值。 3.2 指令实施可采取次序实施、重合实施和流水线三种方法，它们关键区分是什么？各有何优缺点。答：（1）指令次序实施是指指令和指令之间次序串行。即上一条指令全部实施完后，才能开始实施下一条指令。优点：控制简单，节省设备。缺点：实施指令速度慢，功效部件利用率低。（2）指令重合指令是在相邻指令之间，让第k条指令和取第k+l条指令同时进行。重合实施不能加紧单条指令实施速度，但在硬件增加不多情况下，能够加紧相邻两条指令和整段程序实施速度。和次序方法相比，功效部件利用率提升了，控制变复杂了。（3）指令流水实施是把一个指令实施过程分解为若干个子过程，每个子过程由专门功效部件来实现。把多个处理过程在时间上错开，依次经过各功效段，每个子过程和其它子过程并行进行。依靠提升吞吐率来提升系统性能。流水线中各段时间应尽可能相等 3.3 简述先行控制基础思想。答：先行控制技术是把缓冲技术和预处理技术相结合。缓冲技术是在工作速度不固定两个功效部件之间设置缓冲器，用以平滑它们工作。预处理技术是指预取指令、对指令进行加工和预取操作数等。采取先行控制方法处理机内部设置多个缓冲站，用于平滑主存、指令分析部件、运算器三者之间工作。这么不仅使它们全部能独立地工作，充足忙碌而不用相互等候，而且使指令分析部件和运算器分别能快速地取得指令和操作数，大幅度地提升指令实施速度和部件效率。这些缓冲站全部按优异先出方法工作，而且全部是由一组若干个能快速访问存放单元和相关控制逻辑组成。采取先行控制技术能够实现多条指令重合解释实施。 3.4 设一条指令实施过程分成取指令、分析指令和实施指令三个阶段，每个阶段所需时间分别为△t、△t和2△t 。分别求出下列多种情况下，连续实施N条指令所需时间。（1）次序实施方法；（2）只有“取指令”和“实施指令”重合；（3）“取指令”、“分析指令”和“实施指令”重合。解：（1）每条指令实施时间为：△t＋△t＋2△t＝4△t 连续实施N条指令所需时间为：4N△t （2）连续实施N条指令所需时间为：4△t＋3（N-1）△t＝（3N＋1）△t （3）连续实施N条指令所需时间为：4△t＋2（N-1）△t＝（2N＋2）△t 3.5 简述流水线技术特点。答：流水技术有以下特点：（1）流水线把一个处理过程分解为若干个子过程，每个子过程由一个专门功效部件来实现。所以，流水线实际上是把一个大处理功效部件分解为多个独立功效部件，并依靠它们并行工作来提升吞吐率。（2）流水线中各段时间应尽可能相等，不然将引发流水线堵塞和断流。（3）流水线每一个功效部件前面全部要有一个缓冲寄存器，称为流水寄存器。（4）流水技术适合于大量反复时序过程，只有在输入端不停地提供任务，才能充足发挥流水线效率。（5）流水线需要有经过时间和排空时间。在这两个时间段中，流水线全部不是满负荷工作。 3.6 处理流水线瓶颈问题有哪两种常见方法？答：细分瓶颈段和反复设置瓶颈段 3.7 降低流水线分支延迟静态方法有哪些？答：（1）估计分支失败：沿失败分支继续处理指令，就好象什么全部没发生似。当确定分支是失败时，说明估计正确，流水线正常流动；当确定分支是成功时，流水线就把在分支指令以后取出指令转化为空操作，并按分支目标地址重新取指令实施。（2）估计分支成功：当流水线ID段检测到分支指令后，一旦计算出了分支目标地址，就开始从该目标地址取指令实施。（3）延迟分支：关键思想是从逻辑上“延长”分支指令实施时间。把延迟分支看成是由原来分支指令和若干个延迟槽组成。不管分支是否成功，全部要按次序实施延迟槽中指令。 3种方法共同特点：它们对分支处理方法在程序实施过程中一直是不变。它们要么总是估计分支成功，要么总是估计分支失败。 3.8 简述延迟分支方法中三种调度策略优缺点。调度策略对调度要求对流水线性能改善影响以前调度分支必需不依靠于被调度指令总是能够有效提升流水线性能从目标处调度假如分支转移失败，必需确保被调度指令对程序实施没有影响，可能需要复制被调度指令分支转移成功时，能够提升流水线性能。但因为复制指令，可能加大程序空间从失败处调度假如分支转移成功，必需确保被调度指令对程序实施没有影响分支转移失败时，能够提升流水线性能 3.9列举出下面循环中全部相关，包含输出相关、反相关、真相关。 for (i=2; i<100; i=i+1) a[i]=b[i]+a[i] ;/* s1 */ c[i+1]=a[i]+d[i] ; /* s2 */ a[i-1]=2*b[i] ; /* s3 */ b[i+1]=2*b[i] ;/* s4 */ 解：展开循环两次： a[i] = b[i] + a[i] ; /* s1 */ c[i+1] = a[i] + d[i] ; /* s2 */ a[i-1] = 2 * b[i] ; /* s3 */ b[i+1] = 2 * b[i] ; /* s4 */ a[i+1] = b[i+1] + a[i+1] ; /* s1’ */ c[i+2] = a[i+1] + d[i+1] ; /* s2 ‘*/ a[i] = 2 * b[i+1] ; /* s3 ‘*/ b[i+2] = 2 * b[i+1] ; /* s4 ‘*/ 输出相关：无反相关：无真相关：S1&S2 因为循环引入相关：S4&S4’（真相关）、S1’&S4（真相关）、S3’&S4（真相关）、S1&S3’（输出相关、反相关）、S2&S3’（反相关）。 3.10 简述三种向量处理方法，它们对向量处理机结构要求有何不一样？答 (1)横向处理方法：若向量长度为N，则水平处理方法相当于实施N次循环。若使用流水线，在每次循环中可能出现数据相关和功效转换，不适合对向量进行流水处理。 (2)纵向处理方法：将整个向量按相同运算处理完成以后，再去实施其它运算。适合对向量进行流水处理，向量运算指令源/目向量全部放在存放器内，使得流水线运算部件输入、输出端直接和存放器相联，组成M-M型运算流水线。 (3)纵横处理方法：把长度为N向量分为若干组，每组长度为n，组内按纵向方法处理，依次处理各组，组数为「N/n」，适合流水处理。可设长度为n向量寄存器，使每组向量运算源/目向量全部在向量寄存器中，流水线运算部件输入、输出端和向量寄存器相联，组成R-R型运算流水线。 3.11 可采取哪些方法来提升向量处理机性能？答：可采取多个方法：（1）设置多个功效部件，使它们并行工作；（2）采取链接技术，加紧一串向量指令实施；（3）采取循环开采技术，加紧循环处理；（4）采取多处理机系统，深入提升性能。 3.12 有一指令流水线以下所表示（1）求连续输入10条指令，该流水线实际吞吐率和效率；（2）该流水线“瓶颈”在哪一段？请采取两种不一样方法消除此“瓶颈”。对于你所给出两种新流水线，连续输入10条指令时，其实际吞吐率和效率各是多少？解：（1）（2）瓶颈在3、4段。 n 变成八级流水线（细分） n 反复设置部件 1 2 3-1 3-2 4-1 4-2 4-3 4-4 3.13有一个流水线由4段组成，其中每当流经第3段时，总要在该段循环一次，然后才能流到第4段。假如每段经过一次所需要时间全部是，问：（1）当在流水线输入端连续地每时间输入任务时，该流水线会发生什么情况？（2）此流水线最大吞吐率为多少？假如每输入一个任务，连续处理10个任务时实际吞吐率和效率是多少？（3）当每段时间不变时，怎样提升该流水线吞吐率？仍连续处理10个任务时，其吞吐率提升多少？解：（1）会发生流水线阻塞情况。第1个任务 S1 S2 S3 S3 S4 第2个任务 S1 S2 stall S3 S3 S4 第3个任务 S1 stall S2 stall S3 S3 S4 第4个任务 S1 stall S2 stall S3 S3 S4 （2）（3）反复设置部件吞吐率提升倍数＝＝1.64 3.14 有一条静态多功效流水线由5段组成，加法用1、3、4、5段，乘法用1、2、5段，第3段时间为2△t，其它各段时间均为△t，而且流水线输出能够直接返回输入端或暂存于对应流水寄存器中。现要在该流水线上计算，画出其时空图，并计算其吞吐率、加速比和效率。解：首先，应选择适合于流水线工作算法。对于本题，应先计算A1＋B1、A2＋B2、A3＋B3和A4＋B4；再计算(A1＋B1) ×(A2＋B2)和(A3＋B3) ×(A4＋B4)；然后求总结果。其次，画出完成该计算时空图，图所表示，图中阴影部分表示该段在工作。由图可见，它在18个△t时间中，给出了7个结果。所以吞吐率为：假如不用流水线，因为一次求积需3△t，一次求和需5△t，则产生上述7个结果共需（4×5+3×3）△t =29△t。所以加速比为：该流水线效率可由阴影区面积和5个段总时空区面积比值求得： 3.15 动态多功效流水线由6个功效段组成，以下图：其中，S1、S4、S5、S6组成乘法流水线，S1、S2、S3、S6组成加法流水线，各个功效段时间均为50ns，假设该流水线输出结果能够直接返回输入端，而且设置有足够缓冲寄存器，若以最快方法用该流水计算：（1）画出时空图；（2）计算实际吞吐率、加速比和效率。解：机器一共要做10次乘法，4次加法。 3.16 在MIPS流水线上运行以下代码序列： LOOP： LW R1，0（R2） DADDIU R1，R1，#1 SW R1， 0（R2） DADDIU R2，R2，#4 DSUB R4，R3，R2 BNEZ R4，LOOP 其中：R3初值是R2+396。假设：在整个代码序列运行过程中，全部存放器访问全部是命中，而且在一个时钟周期中对同一个寄存器读操作和写操作能够经过寄存器文件“定向”。问：（1）在没有任何其它定向（或旁路）硬件支持下，请画出该指令序列实施流水线时空图。假设采取排空流水线策略处理分支指令，且全部存放器访问全部命中Cache，那么实施上述循环需要多少个时钟周期？（2）假设该流水线有正常定向路径，请画出该指令序列实施流水线时空图。假设采取估计分支失败策略处理分支指令，且全部存放器访问全部命中Cache，那么实施上述循环需要多少个时钟周期？（3）假设该流水线有正常定向路径和一个单周期延迟分支，请对该循环中指令进行调度，你能够重新组织指令次序，也能够修改指令操作数，不过注意不能增加指令条数。请画出该指令序列实施流水线时空图，并计算实施上述循环所需要时钟周期数。解：寄存器读写能够定向，无其它旁路硬件支持。排空流水线。第i次迭代（i＝0..98）开始周期：1＋（i×17）总时钟周期数：（98×17）＋18＝1684 有正常定向路径，估计分支失败。第i次迭代（i＝0..98）开始周期：1＋（i×10）总时钟周期数：（98×10）＋11＝991 有正常定向路径。单周期延迟分支。 LOOP: LW R1，0(R2) DADDIU R2，R2，#4 DADDIU R1，R1，#1 DSUB R4，R3，R2 BNEZ R4，LOOP SW R1，-4(R2) 第i次迭代（i ＝0..98）开始周期：1＋（i ×6 ）总时钟周期数：（98×6）＋10＝598 3.17 假设多种分支指令数占全部指令数百分比以下：条件分支 20%（其中60%是分支成功）跳转和调用 5% 现有一条段数为4流水线，无条件分支在第二个时钟周期结束时就被解析出来，而条件分支要到第三个时钟周期结束时才能够被解析出来。第一个流水段是完全独立于指令类型，即全部类型指令全部必需经过第一个流水段处理。请问在没有任何控制相关情况下，该流水线相对于存在上述控制相关情况下加速比是多少？解：没有控制相关时流水线平均CPI＝1 存在控制相关时：因为无条件分支在第二个时钟周期结束时就被解析出来，而条件分支要到第3个时钟周期结束时才能被解析出来。所以：（1）若使用排空流水线策略，则对于条件分支，有两个额外stall，对无条件分支，有一个额外stall： CPI = 1+20%*2+5%*1 = 1.45 加速比S=CPI/1 = 1.45 （2）若使用估计分支成功策略，则对于不成功条件分支，有两个额外stall，对无条件分支和成功条件分支，有一个额外stall 1： CPI = 1+20%*(60%*1+40%*2) +5%*1 = 1.33 加速比S=CPI/1 = 1.33 （3）若使用估计分支失败策略，则对于成功条件分支，有两个额外stall；对无条件分支，有一个额外stall；对不成功条件分支，其目标地址已经由PC 值给出，无须等候，所以无延迟： CPI = 1+20%*(60%*2 + 40%*0) +5%*1 = 1.29 加速比S=CPI/1 = 1.29 3.18 在CRAY-1机器上，根据链接方法实施下述4条向量指令（括号中给出了对应功效部件实施时间），假如向量寄存器和功效部件之间数据传送需要1拍，试求此链接流水线经过时间是多少拍？假如向量长度为64，则需多少拍才能得到全部结果？ V0←存放器（从存放器中取数：7拍） V2←V0+V1 （向量加：3拍） V3←V2<A3 （按（A3）左移：4拍） V5←V3∧V4 （向量逻辑乘：2拍）解：经过时间就是每条向量指令

展开阅读全文