计算机标准体系结构实验报告.doc

资源描述

实验一流水线中有关一．实验目 1. 纯熟掌握WinDLX模仿器操作和使用，熟悉DLX指令集构造及其特点； 2. 加深对计算机流水线基本概念理解； 3. 进一步理解DLX基本流水线各段功能以及基本操作； 4. 加深对数据有关、构造有关理解，理解这两类有关对CPU性能影响； 5. 理解解决数据有关办法，掌握如何使用定向技术来减少数据有关带来暂停。二．实验平台 WinDLX模仿器三．预备知识 1. WinDLX WinDLX模仿器是一种图形化、交互式DLX流水线模仿器，可以演示DLX流水线是如何工作。该模仿器可以装载DLX汇编语言程序（后缀为“.s”文献），然后单步、设断点或是持续执行该程序。CPU寄存器、流水线、I/O和存储器都可以用图形表达出来，以形象生动方式描述DLX流水线工作过程。模仿器还提供了对流水线操作记录功能，便于对流水线进行性能分析。关于WinDLX详细简介，见WinDLX教程。 2. 熟悉WinDLX指令集和WinDLX源代码编写 3. 复习和掌握教材中相应内容（1）DLX基本流水线（2）流水线构造有关与数据有关 ? 构造有关：当指令在重叠执行过程中，硬件资源满足不了指令重叠执行规定，发生资源冲突时，将产生“构造有关”。 ? 数据有关：当一条指令需要用到前面指令执行成果，而这些指令均在流水线中重叠执行时，就也许引起“数据有关”。（3）定向技术重要思想：在发生数据有关时，等待前面计算成果指令并不一定真立即就用到该计算成果，如果可以将该计算成果从其产生地方直接送到其她指令需要它地方，就可以避免暂停。四．实验内容及成果 1. 用 WinDLX 模仿器执行下列三个程序（任选一种）： ?求阶乘程序 fact.s ?求最大公倍数程序 gcm.s ?求素数程序 prim.s 分别以步进、持续、设立断点方式运营程序，观测程序在流水线中执行状况，观测CPU 中寄存器和存储器内容。纯熟掌握WinDLX 操作和使用。注意：fact.s 中调用了input.s 中输入子程序。load 程序时，要两个程序一起装入（都select 后再点击load）。gcm.s 也是如此。阐明：此实验咱们选取：求阶乘程序fact.s 1）用WinDLX模仿器执行求阶乘程序fact.s 。 2）程序作用：这个程序阐明浮点指令使用。该程序从原则输入读入一种整数，求其阶乘，然后将成果输出。该程序中调用了input.s中输入子程序，这个子程序用于读入正整数。 3）实验成果： i . 分别以步进、持续、设立断点方式运营程序图1. 求阶乘程序fact.s运营记录数据步进方式运营图2 求阶乘程序fact.s运营记录数据持续方式运营图3 求阶乘程序fact.s运营记录数据持续方式运营 ii. 数据记录图1.1.4 求阶乘程序fact.s运营记录数据图5 求阶乘程序fact.s流水线执行状况图6 求阶乘程序fact.s寄存器使用状况 iii. 定向非定向分析在载入fact.s和input.s之后，不设立任何断点运营。 A. 不采用重新定向技术，咱们得到成果： B. 采用定向技术，咱们得到成果：成果分析从上面数据咱们可以看出定向作用：在定向技术存在状况下Statistics 窗口中各种记录数字：总周期数(215) 和暂停数 (17 RAW，25 Control，12 Trap；54 Total) 在定向技术不存在时候，控制暂停和 Trap 暂停依然是同样值，而RAW暂停从17变成了53，总模仿周期数增长到236。因此定向技术带来加速比：　　S=236 / 215 = 1.098 　　因而：DLXforwarded比 DLXnot forwarded 快9.8%。 2. 用 WinDLX 运营程序structure_d.s，通过模仿： ?找出存在构造有关指令对以及导致构造有关部件； ?记录由构造有关引起暂停时钟周期数，计算暂停时钟周期数占总执行周期数百分比； ?阐述构造有关对 CPU 性能影响，讨论解决构造有关办法。 1）模仿成果：图2.1 程序structure_d.s流水线执行过程图2.2程序structure_d.s运营记录信息 2）构造有关 i. 如图，导致构造部件：浮点数寄存器f4 addd f0,f0,f4 指令在译码阶段ID停滞1周期 ii. 如图导致构造有关部件： ALU addi r2,r2,0x8 指令在执行阶段intEX停滞1周期 3）成果分析由资源有关引起暂停周期数为：30 总执行周期数为：139 暂停周期数占总执行周期数比例：21.58% 分析：资源有关使有关指令在流水线上停滞，减少了执行效率。 4）解决办法在合理指令调度范畴内，尽量避免执行重复指令。尽量避免同一寄存器频繁使用，若无法避免，则使用寄存器换名办法。也可以考虑采用资源重复办法，例如，在流水线机器中设立互相独立指令存储器和数据存储器，也可以将CACHE分割成指令CACHE 和数据CACHE。 3. 在不采用定向技术状况下（去掉 Configuration 菜单中Enable Forwarding 选项前勾选符），用WinDLX 运营程序data_d.s。记录数据有关引起暂停时钟周期数以及程序执行总时钟周期数，计算暂停时钟周期数占总执行周期数比例。 1）实验成果：没有采用定向技术时运营该程序，咱们得到： 2）成果分析：程序执行了202个周期，10个数据有关引起时钟周期RAW stall为104个。暂停时钟周期数占总执行周期数比例=51.48% 4. 在采用定向技术状况下（勾选Enable Forwarding），用WinDLX 再次运营程序data_d.s。重复上述3 中工作，并计算采用定向技术后性能提高倍数。 1）实验成果：采用定向技术时运营该程序，咱们得到： 2）成果分析：程序执行了128个周期，共有6个数据有关引起时钟周期RAW stall为30个。暂停时钟周期数占总执行周期数比例=23.44% 五．总结实验二循环展开及指令调度一．实验目 1. 加深对循环级并行性、指令调度技术、循环展开技术以及寄存器换名技术理解； 2. 熟悉用指令调度技术来解决流水线中数据有关办法； 3. 理解循环展开、指令调度等技术对 CPU 性能改进。二．实验平台 WinDLX simulator 四．预备知识 1. WinDLX模仿器有关知识，详见有关文档。 2. 复习和掌握教材中相应内容：（1）循环级并行性（2）指令调度（3）循环展开（4）寄存器换名五．实验内容及成果 1．用指令调度技术解决流水线中构造有关与数据有关（1）用DLX汇编语言编写代码文献*.s，程序中应涉及数据有关与构造有关（假设：加法﹑乘法﹑除法部件各有2个，延迟时间都是3个时钟周期）给出调度前程序sch_bef: .data .global ONE ONE：.word 1 .text .global main main: lf f1,ONE ;turn divf into a move cvti2f f7,f1 ;by storing in f7 1 in nop ;floating-point format divf f1,f8,f7 ;move Y=(f8) into f1 divf f2,f9,f7 ;move Z=(f9) into f2 addf f3,f1,f2 divf f10,f3,f7 ;move f3 into X=(f10) divf f4,f11,f7 ;move B=(f11) into f4 divf f5,f12,f7 ;move C=(f12) into f5 multf f6,f4,f5 divf f13,f6,f7 ;move f6 into A=(f13) Finish： trap 0 （2）通过Configuration菜单中“Floating point stages” 选项，把加法﹑乘法﹑除法部件个数设立为2个，把延迟都设立为3个时钟周期；（3）用WinDLX运营程序。记录程序执行过程中各种有关发生次数、发生有关指令组合，以及程序执行总时钟周期数；（4）采用指令调度技术对程序进行指令调度，消除有关；调度之后程序sch_aft: .data .global ONE ONE：.word 1 .text .global main main: lf f1,ONE ;turn divf into a move cvti2f f7,f1 ;by storing in f7 1 in nop ;floating-point format divf f1,f8,f7 ;move Y=(f8) into f1 divf f2,f9,f7 ;move Z=(f9) into f2 divf f4,f11,f7 ;move B=(f11) into f4 divf f5,f12,f7 ;move C=(f12) into f5 addf f3,f1,f2 multf f6,f4,f5 divf f10,f3,f7 ;move f3 into X=(f10) divf f13,f6,f7 ;move f6 into A=(f13) divf f10,f3,f7 ;move f3 into X=(f10) divf f13,f6,f7 ;move f6 into A=(f13) Finish： trap 0 （5）用WinDLX运营调度后程序，观测程序在流水线中执行状况，记录程序执行总时钟周期数；（6）依照记录成果，比较调度前和调度后性能。阐述指令调度对于提高CPU性能意义。意义：可以看出通过调度之后运营周期从27减少到21，并且减少了有关。 2. 用循环展开、寄存器换名以及指令调度提高性能（1）用DLX汇编语言编写代码文献*.s，程序中包括一种循环次数为4整数倍简朴循环；循环展开前程序： LHI R2，(A>>16)&0xFFFF ADDUI R2，R2，A&0xFFFF LHI R3，(B>>16)&0xFFFF ADDUI R3，R3，B&0xFFFF ADDU R4，R0，R3 NOP loop： SUBI R4，R4，#8 SUB R5，R4，R2 BNEZ R5，loop TRAP #0 A： .double 1，2，3，4 B： .double 1，2，3，4 （2）用WinDLX运营该程序。记录执行过程中各种有关发生次数以及程序执行总时钟周期数；（3）将循环展开3次，将4个循环体构成代码代替本来循环体，并对程序做相应修改。然后对新循环体进行寄存器换名和指令调度； LHI R2，(A>>16)&0xFFFF ADDUI R2，R2，A&0xFFFF LHI R3，(B>>16)&0xFFFF ADDUI R3，R3，B&0xFFFF ADDU R4，R0，R3 SUBI R4，R4，#8 SUBI R4，R4，#8 SUBI R4，R4，#8 SUBI R4，R4，#8 TRAP #0 A： .double 1，2，3，4 B： .double 1，2，3，4 循环展开后程序：（4）用WinDLX运营修改后程序，记录执行过程中各种有关发生次数以及程序执行总时钟周期数；（5）依照记录成果，比较循环展开、指令调度先后性能。结论：可以看出通过循环展开之后运营周期从30减少到14，并且减少了有关。五．总结实验三记分牌算法和Tomasulo 算法一．实验目 1. 掌握DLXview 模仿器用法； 2. 进一步理解指令动态调度基本思想，理解指令动态调度基本过程与办法； 3. 理解记分牌算法和Tomasulo 算法基本思想，理解它们基本构造、运营过程； 4. 比较分析基本流水线与记分牌算法和Tomasulo 算法性能及优缺陷。二．实验平台 DLXview 模仿器三．预备知识 1. DLXview 模仿器 2. 复习和掌握教材中相应内容 1）指令动态调度 2）乱序流水线 3）为了容许乱序执行，咱们将基本流水线译码阶段再分为两个阶段： 4）记分牌技术目的：在资源充分时，尽量早地执行没有数据阻塞指令，达到每个时钟周期执行一条指令。 5）Tomasulo 算法将记分牌核心某些和寄存器换名技术结合在一起，其基本核心是通过寄存器换名来消除写后写和先读后写有关也许引起流水线阻塞。 6）Tomasulo 算法基本思想四．实验内容及成果 1. 用DLX汇编语言编写代码文献*.s（程序中应涉及指令数据有关、控制有关以及构造有关），以及有关初始化寄存器文献*.i和数据文献*.d； 305.s 305.i #put 30 into r2 -> #34(r2) is 64 (0x40) put r2 30 #put 2.5 into address 0x40 fput 0x40 2.5 #put 23 into r3 -> #45(r3) is 68 (0x41) put r3 23 #put 4.0 into address 68 fput 0x41 4.0 #put 1.25 into FP register f4 fput f4 1.25 lf f6，34(r2) lf f2，45(r3) multf f0，f2，f4 subf f8，f6，f2 divf f10,f0，f6 addf f6，f8，f2 trap #0 2. 观测程序中浮现数据有关、控制有关、构造有关，并指出三种有关指令组合； (1) 第二个lf指令到multf、subf和addf，multf到divf之间，subf到addf之间存在着先写后读有关。 (2) divf和addf之间存在着先读后写有关。 (3) addf和subf指令关于浮点加法部件还存在着构造有关。 3. 将自己编写程序*.s、*.i、*.d装载到DLXview模仿器上， (1)分别用基本流水线、记分牌算法和Tomasulo算法模仿，针对每一种模仿做如下分析：基本流水线：记录程序执行周期数和流水线中暂停时钟周期数 1个加法部件，延迟周期为2 2个乘法部件，延迟周期为10 1个除法部件，延迟周期为40 程序执行时钟周期数 67，流水线中暂停时钟周期10 ② 变化功能部件数目重新模仿，观测并记录性能变化 2个加法部件，延迟周期为2 3个乘法部件，延迟周期为10 2个除法部件，延迟周期为40 程序执行时钟周期数 67，流水线中暂停时钟周期10 ③ 变化功能部件延迟重新模仿，观测并记录性能变化 1个加法部件，延迟周期为1 2个乘法部件，延迟周期为8 1个除法部件，延迟周期为32 程序执行时钟周期数 47，流水线中暂停时钟周期8 由此可见增长功能部件数目之后，性能并没有提高减少功能部件延迟之后，性能得到了显着提高。记分牌算法：记录程序执行周期数和流水线中暂停时钟周期数 1个加法部件，延迟周期为2 2个乘法部件，延迟周期为10 1个除法部件，延迟周期为40 程序执行时钟周期数 59，流水线中暂停时钟周期12 ② 变化功能部件数目重新模仿，观测并记录性能变化 2个加法部件，延迟周期为2 3个乘法部件，延迟周期为10 2个除法部件，延迟周期为40 程序执行时钟周期数 59，流水线中暂停时钟周期12 ③ 变化功能部件延迟重新模仿，观测并记录性能变化 1个加法部件，延迟周期为1 2个乘法部件，延迟周期为8 1个除法部件，延迟周期为32 程序执行时钟周期数 49，流水线中暂停时钟周期10 由此可见增长功能部件数目之后，性能并没有提高减少功能部件延迟之后，性能得到了显着提高。 Tomasulo算法：记录程序执行周期数和流水线中暂停时钟周期数 1个加法部件，延迟周期为2 2个乘法部件，延迟周期为10 1个除法部件，延迟周期为40 程序执行时钟周期数 56，流水线中暂停时钟周期10 ② 变化功能部件数目重新模仿，观测并记录性能变化 2个加法部件，延迟周期为2 3个乘法部件，延迟周期为10 2个除法部件，延迟周期为40 程序执行时钟周期数 56，流水线中暂停时钟周期10 ③ 变化功能部件延迟重新模仿，观测并记录性能变化 1个加法部件，延迟周期为1 2个乘法部件，延迟周期为8 1个除法部件，延迟周期为32 程序执行时钟周期数 46，流水线中暂停时钟周期8 由此可见增长功能部件数目之后，性能并没有提高减少功能部件延迟之后，性能得到了显着提高。 (2)记录运营记分牌算法时功能部件状态表和指令状态表； (3)记录运营Tomasulo算法时指令状态表和保存站信息；实验四 Cache 性能分析一．实验目 1. 加深对 Cache 基本概念、基本组织构造以及基本工作原理理解； 2. 掌握 Cache 容量、相联度、块大小对Cache 性能影响； 3. 掌握减少 Cache 不命中率各种办法以及这些办法对提高Cache 性能好处； 4. 理解 LRU 与随机法基本思想以及它们对Cache 性能影响。二．实验平台 Cache 模仿器MyCache 三．预备知识 MyCache 模仿器用法 1. 启动模仿器：用鼠标双击MyCache.exe。 2. 系统会打开一种操作界面。该界面左边为设立模仿参数区域，右边为模仿成果显示区域。如图 1 所示。 3. 可以设立参数涉及：是统一Cache 还是分离Cache，Cache 容量，块大小，相联度，替代算法，预取方略，写方略，写不命中时调块方略。可以直接从列表里选取。 4. 访问地址可以选取来自地址流文献，也可以选取手动输入。如果是前者，则可以通过点击“浏览”按钮，从模仿器所在文献夹下面“地址流”文献夹中选用地址流文献（.din 文件），然后进行执行。执行方式可以是步进，也可以是一次执行究竟。如果选取手动输入，就可以在“执行控制”区域中输入块地址，然后点击“访问”按钮。系统会在界面右边显示访问类型、地址、块号以及块内地址。 5. 模仿成果涉及：（1）访问总次数，总不命中次数，总不命中率；（2）读指令操作次数，其不命中次数及其不命中率；（3）读数据操作次数，其不命中次数及其不命中率；（4）写数据操作次数，其不命中次数及其不命中率；（5）手动输入单次访问有关信息。图 1 MyCache 模仿器操作界面示意图四．实验内容及成果 1. Cache 容量对不命中率影响 1）启动 MyCache。 2）用鼠标点击“复位”按钮，把各参数设立为默认值。 3）选取一种地址流文献。办法：选取“访问地址”下“地址流文献”选项，然后点击“浏览”按钮，从本模仿器所在文献夹下“地址流”文献夹中选用。 4）选取不同Cache 容量，涉及：2KB，4KB，8KB，16KB，32KB，64KB，128KB，256KB，分别执行模仿器（点击“执行究竟”按钮），然后在表1 中记录各种状况下不命中率。表 1 不同容量下Cache 不命中率 Cache容量（kb） 2 4 8 16 32 64 128 256 不命中率 14.22% 10.46% 7.59% 4.78% 2.84% 1.97% 1.26% 0.98% 地址流文献名：cc1.din 5）以容量为横坐标，画出不命中率随Cache 容量变化而变化曲线。并指明地址流文献名。 6）依照该模仿成果，你能得出什么结论？结论：在其她变量一定状况下，随着Cache容量变大不命中率逐渐减小最后趋于稳定。 2. 相联度对不命中率影响 1）用鼠标点击“复位”按钮，把各参数设立为默认值。这时 Cache 容量为64KB。 2）选取一种地址流文献。办法：选取“访问地址”下“地址流文献”选项，然后点击“浏览”按钮，从本模仿器所在文献夹下“地址流”文献夹中选用。 3）选取不同Cache 相联度，涉及：直接映象，2 路，4 路，8 路，16 路，32 路，分别执行模仿器（点击“执行究竟”按钮），然后在表 2 中记录各种状况下不命中率。 a.某些截图：表 2 当容量为64KB 时，不同相联度下Cache 不命中率相联度 1 2 4 8 16 32 不命中率 1.97% 1.15% 0.99% 0.93% 0.92% 0.91% 地址流文献名：cc1.din 4) 把 Cache 容量设立为256KB，重复上一步工作。表 3 当容量为256KB 时，不同相联度下Cache 不命中率相联度 1 2 4 8 16 32 不命中率 0.98% 0.78% 0.74% 0.73% 0.71% 0.71% 地址流文献名：cc1.din 5) 以相联度为横坐标，画出在64KB 和256KB 状况下不命中率随Cache 相联度变化而变化曲线。并指明地址流文献名。 6. 依照该模仿成果，你能得出什么结论？结论：当cache容量一定期，不命中率先是随着相联度地增长而减小，但增长到一定限度后，不命中率不会再减少。当相联度相似，相联度较小时，cache容量越大不命中率就越低，但当相联度到达一定限度时，再增大cache容量就没有任何意义。 3. Cache 块大小对不命中率影响 1) 用鼠标点击“复位”按钮，把各参数设立为默认值。 2) 选取一种地址流文献。办法：选取“访问地址”下“地址流文献”选项，然后点击“浏览”按钮，从本模仿器所在文献夹下“地址流”文献夹中选用。 3) 选取不同Cache 块大小，涉及：16B，32B，64B，128B，256B，对于Cache 各种容量，涉及：2KB，8KB，32KB，128KB，512KB，分别执行模仿器（点击“执行究竟”按钮），然后在表 4 中记录各种状况下不命中率。 a.某些截图：表 4 各种块大小状况下Cache 不命中率 eg.din 块大小（B) Cache容量（KB） 2 8 32 128 512 16 7.80% 7.40% 7.20% 7.20% 7.20% 32 5.4% 5% 4.7% 4.7% 4.7% 64 4.0% 3.4% 3.1% 3.1% 3.1% 128 4.4% 3.3% 2.4% 2.4% 2.4% 256 6.5% 5.1% 2.3% 1.9% 1.9% 地址流文献名：eg.din 4) 分析 Cache 块大小对不命中率影响。结论：在Cache容量不变状况下，Cache块越大不命中率越小，最后趋于平缓。 4. 替代算法对不命中率影响 1) 用鼠标点击“复位”按钮，把各参数设立为默认值。 2)选取一种地址流文献。办法：选取“访问地址”下“地址流文献”选项，然后点击“浏览”按钮，从本模仿器所在文献夹下“地址流”文献夹中选用。 3) 对于不同替代算法、Cache 容量和相联度，分别执行模仿器（点击“执行究竟”按钮），然后在表 5 中记录各种状况下不命中率。 a.某些截图：（cache容量：16KB 相联度：2路采用LRU算法）（cache容量：16KB 相联度：2路采用随机算法）表 5 LRU 和随机替代法不命中率比较 cache容量相连度 2路 4路 8路 LRU 随机算法 LRU 随机算法 LRU 随机算法 16K 3.62% 4.50% 2.96% 4.71% 2.74% 5.43% 64K 1.15% 1.47% 0.99% 1.36% 0.93% 1.42% 256K 0.78% 0.83% 0.74% 0.76% 0.73% 0.72% 1M 0.71% 0.71% 0.70% 0.70% 0.70% 0.70% 地址流文献名：cc1.din 4) 分析不同替代算法对 Cache 不命中率影响。结论：i.LRU和随机算法不命中率随着相联度增长而减少且随着cache容量增长而减少；?ii.在相联度相似，cache容量相似时，使用LRU替代算法不命中率比随机算法不命中率小；?iii.当cache容量增大到一定限度，相联度达到一定限度时，不命中率不会再减少，且与算法选取关系不大。 5. 混合Cache 和分离Cache 比较 1) 用鼠标点击“复位”按钮，把各参数设立为默认值。 2) 选取一种地址流文献。办法：选取“访问地址”下“地址流文献”选项，然后点击“浏览”按钮，从本模仿器所在文献夹下“地址流”文献夹中选用。 3) 分别在分离Cache 和混合Cache 状况下，选取不同Cache 容量，涉及： 4KB，8KB， 16KB，32KB，64KB，128KB，256KB，分别执行模仿器（点击“执行究竟”按钮），然后在表 6 中记录各种状况下不命中率。 a.某些截图：（Cache容量：4KB 混合Cache）（Cache容量：4KB 分离Cache）表 6 分离Cache 和混合Cache 不命中率比较容量指令cache 数据cache 混合cache 4 5.53% 7.06% 5.40% 8 5.53% 7.06% 5.00% 16 5.53% 6.29% 4.70% 32 5.53% 5.86% 4.70% 64 5.53% 5.86% 4.70% 128 5.53% 5.86% 4.70% 256 5.53% 5.86% 4.70% 地址流文献名：eg.din 4) 对模仿成果进行分析。结论：分离Cache 较混合Cache 不命中率较低，这是由于混合Cache按流水方式执行load指令和store指令时，也许会同步祈求一种数据字和一种指令字，这时会浮现构造冲突，导致CPU等待。五．总结

展开阅读全文