面向3D生成对抗网络的频域加速器设计.pdf

资源描述

1、第 35 卷第 6 期计算机辅助设计与图形学学报 Vol.35 No.6 2023 年 6 月 Journal of Computer-Aided Design&Computer Graphics Jun.2023 收稿日期:2021-11-01;修回日期:2022-03-04.基金项目:计算机体系结构国家重点实验室开放课题(CARCHB202119);热能动力技术重点实验室开放基金(TPL2019C01).江卓燊(1996),男,硕士研究生,主要研究方向为计算机体系结构;刘博生(1988),男,博士,讲师,CCF 会员,主要研究方向为计算机系统结构;唐忆滨(1989),男,博士,CCF

2、会员,主要研究方向为嵌入式计算机系统;武继刚(1963),男,博士,教授,博士生导师,CCF 会员,论文通信作者,主要研究方向为移动智能计算、数据科学与云计算、高性能体系结构、容错计算.面向 3D 生成对抗网络的频域加速器设计江卓燊1),刘博生1,2),唐忆滨3),武继刚1)*1)(广东工业大学计算机学院广州 510006)2)(中国科学院计算技术研究所计算机体系结构国家重点实验室北京 100190)3)(武汉数字工程研究所武汉 430074)()摘要:三维生成对抗网络(3D generative adversarial networks,3D GANs)广泛应用于模型预测、对象生成

3、等领域.针对当前 3D GANs 加速器存在计算开销高、访存能耗高等问题,提出一种基于快速傅里叶变换(FFTs)的 3D GANs 频域加速器设计(FAG).首先针对 3D GANs 加速器计算开销高的问题,提出支持频域 3D GANs 计算的硬件架构,利用频域低计算复杂度特性和频域反卷积中的零值模式以减少计算开销;其次针对 3D GANs 加速器访存能耗高的问题,提出支持 3D 卷积和反卷积计算的频域映射调度流,利用频域共轭对称特性和反卷积中的零值模式减少访存开销.基于ModelNet 数据集和 3 个 3D GANs 模型(3DGAN,3D-IWGAN 和 3D-PhysNet)的评估结果

4、表明,与具有代表性的频域加速器相比,FAG 可使性能提高 76%,能效提高 141%;与具有代表性的空间域加速器相比,FAG 的性能提高 6 倍,能效提高 46 倍.关键词:频域加速器;3D GANs;反卷积;数据重用;调度流中图法分类号:TP391.41 DOI:10.3724/SP.J.1089.2023.19439 Frequency-Domain Acceleration for 3D Generative Adversarial Networks Jiang Zhuoshen1),Liu Bosheng1,2),Tang Yibin3),and Wu Jigang1)*1)(Sch

5、ool of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006)2)(State Key Laboratory of Computer Architecture,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190)3)(Wuhan Digital Engineering Institute,Wuhan 430074)Abstract:3D generative adversar

6、ial networks(3D GANs)are widely utilized in model prediction and object generation.To address the challenges of massive computation and significant energy consumption in acceler-ating 3D GANs,a novel fast Fourier transform based frequency-domain accelerator(called FAG)is proposed.Firstly,FAG provide

7、s a frequency-domain hardware architecture,which utilizes the compact computation complexity and the zero repeat pattern in deconvolution,to reduce the computation overhead in 3D GANs ac-celerators.Secondly,FAG exploits the frequency-domain characteristic of Hermitian symmetry and the zero repeat pa

8、ttern of deconvolution to significantly reduce data movements,and it utilizes the repeat pattern in de-convolution to significantly reduce data movements.Comprehensive evaluations based on the ModelNet data-set and three 3D GAN models(3DGAN,3D-IWGAN and 3D-PhysNet)show that,the performance and the e

9、nergy efficiency can be improved by 76%and 141%,respectively,compared with the frequency-domain base-line;FAG achieves 6 higher performance and 46 better energy efficiency compared with the spatial baseline.954 计算机辅助设计与图形学学报第 35 卷 Key words:frequency-domain accelerator;3D generative adversarial net

10、works;deconvolution;data reuse;stream scheduling 三维生成对抗网络(3D generative adversarial networks,3D GANs)凭借其优越的性能已广泛应用于众多智能领域,如 3D 对象建模与合成、3D 模型预测等1-3.与有监督的深度学习网络相比,3D GANs能够有效地减少样本数据标注和注释方面大量耗时、耗力的工作量.然而,高精度的效果需要以大量卷积计算作为代价,阻碍了 3D GANs 的广泛应用.为解决上述问题,研究人员提出许多快速算法.例如,快速傅里叶变换(fast Fourier transforms,FFTs)

11、4-5通过将空间域卷积计算转换为更简单的频域卷积计算,可显著地减少乘加的计算规模6-8;与传统的空间域卷积计算相比,频域卷积针对典型网络计算可获得高达 23 倍的加速计算能力7.卷积和反卷积在3D GANs计算中占主导地位.研究人员已深入展开对频域卷积加速的研究,但对频域反卷积加速的研究较少.在传统的空间域反卷积中,零元素参与的乘加计算占总计算量的75%以上9-10.由于零值的计算并不贡献输出,冗余计算开销非常高.频域反卷积包括上采样和上采样后的频域卷积操作.为进一步减少计算量和数据移动,Ko 等11设计的频域加速器将频域计算中的固有共轭对称性应用在频域卷积计算中,可减少近一半的计算量12.类

12、似地,共轭对称性也可以应用于加速频域反卷积计算.但是,现有频域加速器11无法避免由上采样操作引起的大量频域/空间域转换和冗余数据移动.当前具有代表性的频域加速器在执行反卷积上采样操作时,需要将频域数据转为空间域数据后进行零元素插入操作,然后再将其转为频域数据,导致巨大的变换计算和数据移动开销.综上所述,目前尚未发现有效的加速频域卷积和反卷积的加速器.本文设计了一种频域卷积和反卷积加速器(frequency domain accelerator of 3D generative ad-versarial networks,FAG).与具有代表性的空间域加速器13不同,本文利用频域卷积计算中的直接

13、复数乘法来进一步提高计算性能.与具有代表性的频域加速器11相比,FAG 不仅采用频域固有的共轭对称性进行加速,而且利用反卷积在频域中的重复模式来减少变换的计算代价和数据移动开销.FAG 只需要将约 1/8 的频域输入特征加载到计算部件,剩余的频域输入特征通过利用频域数据的重复特征实现数据供给,减少内存访问量.FAG通过利用上采样零插入操作后的频域数据重复特征(4 部分数据均相同,只需要存储 1/414)和共轭对称的数据特征(只需存储约 1/2 数据)实现减少计算和访存规模.由于尚未见到针对 3D GANs 设计的频域加速器的报道,本文构建了一种基于具有代表性的频域加速器11的扩展 3D GAN

14、s 频域加速器基准.评估结果表明,与该频域基准相比,FAG 性能提高76%,能效提高 141%.与具有代表性的空间域加速器 Eyeriss*9相比,FAG的性能提高 6倍,能效提高 46 倍.因此,本文设计了一种新颖的适用于卷积和反卷积的频域加速器;提出一种适用于频域卷积和反卷积的调度流,可支持共轭对称性和频域反卷积中的零值重复模式,减少冗余计算量和数据移动.综合实验分别对共轭对称和重复模式的影响进行评估,结果表明,FAG 能有效地提高计算性能和能效.1 相关工作 1.1 空间域 3D 反卷积基础图 1 所示为传统的空间域 3D 反卷积步骤.在空间域 3D 反卷积中,多帧连续数据被用于输入特

15、征进行计算(每帧输入特征数据尺寸为n,输入通道为I,总深度为D).空间域反卷积包括 2 个关键操作:上采样的零元素插入操作用于扩大输入特征尺寸;后续的卷积操作(沿,x y z方向).其中,上采样将特征图扩大至原来的 2 倍(如输入特征的深度大小D被扩展成2D),卷积操作后获得最终输出.图 1 空间域 3D 反卷积 1.2 频域卷积基础在进行频域卷积计算时,以 2 个复数xa i b和iycd 为例,其复数乘法计算公式为第 6 期江卓燊,等:面向 3D 生成对抗网络的频域加速器设计 955 i izx ya cb da db cABBC (1)AabcBcdbCbad (2)其中,z表示计

16、算结果;i表示虚数单位;,A B和C表示中间变量.从式(1)(2)可以看出,一对复数乘法操作需要 3 个实数乘法.1.3 频域数据共轭对称性频域卷积和反卷积数据具有共轭对称性.图 2所示为频域中输入特征FFTa与权重FFTw的反卷积计算,输出特征为FFTo;三者具有共轭对称性,其特征为一对共轭复数,实部数值相同,虚部数值为相反数.例如,FFTFFT,aXwY和 FFToZ(图中对应区域的深色部分)分别与FFTaX,FFTwY和FFToZ(图中对应区域的透明部分)共轭对称.图 2 频域 3D 反卷积 1.4 频域反卷积的重复模式输入特征的上采样零插入操作在变换到频域空间后表现出重复特征14.

17、图 3 所示为频域反卷积中上采样零插入的重复模式.插入零值前的输入特征X经过 FFT 后的结果输出特征Y;输入特征X零插入为X后,X经过 FFT 得到的结果为Y.Y具有重复特征,即 123414YYYYY(3)其中,1Y,2Y,3Y和4Y表示Y中的 4 个子模块.1Y,2Y,3Y和4Y均等于Y,且这 4 个子模块均具有共轭对称性.1.5 频域加速器 FAG 建模 3D 频域卷积和反卷积沿z方向进行卷积计算时,每个输入特征和权重数据需要重复使用多次.在具有代表性的频域加速器11中,频域计算单元(frequency-domain processing element,FPE)需要多次加载同一个复数

18、数据,造成大量的冗余数据移图 3 频域反卷积中上采样零插入的重复模式动.文献15指出,片外访存的数据移动需要耗费大量能耗.尽管数据重用已经在空间域的卷积和反卷积加速计算中进行了广泛研究16-18,但对于不同的计算模式,传统的空间域数据重用方法不能直接应用于频域加速器.为了减少冗余数据访问,通过观察发现,加载后的输入特征和权重数据可以在随后的周期里再次被使用.为支持数据重用,在所设计的硬件结构中,同一列FPE共享同一个输入特征频域数据,输入特征频域数据从右列移动到左列,权重频域数据从左往右进行移动,实现重用.现有的频域加速器在反卷积的上采样前需要将频域数据转为空间域数据进行零插入操作,零插入

19、后再将空间域数据转为频域数据,这个过程需要 FFT/iFFT 计算;而 FFT/iFFT 要消耗大量的硬件资源,严重影响加速器的性能和能效.通过利用重复模式,上采样后频域数据可拆分为4部分相同的频域数据,且均与上采样前的频域数据相等,从而缩减计算规模.在卷积层中,使用共轭对称特性可以减少数据移动和计算量;而反卷积层中上采样后的4部分频域数据均具有共轭对称特性,使用共轭对称性可以有效地减少计算规模.然而,现有的频域加速器未利用重复模式特性,在反卷积层需要加载冗余的输入特征数据,造成过高的访存代价.通过研究发现,加速器利用频域数据在插入零值后表现的重复特性,可以有效地减少数据加载规模,如图3 所示

20、.为了有效地利用这些重复的数据特征,本文设计了灵活调度流,利用共轭对称性和反卷积的上采样零插入重复模式实现减少内存访问量.另外,部分研究利用数据稀疏特性进行计算加速设计(如 SCNN19),能够有效地减少数据搬运.本文利用频域数据特性减少数据访问与该类方法正交.956 计算机辅助设计与图形学学报第 35 卷 2 加速器体系结构 2.1 FAG 架构图 4 所示为本文提出的 FAG,包括片上缓存(weight buffer 和 activation buffer,WB 和 AB)、频域处理单元阵列(FPE 阵列)、变换组件(FFT/iFFT)和控制器(controller,Ctl).WB 存

21、储权重频域数据,AB 存储输入特征和输出特征频域数据;FPE 阵列的大小为mnTT,用于执行频域复数乘法和累加;FFT/iFFT 组件用于空间域和频域之间数据变换;Ctl 协调所有组件有序地进行工作,以得到正确的计算结果.图 4 FAG 图 5 所示为 FPE 阵列的 4 个关键操作.图 5a所示为 FPE 阵列最左列的 FPE 用于接收权重频域数据;图 5b 所示为每列 FPE 中的权重频域数据可移动到右列的 FPE 列以重用;图 5c 所示为加载输入特征的操作,在每个执行周期里,FPE 阵列中的1 列 FPE 被添加nT个输入特征;图 5d 所示为右列FPE 中的输入特征频域神经元数据移动

22、到左边FPE 列以重用.图 5 FPE 阵列的 4 个关键操作 2.2 调度流 2.2.1 卷积调度流图 6a 所示为用于卷积的调度流.其中,输入特征FFTa大小为nnD,输入通道为I,权重FFTw大小为nnk,输出通道为M,输出特征FFTo大小为nnD.所使用的 FPE 大小为mnTT.在每个执行周期中,mT个权重频域数据被加载到最左列的 FPE(共mT行);其他列 FPE 通过右移操作来获得频域权重数据.图 6a 的特征图中,相同颜色点表示同一帧数据.nT个同一帧不同输入通道的输入特征被加载到一列 FPE 阵列中,并被同一列 FPE 所共享.相邻的 FPE 列则分别加载输入特征的相邻帧.

23、在每个执行周期中,每列 FPE 仅使用nT个数据中的 1 个(按顺序被使用).另外,右列 FPE 的输入特征频域数据可通过左移操作进行数据重用.图 6 大小为mnTT的 FPE 阵列中的调度流卷积层的数据重用有 2 个方面:(1)通过左移输入特征操作,右列 FPE 中的输入特征将被移动到左列 FPE 中进行数据重用.(2)通过右移权重操作,左列 FPE 中的权重将被移动到右列 FPE 中进行数据重用.2.2.2 反卷积调度流图 6b 所示为用于反卷积的调度流.其中,输入特征FFTa大小为nnD,输入通道为I,权重FFTw大小为22nnk,输出通道为M,输出特征FFTo大小为222nnD.频

24、域权重被拆分成 4 个子权重.输入特征分别与4个子权重进行频域卷积计算,而需要执行的卷积计算的调度流与第 2.2.1节的方式相同.反卷积层与卷积层的不同点如下:(1)通过重复模式,FAG 在反卷积层只需要加载 1/8 的频域输入特征,剩余部分通过重用实现数据供给.在卷积层中FAG需要加载1/2的频域输入特征.(2)在反卷积层中,1 个输入特征将分别与 4第 6 期江卓燊,等:面向 3D 生成对抗网络的频域加速器设计 957 个子权重卷积计算,而卷积层无此重复特征.频域反卷积的输入特征具有上采样的零插入重复模式,输入特征的 4 部分子模块数据均相同;再结合共轭对称的数据特征,FAG 只需要将

25、1/8 的频域输入特征加载到芯片内,剩余的频域输入特征通过重用实现数据供给.2.2.3 调度流案例为了更好地介绍调度流方案,图 7 给出调度流的案例分析.图7a中,输入特征FFTa大小为6 6 3,权重FFTw大小为6 6 2.输入特征尺寸n大小为 6,输出特征FFTo大小为6 6 2,结合共轭特性,输入特征和权重中有颜色部分执行复数乘法操作.图 7 调度流的案例分析图7b所示为图7a中一对进行复数乘法运算的输入特征和权重数据,输入特征的深度D为 3,权重深度为 2,输入通道大小为 2,权重输出通道大小为1.通过权重向输入特征的深度方向D进行卷积,输出特征的深度为 2.图 7c 所示为图

26、7b 中输入特征和权重的加载过程.Step1.在0t时刻,输入特征11a和12a加载到第 1 列FPE1;权重11w加载到 FPE1 与11a进行复数乘法计算.Step2.在1t时刻,输入特征21a和22a加载到第 2列 FPE2;权重11w从 FPE1 右移到 FPE2,与21a进行计算,权重12w加载到 FPE1 与12a进行计算.Step3.在2t时刻,输入特征21a和22a左移到第 1列 FPE1;权重12w从 FPE1 右移到 FPE2,与22a进行计算,权重21w加载到 FPE1 与21a进行计算.Step4.在3t时刻,输入特征31a和32a加载到第 2列 FPE2;权重21w从

27、 FPE1 右移到 FPE2,与31ia进行计算,权重22w加载到 FPE1 与22a进行计算.Step5.在4t时刻,权重22w从 FPE1 右移到 FPE2,与32a进行计算.图 7d 所示为在每个周期时刻里,每个 FPE 的输入特征和权重进行的复数乘法运算.最后,FPE1和 FPE2 计算单元通过每个周期得到的部分和进行累加,分别得到输出特征1o和2o.2.2.4 分析表 1 和表 2 所示分别为 3D 反卷积层和卷积层的实数乘法次数比较.其中,输入特征大小为nnD,输入通道为I,权重大小为kkk,输出通道为M.当n为奇数时,=1;当n为偶数时,=4;为复数数据中虚部为 0 的个数.

28、表 1和表 2 中,上采样指其上采样过程中输入特征的FFT/iFFT 操作;权重变换指用于权重频域扩展的Sinc 插值操作;复数乘法指输入特征和权重执行复数乘法操作.表 1 3D 反卷积层的计算对比方法操作 3D 反卷积(实数乘法次数)空间域卷积乘法 232121nkDkkI M 上采样 222232log8log 22nnnnD I 权重变换32432nkI M 频域基准11 复数乘法23444212nDkk I M 权重变换22432+2knkk I Mn FAG 复数乘法23444212nDkk I M 表 2 3D 卷积层的计算对比方法操作 3D反卷积(实数乘法次数)空间域

29、卷积乘法 2311nkDkkI M 上采样 0 权重变换 3232nkI M 频域基准11 复数乘法 2312nDkk I M权重变换 223+2knkk I Mn FAG 复数乘法 2312nDkk I M 从表 1 和表 2 可以看出:(1)在乘法次数比较中,空间域加速器在卷积和反卷积层的计算量都远大于频域加速器的计算958 计算机辅助设计与图形学学报第 35 卷量.因此,与空间域加速器相比,频域加速器具有更优的表现.(2)在权重变换计算单元数和复数乘法计算单元数相同的情况下,权重插值变换计算量占比过大会影响加速器的性能.这是由于在权重插值和复数乘法比较中,当输入特征与权重尺寸关系21

30、kn 时,频域基准在权重插值变换时需要的计算量大于卷积复数乘法计算量.(3)在 FAG 和频域基准比较中,频域基准在上采样零插入操作需要执行额外的 FFT/iFFT操作,从而需要大量的乘法运算和数据移动.而 FAG 在反卷积层采用重复模式不需要额外的 FFT/iFFT 操作,从而减少大量计算量和计算延时.频域基准使用的 Sinc 插值方法为:同时对 2个维度进行插值计算,但此方法有大量的冗余计算.本文中,FAG 将 Sinc 插值变换计算拆分成 2 个步骤,即对 2 个方向分别执行 1D Sinc 插值变换计算.由于变换前权重数据除前k行外其他行的值为 0,因此,第 1 步只需要执行k次 1D

31、 Sinc 插值变换计算,第 2 步需要执行n次的 1D Sinc 插值变换计算.这 2 个步骤和已有的方法(同时对 2 个维度进行插值)能得到相同的结果在精度上无损失;而 FAG 使用的优化 Sinc 插值比频域基准的Sinc 插值减少2k的计算量.3 评估将 FAG 与具有代表性的空间域和频域加速器在性能和能效方面进行比较.3.1 实验流程整个实验分 3 个步骤进行评估.(1)FAG与具有代表性的频域加速器11进行比较.该频域加速器支持频域卷积,权重频域变换计算采用Sinc插值代替传统的FFT/iFFT.在500 MHz频率和 28 nm 技术工艺条件下,该加速器具有 72个复数 M

32、AC 和功耗为 459 mW.频域加速器不直接支持反卷积,需要将频域数据转为空间域数据进行零元素插入操作实现上采样,再将插入零后的空间域数据转为频域数据,实现扩展 3D GANs 频域加速器基准,用于支持频域加速计算 3D GANs.(2)FAG 与具有代表性的空间加速器 Eyeriss16-17进行比较.在 200 MHz 频率下,Eyeriss 添加将稀疏反卷积转换为密集卷积的方法,使其扩展为支持反卷积的加速器(表示为 Eyeriss*)9.其中,Eyeriss*可以消除反卷积中所有填充零的卷积计算.与Eyeriss*进行比较时,FAG 使用与其相同数量的乘法器数和相同的工作频

33、率.(3)对 FAG 进行综合分析.通过配置不同情况下的加速器模式,探讨共轭对称性和重复模式对加速器性能的影响.如表 3 所示,加速器模式共有 4 种类型,分别是 a.不使用共轭对称性和重复模式的加速器,用 FAG-basis 表示;b.使用重复模式但不使用共轭对称性,用 FAG-DC 表示;c.使用共轭对称性但不使用重复模式,用 FAG-HS 表示;d.使用共轭对称性和重复模式,用 FAG 表示.表 3 4 种类型配置的加速器名称共轭对称性重复模式 FAG-basis FAG-DC FAG-HS FAG 注.表示为使用,表示为不使用.本文实验使用具有代表性的 3D GANs 模型作为

34、评估模型,包括 3DGAN2,3D-IWGAN3和3D-PhysNet20.其中,3DGAN 用于生成精确的网格图像(分辨率为64 64 64像素);3D-IWGAN 支持从 2D 图像中提取潜在特征生成 3D 图像(分辨率为32 32 32像素);3D-PhysNet对3D对象物理特性进行分析,生成具有分析结果的 3D 图像(分辨率为64 64 64像素);3 个 3D GANs 的权重尺寸大小均为4 4 4.表 4 所示为 3 个 3D GANs 的详细特征.表 4 3 个 3D GANs 详细特征模型数据集应用 3DGAN2 ModelNet21 3D对象生成3D-IWGA

35、N3 ModelNet 3D对象生成3D-PhysNet20 ModelNet 3D物体分析 3.2 实验结果图 8 所示为在 500 MHz 频率下,FAG 与频域基准归一化后的性能和能效比较,其中,Gmean表示 3个 3D GANs 的均值数据项.可以看出,与频域基准相比,FAG 可达到 76%的性能提升和 141%的能效提升.FAG的性能提升来自于使用反卷积中上采样零插入的重复模式,减少了大量 FFT/iFFT 计算,从而提升加速器能效.频域基准将加载的数据只执行 1 次复数乘法,造成大量的访存能耗;而 FAG对输入特征和权重数据的重复利用可以大幅度减少第 6 期江卓燊,等:面向

36、3D 生成对抗网络的频域加速器设计 959 能耗,从而提高能效.频域基准在进行权重变换时需要较大的计算量,甚至在输入特征n较小时影响加速器的性能;FAG 使用优化后的 Sinc 插值方法可以有效地减少冗余计算,降低计算代价.图 9 所示为 FAG 与空间域基准加速器归一化后的性能和能效比较.其中,FAG 使用与空间域加速器 Eyeriss*相同的频率和计算单元数(频率设置为 200 MHz 和 56 个复数计算单元 FPE,共 168 个乘法器).与空间域基准相比,FAG 能达到 6 倍的性图 8 FAG 与频域加速器基准的性能和能效比较图 9 FAG 与空间域加速器 Eyeriss*的性

37、能和能效比较能提升和 46 倍的能效提升.更高性能的提升效果来自于频域中复数乘法运算代替空间域中的卷积操作.在 3D 卷积计算中,权重需要对输入特征的深度方向进行卷积操作,使得权重数据的频域变换代价降到更低.因此,与空间域加速器相比,频域加速器能够获得更高的性能提升.图 10 所示为在 4 种配置下归一化后的性能和能效比较,而 Gmean 为 3 个 3D GANs 的均值数据项.其中,4 种配置的时钟频率均为 500 MHz,56 个复数计算单元 FPE.可以看出:(1)与 FAG-DC 和 FAG-HS 相比,FAG 在性能上分别提升 98%和 22%,在能效上分别提升 198%和 92

38、%.性能和能效的优势都来自于利用频域共轭对称性和在反卷积层中的零插入重复模式,进一步减少大量的计算量以及高昂的 FFT/iFFT代价,同时数据移动也相应降低,进而减少大量能耗.(2)未使用共轭特性和重复模式的 FAG-basis需要更多的访存能耗开销,而访存开销占整个加速器能耗开销主要部分.由于3DGAN和3D-PhysNet模型的最后输出特征尺寸比 3D-IWGAN 的最后输出特征尺寸大,访存消耗的能耗占总能耗的比例也越大,因此,3DGAN 和 3D-PhysNet 模型在使用FAG 时可以节省大量的访存能耗,使得 FAG 比FAG-basis 具有更高的能效提升.图 10 4 种配置的性能

39、和能效比较 4 结语本文提出一种用于 3D GANs 的频域加速器960 计算机辅助设计与图形学学报第 35 卷 FAG,并提出一种能够支持频域卷积和反卷积计算的调度流.FAG和调度流可同时支持利用频域数据重用特性、频域共轭对称特性和反卷积的上采样零插入重复模式,实现有效地提升性能和减少数据移动.与具有代表性的频域加速器相比,FAG 可使性能提高 76%,能效提高 141%;与具有代表性的空间域加速器相比,FAG 性能提高 6 倍,能效提高 46 倍.参考文献(References):1 Mao X D,Li Q,Xie H R,et al.Least squares generativ

40、e ad-versarial networksC/Proceedings of the IEEE International Conference on Computer Vision.Los Alamitos:IEEE Com-puter Society Press,2017:2813-2821 2 Wu J J,Zhang C K,Xue T F,et al.Learning a probabilistic la-tent space of object shapes via 3D generative-adversarial mod-elingOL.2021-11-01.https:/a

41、rxiv.org/abs/1610.07584 3 Yazdanbakhsh A,Samadi K,Kim N S,et al.GANAX:a uni-fied MIMD-SIMD acceleration for generative adversarial net-worksC/Proceedings of the 45th ACM/IEEE Annual Inter-national Symposium on Computer Architecture.Los Alamitos:IEEE Computer Society Press,2018:650-661 4 Good I J.The

42、 interaction algorithm and practical Fourier analysisJ.Journal of the Royal Statistical Society:Series B(Methodological),1958,20(2):361-372 5 Tutatchikov V S.Two-dimensional fast Fourier transform:bat-terfly in analog of Cooley-Tukey algorithmC/Proceedings of the 11th International Forum on Strategi

43、c Technology.Los Alamitos:IEEE Computer Society Press,2016:495-498 6 Mathieu M,Henaff M,LeCun Y.Fast training of convolutional networks through FFTsOL.2021-11-01.https:/arxiv.org/abs/1312.5851 7 Vasilache N,Johnson J,Mathieu M,et al.Fast convolutional nets with fbfft:a GPU performance evaluationOL.2

44、021-11-01.https:/arxiv.org/abs/1412.7580 8 Pei S C,Ding J J,Chang J H.Efficient implementation of qua-ternion Fourier transform,convolution,and correlation by 2-D complex FFTJ.IEEE Transactions on Signal Processing,2001,49(11):2783-2797 9 Feng Y,Whatmough P,Zhu Y H.ASV:accelerated stereo vi-sion sys

45、temC/Proceedings of the 52nd Annual IEEE/ACM International Symposium on Microarchitecture.Los Alamitos:IEEE Computer Society Press,2019:643-656 10 Xu D W,Tu K J,Wang Y,et al.FCN-engine:accelerating deconvolutional layers in classic CNN processorsC/Proceedings of the International Conference on Com-p

46、uter-Aided Design.New York:ACM Press,2018:1-6 11 Ko J H,Mudassar B,Na T,et al.Design of an energy-efficient accelerator for training of convolutional neural networks using frequency-domain computationC/Proceedings of the 54th ACM/EDAC/IEEE Design Automation Conference.New York:ACM Press,2017:Article

47、 No.59 12 Blanchet G,Charbit M.Digital signal and image processing using MATLABM.New York:John Wiley&Sons,2015 13 Chen T S,Du Z D,Sun N H,et al.DianNao:a small-footprint high-throughput accelerator for ubiquitous machine-learningJ.ACM SIGARCH Computer Architecture News,2014,42(1):269-284 14 Zhang X,

48、Karaman S,Chang S F.Detecting and simulating ar-tifacts in GAN fake imagesC/Proceedings of the IEEE In-ternational Workshop on Information Forensics and Security.Los Alamitos:IEEE Computer Society Press,2019:1-6 15 Han S,Liu X Y,Mao H Z,et al.EIE:efficient inference engine on compressed deep neural

49、networkJ.ACM SIGARCH Com-puter Architecture News,2016,44(3):243-254 16 Chen Y H,Krishna T,Emer J S,et al.Eyeriss:an en-ergy-efficient reconfigurable accelerator for deep convolutional neural networksJ.IEEE Journal of Solid-State Circuits,2017,52(1):127-138 17 Chen Y H,Emer J,Sze V.Eyeriss:a spatial

50、architecture for en-ergy-efficient dataflow for convolutional neural networksC/Proceedings of the 43rd ACM/IEEE Annual International Symposium on Computer Architecture.Los Alamitos:IEEE Computer Society Press,2016:367-379 18 Wang Y C,Wang Y,Li H W,et al.Systolic cube:a spatial 3D CNN accelerator arc

展开阅读全文