信号处理与深度学习硬件加速的一致性计算结构_高彦钊.pdf

资源描述

1、第 45 卷第 2 期国防科技大学学报Vol 45 No 22023 年 4 月JOUNAL OF NATIONAL UNIVESITY OF DEFENSE TECHNOLOGYApr 2023doi:10 11887/j cn 202302013http:/journal nudt edu cn信号处理与深度学习硬件加速的一致性计算结构*高彦钊1，陶常勇2(1 战略支援部队信息工程大学，河南郑州450001;2 天津市滨海新区信息技术创新中心，天津300450)摘要:在计算需求层面对多种典型信号处理算法与深度学习算法进行了分析与模块化分解，提取了两类应用共有的且适合并行硬件加速的计算模

2、块，提出了信号处理与深度学习的一致性计算模型，并基于一致性计算模型设计了控制与计算分离的层次化处理单元与阵列化计算结构。通过对不同应用计算过程的软件定义能够实现信号处理与深度学习的一致性硬件加速计算，基于 Zynq 计算平台从重构效率与计算性能两个方面对一致性计算模型与计算结构进行了验证，结果表明:基于一致性计算模型的软件定义可重构计算结构，具有较高的计算性能与重构效率。关键词:深度学习;信号处理;硬件加速;计算结构中图分类号:TP391文献标志码:A文章编号:1001 2486(2023)02 112 09Hardware accelerated consistent computing s

3、tructure forsignal processing and deep learningGAO Yanzhao1，TAO Changyong2(1 Strategic Support Force Information Engineering University，Zhengzhou 450001，China;2 Information technology Innovation Center of Tianjin Binhai New Area，Tianjin 300450，China)Abstract:A variety of typical signal processing al

4、gorithms and deep learning algorithms were analyzed and modularized from the calculationrequirements level The computing modules，which were suitable for hardware acceleration parallelly in the two types of applications were extractedA consistent computing model for signal processing and deep learnin

5、g was proposed，and a hierarchical processing element and arrayed processingstructure were proposed based on the consistent computing model in which the control part and computation part were separated By the softwaredefinition of different application computing processes，the consistent hardware-acce

6、lerated computation of signal processing and deep learning couldbe realized flexibly Based on Zynq computing platform，the consistency computing model and computing structure were verified from two aspects ofreconstruction efficiency and computing performance The validation results indicate that soft

7、ware-defined reconfigurable computing structures basedon consistency computing models have high computational performance and reconstruction efficiencyKeywords:deep learning;signal processing;hardware acceleration;computing structure近年来，人工智能技术的飞速发展与广泛应用对现代战争1 2、工业范式3 4 以及日常生活5 6 产生了深刻的影响，尤其是随着边缘设备与移

8、动终端的广泛使用，对未来计算系统提出了更高的要求。从应用需求角度看，虽然人工智能计算任务在计算系统中占据的比重越来越大，但是在当前以及未来很长的一段时间内，信号或信息处理等科学计算仍然是计算系统任务的重要组成部分。因此，未来计算系统不仅需要支撑深度学习等人工智能处理任务，而且必须能够承担诸如信号处理等科学计算任务。如:基于深度学习的目标检测任务中，复杂天气状况可能会导致图像模糊，需要通过传统信号处理技术对模糊图像进行去雾和图像增强等预处理，然后再采用人工智能算法进行目标检测;对语音识别任务，为了消除人类发声器官本身和语音信号采集设备所带来的混叠和高次谐波失真等因素的影响，必须通过传统信号处理技

9、术对其进行预加重、分帧、加窗等预处理操作，以保证人工智能语音识别阶段的信号更均匀、平滑。传统信号处理与深度学习在算法与成熟度等层面存在较大差异，两者的研究与应用一直呈相对割裂的状态，因此人工智能计算系统往往缺乏对传统信号处理的支持能力，很难实现端到端*收稿日期:2021 04 08基金项目:国家科技重大专项核高基资助项目(2016ZX01012101)作者简介:高彦钊(1984)，男，河北平山人，助理研究员，博士，E-mail:buaagaoyz sina com;陶常勇(通信作者)，男，山东莱芜人，高级工程师，硕士，E-mail:tcy ndsc com cn第 2 期高彦钊，等:信号处理与

10、深度学习硬件加速的一致性计算结构的全流程处理，对信号处理部分需要添加额外的处理模块。然而，一方面深度学习研究热点如卷积神经网络(convolutionalneuralnetworks，CNN)、循环神经网络(recurrent neural network，NN)等算法的计算中包含大量的、可并行化处理的数值计算;另一方面信号处理不论应用场景为何、处理对象为何、计算方法为何、计算器件为何，其计算方法优化、计算过程管理以及计算资源分配等都在逐步向智能化方向发展。因此，两者之间不仅具有明显的相通之处，而且具有强烈的相互支撑、融合发展的必要性。从计算需求角度看，在数据量爆炸的信息时代，不论是信

11、号处理还是深度学习，均朝着海量数据的实时处理、计算方法灵活调整、计算功耗有效降低、计算过程智能管控以及计算系统稳健可靠等目标发展。在摩尔定律与 Dennard 缩放定律逐步放缓的历史背景下，单纯依靠工艺水平的提高或者在冯诺依曼计算架构下从单核到众核的扩展已经很难应对上述问题。因此，基于粗粒度可重构计算等新型计算方式实现对计算任务的硬件加速受到了越来越多的关注。对此，本文针对信号处理与深度学习一体化硬件加速需求，在深入分析多种典型信号处理算法与深度学习算法的基础上，针对两者在同一硬件平台加速的计算需求，提出了两者一致性硬件加速的计算方法，并基于软件定义硬件以及可重构计算技术，设计并分析了硬件加速

12、的一致性计算结构，为信号处理与深度学习两大类应用的一体化硬件加速提供了可行的技术思路。1典型信号算法分析1 1空时自适应处理方法空时自适应处理(space-timeadaptiveprocessing，STAP)是基于一维空域滤波技术发展而来的，目前已成为信号处理领域的重要研究方向。从相控阵雷达各子阵下行信号开始到恒虚警率(constant false alarm rate，CFA)检测报告，以m 个时域维度(m-dimension time-domain，mDT)算法7 为基础的 STAP 信号处理流程及其主要计算模块如图 1 所示。1 2脉冲多普勒处理方法脉冲多普勒(pulse

13、 Doppler，PD)雷达是基于多普勒原理的雷达体制，在距离分辨力、速度分辨力以及杂波抑制等方面具有非常突出的能力，能在强杂波背景中分辨出运动目标8 9。PD 处理流程及其主要计算模块如图 2 所示。图 1STAP 算法流程及其主要计算模块Fig1STAP algorithm flow and its main calculation module图 2PD 算法流程及其主要计算模块Fig2PD algorithm flow and its main calculation module1 3大斜视合成孔径雷达成像合成孔径雷达(synthetic aperture radar，SA)

14、采用脉冲压缩技术和合成孔径原理实现地面场景全天候、全天时以及远距离成像。与正侧视 SA 成像相比，大斜视 SA 成像具有更好的机动性，可通过调整天线指向对感兴趣区域进行多次重复观测10 11。大斜视 SA 成像处理流程及其主要计算模块如图 3 所示。1 4遥感光学图像目标识别对于遥感光学卫星影像中的舰船目标识别问题，为了解决云杂波、海杂波以及舰船浪迹等造成的干扰，克服不同目标尺寸大小对检测带来的困难，文献 12 13 提出了无监督的基于视觉显著性与舰船方向梯度直方图(ship histogram oforiented gradient，S-HOG)描述子的遥感光学图像目标识别

15、算法，其处理流程及主要计算模块如图 4所示。311国防科技大学学报第 45 卷图 3大斜视 SA 成像算法流程及其主要计算模块Fig 3Algorithm flow of high-squint SA imaging andits main computing module图4遥感光学图像目标识别算法流程及其主要计算模块Fig 4emote sensing optical image target recognitionalgorithm flow and its main computing module2典型深度学习算法分析2 1卷积神经网络CNN 属于前馈型神经网络，是目前

16、深度学习领域非常具有代表性的神经网络之一，在大型图像处理方面表现出色，目前已广泛应用于图像分类、目标定位等领域。以 LeNet 514 为例，CNN的处理流程及主要计算模块如图 5所示。图 5CNN 算法流程及其主要计算模块Fig 5CNN algorithm flow and its main computing modules2 2循环神经网络NN 与 CNN 不同，以序列数据作为输入，通过对时序数据进行学习实现上下文信息的存储与表达，具有记忆性与参数共享性，是一种全连接神经网络，已经在自然语言处理领域广泛应用，如语音识别、文本分类和情景分析等。其处理流程与主要计算模块如图 6 所示。图

17、6NN 算法流程及其主要计算模块Fig6NN algorithm flow and its main computing modules3一致性计算方法通过上述对一维脉冲处理、二维脉冲处理、二维 SA 成像、SA 图像解译、CNN 以及 NN 等多个典型算法及其主要计算模块的分析，虽然应用场景不同，计算算法不同，但是其主要计算模块包括 FFT/IFFT、矩阵乘法、矩阵求逆、卷积计算、比411第 2 期高彦钊，等:信号处理与深度学习硬件加速的一致性计算结构较、排序、复数乘法等。其中，适合基于硬件大规模并行加速计算的模块为 FFT/IFFT、矩阵乘法、矩阵求逆以及卷积计算四类。而事实上，这些计算模

18、块也是信号处理与深度学习硬件加速的主要研究对象15 20。3 1计算模型3.1.1FFT/IFFT根据 FFT 计算方法，按频率抽取(decimation-in-frequency，DIF)的基 2 蝶形计算表达式为:Y1=1X1+2X2Y2=1X1 2X2(1)同样，按频率抽取的基 4 蝶形计算表达式为:Y1=1X1+2X2+3X3+4X4Y2=1X1 2X2 j3X3+j4X4Y3=1X1+2X2 3X3 4X4Y4=1X1 2X2+j3X3 j4X4(2)其中:Yi(i=1，2，3，4)表示蝶形运算计算结果;i(i=1，2，3，4)表示蝶形运算的旋转因子;Xi(i=1，2，3，4)表示蝶

19、形运算输入。3.1.2矩阵乘法假设矩阵 Y=AB，其中 A=aiji=1，2，M;j=1，2，K，B=biji=1，2，K;j=1，2，N，则矩阵 Y 的任一元素 yij(i=1，2，M;j=1，2，N)表示为:yij=Kk=1aikbkj(3)3.1.3矩阵求逆采用基于 LU 分解的矩阵求逆方法计算矩阵A=aiji=1，2，N;j=1，2，N 的逆矩阵Y=yiji=1，2，N;j=1，2，N，包括三个步骤:1)LU 分解，将矩阵 A 分解为上三角矩阵U=uiji=1，2，N;j=1，2，N 与下三角矩阵L=liji=1，2，N;j=1，2，N，其计算表达式为:uij=aiji=1;j=1，N

20、arjr1k=1lrkukjr=1，N;j=r，N(4)lij=aij/u11i=1;j=1，Naijj1k=1likukjujji=j+1，N;j=1，N(5)2)L 与 U 求逆，假设矩阵 L 的逆矩阵表示为V=viji=1，2，N;j=1，2，N，矩阵 U 的逆矩阵表示为 =riji=1，2，N;j=1，2，N，其计算表达式分别为:vji=l1iii=j vii(jk=i+1vjklki)i j0i j(6)rij=u1iii=j vii(jk=i+1uikrkj)i j0i j(7)3)L 与 U 乘法，其计算表达式为:yij=Nk=1rikvkji=1，N;j=1，N(8)3.1.4

21、卷积计算假设 3 3 维卷积核为 W=wiji=1，2，3;j=1，2，3，输入图像为 A=aiji=1，2，N;j=1，2，N，卷积结果为 Y=yiji=1，2，N 2;j=1，2，N 2。则卷积计算结果的任意元素 yij表示为:yij=w11ai 1，j 1+w12ai 1，j+w13ai 1，j+1+w21ai，j 1+w22aij+w23ai，j+1+w31ai+1，j 1+w32ai+1，j+w33ai+1，j+1(9)不论 FFT/IFFT、矩阵乘法、矩阵求逆还是卷积计算，如果将其计算输入视为矩阵(其维数可变，且包含一维向量)，综合式(1)(9)，上述计算的数学模型可一致性表示为:

22、yij=aijbij+c()ijdij(10)式中，aij、bij、cij、dij分别是四个计算输入矩阵 A、B、C、D 中的元素，yij为结果矩阵 Y 中的元素。基于式(10)，可以一致性描述 FFT/IFFT、矩阵乘法、矩阵求逆以及卷积计算等不同类型计算任务的计算过程。在不同类型计算任务的计算过程中，计算结果 yij的角标变化规律(表征着计算结果的输出顺序)以及与 yij的计算相对应的 aij、bij、cij、dij的角标变化规律是有所不同的，能够根据实际需求进行软件定义。一般来说，基于式(10)的一致性计算公式，各类型计算任务的计算过程主要包括:根据计算过程设计确定计算结果 yij角标

23、i 与 j的变化规律;确定实现元素 yij计算所需要的输入 aij、bij、cij以及 dij的集合及其地址变化规律;将所需输入元素集合从存储器中读取出来并组成算式;通过乘累加模块组成的算粒完成计算过程，并回传 yij的计算结果。511国防科技大学学报第 45 卷3 2计算结构3 2 1处理单元结构虽然 FFT/IFFT、矩阵乘法、矩阵求逆以及卷积计算等不同的计算模块可一致性表示为式(10)，但在针对不同计算的具体执行过程中，计算结果的跳变顺序及其对应的计算输入组成方式均有不同。对此，基于式(10)设计的控制与计算分离的层次化软件定

24、义可重构处理单元(processing element，PE)结构设计如图 7 所示。图 7计算结构示意Fig 7Schematic diagram of calculation structure在逻辑上 PE 共分为三层，自上而下依次为算法控制层、数据调度层以及计算执行层。其中:算法控制层由多个算式规则控制模块(表示为五角星)组成，每个规则控制模块以软件定义的方式实现对不同计算功能的过程控制，解决“怎么算”的问题，即通过计算结果 Y 的跳变顺序实现计算进程的控制;数据调度层由多块随机存取存储器(random access memory，AM)组成的分布式数据存储空间(以田字

25、格表示)与算式生成模块(由小圆圈表示)组成，计算数据按不同的存储方式分散存储在多个 AM 中，并可在层内进行灵活调度，而算式生成模块响应上一层的控制流信息，完成数据的读写访问，解决“算什么”的问题，即根据 Y 的跳变顺序实现计算输入 A、B、C、D 对应元素的选择，并完成计算数据读取;计算执行层由多组乘法器、加法器、累加器、比较器组成，接收待计算数据进行计算并返回计算结果，解决“具体算”的问题，即根据计算输入 A、B、C、D 元素选择执行具体的计算。同层内各模块之间可以进行信号或数据交互，如:算法控制层各算式规则控制模块之间可以进行控制信号交互，数据调度层各算式生成模块可以读取各个 AM 的数

26、据，计算执行层内相同的计算模块可以共同完成同一个算式的计算任务等。层间不同模块之间也可实现灵活连接，如:算式规则控制模块可与数据调度层相应位置及其周围的算式生成模块相连接，算式生成模块可与计算执行层相应位置及其周围的计算模块相连接。在计算过程中，配置流先于数据流下发，完成对计算结构的配置，包括模块功能、数据存取以及模块互连等，适应不同的计算任务。1)算法控制层。不同计算任务可采用不同计算跳转顺序与数据组织形式完成。在计算跳转顺序方面，将算法控制过程分为两个层次:算式间循环控制与算式内循环控制，如图 8 所示。算式间循环控制是第一层循环，指示计算结果 Y 的元素的角标跳转顺序，即计算过程的推进顺

27、序，可以有多种安排方式，根据计算需求而设定;算式内循环控制是第二层循环，指示与当前 Y 计算对应的计算输入 A、B、C、D 的元素的角标解析。在两层循环控制下，不仅可实现不同计算任务的计算顺序控制，而且可快速实现不同计算阶段待计算数据的解析、输入以及存取等，保证计算效率的提升。在数据组织形式方面，根据不同算式间的数据是否可复用将四种应用的计算算式分为两类:组合算式与非组合算式。其中组合算式包括 FFT/IFFT、矩阵乘法与卷积计算，其特点是相邻算式间的计算输入数据可复用，一次数据读取可用于多个算式的计算;非组合算式包括矩阵求逆，其特点是相邻算式间的计算输入数据不可复用，一次数据读取仅用于当前的

28、计算。在组合算式中，充分利用数据复用特性可有效减少数据存取。图 8算法控制模块Fig 8Algorithm control module2)数据调度层。数据调度接收并解析上层指令，完成数据读取、组合与下发，其功能包括:将待计算数据按计算需求的方式进行分布式存储，包括按矩阵行列存储、按上下三角矩阵分别存611第 2 期高彦钊，等:信号处理与深度学习硬件加速的一致性计算结构储、按矩阵元素奇偶分别存储等方式;算式生成模块按照算式规则控制模块指示实现从 AM 阵列中任意 AM 中读取相关待计算数据;算式生成模块将所读取的数据组成算式并下发至计算执行层;根据算式规则控制模块指示将计算执行层返回的计算结果

29、按一定的方式存入相应的AM 阵列中。其结构示意如图 9 所示，包括AM 阵列与算式生成模块，数字用来标识各自的位置。对 AM 阵列与算式生成模块的索引格式为二元组(i，j)，分别表示其行列号。则算式生成模块与 AM 阵列的位置号是统一的，便于通过配置信息指定相应的路由选择策略，并能够实现任意一个算式生成模块从任意 AM 中进行数据存取。图 9数据调度层组成示意Fig 9Schematic diagram of data scheduling layer3)计算执行层。根据式(10)，计算执行层中计算模块必须包含多个复数乘法器、复数加法器、复数累加器等基本单元，其中复数乘法器包含四个实数乘法器与

30、两个实数加法器，复数加法器包含两个实数加法器。根据计算场景不同，复数乘法器与复数加法器既可以实现复数乘加运算，也可根据配置信息拆分进行多个实数乘加运算。另外，多个复数乘加运算模块既可单个依次完成一个算式的计算，也可多个并行共同完成一个算式的计算。计算结果通过互连结构返回上层算式生成模块，并根据算法控制模块的指令要求存入相应的 AM 阵列中。3 2 2阵列结构实现硬件加速的关键在于提高计算能力和数据传输速度21 22，因此，除了 PE 本身的设计外，由 PE 组成阵列化计算结构实现数据高效传输非常重要。从 PE 的角度看整个计算架构，以3 3个 PE 组成计算阵列为例，内部由 PE 阵列及数据

31、通路与配置通路组成，并通过串行apidIO(serial apidIO，SIO)接口、双倍速率同步动态随机存储器(double data rate synchronousdynamic random access memory，DD SDAM)(简称 DD)接口以及本地管理接口与外部连接，其具体组成与互联结构如图 10 所示。阵列结构各模块功能如下:1)PE 模块:用于完成不同的计算任务，主要包括算法控制层模块、数据调度层模块以及计算执行层模块三大部分。2)PE 状态控制模块:用于对阵列中的各个PE 状态进行控制实现多 PE 之间的工作协同，主要包括 PE 接口配置、

32、PE 状态控制(包括空闲、启动、工作及结束等)、PE 间数据流向控制等。3)Localbus 转 AXI_lite 模块:完成外部软件定义配置或控制命令格式向本地总线格式的转化。4)AXI_crossbar 模块:实现软件定义配置向各个 PE、DMA0、DMA1 等模块的路由。5)网络接口模块:自定义 PE 接口与互联网络技术(未在图中标识)，实现数据在 PE 之间的路由传输。6)DMA0 模块:实现 PE 阵列与外部 SIO 接口之间的数据传输。7)DMA1 模块:实现 PE 阵列与外部 DD 接口之间的数据传输。8)封解包模块:实现 DMA0 与 SIO 接口之间的数据组帧与切帧。9)SI

33、O 接口:实现 PE 阵列数据与片外或板间的数据交互。10)DD 接口:实现 DD 集中式大数据存储与 PE 阵列之间的数据交互。11)本地管理接口:实现本地软件定义配置或控制指令下发。通过控制与计算分离的层次化 PE 设计、分布式存储结构设计以及柔性可定义互连结构设计，可实现数据位宽可定义(64 bit 或 32 bit)、PE功能可定义(FFT、矩阵乘法、矩阵求逆、卷积计算)、数据通道可定义(PE 之间全互联、数据流程可规划)以及计算模式可定义(阵列分割支持时空域计算)等多尺度灵活可重构、兼顾灵活性与高效性的优势。711国防科技大学学报第 45 卷图 10由 PE 组成的计算

34、阵列Fig 10Computing array composed of PE4实验验证4 1实验环境基于本文计算结构的信号处理与深度学习硬件加速的验证实验基于 Xilinx 的 Zynq 开发板(型号为 ZC706)开展，验证环境结构如图 11 所示，其中设计计算阵列 PE 数量为 2 3 个。PC 机通过JTAG 加载 Zynq 逻辑文件，并通过 AT 和以太网接口与 Zynq 上的 AM 核进行通信。Zynq 的PS 外挂 DD、Flash 和以太网 PHY，PS 的 AM 内核工作频率为 667 MHz，DD 接口工作频率为533 MHz，计算阵列工作频率为 100 MHz，计算精度为单

35、精度浮点，复数数据宽度为 64 bit，实数数据宽度为 32 bit。图 11验证环境结构Fig 11Verification environment structure4 2实验结果4.2.1实验一:计算阵列重构效率单个 PE 配置文件为 25.6 Kbit，全阵列 6 个PE 配置文件为 153.6 Kbit，包括算法控制层中算式间循环控制配置与算式内循环控制配置、数据调度层中数据存储方式配置与数据读取方式配置、计算执行层中对计算模块的配置以及计算阵列中数据传输路径的配置四个部分。在配置数据通路位宽为 32 bit、时钟频率为 50 MHz 的条件下，实现单个 PE 的配置耗时 19.2

36、s，实现全阵列6 个 PE 的配置耗时115.2 s，与 FPGA 秒级的bit 文件加载时间相比，具有巨大的重构效率优势。4.2.2实验二:FFT 计算性能将本文计算结构实现1 K 点 FFT 的计算性能与其他处理器进行对比，包括 ASP23 可重构处理器 NoC24、MorphoSys25 以及 TI 公司 C6678等。因各类处理器的工作时钟频率不同，本文所提计算结构的工作频率仅为 100 MHz，为方便比较，将本文方法的计算时间按时钟频率为 1 GHz进行等比例折算。考虑到 FFT 计算对数据分布无要求，主要考量计算结果的正确性，因此计算数据集随机生成，数据精度为单精度浮点，数据位宽为

37、 64 bit(实部虚部各 32 bit)。各类处理器的FFT 计算性能对比见表 1。表 1FFT 计算时间对比Tab 1Comparison of calculation time of FFT处理器ASPNoCMorphoSysC6678本文方法计算时间/s2 5776 307 4012 501 26从表 1 中可以看出，基于本文一致性计算方811第 2 期高彦钊，等:信号处理与深度学习硬件加速的一致性计算结构法及可重构计算结构实现 1 K 点单精度浮点 FFT计算仅需 1.26 s，计算性能是 ASP 的 2.04 倍，是 NoC 的 60.56 倍。4.2.3实验三:矩阵乘法计算性能将

38、本文计算结构实现单精度浮点实数的两个128 128 维矩阵相乘的计算性能与其他基于FPGA 的矩阵乘法器进行对比。考虑到矩阵乘法计算对数据分布无要求，主要考量计算结果的正确性，因此随机生成计算数据集，数据精度为单精度浮点，数据位宽为 32 bit。与文献中各硬件加速结构计算性能的对比见表 2。从表中可以看出，基于本文一致性计算结构实现矩阵乘法计算在同工作时钟频率下优于基于 FPGA 的矩阵乘法计算性能。表 2矩阵乘法计算时间对比Tab2Comparison of calculation time of matrix multiplication计算性能方法一26 方法二27 本文方法矩阵维数1

39、00 100128 128128 128时钟频率/MHz60250100计算时间/s1 35198630908 764.2.4实验四:矩阵求逆计算性能将本文计算结构实现单精度浮点实数的32 32 维矩阵求逆的计算性能与其他基于 FPGA 的矩阵求逆计算器进行对比。计算数据集随机生成，数据精度为单精度浮点，数据位宽为 32 bit。与文献中各硬件加速结构计算性能对比见表 3。在相同工作时钟频率下，针对相同维数的矩阵求逆计算本文方法优于其他基于 FPGA 的矩阵求逆计算性能。表 3矩阵求逆计算时间对比Tab3Comparison of calculation time of matrix inve

40、rse计算性能方法一28 方法二29 方法三30 本文方法矩阵维数32 3232 3232 3232 32时钟频率/MHz100100100100计算时间/s70 8153 82873448 365结论本文在对信号处理与深度学习典型算法分析的基础上，提取了两类应用共有且适合并行加速的计算模块，提出了信号处理与深度学习的一致性硬件加速计算模型并设计了控制与计算分离的层次化软件定义可重构计算结构，在该结构中通过 PE 内算法控制、数据调度以及计算执行等层次化设计、分布式存储结构设计以及 PE 间软件定义互连设计，能够实现 PE 内与 PE 间多尺度灵活重构，不仅可以满足信号处理与深度学习典型计算算

41、法的一体化硬件加速需求，而且基于 FFT、矩阵乘法与矩阵求逆等模块从重构效率和计算性能两个方面与多类硬件加速结构进行了对比，实验验证结果表明，该计算结构具有较高的灵活性与计算性能。参考文献(eferences)1孙强人工智能对现代战争的影响J 数码世界，2018(5):446SUN QThe influence of artificial intelligence on modernwarfareJ Digital Space，2018(5):446(in Chinese)2陆震人工智能在军用机器人的应用J 兵器装备工程学报，2019，40(5):1 5LU ZMilitary robot

42、s and AIJJournal of OrdnanceEquipment Engineering，2019，40(5):1 5(in Chinese)3胡冰洋推动我国第四次工业革命及颠覆性技术创新的分析和建议J 中国经贸导刊，2019(15):30 33HU B Y Analysis and suggestions on promoting the fourthindustrial revolution and subversive technological innovation inChinaJ China Economic Trade Herald，2019(15):30 33(in

43、 Chinese)4薛加玉人工智能赋能制造业转型升级J 现代工业经济和信息化，2019，9(3):9 10，16XUE J YTransformation and upgrading of AI enablingmanufacturing industryJ Modern Industrial Economy andInformationization，2019，9(3):9 10，16(in Chinese)5曾伟良，吴淼森，孙为军，等自动驾驶出租车调度系统研究综述J 计算机科学，2020，47(5):181 189ZENG W L，WU M S，SUN W J，et al Compre

44、hensivereview of autonomous taxi dispatching systemsJ ComputerScience，2020，47(5):181 189(in Chinese)6谢林利智慧城市中基于异构物联网的智慧家居J 计算机科学与应用，2020(1):29 34XIE L LSmart home based on heterogeneous internet ofthings in smart cityJ Computer Science and Application，2020(1):29 34(in Chinese)7向聪，冯大政，和洁机载雷达三维空时两级降

45、维自适应处理J 电子与信息学报，2010，32(8):1869 1873XIANG C，FENG D Z，HE J Three-dimensional spatial-temporal two-step dimension-reduced adaptive processing forairborne radarJJournal of Electronics InformationTechnology，2010，32(8):1869 1873(in Chinese)8袁兴生，段红，姚新宇，等脉冲多普勒雷达信号处理仿真系统研究J 计算机应用，2009，29(增刊 2):294 296，300Y

46、UAN X S，DUAN H，YAO X Y，et al Study of signalprocessing simulation system of PD radarJJournal ofComputer Applications，2009，29(Suppl 2):294 296，300(in Chinese)9姚旺，金红新，赵鹏飞，等基于多 DSP 的 PD 脉冲压缩雷达信号处理机的设计J 电子技术应用，2017，43(7):51 54YAO W，JIN H X，ZHAO P F，et al Design of PD radarsignal processor based on mult

47、i-DSPJApplication of911国防科技大学学报第 45 卷Electronic Technique，2017，43(7):51 54(in Chinese)10顾福飞，张群，杨秋，等基于 NCS 算子的大斜视 SA 压缩感知成像方法 J 雷达学报，2016，5(1):16 24GU F F，ZHANG Q，YANG Q，et al Compressed sensingimaging algorithmforhigh-squintSAbasedonNCSoperatorJ Journal of adars，2016，5(1):16 24(inChinese)11李

48、震宇，陈溅来，梁毅，等带有多普勒中心空变校正的大斜视 SA 成像方法J 西安电子科技大学学报，2016，43(3):19 24LI Z Y，CHEN J L，LIANG Y，et al Imaging method forhighly squinted SA with spatially-variant Doppler centroidcorrectionJ Journal of Xidian University，2016，43(3):19 24(in Chinese)12漆昇翔视觉显著性及其在自动目标识别系统中的应用D 武汉:华中科技大学，2015QI S XVisual salien

49、cy detection with its applications inautomatic target recognition systemsD Wuhan:HuazhongUniversity of Science and Technology，2015(in Chinese)13白婷基于视觉显著性的红外小目标检测算法研究D武汉:华中科技大学，2016BAI T esearch algorithms of infrared small target detectionbased on visual saliencyD Wuhan:Huazhong Universityof Scienc

50、e and Technology，2016(in Chinese)14LECUN Y，BOTTOU L，BENGIO Y，et al Gradient-basedlearning applied to document recognitionJ Proceedings ofthe IEEE，1998，86(11):2278 2324 15龚彤艳，张广婷，贾海鹏，等一种偶数基 Cooley-TukeyFFT 高性能实现方法J 计算机科学，2020，47(1):31 39GONG T Y，ZHANG G T，JIA H P，et al High-performanceimplementation

展开阅读全文