Massive MIMO中通信高效的分布式预编码设计.pdf

资源描述

1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期通信学报 Vol.44 No.8Massive MIMO 中通信高效的分布式预编码设计李勉1,2,3，李洋2,3,4，张纵辉1,2，史清江2,5（1.香港中文大学（深圳）理工学院，广东深圳 518172；2.深圳市大数据研究院，广东深圳 518172；3.鹏城国家实验室，广东深圳 518055；4.琶洲实验室（黄埔），广东广州 510555；5.同济大学软件学院，上海 200092）摘要：针对多 BBU 基带处理架构，提出一种通信高效的分布式预编码方案，旨

2、在降低 BBU 间前传交互和计算复杂度。首先，提出基于 R-WMMSE 算法的分布式框架，利用最优解的子空间特性无损压缩交互数据，降低数据交互量。然后设计了 2 种基于矩阵乘法的可学习压缩模块，通过优化的计算结构和矩阵参数减少参数和计算量，并保持函数表达能力。最后，以可达速率为优化目标，将可学习模块和分布式预编码算法框架联合优化得到最终模型。所提方案可以在更低的数据交互和计算复杂度要求下，实现预编码性能的保障。关键词：分布式预编码；数据压缩；深度学习；联合优化中图分类号：TN929.53 文献标志码：A DOI:10.11959/j.issn.1000436x.2023147 Communi

3、cation-efficient distributed precoding design for Massive MIMO LI Mian1,2,3,LI Yang2,3,4,ZHANG Zonghui1,2,SHI Qingjiang2,5 1.School of Science and Engineering,The Chinese University of Hong Kong(Shenzhen),Shenzhen 518172,China 2.Shenzhen Research Institute of Big Data,Shenzhen 518172,China 3.Pengche

4、ng Laboratory,Shenzhen 518055,China 4.Pazhou Laboratory(Huangpu),Guangzhou 510555,China 5.School of Software Engineering,Tongji University,Shanghai 200092,China Abstract:A communication-efficient distributed precoding scheme was proposed for multi-baseband processing unit(BBU)baseband processing arc

5、hitecture,aiming to reduce fronthaul data exchange and computational complexity be-tween BBUs.Firstly,a distributed framework based on R-WMMSE algorithm was proposed,which utilized the subspace property of the optimal solution to compress the interactive data losslessly,thereby reducing data exchang

6、e.Furthermore,two learnable compression modules based on matrix multiplication were designed,using optimized computing structures and matrix parameters to reduce the parameters and computations while maintaining function expressiveness.Finally,the learnable modules and the distributed precoding fram

7、ework were jointly optimized with achievable rate as the optimiza-tion objective to obtain the final model.The proposed scheme can achieve guaranteed precoding performance under low-er requirements on data interaction and computational complexity Keywords:distributed precoding,data compression,deep

8、learning,joint optimization 收稿日期：20221205；修回日期：20230421 通信作者：史清江，基金项目：国家重点研发计划基金资助项目（No.2022YFA1003900）；国家自然科学基金资助项目（No.62071409,No.62231019,No.62101349）；深圳市科技基金资助项目（No.RCJC20210609104448114）；鹏城实验室重点基金资助项目（No.PCL2023AS1-2）Foundation Items:The National Key Research and Development Program of China(N

9、o.2022YFA1003900),The National NaturalScience Foundation of China(No.62071409,No.62231019,No.62101349),Shenzhen Science and Technology Program(No.RCJC20210609104448114),Major Key Project of Pengcheng Laboratory(No.PCL2023AS1-2)38 通信学报第 44 卷 0 引言大规模多输入多输出（Massive MIMO）是 5G及未来无线通信系统中的核心技术1-2，其核心思

10、想是给基站配置几十乃至数百根天线，同时为几十个用户提供高质量的通信服务。大量天线的加持极大地提高了基带处理的空间分辨率，从而有效提升了通信系统的频谱效率3。此外，Massive MIMO 可以利用终端移动的随机性、信道衰落的不相关性、不同用户间信道的近似正交性降低用户间干扰和误码率，实现多用户空分复用。基于以上特点，近年来，Massive MIMO 在 LTE 演进、5G 和 6G 领域被广泛讨论4。Massive MIMO 也给无线系统的实现带来了巨大的挑战。一方面，天线数量的增加大幅提高了基带处理任务的复杂度，这对芯片的处理性能提出了极高的要求；另一方面，Massive MIMO 系统需要

11、支持大量天线，因此需要在芯片设计中综合考虑天线数量、布局、尺寸等复杂因素。这两方面因素导致单基带处理单元（BBU）芯片系统在成本和技术难度上缺乏优势，因此无线设施供应商都转向了多BBU 芯片基站系统的方案。多 BBU 系统支持灵活可扩展的部署，根据基站天线数量要求调整芯片数量。将基带处理任务分配到多块芯片上进行，降低了对芯片处理性能的要求，是一种可行且经济的设计。主流的基于多 BBU系统的天线阵列可以把天线数量做到 192 甚至更多，但是在进一步增加天线数量时会遇到数据交互，也就是前传流量带宽的瓶颈。具体而言，当多个BBU 芯片联合进行基带处理时，芯片间的数据交互量随着天线数量的增加而增长，最

12、终变得难以承载。例如，考虑一个配备 256 根天线、12 bit 模数转换器（ADC,analog to digital converter）的基站，当带宽为 80 MHz 时，基站 BBU 的前传速率需求将达到 1 Tbit/s，而这样的高数据速率已经超出了现有数据互联标准的承受能力5-7。分布式基带处理系统的 BBU 间过高的前传流量是阻碍更大规模天线阵列发展的重要因素，是工业界在攻克512天线乃至1 024天线Massive MIMO系统的过程中必须解决的问题。除了研究更高数据交换速度的总线互联接口，另一个值得重点研究的问题是如何从算法层面降低多 BBU 系统的前传流量。工业界的多 BB

13、U 系统通常基于“中心节点分布式节点”的系统架构，其特点是分布式节点处理局部天线数据，中心节点融合处理全局天线数据，达到和集中式算法等效的结果，通用的优化前传流量的手段主要还是直接的数据压缩，如离散傅里叶变换（DFT）去噪、量化压缩8等。如何在保证性能的前提下优化分布式预编码算法的性能是本文考虑的核心问题。学术界关于分布式预编码算法已经有一部分工作。最早的相关工作来自文献9-10。文献9-10首次提出了下行的分布式基带处理架构，并在该架构上设计了基于交替方向乘子法（ADMM,alternating di-rection method of multiplier）的迫零（ZF,zero forc

14、ing）11预编码算法。后来学术界又提出了基于坐标下降（CD,coordinate descent）5、维纳滤波（WF,Wiener filter）12、消息传递（MP,message passing）的近似 ZF 和最大比传输（MRT,maximal ratio transmission）的方法13。以上工作假定节点之间的连接速率十分受限，因此和工业界的应用仍存在一定割裂的现象，并且由于 MRC 和 ZF 预编码的性能不佳，应用潜力不大。在线性预编码算法领域，WMMSE（weighted minimum mean squared error）14在至今十多年来一直被视为性能上界的标准。尽管其

15、计算复杂度很高，但是随着移动互联网对预编码算法性能要求的不断提升，WMMSE 也逐渐被部署到现网中。目前，学术界还没有关于 WMMSE 的分布式预编码算法的工作，而前述分布式预编码工作以 ZF 预编码作为近似性能的上界，同场景下参考价值较低。因此在评估本文算法的性能时，将以集中式 ZF、集中式 WMMSE 算法作为对比算法。本文提出了一种通信高效的分布式预编码方案，其核心思想为分布式算法框架与可学习数据压缩模块的有机结合。该方案的基础是一种基于WMMSE 预编码的分布式变体，被称为分布式R-WMMSE15算法。通过向该算法框架中引入可学习模块并进行联合优化，保证了预编码的性能并实现了前传交互的

16、优化。所提方案对可学习压缩模块采用极简的设计，实现了预编码性能和前传交互之间的良好折中。仿真表明，相对于经典的 WMMSE算法，本文所提算法在保证预编码性能的前提下，大大降低了前传流量带宽。1 系统模型 1.1 预编码问题本节首先介绍 Massive MIMO 中预编码问题的第 8 期李勉等：Massive MIMO 中通信高效的分布式预编码设计 39 数学建模。考虑一个M 根天线的基站向K 个用户发送信号，其中，用户k的数据流数为kD，总流数为kkDD；天线数为kN，总天线数为kkNN。用户k和基站间的信道矩阵为kNMkH，用户k的接收信号1kNky可以表示为 1,Kkkkkkjjkjj

17、 kkyH P sH P sn 用户的目标信号多用户信号干扰(1)其中，1kDks表示用户k的数据，满足Hkks sI；kM DkP表示用户k的预编码矩阵；1kNkn表示用户k处的加性白高斯噪声（AWGN），满足2 CN 0,kknI，2k表示用户k天线处的噪声功率。基站端根据下行信道信息求解不同用户的预编码矩阵。数学上，以最大化加权和速率（WSRM,weighted sum rate maximization）为目标，该问题可以表示为 11Hmax1maxlogdet ISINRs.t.T rkKKkkkkKkkkkPPPP P (2)其中，0k表示用户

18、k的权重，maxP表示基站的最大发射总功率。事实上，式(2)中目标函数是频谱效率的加权之和，其与带宽的积才是加权和速率。带宽在该优化问题中是常量，因此将频谱效率和可达速率作为目标函数是等效的，故本文也沿用相关工作14,16对该问题的称呼。用户k的信干噪比（SINR,signal-to-interference-and-noise ratio）为 HH112HHSINRKkkkkkkmmkkkkkmPP HIH P P HH P (3)Massive MIMO的一个重要优势是当基站天线数M大于用户天线数N时，随着M的增加，线性预编码的频谱效率可以逐渐接近理想的频谱效率17。反之，当MN时，信道线

19、性自相关程度会增加，导致频谱效率降低。在实际应用中，正常情况下基站工作于MN的状态。为了实现单用户频谱效率和能耗之间的良好折中，通常采用用户调度和天线关断等手段，以维持比值MN1在一个适当的范围内。本文的讨论也仅考虑MN的情形。1.2 分布式预编码多BBU系统采用星形拓扑架构执行分布式预编码。具体而言，系统将基站天线分成不同的簇，每簇天线对应一个局部的BBU，使每个BBU只负责局部信号的处理。同时，一个中央BBU节点处理对应的全局数据。这种多BBU系统能够适应更加灵活的天线数量和分布式的部署，相对于单BBU系统，它能够降低对处理芯片性能的要求。将基站天线划分为C簇，每个天线簇中的天线数为Mc

20、=MC，对应地，信道矩阵和预编码矩阵可以分别划分为 121111222212CCCKKKHHHHHHHHHH 111122221212KKCCCKPPPPPPPPPP(4)其中，kcNMckH表示第c簇天线和第k个用户间的信道矩阵，ckMDckP表示相应的预编码矩阵。第c簇天线对应的BBU存储了N MH的第c个列块12,ccccKHHHH。通过BBU的局部计算和联合交互处理，第c簇天线对应的BBU最终计算得到预编码M DP1KkkDD的第c行分块cP 12,cccKPPP，用于对应簇天线数据的预编码。本文考虑如图1所示的分布式基带处理星形架构，其由一个中心节点和C个局部节点（对应C簇天线的BB

21、U）组成。这种架构广为采用，其原因是它能够很好地适应天线分簇所产生的处理流程。天线分簇自然会产生“局部数据”和对应的局部节点；高性能算法需要综合全局数据进行运算，这对应于中心节点的数据处理；而数据汇总和分发的过程则需要中心节点和局部节点之间的数据通路。40 通信学报第 44 卷图 1 分布式基带处理星形架构分布式预编码的前传数据交互是一个往返的过程。局部节点首先对局部信道矩阵cH进行预处理和压缩，然后将压缩结果汇总到中心节点进行进一步运算；中心节点在运算完毕后，将运算结果压缩并传回各个局部节点，然后由各个局部节点计算得到其各自的预编码矩阵。2 通信高效的分布式预编码设计本节主要介

22、绍所提方案的技术细节。首先简要介绍了WMMSE预编码算法，接着介绍了该算法的一种变体，即R-WMMSE分布式预编码，并将其作为本文方案所使用的优化算法框架。在学习方法部分，分别详述了可学习数据压缩模块的设计思路与分析，以及模块与算法框架的整合和联合优化的细节。分布式预编码算法框架与可学习的数据压缩模块共同构成了一个完整的分布式预编码方案。2.1 WMMSE 预编码算法简介 WMMSE14是一种高性能MIMO线性预编码算法。其核心在于将原始的最大化加权和速率问题式(2)等价转化为,1Hmax1min(Tr()logdet()s.t.Tr kkkKkkkkkKkkkPW UPW EWP P(5)其

23、中，kW为新引入的辅助变量，kE为用户端均方误差矩阵，定义为 HHHHHH2H(kkkkkkkkkmmkkkkkm kEIU H PIU H PU H P P H UU U(6)其中，kU为用户端接收合并矩阵。通过对问题式(5)采用块坐标下降（BCD,block coordinate descent）法，可以得到经典的 WMMSE算法。每次迭代依次更新kU、kW、kP 12HH1KkkkmmkkkmUIH P P HH P(7)1HkkkkWIU H P(8)1HHH1KkkmmmmmmkkkkmPIH U W U HH U W(9)对kP的子问题求解涉及能量约束，因此需要优化对偶变量k。预编

24、码矩阵的能量是关于k的单调函数，所以在优化k时需要使用二分法14。WMMSE 预编码算法如算法 1 所示。算法 1 WMMSE 预编码算法输入 2max,ckkkP H,1,2,cC,1,k 2,K 输出 ,1,2,1,2,ckCckKP 1)局部节点c向中心节点传输12,cccKHHH 1,2,cC 2)中心节点初始化kP使Hmax1TrKkkkPP P 3)中心节点重复 4)1 2,kkkK WW 5)按照式(7)式(9)依次更新kU、kW、,kP 1,2,kK 6)直到1(logdet(logdet()kkKkkWW 7)中心节点将12,cccKPPP传输至局部节点c,1,2,cC W

25、MMSE预编码的数据交互量分析如下。在算法1的第1行，每个局部节点 c 需要向中心节点传输12,cccKHHH，共传输MN 个复数；在第7行，中心节点向局部节点c 分发预编码矩阵12,cccKPPP，共传输 MD 个复数。所以，总的数据交互量为M(N+D)个复数。当基站天线数量 M 巨大时，产生极大的前传流量，这样的设计直接阻碍了更大的Massive MIMO天线阵的发展。2.2 R-WMMSE 分布式预编码算法本文的分布式预编码方案使用一种WMMSE算法的分布式变体（称为R-WMMSE）作为算法框架，可提供较好的可解释性。利用优化问题中最优解的子空间特性，R-WMMSE分布式预编码将BBU

26、间的交互数据压缩到相应的低维子空间，从而有效地降低了数据交互量。需要强调的是，在预编码性能上，R-WMMSE预编码和WMMSE预编码具备相同的性能。第 8 期李勉等：Massive MIMO 中通信高效的分布式预编码设计 41 在对R-WMMSE分布式预编码算法进行推导前，先介绍引理1。引理 1 对于最大化和速率问题式(2)，任意一个最优解1KkkP一定满足能量约束的等号条件，即HmaxTr()kkkPPP。证明使用反证法证明引理1。假定1,1,2,KkkkKP是一个最优解，并且不满足能量约束中的等号，即 HmaxTrkkkPP P(10)记maxH1TrkkkPP P，可构造一个可行解,

27、kkPP1,2,kK，满足能量约束中的等号条件 H2HmaxTrTrkkkkkkPP PP P(11)下面证明新构造的可行解具有更优的性能（目标函数值）。这样的结论基于式(12)的正定性 1112HHHH21HH2HH12HHHH212HH1,2SINRSINR0,KKkkkkkkkkkmmkkkm kkkkkmmkkkm kkkkkmmkm kkkmmkkkmkkkKPPP HIH P P HH PP HIH P P HH PP HIH P P HIH P P HH P (12)记iX为矩阵X的第i 大特征值，那么有 11SINRSIN1,2,R,KikkKikkkkkKIPIP(13)从而

28、有 1111logdetSINRlogdetSINRKKkkkkKkkkkkKkIPIP(14)也就是说，假定一个最优解1KkkP不满足能量约束中的等号，那么就能够找到更优的解1kKkP，这与1KkkP的最优性矛盾。以上推导证明了问题式(2)的最优解一定满足能量约束中的等号。证毕。基于引理1，可以证明定理115。定理 1 对于最大化和速率问题式(2)，任意一个最优的预编码矩阵可以表示为HkkPH X，kN DkX,1,2,kK。也就是说，1KkkP是最优解的必要条件是它在HH的列空间HR()H中。证明使用反证法证明定理1。假定问题式(2)存在最优解1KkkP并且此解不在HH的列空间HR()H

29、中。注意到，HH的列空间HR()H和H的零空间N()H是一对正交空间，本文可以对1KkkP的列进行投影，形成分别位于这一对正交子空间的两部分：HR()kkHAP和N()kkkkHBPPA。将,1,2,kkkkKPAB代入问题式(2)的目标函数中，有 11logdetSINR()KKkkkkkIP HH1logdetKkkkkkkIH P P H 1HH2kmmkkm kH P P HIHH11HH2logdetKkkkkkkkmmkkm kIH A A HH A A HI(15)其中，最后一个等号成立是因为H0kH B。注意到，预编码矩阵中仅有HR()H中的成分1KkkA对

30、目标函数值有贡献。这个等式关系说明了1KkkA也是一个最优解。因为kP不在HR()H中，所以kP在N()H的投影kB一定不为零，也就有HTr()0,kkB B 1,2,kK。据此得到能量约束中的不等号被kA满足，也就是 HHHHmaxTr()Tr()Tr()Tr()kkkkkkkkkkkkPP PAABBAA(16)42 通信学报第 44 卷以上推理说明对于每一个不在子空间HR()H的最优解1KkkP，可以通过投影构造另一个最优解1KkkA，并且这个最优解不满足能量约束中的等号，与引理 1 的结论矛盾。综上，本文证明了问题式(2)的任意一个最优解都在HH的列空间中，也就是

31、问题式(2)的所有最优解都可以表示为H,1,2,kN DkkkkKPH XX。证毕。根据定理 1，可以把问题式(5)的优化空间限制在HR()H内，从而将求解变量kM DkP替换为更低维度的kN DkX，并且将能量约束归并到目标函数中。记HkkNNkkkkMU W U，HHHH N N，HkNNkkHH H，那么类似于式(7)式(9)，问题式(5)关于kX 的解可通过循环更新kU、kW、kX 得到 2H1HH1maxTrKkkmmmKkkkmmkmPUHX XIH X X HH X(17)1HkkkkWIU H X(18)21HHmax1TrKmkmmmKmkmkkk

32、mmmPXMHH M HH U W(19)R-WMMSE 分布式预编码算法执行流程如算法 2 所示。算法 2 R-WMMSE 分布式预编码算法输入 2max,1,2,ckkkPcC H1,k 2,K 输出 ,1,2,1,2,ckCckKP 1)局部节点c 计算并传输H()ccHH至中心节点，1,2,cC 2)中心节点计算H1()CcccHHH 3)中心节点初始化kX使 H1TrKkkkHX XmaxP 4)重复 5)1 2,kkkK WW 6)按照式(17)式(19)依次更新kU、kW、kX 7)直到 1(logdet(logdet)(KkkkkWW 8)中心节点将12,cccKXXX传输到

33、局部节点 c，1,2,cC 9)局部节点c计算H,1,2,(),cckkcPXH 1,2,C kK R-WMMSE 预编码的数据交互分析如下。在算法 2 的第 1 行，每个局部节点c向中心节点传输H()ccN NHH，共需要传输212CN个复数；在第8行，中心节点向局部节点c分发12,cccKXXX，共需要传输CND个复数。所以，总的数据交互量为212CNCND个复数。评估算法在实际系统中的性能表现时，需要综合考虑全频带、用户调度、算法时间分配等因素，因此本文只能给出简易的估算。下面给出一个示例，当考虑M=128、N=D=16、C=4时，WMMSE预编码的数据交互量为4 09

34、6个复数，而R-WMMSE的数据交互量仅为1 536个复数。当全频带为80 MHz时，按照30 kHz一个子载波进行切分，复数量化位数为12 bit（6 bit实部和6 bit虚部），算法执行时限定时间分配为0.3 ms，那么WMMSE预编码执行过程的数据交互为488.28 Gbit/s，R-WMMSE预编码则为183.11 Gbit/s。如果该基站系统最高支持500 Gbit/s前传带宽，那么使用WMMSE预编码时，系统只能驱动上面介绍的128天线，而使用R-WMMSE预编码时则能够驱动256天线（M=256,C=8）。以上分析表明，在常规的基站规模配置下，相较于WMMSE算法，R-WM

35、MSE分布式预编码大幅优化了前传交互量。同时，示例直观展示了优化数据交互量如何帮助系统支持更大规模的天线阵列。2.3 可学习的数据压缩模块设计为了进一步降低算法2中（第1行和第8行）的数据交互量，本节给出可学习的数据压缩模块设计。所介绍的模块设计不依赖于特定预编码算法，而是能与本文提到的各种方法（如ZF预编码、WMMSE预编码、R-WMMSE预编码等）结合。本文以R-WMMSE分布式预编码为例展示方案的可行性。在所提出的可学习数据压缩模块设计中，每一个第 8 期李勉等：Massive MIMO 中通信高效的分布式预编码设计 43 压缩模块由一个压缩函数和一个解压函数共同组成。在发送节点，针

36、对待传输的矩阵数据m nA，设计一个压缩函数1:m np qf，满足pqmn，其中，1 是待学习的参数。通过执行函数1()fBA，可将高维度的矩阵 A 压缩为较低维度的矩阵B 后传输，因此只需要传输pqmn个复数。在接收节点，本文设计一个带有可学习参数2的解压函数2:p qm ng，通过执行2()gAB进行数据的恢复。上述压缩函数和解压函数共同组成可学习的数据压缩模块1221,Fgf，其中表示函数复合运算。下面分别介绍3种不同的可学习的数据压缩模块。1)单边压缩（SSC,single sided compression）模块考虑一种简单的矩阵单边压缩，即 121212(),(

37、),p mm pm nfgAP ABPPPBSS(20)其中，1即1P，2包含2P和S两部分，总参数量为2mnmp。由1f的表达式可以看到，SSC压缩方式要求,qn pm。2)双边压缩（DSC,double sided compression）模块另一种压缩模块执行对矩阵的双边压缩，即 1211221212(),),p mm pn qq nm nfgAQBP BQSPPAQQPS(21)其中，1包含11PQ和两部分，2包含22PQ、和S三部分，总参数量为22mnmpnq。3)全连接（FC,fully connected）模块参考神经网络的全连接设计，可以直接得到如下的全连接数据压缩模块设计

38、 123443()(),vec()resh),a e,p(pq mnmn pqm nfgmnAbP bSPPSAP(22)其中，reshape函数和vec函数正好是一对互逆的映射，reshape的第二个参数表示输出矩阵的维度，1即3P，2包含4P和S两部分，总参数量为2mnmnpq。下面分析以上3种模块的输出元素关于输入元素的依赖关系。所提出的2种模块中SSC的输入输出关系根据式(20)可以表示为SSC21()FAP P AS。记21PP P，可以得到如下的逐元素输入输出关系 SSC,1 ()k lk lk ii limFPASA(23)对于DSC模块，记2112,PP P QQQ，那么有 D

39、SC,11 ()k lk lk ii jj lijmnFPASAQ(24)对于FC模块，记43PP P，类似地，可以得到 FC,(1),(1),11 ()mnk lk lklm ijmi jijFSPAA(25)对比式(23)式(25)，有以下发现。SSC模块的第k行第l列输出元素为A中第l列元素的线性组合再加上一个常数。DSC模块的第k行第j列输出元素为A中所有元素的线性组合再加上一个常数，因此具备比SSC更强的输入输出关系表达能力。FC模块的第k行第j列输出元素为A中所有元素的线性组合再加上一个常数，且线性组合权重不共享，和DSC具有同水平的输入输出关系表达能力。值得注意的是，压缩解压层次

40、更多的单边矩阵压缩、双边矩阵压缩模块可以化简为SSC和DSC模块。例如，包含多个压缩解压矩阵的双边压缩模块 43211234()F AP P P P AQQ Q QS (26)可以化简为前文中介绍的DSCF（令121 PP P，243 PP P，112 QQ Q，234 QQ Q）。因此，此类更复杂的压缩模块并不具备更强的输入输出关系表达能力，反而会引入更多的参数量和计算复杂度。所以，前文提到的SSC、DSC都是同形态（单边矩阵压缩和双边矩阵压缩）模块设计中的最简结构。综合比较上述3种可学习压缩模块的参数量和表达能力，当,m n p q的数量级相同时，有以下结论成立。复杂度方面：FC相比SSC

41、或DSC模块的参数量高2阶，对应地引入了高2阶的计算复杂度。表达能力方面：FC和DSC模块的表达能力水平相同，且都高于SSC模块。本文认为，所提出的SSC和DSC模块相比FC模块在复杂度和性能方面都分别实现了更好的均衡，后文将用实验佐证该观点。此外，值得注意的44 通信学报第 44 卷是，以上模块设计所引入的计算复杂度和参数存储开销的量级都不大。其中，计算复杂度和原矩阵所做的矩阵乘法相当，而参数存储开销同样和原矩阵的维度相当。2.4 分布式算法和可学习压缩模块的联合优化本节介绍可学习数据压缩模块和分布式算法框架进行联合优化的模型训练方法，并阐述可学习模块提升模型性能的机理。最直接的

42、模型优化方式是有监督学习，其直接优化SSC、DSC的输入输出间的差距，如优化输入输出的均方误差（MSE,mean square error）12122,2,min()F AA(27)其中，期望是通过对大量随机生成的样本A取平均近似得到的。采用梯度下降（GD,gradient des-cent）法优化式(27)得到可学习压缩模块的参数后，即可将其植入R-WMMSE分布式算法中。尽管基于式(27)的独立优化简单且直接，但是其最终得到的模型预编码性能会有较大的损失。其根本原因在于，训练后的带压缩预编码仅逼近未压缩预编码，并没有考虑到对和速率的优化。例如，本文基于2轮迭代的R-WMMSE的带压缩预编码

43、，其性能上限是2轮迭代的R-WMMSE预编码，此时其性能与R-WMMSE预编码的收敛性能还有较大差距。为了避免上述的性能损失，本文提出使用无监督学习的方案。直接以下行加权和速率为目标函数（见原问题式(2)），对可学习压缩模块和分布式预编码采用端到端的联合优化。如算法3所示，算法执行主要分为3个阶段。第一阶段为信道数据的预处理及汇总（第12行）；第二阶段为预编码的中心迭代计算（第37行）；第三阶段为预编码矩阵的分发和局部计算（第89行）。为了优化可学习压缩模块中的参数值，本文对算法3采用基于反向传播的梯度下降法。具体而言，首先产生一个训练集1(2)()(,S HHH，其中，S表示训练集的样本数。

44、对于每个样本，执行算法3输出()()iP H，其中，i表示第i个样本，然后以和速率为目标函数通过反向传播计算其关于压缩模块参数的梯度，从而采用GD法更新参数值。算法 3 通信高效的分布式预编码算法输入 2max,ckkkTP H,1,2,cC,1,k 2,K 输出 ,1,2,1,2,ckCckKP 1)局部节点c使用压缩模块cHF压缩得到H()()1,2,cccHfcCHH，并传输到中心节点 2)中心节点解压得到H()(,)cccHFHH 1,2,cC，并计算压缩后的矩阵H1()()CcccHcFHH 3)中心节点初始化kX使maxH11,Tr,2,KkkkPK

45、kHX X 4)重复T 次 5)按照式(28)更新kU 2H11HH1maxTrKkkmmmKkkkkmmmPUX XIX XX(28)6)1()HkkkkWIUX 7)按照式(29)更新kX max211HH1TrKkmmmKmmkmmmkkkmPXMMU W(29)8)中心节点使用压缩模块XF，将()XfX传输到局部节点,1,2,ccC/*其中X 12KXXX*/9)局部节点 c 解压数据得到()XFX，计算()ccXFPHX/*其中12ccKccPP PP*/值得注意的是，当固定迭代次数时，在特定压缩维度下，本文提出的基于无监督联合优化的算法3的性能可以超越同迭代次数（如2轮，此时优

46、化迭代算法未收敛）的无压缩损失的R-WMMSE算法2。这是因为无监督优化的算法3的训练目标为达到最优解，而固定迭代次数的算法2在相应迭代次数下尚未收敛，性能比全局最优解更差。因此算法3通过训练有机会得到比算法2性能更好的解。为了直观理解，可以考虑一种特殊情况，即压缩模块不执行维度压缩（输入、输出和压缩维度都相等）。通过恰当的初始化，可将学习模块变成一个恒第 8 期李勉等：Massive MIMO 中通信高效的分布式预编码设计 45 等映射，从而在相同迭代次数下，算法3模型的初始性能和算法2相等。训练开始时，算法3模型性能并非最优，可学习压缩模块的参数梯度不为0。因

47、此，通过GD法更新参数，可学习模块的映射输出逐渐改变，从而在恒等映射的基础上产生一个有助于提升目标函数值的偏置（例如，使解更接近最优解）。利用多个迭代中的可学习压缩模块，算法3模型可以累积多次性能提升，比同迭代次数的算法2性能更佳。3 实验结果与分析本节通过仿真实验，展示所提出的通信高效的分布式预编码算法3相比于传统算法在预编码性能和前传通信效率方面的优势，证明本文方案对于降低前传流量、支持更大天线阵列的意义。仿真设置如下，基站天线数64M，分为8C簇，用户数8K，每个用户的天线数4kN，数据流数2kD，则总天线数32N，总流数16D。采用QuaDRiGa（quasi determinist

48、ic radio channel generator）信道生成套件（版本v2.2.0）18按照3GPP-mmw标准建模19生成信道数据。训练集包含12 000个信道矩阵，测试集包含1 200个信道矩阵。仿真信道参数设定如表1所示。在算法3的训练中，样本的SNR在1025 dB均匀随机产生。训练和预测中，算法3的迭代次数固定为2T。将算法3与现有方法WMMSE预编码进行对比，其中，WMMSE和R-WMMSE的迭代次数都为6次，与完全收敛的性能之间还存在一定差距，这部分性能区间用于展示算法3对性能的优化。图2(a)和图2(b)分别展示了将32 16X的维度压缩为1616和1216时在DSC、SSC

49、、FC这3 种数据压缩模块下算法3的性能。图2(a)将X压缩到了其秩的维度，而图2(b)则将X压缩到了比其秩更小的维度。实验中WMMSE与R-WMMSE的性能几乎一致，代表了使用“无损压缩”的现有方法的性能。从图2(a)可以看到，当X被压缩到其秩的维度时，本文提出的算法3在DSC、SSC压缩模块下的性能都优于R-WMMSE算法。3种模块的模型训练目标都是利用自身特定的映射结构，尝试将输入矩阵映射为一个性能更强的解。其性能提升机制和2.4 节末尾所考虑的特殊情况类似，但并不完全相同。在这种实验条件下，可学习模块的输出在提升目标函数值时，还需要对抗维度压缩的损失。不同的模块表达能力导致了不同的性能

50、。表 1 仿真信道参数设定参数名称参数取值代码取值含义中央频率 qd_simulation_parameters.center_frequency 4.9109 频谱中心频率为 4.9 GHz 3GPP 基线 qd_simulation_parameters.use_3GPP_baseline 1 使用 3GPP 规定的信道特性，不使用额外特性随机相位 qd_simulation_parameters.use_random_initial_phase1 使用随机相位自相关函数 qd_simulation_parameters.autocorrelation_function Co

展开阅读全文