联邦学习算力加速方案.pdf

资源描述

联邦学习算力加速方案联邦学习算力加速方案演讲人：赵荣星云Clustar 产品总监 01 背景介绍联邦学习的工作流程参与方 B数据对齐（隐私安全求交）模型训练参数聚合参数聚合模型更新模型更新子模型 B子模型 A模型训练加密加密同态加密同态加密全局模型参与方A 联邦学习算力性能挑战联邦学习联邦学习联邦学习是一种在保护数据隐私安全的前提下，联合多方进行共同建模的分布式机器学习框架。在训练过程中，通过对模型参数进行加密、传递、运算、解密，实现整体模型表现的提升。计算挑战计算挑战在联邦学习过程中，为了支持参数和数据可以在密态下进行无损的计算，需使用同态加密技术（加密后的数据为2048bit大整数），而同态加密技术会带来计算量和传输量的剧增。解决方案解决方案 -异构异构硬件加速硬件加速重点考虑异构硬件特性定制：定制：根据场景和算法定制架构和计算引擎，计算效率高。并行并行:可在算法、多引擎、pipeline处理等多个层面优化并行度。延迟：延迟：高带宽传输，纯硬件电路，无指令执行概念。部署：部署：可在云或本地切换部署解决方案并根据应用需求扩展。异构算力芯片比较CPULowHighHighHighVery highGPUHighHighHighHighHighFPGAHighLowLowHighVery HighASICVery highLowVery lowLowLowThroughputLatencyPowerPrice at scaleFlexibilityGPU和FPGA各有优势，综合考虑GPU&FPGA哪个方案更有性价比？异构算力方案比较重点考虑：将复杂运算转移至硬件设备执行，大幅提升并行处理效率，支持高并发、低延迟将复杂运算转移至硬件设备执行，大幅提升并行处理效率，支持高并发、低延迟FPGAGPUGPU特性特性资源丰富，算力强大，可以有效完成复杂度较高的运算。基于SIMT（单指令多线程）架构，其主体由多个相同的流式多处理器组成。因此具有高并发度的特点。内存分级机制，可以大幅提高数据读写和处理速率。具有很强的可编程性，可以根据不同需求快速实现算法的硬件实现，GPU在通用计算领域的作用比较重要。结构固定，存在内存墙高性能的Cache存在“数据局部性”大数据量批处理时增加额外Latency全定制的缓存结构和数据位宽X5 倍的片内缓存容量最大吞吐，最小延迟，高度PipelineGPU FPGAFPGA特性特性可编程逻辑电路，FPGA内部资源游离分配，可以根据设计人员的需要进行编程并行性，可编程定制不同功能的程逻辑电路，数百万个LUT进行大规模并行计算高速性能，快速的时钟速度和响应时间，因此可以处理高速数据流和实时信号低功耗&可重构VS 02 算力方案结合算力产品结合算力产品-全栈产品介绍全栈产品介绍星云安全数据网络(SDN)星云隐私计算平台星云隐私计算算力方案数据市场数据网络离线/在线服务价值运营RDMAFPGAGPU可信执行环境联邦学习多方安全计算同态加密联合查询/统计联合建模匿踪查询联合推理效果安全效率星云数融天鉴系统实时审计事后审计数据收集密钥管理金融行业数据源企业一般企业星云隐私计算加速方案星云隐私计算平台星云隐私计算一体机星云隐私计算一体机效率产品效率产品-异构加速产品简介异构加速产品简介底层特性简介底层特性简介业界首个业界首个FPGAFPGA隐私计算隐私计算高性能算力高性能算力加速卡加速卡模幂/模乘算子、同态加密算子、密态加法（包含3种不同类型加法）、密态乘法（3种不同类型乘法）、密态矩阵运算算子、RSA交集（3种不同类型RSA交集）、密钥交换算子支持宽泛的数据位宽计算支持宽泛的数据位宽计算 256bit、512bit、768bit、1024bit、2048bit、3072bit、4096bit具有全量的算子底层实现具有全量的算子底层实现支持多种同态计算算子支持多种同态计算算子支持宽泛的数据位宽计算支持宽泛的数据位宽计算支持单批200w以上的算子：同态加密算子、RSA交集（3种不同类型算子）、模幂算子支持单批100w以上的算子：密态加法（3种不同类型算子）、密态乘法（3种不同类型算子）、密态矩阵运算算子、RSA交集（3种不同类型算子）、模乘算子软件特性简介软件特性简介对单个算子有7到30倍的性能提升（对比20核心CPU）端到端性能可提升高达10倍显著的性能比提升显著的性能比提升功耗比提升功耗比提升所有算子模块化并集成API 实现，支持云端和本地部署底层驱动高度集成，可实现即插即用支持Python、Java直接调用友好易用的应用层开发支持友好易用的应用层开发支持联邦学习计算任务(训练/预测)及其他涉及密态运算任务场景，包括：横向联邦学习场景纵向联邦学习场景同态加密场景密态计算场景广泛的广泛的应用应用场景场景支持支持效率产品-异构算力整体方案实现数据对齐模型训练模型推理1000100 x100 x端到端时间端到端时间非加密机器学习联邦学习Cryptographic OperationsCryptographic Operations1Paillier Encryption w/Obfuscation2Ciphertext Addition3Ciphertext Multiplication4Ciphertext Matrix Multiplication基于FATE，在联邦学习全生命周期，我们总结了16种常用的密态运算操作抽取了公共算子，作为高性能引擎在 FPGA 上实现:模幂&模乘软硬结合，动态拼装成10余种密态运算操作对单个算子有7到30倍的性能提升（对比20核心CPU）加密运算导致性能大幅下降GPU FPGA ASIC 从软件（GPU）到电路设计（FPGA），再到全定制化芯片7.3268.38.5051015202530Homomophic EncryptionCiphertext additionCiphertext MultiplicationMatrix Multiplication单任务3-5倍的端到端性能提升Logistic Regression:4.5XLogistic Regression:5.3X多任务5-7倍的端到端性能提升Logistic Regression:6.1X双任务4-6倍的端到端性能提升效率产品异构加速硬件架构实现在服务器中挂载一块或多块FPGA或GPU加速卡在硬件电路中实现复杂的联邦学习运算，进行高定制架构实现通过硬件接口，如PCIe、Nvlink，实现上位机和硬件加速卡的数据交换充分利用加速卡内部计算和存储资源，实现计算高吞吐、高并发架构实现架构实现-异构异构硬件加速硬件加速硬件硬件结构结构效率产品效率产品异构加速整体架构实现异构加速整体架构实现对联邦学习中最常用的复杂算子进行定性分析和硬件优化。近似Numpy的异构加速算子接口，便于用户对机器学习任务的加速。用户可指定使用GPU或FPGA执行计算。高效的存储、计算、数据传输系统，对异构系统的高效运转起到了协同优化的作用。自主研发的软硬交互系统，基于硬件驱动设计，可以实现对硬件的高性能稳定调用。应用除了应用除了PythonPython算子，同步支持算子，同步支持JAVAJAVA算子调用。算子调用。架构层除了FATE以外还可支持其他开源框架。实现说明实现说明效率产品效率产品异构加速算子层异构加速算子层APIAPIcfg:任务配置信息para:计算参数在CPU中的地址data1:计算源数据1在CPU中的地址data2:计算源数据2在CPU中的地址data3:计算源数据3在CPU中的地址result:计算结果在CPU中的地址CM D(16KB)PARAM(Para_Dat a_Si ze)DATA(Space_Si ze-16KB-Para_Dat a_Si ze)Task15Task14Task0Task1Task2Space_Size (eg:1024MB)Src_DDRaddr=0 x00000000Addr=Space_Size(eg:addr=0 x03FFFFFFF)-API-API调用简单、高效！调用简单、高效！-FPGA-FPGA算子层独立，算子层独立，支持不同的联邦学习平台！支持不同的联邦学习平台！效率产品效率产品算子层算子模式及数据格式算子层算子模式及数据格式NEdat a set a4 pai l l er加密12 密态加法1Ndat a set a6 密态加法2N7 密态乘法2hpdat a set a10 pai l l i er解密hqRow/number9 矩阵乘法Nq?p2q2pqn1 模幂NEdat a set a 软件定义的算子模式软件定义的算子模式2 模乘Ndat a set bdat a set adat a set edat a set bdat a set b15 非混淆加密dat a set adat a set bdat a set adat a set bNEdat a set bNdat a set adat a set b dat a set bl ock1,data set block2,?,dat a set bl ockm16 密文求和N bl ock1_si ze,bl ock2_si ze,?,bl ockm_si ze ab mod Nae mod N(1+be)*ae mod Ne*a+b(1+be)mod Na+ba?b?amatrix?bmatrixa算子编号算子名称算子公式数据格式参考pai l l i er解密公式数据a由多个bl ock组成 struct fpga_configuint8_t operate_mode;/指定本次任务的操作模式size_t batch_size;/指定本次任务中每批数据个数size_t para_data_size;/指定本次任务参数数据量大小 size_t data1_size;/指定本次任务data1数据量大小 size_t data2_size;/指定本次任务data2数据量大小 size_t data3_size;/指定本次任务data3数据量大小 uint8_t para_bitlen;/指定本次任务中参数的数据位宽 uint8_t data1_bitlen;/指定本次任务中data1的数据位宽 uint8_t data2_bitlen;/指定本次任务中data2的数据位宽 uint8_t data3_bitlen;/指定本次任务中data3的数据位宽 uint32_t task_space_size_req;/指定本次任务请求的task spacesize uint32_t pisum_block_num;/pisum模式数据拆分成多少个block uint32_t pisum_cfg;/pisum模式数据拆分后每块数据size固定否;数据数据类型说明类型说明效率产品效率产品底层算子功能支持说明底层算子功能支持说明ID算子功能操作数最小位宽(bit)操作数最大位宽(bit)单批任务最大数据量(组)1模幂计算2564096200W2模乘计算2564096100W3RSA数据求交5124096200W4Paillier同态加密5124096200W5RSA加密计算2564096200W6密态计算_乘累加256409669W7密态计算_乘加2564096100W8密态计算_点乘2564096100W9密态计算_矩阵乘2564096100W10Paillier同态解密2564096200W11DH密钥协商7682048200W12密态计算_加法10244096100W13RSA哈希模幂2564096200W14密态计算_乘法2564096200W15非混淆加密5124096200W16密态求和10244096200W联邦学习16种常用算子支持不同算子混合运算单批大数据量到百万级支持16个任务进程并行内部320个并行计算引擎算子说明算子说明效率产品效率产品异构算力使用方法异构算力使用方法Clustar中间层SDK加速卡硬件安装加速卡驱动安装联邦框架适配部署上层业务启动调用算子加速加速卡返回算力结果PCIE接口通讯交互加速卡并行计算加速卡使用特点：1.硬件安装部署简单2.提供配套驱动SDK3.上层应用调用方便4.高效的通讯交互业务层硬件加速卡(搭载FPGA芯片/GPU芯片)联邦算法SBTLRFederated Learning算子服务引擎(FPGA/GPU)系统硬件驱动联邦学习系统软硬件框图算子调用APIPHEDenseNetResNetVGG 产品展示（一）：专注隐私计算“算力+”探索隐私计算加速卡隐私计算加速卡隐私计算硬件加速一体机隐私计算硬件加速一体机超强计算力超强计算力高性能服务器隐私计算专用极大缩短交付周期极大缩短交付周期软硬兼容一站式采购降低整体降低整体CTOCTO 成本降低最高40%4年超长维保加速卡主动散热款加速卡主动散热款(带风扇带风扇)加速卡被动散热款加速卡被动散热款(无风扇无风扇)算子性能：算子性能：对比单核提升70-10070-100倍倍功耗：功耗：节省3.53.5倍倍模型训练：模型训练：多核端到端性能提升可达7倍业界首个FPGA隐私计算加速卡高性能算力强劲接入产品展示产品展示1-11-1：自研自研FPGAFPGA硬件加速卡硬件加速卡-外观外观加速卡外观设计侧视图加速卡外观设计正视图加速卡PCBA电路板加速卡外观设计正视图产品展示产品展示1-21-2：自研自研FPGAFPGA硬件加速卡硬件加速卡-参数规格参数规格ClustarClustar-P300(-P300(数据中心款数据中心款)计算力计算力INT8 TOPs（峰值）33.3尺寸尺寸(PCIEPCIE插卡插卡)高度 Full (120mm)长度长 (240mm)宽度双插槽 (40mm)存储器存储器片外内存类型DDR4，支持2400MT/s，支持ECC纠错片外内存容量64 GB片外总带宽 77 GB/s内部 SRAM 容量54 MB内部 SRAM 总带宽38 TB/s接口接口PCI ExpressGen 3 x16PCI 传输带宽理论峰值32GB/s网络接口2x QSFP28(100GbE)逻辑资源逻辑资源查找表(LUT)1,341,000功耗和散热功耗和散热功耗120W散热被动散热(无源)供电PCIE 12V+AUX 12VClustarClustar-P300-P300工作站款工作站款)计算力计算力INT8 TOPs（峰值）33.3尺寸尺寸(PCIEPCIE插卡插卡)高度 Full (120mm)长度全长 (300mm)宽度双插槽 (40mm)存储器存储器片外内存类型DDR4，支持2400MT/s，支持ECC纠错片外内存容量64 GB片外总带宽 77 GB/s内部 SRAM 容量54 MB内部 SRAM 总带宽38 TB/s接口接口PCI ExpressGen 3 x16PCI 传输带宽理论峰值32GB/s网络接口2x QSFP28(100GbE)逻辑资源逻辑资源查找表(LUT)1,341,000功耗和散热功耗和散热功耗120W散热主动散热(有源)供电PCIE 12V+AUX 12V 产品展示产品展示1-31-3：隐私计算一体机：隐私计算一体机隐私计算集群方案隐私计算集群方案隐私计算一体机隐私计算一体机CPICPI系列系列-2U/4U-2U/4U塔式服务器塔式服务器CHXCHX系列系列-信创系列信创系列海量数据交易海量数据交易支持亿级用户数据集、PB级数据的横纵联邦训练、匿踪查询和联合统计任务，支撑上层海量数据交易。安全可靠安全可靠可支持全内存加密，抵抗物理攻击，保护数据安全；可支持可信链技术，逐级认证管理，保证系统安全；平台多层级认证，全流程管理、存证；访问控制，提高管理安全性。基于主流服务器深度优化，融合高性能网络加速、隐私计算算力加速卡、高可靠性隐私计算平台。可扩展架构，为数据中心、数据交易所等客户在数据要素流通场景提供一站式、集群化的基础设施解决方案。支持亿级用户数据集、PB 级数据在线交易。高效网络高效网络可支持RDMA网络加速技术，延迟减少到原来的25%；分布式集群通信效率10倍以上性能提升；支持卡间和服务器间组网优化技术。超低超低TCOTCO 基于独有的隐私计算加速能力，同等密态算力条件下，功耗仅为通用CPU运算的1/6，大幅降低运营成本；基于软硬一体的平台和硬件优化能力，实现双卡、四卡、八卡加速组合，实现服务器采购成本的大幅降低。产品展示产品展示1-3-a1-3-a：隐私计算一体机：隐私计算一体机-CPI-CPI系列系列可靠安全、灵活配置、软硬结合、开箱即用的一站式软硬件结合产品高性能CPI系列隐私计算一体机隐私计算一体机超强计算性能超强计算性能加速卡大幅提升 10 余种密态算子能力，算子性能比 CPU 平均提升 70-100 倍隐私计算场景端到端 9-10 倍性能提升，支持亿级数据场景建设异构算力灵活配置，单台服务器可支持多达 8 张隐私算力加速卡一体机集成产品成本减少最高 40%硬件服务器数量仅为通用 CPU 服务器的 25%-50%核心部件标准超长维保支撑，维保时间延长 30%+异构算力搭载优化，单台服务器可灵活搭载隐私加速卡，大幅降低采购费用动态负载均衡，资源弹性调整，节省运维成本应用端支持点对点分布式安全计算，具备底层技术、架构设计、算法、异构算力和产品功能和多层级流程管理，完全可控支持 Intel SGX 和 Intel TME 安全特性,通过内存内的应用隔离,提供更细微的数据保护,通过全内存加密,抵抗物理攻击支持 BMC、BIOS 双镜像机制,在检测到固件被破坏后进行恢复，支持 BMC 安全启动,防止 BMC 被恶意篡改支持 UEFI 安全引导和 BIOS 分级密码保护,保证系统启动及管理安全内部存储连接数据传输速率相比于 6 Gbps SAS解决方案提高 1 倍支持SSD功耗比传统机械硬盘低 80%，可支持大盘本地存储可以满足客户数据存放长达 6 个月的监管需求万兆网络支持可支持理论最大内存带宽是 400GB/S可搭载 RDMA 网络加速技术，网络延迟减少到原来的 25%，分布式集群通信效率 10 倍以上性能提升可支持 PCIE 4.0X16 接口，带宽可达 64GB/s极低的整体极低的整体 TCOTCO可靠的隐私安全保护可靠的隐私安全保护超强的存储优化超强的存储优化超高的通信效率超高的通信效率一站式解决隐私计算平台的软硬兼容问题，支持整机柜自动化部署节点间资源动态调度，集群化管理、运维，集成管理模块能够持续监控系统参数，故障自动告警计算/存储解耦、资源池化，可支持灵活拓扑，支持拓扑不开箱通过软件切换水平线性扩容，根据业务量变化，灵活便捷调整集群规模，水平线性扩缩容。灵活部署灵活部署/拓展拓展基于主流服务器厂商，集成隐私计算平台应用平台，深度优化隐私计算安全算子、存储、网络加速、调度等资源，实现更优性能的加速卡多组合全新隐私计算一体机系列，助力企业快速开展隐私计算业务场景探索，支持专用的加密芯片,抵抗物理攻击，为隐私计算相关场景提供更加安全可靠、高性价比的解决方案CPICPI 系列系列产品展示产品展示1-3-a1-3-a：CPICPI系列硬件配置系列硬件配置名称名称规格规格处理器处理器规格参数2U/4U机架服务器支持1到2个英特尔至强系列可扩展处理器；支持单颗8核（频率2.8-3.6GHz-12Mb）16线程、16核（频率2.4-3.4GHz-24Mb）32线程灵活配置；3条UPI互连链路，单条链路高速率11.2GT/s；最大热设计功率135W默认配置：8*DDR4 32GB RDIMM,3200MHz，256GB；最大支持32根内存，可灵活扩展，内存保护支持ECC,内存镜像,内存等级保护，最大支持4TB存储默认配置：2*960G 2.5英寸 SATA SSD；3*4T 7.2K 3.5英寸 SATA HDD RAID5；最大可支持16个2.5或8个3.5寸 SAS/SATA硬盘网络接口RAID卡控制器、SAS卡控制器；可选配支持RAID0、1、10、5、50、6、60等，支持Cache超级电容保护，提供RAID状态迁移、RAID配置记忆加速卡可选OCP3.0模块100Gb/s,200Gb/s；支持1组双口标准 1Gb/10Gb/25Gb/40G/100Gb 网卡默认最低配置：2*FHFL双宽 PCIe4.0 x16+外接1*PCIE 4.0 x8插槽；最大可选8*FHFL双宽 PCIe4.0 x16+4*PCIE 4.0 x16FHFL单宽插槽默认最低配置：P300 训练加速卡默认配置1张；最大可选单台8张，双边16张加速卡支持N+N冗余模式标准电源；可选2000W/2200W/3000W 输出功率电源内存内存存储存储存储控制器存储控制器网络接口网络接口PCIePCIe插槽插槽加速卡加速卡电源电源产品展示产品展示1-3-b1-3-b：隐私计算一体机：隐私计算一体机-CXH-CXH系列系列高性能CXH系列隐私计算一体机隐私计算一体机开箱即用、软硬结合、安全合规、灵活配置的国产化一站式软硬件结合产品基于主流国产化服务器厂商，集成隐私计算平台，支持专用内存加密技术和虚拟化加密技术,有效抵抗物理攻击和应用资源完全隔离更安全，为隐私计算相关场景提供更加安全可靠、高性价比的解决方案。基于主流国产化服务器厂商，集成隐私计算平台和安全数据网络，支持专用内存加密技术和虚拟化加密技术,有效抵抗物理攻击和应用资源完全隔离更安全，为隐私计算相关场景提供更加安全可靠、高性价比的解决方案。CXHCXH系列系列超强计算性能超强计算性能加速卡大幅提升 10 余种密态算子能力，算子性能比 CPU 平均提升 70-100 倍隐私计算场景端到端 5-7 倍性能提升，支持亿级数据场景建设异构算力灵活配置，单台服务器可支持多达 3张隐私算力加速卡一体机集成产品成本减少最高 40%硬件服务器数量仅为通用 CPU 服务器的 25%-50%核心部件标准超长维保支撑，维保时间延长 30%+异构算力搭载优化，单台服务器可灵活搭载隐私加速卡，大幅降低采购费用动态负载均衡，资源弹性调整，节省运维成本应用端支持点对点分布式安全计算，具备底层技术、架构设计、算法、异构算力和产品功能和多层级流程管理，完全可控处理器安全可靠 CPU 内置安全处理器，提供芯片级根信任固化处理器芯片内部的引导芯片提供比 TPM 更高级别的安全机制国密算法进行加密、层次化逐级认证，保障系统安全启动关键部件采用加固、冗余方式，保障系统安全可靠运行具备超大内存带宽，可进行强大的数据分析，加速内存密集型应用性能可搭载RDMA网络加速技术，网络延迟减少到原来的 25%，分布式集群通信效率 10 倍以上性能提升集成多达 128 Lanes 的 PCIE 3.0极低的整体极低的整体 TCOTCO可靠的隐私安全保护可靠的隐私安全保护超高的通信效率超高的通信效率一站式解决隐私计算平台的软硬兼容问题，支持整机柜自动化部署的高可用性支持采取自动化与统一化管理，简化运维节点间资源动态调度，集群化管理、运维，集成管理模块能够持续监控系统参数，故障自动告警水平线性扩容，根据业务量变化，灵活便捷调整集群规模灵活部署灵活部署/拓展拓展产品展示产品展示1-3-b1-3-b：CXHCXH系列硬件配置系列硬件配置名称规格处理器规格参数2U机架服务器支持1到2颗 HYGON 7200系列处理器，双处理器最高支持 48 个物理核心；支持单颗24核（频率2.2GHz-64Mb）48线程、48核（频率2.2GHz-64Mb）96线程灵活配置单颗最高可支持24核最高频率3.3GHz，最大热设计功率180W 默认配置：8*DDR4 32GB RDIMM,2666MHz，256GB；最大支持32根内存，内存速度最高达 2666MT/s，内存容量可扩展至 4TB 默认配置：2*960G 2.5英寸 SATA SSD RAID1，3*4T 7.2K 3.5英寸 SATA硬盘 RAID5，最大可支持12个2.5+4个3.5寸 SAS/SATA硬盘 RAID卡控制器、SAS卡控制器；可选配支持RAID0、1、10、5、50、6、60等，支持Cache超级电容保护，提供RAID状态迁移、RAID配置记忆加速卡默认配置：双口10G 网卡，可选支持扩展双口 10G SFP+、双口 25G、40G QSFP+和 100G 等多种网络默认最低配置：1*FHFL双宽 PCIe3.0 x16 插槽，最大可选3*FHFL双宽 PCIe3.0 x16 插槽，最大可扩展 10 个 PCIe 插槽默认最低配置：P300 训练加速卡默认配置1张；最大可选单台3张，双边6张加速卡支持N+N冗余模式标准电源；可选2000W/2200W/3000W 输出功率电源内存存储存储控制器网络接口PCIe插槽加速卡电源产品展示产品展示1-3-c1-3-c：隐私计算一体机：隐私计算一体机-CXK-CXK系列系列隐私计算一体机隐私计算一体机开箱即用、软硬结合、安全合规、灵活配置的国产化一站式软硬件结合产品基于主流国产化服务器厂商，集成隐私计算平台，主要面向政府、金融、能源、运营商、电力、医疗等行业打造，促进多源数据安全、高效协同、数据要素价值的激活的软硬一体解决方案。信创CXK系列超强性能超强性能强算力：鲲鹏920处理器，最高集成64核，内置多种硬件加速引擎，SPECint_rate_base2006 评估跑分930+，比业界原纪录高出25%大内存容量：支持最多32个DDR4内存插槽，提供最高8TB内存内存带宽高：内存通道数量从6通道提升到8通道，内存速率从2666MHz提升至2933MHz,，总带宽从1.02T提升到1.5T比特每秒，带宽提升46%IO带宽高：PCIe 3.0升级到PCIe 4.0，速率翻番，提供40个lanes，每个lane速率提升至16Gbps，总带宽为 640Gbps，IO总带宽比业界主流提升66%网络带宽高：集成100G RoCE以太网卡功能，从业界主流的25G提升至100G，网络带宽提升4倍应用端支持点对点分布式安全计算，具备底层技术、架构设计、算法、异构算力和产品功能和多层级流程管理，完全可控安全、可供应：采用华为全自研计算芯片，整机器件全国产化-可靠与质量保障：减振、散热等高可靠设计在相同功耗下性能可以提高30%，较业界主流高30%（基于SPECint2006）-单颗芯片集成了CPU、南桥、网卡、SAS存储控制器等4颗芯片的功能，业界集成度第一，能够释放出服务器更多槽位，用于扩展更多加速部件功能，大幅提高系统的集成度领先的领先的吞吐吞吐可靠的隐私安全保护可靠的隐私安全保护高效能高效能超强的集成超强的集成能力能力一站式解决平台的软硬兼容问题，支持高密、存储和高性能等机型，覆盖数据中心需求支持采取自动化与统一化管理，简化运维节点间资源动态调度，集群化管理、运维，集成管理模块能够持续监控系统参数，故障自动告警根据业务量变化，灵活便捷调整集群规模，水平线性扩容缩容灵活部署灵活部署/拓展拓展CXKCXK 系列系列产品展示产品展示1-3-c1-3-c：CXKCXK系列硬件配置系列硬件配置名称规格处理器规格参数2U机架服务器支持2个鲲鹏920处理器，单颗最高可支持64核最高频率2.6GHz，最大热设计功率180W 默认配置：32个DDR4-2933 DIMM插槽默认配置：最多16个3.5英寸或27个2.5英寸SAS/SATA HDD硬盘、SAS/SATA SSD硬盘或16个2.5英寸NVMe SSD硬盘支持RAID 0,1,5,6,10,50,60，支持超级电容掉电保护2个板载网络插卡，每个插卡支持4*GE电口或者4*10GE光口或者4*25GE光口最多8个PCIe 4.0 x8或3个PCIe 4.0 x16+2个PCIe 4.0 x8标准插槽支持100240V AC，240V DC，2个热插拔900W或2000W交流电源模块，支持1+1冗余支持内存存储存储控制器网络接口PCIe插槽电源产品展示产品展示1-41-4：隐私计算一体机：隐私计算一体机-支持支持列表列表IDID服务器厂商服务器厂商平台平台/型号型号1InspurNF5468M52InspurNF5280M53InspurNF5570M54InspurSA5280M65InspurNF5468M66H3CR4900 G57H3CR5300 G58H3CR4930 G59Sugon7340 H010HuaweiTaiShan11AmaxXP-48201G12DellPowerEdge R73013DellPowerEdge R74014DellPowerEdge R940 xa15HPEProLiant DL380 G1016SuperMicroSYS-4028GR-TR17SuperMicroSYS-4029GP-TRT18SuperMicroSYS-7049GP-TRT 一体机产品系列软件一体机产品系列软件配置配置提供平台层、数据层、模型层、功能流程管理，支持审计，完全可控；支持联邦学习、多方案安全计算、匿踪查询、隐私求交等多项能力；提供一站式、流程化易用性能力，高效搭建隐私场景星云数融天枢隐私计算平台星云数融天枢安全数据网络（可选）安全可靠的全栈式平台提供数据网络服务，保证数据要素互联互通，全面化数据要素市场建设，提供丰富建模流程管理工具，支持输出结果的跟踪、统计与监控支持多维度账单管理，保证数据授权交易管理的合作信任机制和价值实现;支持灵活扩充计算节点，平台简单易上手，提供全流程交互式建模多方双向赋能，聚焦数据流通和价值运营平台隐私计算全栈隐私计算全栈生态能力构建生态能力构建：强：强兼容兼容可信联邦学习可信联邦学习半同态加密全同态加密联合训练联合推理隐私求交数据处理特征工程模型测试多方安全计算多方安全计算基础运算逻辑运算横/纵向统计联合比较管理驾驶舱服务管理驾驶舱服务 APIAPI接口服务接口服务 SDKSDK服务服务在线实时服务在线实时服务调用统计服务调用统计服务审计服务审计服务匿踪查询匿踪查询查询服务查询统计隐私计算开源框架隐私计算开源框架中间件中间件/数据库数据库开源组件开源组件计算框架计算框架华为鲲鹏中科曙光浪潮信息新华三集团全同态FPGA加速卡加速网络全同态专用ASIC芯片基础服务器隐私计算核心外设信贷风控营销推荐客户风险评估金融行业金融行业医学研究基因研究辅助诊断医疗行业医疗行业智慧城市普惠金融碳中和政务政务/能源能源/互联网互联网应用场景中台能力软件生态操作系统基础设施 03 性能展示异构算力加速联邦学习全生命周期异构算力加速联邦学习全生命周期样本对齐模型训练模型推理RSA-PSIVLRSBTSBTPerformance of five deep learning applicationsPerformance of VLR with varying networking bandwidthIntel(R)Xeon(R)Silver 4114 CPU 2.20GHz 隐私计算隐私计算ARMARM一体机一体机加速端到端加速端到端性能性能高效能*基于鲲鹏920 7260处理器 vs 业界最高端处理器的对比数据*对比来源华为实验室测试数据，结果在不同环境中可能有偏差930+25%930+25%SPECint_rate_base2006 评估跑分内存带宽:I/O 总带宽:网络带宽:高性能高吞吐高集成1 1 颗 =4 颗芯片（CPU，南桥、网卡、SAS控制器）46%66%4x30%*平台基于搭载华为鲲鹏920芯片服务器（性能可比Intel至强8180），大幅提高系统的集成度，提升算力能力*网络带宽从业界主流的25G提升至100G，IO带宽让每个lane速率提升至16Gbps，单颗芯片4颗芯片的功能FPGAFPGA性能提升比较性能提升比较搭载华为鲲鹏920处理器500s0训练训练时间时间ARMFPGALR端到端/每轮489.2sCPU：2.6GHz 48核MEM：128G性能提升比较性能提升比较2h0训练训练时间时间X86ARMLR端到端1h24mins1h10mins1h0训练训练时间时间X86ARMSBT端到端35mins31minsCPU：2.2GHz 16核MEM：64G90.2s5.45.4倍倍+网络解决方案网络解决方案加速端到端性能加速端到端性能单个Rollsite的多台机器之间通过RDMA进行高速通信多个Rollsite的机器之间通过高速智能TCP传输模块进行高速通信典型场景：Party-A和Party-B分属不同数据中心：不同的机构之间联邦建模服务器1服务器2服务器NRDMARDMAParty ARDMA服务器1服务器2服务器NRDMARDMAParty BRDMA数据中心 A数据中心 B高速智能TCP传输通过 R D M A 技术，解决计算节点之间的网络延迟开销，提升性能；通过远距离通信模块优化，解决复杂网络下，网络丢包对联邦任务的影响高速智能 T C P 传输极高性能：对网络丢包不敏感，比现有TCP性能有明显提升高扩展性：适配数百个linux发行版本简单易用：支持即插即用；零代价集成，应用程序无需修改；性能比较性能比较网络延迟（毫秒）丢包率（%）TCP(Mbps)Pro-TCP（Mbps）Pro-TCP/TCP20（相当于市内）0.01913.09371倍40（相当于省内）0.123.289138倍80（相当于省际）12.4738307倍160（相当于国际）21.0568568倍320（相当于洲际）40.5309618倍320（无线网络）100.22211105倍 04 公司介绍关于星云关于星云ClustarClustar深圳致星科技有限公司（简称“星云Clustar”）是一家以算力为核心的隐私计算技术提供商，专注于高性能隐私计算算力产品研发与技术创新。公司产品包括隐私计算的软件计算平台，软硬一体机、算力加速卡以及芯片等。致力于以“算力+”技术布局与战略理念，为隐私计算应用规模化落地打造算力“基建”，高效赋能数据有序共享与综合应用。公司由香港科技大学智能网络系统与实验室主任，高性能网络领军科学家陈凯教授创立，核心技术团队来自香港科技大学、北京大学、阿里云、intel等顶尖学府与一线企业，先后获得红杉中国、基石资本、香港科技园、招银国际、华泰创新等多家知名机构投资。以算力为核心的隐私计算技术提供商创新驱动创新驱动技术引领技术引领217项专利申请量NO.1顶尖SIGCOMM/NSDI论文发表量亚洲排名NO.2隐私计算独立技术公司专利申请量排名NO.1联邦学习算力类专利申请量NO.3联邦学习专利授权量国家金融科技测试中心联邦学习金融应用评测认证国家金融科技测试中心多方安全计算金融应用评测认证国家信息系统安全登记保护三级备案中国信息通信研究院联邦学习产品能力评测麒麟软件Neo Certify认证深圳市软件行业协会软件产品认证*根据计算机科学（CS rankings）排名业务落地实践（业务落地实践（一）一）业务落地实践（业务落地实践（二）二）

展开阅读全文