YD∕T 3944-2021 人工智能芯片基准测试评估方法(通信).pdf

资源描述

1、 ICS 31.200L56YD/TYD/T 中华人民共和国通信行业标准钓鱼网站监测与处置系统企业侧系统能力要求人工智能芯片基准测试评估方法Evaluation method for artificial intelligence chip benchmark （报批稿）-发布-实施中华人民共和国工业和信息化部发布XX/T XXXXXXXXII目次前言 .III 引言 .IV 人工智能芯片基准测试评估方法 .1 1 范围范围 .1 2 规范性引用文件规范性引用文件 .1 3 术语、定义和缩略语术语、定义和缩略语 .1 3.1 术语和定义 .1 3.2 缩略语

2、 .2 4 基准测试方案概述基准测试方案概述 .2 4.1 基准测试框架 .2 4.2 评测对象 .3 4.3 基准测试的评测原则 .3 4.4 基准设置的主要方案 .4 5 测试场景测试场景 .4 5.1 图像分类 .4 5.2 目标检测 .4 5.3 超分辨率 .4 5.4 图像语义分割 .4 5.5 人脸识别 .4 5.6 机器翻译 .5 6 评估方法评估方法 .5 6.1 评估方法概述 .5 6.2 测试环境 .5 7 人工智能芯片训练任务基准测试度量指标及评估方法人工智能芯片训练任务基准测试度量指标及评估方法 .6 7.1 度量指标 .6 7.2 基准测试说明 .6 7.3 参考实现

3、 .6 7.4 测试方法 .6 8 人工智能芯片推理任务基准测试度量指标及评估方法人工智能芯片推理任务基准测试度量指标及评估方法 .8 8.1 度量指标 .8 8.2 基准测试说明 .9 8.3 参考实现 .9 8.4 测试方法 .10 YD/T XXXXXXXX前言本文件按照 GB/T 1.1-2020 给出的规则起草。本标准由中国通信标准化协会提出并归口。请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别这些专利的责任。本标准起草单位：中国信息通信研究院、南京新一代人工智能研究院、西安交通大学人工智能与机器人研究所、华为技术有限公司、深圳市腾讯计算机系统有限公司、阿里

4、云计算有限公司、深圳鲲云信息科技有限公司、清华大学、安谋科技(中国)有限公司、中科寒武纪科技股份有限公司、赛灵思电子科技（北京）有限公司、英特尔（中国）有限公司、颖脉信息技术（上海）有限公司、上海海思技术有限公司、北京百度网讯科技有限公司、上海燧原科技有限公司、北京地平线机器人技术研发有限公司本标准主要起草人：张蔚敏、刘硕、张哲煜、孙明俊、任鹏举、关贺、于潇宇、张龙、游亮、潘逢治、刘建航、杜子东、汪玉、葛广君、叶挺群、沈林杰、牛昕宇、郑魁、张亚军、高剑林、章恒、方绍峡、王凯、李亿、徐剑威、石恒、罗航、曾洪博、程智锋。 YD/T XXXXXXXX引言基准测试作为一种客观的评价方式，在计算

5、机体系架构的发展中扮演着重要的角色，有效地推动着面向不同方向的硬件和软件设计的演进。专用的 AI 加速芯片或其它一些拥有强大计算能力的 IP 应用越发广泛，成为人工智能时代不可或缺的一环，因此迫切需要一套方法能够横向对比这些 AI 加速芯片或整个 AI 解决方案的优劣。并且，基于清晰指标体系的技术评测能够去伪存真，推动相关产业健康发展。人工智能芯片基准测试越来越受到业界的关注，但目前国际上还没有成熟的相关技术规范和标准。人工智能芯片基准测试体系与方法的建立，能够明确评测指标，客观反映当前 AI 加速器能力现状，并从技术层面进行客观比对。为芯片企业提供第三方评测结果的同时，也为应用

6、企业提供选型参考。本标准通过制定通用方法来衡量用于训练或推理任务的人工智能软硬件的最佳性能。因相关人工智能芯片技术正在快速发展，本文件仅作为评估参考。随着技术的发展，还将制定后续的相关规范。 YD/T XXXXXXXX1 人工智能芯片基准测试评估方法 1范围范围本文件规定了人工智能芯片基准测试框架、评测指标及评估方法，主要包括基本信息披露和技术测试。本文件适用于芯片厂商或检测机构对具有人工智能算法加速能力的处理器或加速器的基准测试工作。 2规范性引用文件规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅所注日期的版本适用于本文件。凡是不注日期的引用

7、文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T 5271.28-2001 信息技术词汇第28部分：人工智能基本概念与专家系统 ISO/IEC TR 29119-11:2020(en) Software and systems engineering Software testing Part 11: Guidelines on the testing of AI-based systems 3术语、定义和缩略语术语、定义和缩略语 3.1 术语和定义下列术语和定义适用于本文件。 3.1.1 人工智能 Artificial Intelligence 表现出于人类智能（如

8、推理和学习）相关的各种功能的功能单元和能力。来源：GB/T 5271.28-2001，28.01.02 3.1.2 深度学习 Deep Learning 机器学习中一种基于对数据进行表征学习的方法，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。来源：ISO/IEC TR 29119-11:2020(en)，3.1.26 3.1.3 基准测试 Benchmark 通过设计科学的测试方法、测试工具和测试系统，实现对一类测试对象的某项性能指标进行定量的和可对比的测试。 3.1.4 YD/T XXXXXXXX2 工作负载 Workload 用于测定和评价人

9、工智能芯片的基准测试任务，即包含特定AI任务的基准测试程序。 3.1.5 度量指标 Metrics 用于评价人工智能芯片完成基准测试任务的具体指标。 3.1.6 测试集 Test Set 独立的数据集，用于在模型经由验证集的初步验证之后测试模型。来源：ISO/IEC TR 29119-11:2020(en)，3.1.75 3.1.7 前 N 正确率 Top-N 图像识别算法给出前 N 个答案中有一个是正确的概率，N 常取值为 1 或 5。 3.1.8 交并比 IoU 模型所预测的检测框和真实标注信息(ground truth)的检测框的交集和并集之间的比例。也被称为 Jaccard 指数。

10、注：IoU=监测框和标签框的交集面积/监测框和标签框的并集面积 3.1.9 批次大小 Batch size 单次处理时输入的样本（如图像，时间序列等）数量。 3.1.10 模型计算量 Model operations 输入单个样本，模型进行一次完整的计算所发生的运算个数。（如果是浮点操作数，则单位为 FLOPs，如果是定点操作数，则单位为 OPs）。 3.2 缩略语下列缩略语适用于本文件。 AI 人工智能 Artificial Intelligence BLEU 双语评估替补 Bilingual Evaluation Understudy DUT 被测设备 Device Under Test

11、 FLOPs 浮点运算数 floating point of operations FPS 每秒处理帧数 Frame Per Second MAC 乘累加单元 Multiply and Accumulate YD/T XXXXXXXX3 mAP 均值平均精度 Mean Average Precision NMS 非极大值抑制 Non-maximum Suppression OPs 操作数 OPerations ROC 受试者工作特征曲线 Receiver operating characteristic curve SDK 软件开发工具包 Software Development Kit SS

12、IM 结构相似性 Structural SIMilarity 4基准测试方案概述基准测试方案概述 4.1 基准测试框架基准测试框架如图1所示。图 1 基准测试框架 4.1.1 工作负载为指定测试场景下，使用神经网络模型完成训练或推理任务的测试例。 4.1.2 AI 框架用于实现相关人工智能方法的软件框架，包含 TensorFlow、PyTorch 等这样的深度学习框架，以及面向移动端或推理任务的框架如 TensorFlow Lite、TensorRT 等。这些框架使得我们能够建立深度学习模型完成训练或推理任务。 4.1.3 硬件调度 SDK 硬件调度 SDK 即向上能支持 AI 框架，

13、向下能提供调度和使用包括 CPU、GPU、DSP、NPU 等人工智能计算所需的硬件资源。 4.1.4 处理器硬件系统搭载人工智能芯片的计算物理设备，呈现形态包括 CPU、GPU、ASIC、FPGA 等芯片，及其构成的计算服务器和移动终端设备等。 4.2 评测对象 YD/T XXXXXXXX4 AI 加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块。呈现形态包含但不局限于 GPU 、FPGA 、ASIC。按任务可分为训练和推理两类。 4.3 基准测试的评测原则 4.3.1 实用性基准测试方法应该能够产生积极效果。 4.3.2 公平性基准测试方法应该通过指定规则和指标来提供公

14、平的比较。 4.3.3 公正性基准测试在评测过程中，始终以客观的科学的检测数据为依据。 4.3.4 可复测性在不同的检测环境对同一被检测的量进行检测时，确保其测量结果的一致性。 4.4 基准设置的主要方案基准测试方案采用测试处理器在完整的人工智能任务下的性能。以深度学习任务为例，即只考察处理器对整个深度神经网络执行端到端的任务的能力。 5测试场景测试场景不同的参数量/计算量对于处理器的计算、存储和通讯都有所不同，因此制定面向通用的神经网络处理器的测试用例时，这些典型网络都值得选取，下述场景为评估参考建议场景与网络模型。考虑版本技术迭代，及被测对象差异性，测试场景选取应根据实际测试情

15、况做适当调整。 5.1 图像分类任务描述：任务为准确识别图像中的物体类别。参考实现：代表模型为 MobileNet_v1，MobileNet_v2，ResNet_50 或 ResNet_101，Inception_v4，数据集为 ImageNet。准确率：计算指定精度下的分类任务的 top1、top5 正确率。 5.2 目标检测任务描述：任务为在给定的图像中精确找到物体所在位置、并标注出物体的类别。参考实现：代表模型为 faster R-CNN(网络模型基于 FPN 或 ResNet50)，Yolo v3，MobileNet + SSD，Mask R-CNN，SSD，数据集为 VOC

16、2012 或 COCO2017。准确率：计算指定精度下的目标检测任务的 mAP、IoU、NMS。 5.3 超分辨率 YD/T XXXXXXXX5 任务描述：任务为在给定缩小（例如4倍）版本的情况下恢复原始照片。参考实现：代表模型为VDSR，数据集为VOC2012。准确率：计算在给定缩小版本的情况下恢复原始照片任务的PSNR，SSIM作为超分辨率的性能评价指标。 5.4 图像语义分割任务描述：任务为将像素按照图像中表达语义含义的不同进行分组（Grouping）分割（Segmentation）参考实现：代表模型为Deeplabv3+，数据集VOC2012或Cityscapes。准确率：

17、计算指定精度下的图像语义分割任务的IoU作为性能评价指标。 5.5 机器翻译任务描述：任务为将一种自然语言(源语言)转换为另一种自然语言(目标语言)。参考实现：代表模型为seq2seq，BERT，Transformer等，数据集为Wikipedia或WMT English-German。准确率：计算指定精度下的翻译任务的指标BLEU。 6评估方法评估方法 6.1 评估方法概述人工智能芯片基准测试的评测方法包括材料检查和技术测试两类测评方法，具体如下： 6.1.1 材料检查基本信息评估主要采用材料审查的方式，对参评设备基本信息的真实性进行验证。芯片基本信息包括芯片名称、基本描述、功

18、能说明等等。通过的准则：必选项目，企业必须提交材料进行审查；可选项目，企业可以根据自身情况提交相应材料进行审查；如表1所示，由参评企业提供相关材料主要包括：表 1 人工智能芯片基准测试材料检查表项目是否必选提交材料芯片基本信息芯片基本信息芯片名称、版本号必选信息介绍芯片功能说明必选同上芯片外形及尺寸必选同上芯片功耗情况必选同上支持的操作系统及版本必选同上支持的深度学习框架必选同上知识产权状况说明可选同上行业实施案例可选介绍相关应用情况 6.1.2 技术测试技术测试是指使用预定的方法/工具使测评对象产生特定的结果，将运行结果与预

19、期的结果进行比对的过程，主要包括手工验证、工具测试等测试操作。 YD/T XXXXXXXX6 6.2 测试环境图 2 测试环境示意图如图2所示，测试PC机通过DUT的接口与其相连，示波器正负极与DUT连接，通过基准测试工具对DUT时间及性能评价指标进行测试，功耗软件测试工具对DUT进行示波器反馈电流电压结果进行功耗分析。 7人工智能芯片训练任务基准测试度量指标及评估方法人工智能芯片训练任务基准测试度量指标及评估方法 7.1 度量指标 7.1.1 训练时间在特定数据集上训练一个模型使其达到目标准确率时的训练时间（不包括预处理和模型加载时间），一般是运行次数去掉最低和最高的数字取平均值。

20、7.1.2 准确率指在训练集上的准确率。对于具体的应用场景，指定数据集，给出网络结构和超参数配置，查看训练能够在一定的迭代次数后（训练时间内），能否达到规定的准确率。 7.1.3 DUT 训练功耗指训练运算过程中，DUT 的功耗。 7.1.4 线性加速比指线性加速比是指增加芯片数量时，实际FPS与理论FPS的比值，用于反映芯片分布式训练扩展能力。定义单卡的FPS为FS，当使用P张卡进行测试时，其理论FPS为P FS，实际FPS为Q FS。线性加速比=Q/P (1) 其中，线性加速比的取值范围应该为(0,1。 P和Q为加速卡实际使用数量和理论数量，单位：个。 7.1.5 训练计算

21、成本在给定的测试环境下，系统并发输入给定的n个数据样本，在训练时间T 情况下，所消耗的AI芯片资源成本。训练计算成本 =芯片资源成本 T (2) YD/T XXXXXXXX7 7.2 基准测试说明 7.2.1 数据集要求披露训练集和测试集的占比，训练数据的顺序分布，数据预处理方式。 7.2.2 模型要求统一选定模型的超参数、权重和偏差初始化及权重格式(fp64、fp32、fp16)。 7.3 参考实现本节给出人工智能芯片训练任务的基准测试参考测试场景，目标准确率与测试数据集。测试场景测试场景数据集数据集目标准确率目标准确率模型模型 5.1 ImageNet (224x224)

22、 74.9% Top-1 Accuracy ResNet_50 5.2 COCO 2017 23% mAP SSD 5.2 COCO 2017 0.377 Box min AP, 0.339 Mask min AP Mask R-CNN 5.5 WMT English-German 25.0 BLEU Transformer 7.4 测试方法本节给出人工智能芯片训练任务的基准测试参考测试用例（以基于ResNet50模型的图像分类任务为例）。测试编号测试编号 7.4.1 测试场景测试场景 5.1 图像分类任务测试项目测试项目基于 ResNet50 模型的图像分类任务测试目的测试目的

23、测试具有深度学习加速能力的处理器在特定 AI 框架下图像分类任务，达到目标准确率时的训练时间、功耗、以及线性加速比等指标。前置条件前置条件模型名称（AI 框架） ResNet_50（AI 框架名称+版本号）模型参考实现应指定网络结构和运行超参数，或附模型参考实现链接精度数据类型，例如 FP32 目标准确率具体准确率数值，例如 Top-1 =74.9% 数据集数据集名称+数量系统系统名称+版本号，例如 Ubuntu 16.04 训练框架（SDK）名称+版本号 Batch size 取值 2n，n 取值为自然数测试步骤测试步骤步骤 3）-4）循环进行，在准确率大于条件值

24、后（与目标准确率误差1%），进入 5）完成一次训练；每次训练完成后，返回 2），如训练次数已满足要求，直接运行 6） 1) 训练启动 2) 训练次数计数 3) Epoch 计数 4) 准确率评估（测试集上） 5) 日志生成 YD/T XXXXXXXX8 6) 训练动态指标记录 7) 训练结果生成程序运行逻辑程序运行逻辑测试代码实现逻辑参考如下： 1) 数据集预处理 2) 任务初始化（数据加载、模型加载） 3) 开始监测各指标 4) 开始计时 5) 迭代训练 6) 计时结束 7) 精度验证 8) 各指标监测结束 9) 测试指标 Log 输出预期结果预期结果返回执行任务的训练时间日

25、志打印格式日志打印格式 * /*芯片名称*/ processor_name: /*场景名称*/ test_name: /*模型名称*/ model_name: /*训练次数*/ No.: /*batch 的大小*/ batch size: /*训练时间*/ Time : /*准确率*/ top1: * 测试结果测试结果训练次数硬件名称加速卡数量准确率 batch size 训练时间 1 2 3 备注备注 8人工智能芯片推理任务基准测试度量指标及评估方法人工智能芯片推理任务基准测试度量指标及评估方法 8.1 度量指标 8.1.1 推理时延 YD/T XXXXXXXX9 推理时延指推理任务

26、从执行到终止的运行时间，即从内存发送样本数据到模型输出推理结果的时间间隔。前置条件：需披露测试时的 batch size。 8.1.2 吞吐量吞吐量是指对网络、设备、端口、虚电路或其他设施，单位时间内成功地传送数据的数量，在图像处理领域，吞吐量是单位时间内可以处理的图像数量，即每秒帧率 FPS。前置条件：需披露测试时的 batch size。 8.1.3DUT 推理功耗指推理运算过程中，DUT 的功耗。 8.1.4 加速器利用率指在给定应用场景下，实际测试的具体网络的推理计算量与厂商标称计算量的比值。加速器利用率=(吞吐量*模型计算量)/理论峰值算力。说明：以CNN网络为例，

27、模型计算量=MAC*2(3) 8.1.5 能效比指在给定应用场景下，实际测试的具体网络的吞吐量与执行任务功耗的比值。前置条件：需披露测试时的batch size。说明：以图像处理任务为例，单位为：images/sec/watt （处理图像数量/秒/瓦特）。 8.1.6 主控核的负载使用统计即统计在完成指定神经网络推理任务时的主控核的负载使用统计，如CPU占用率。 8.1.7 推理计算成本在给定的测试环境下，系统并发输入给定的n个数据样本，在推理时间T情况下，所消耗的AI芯片资源成本。推理计算成本 =芯片资源成本 T (4) 8.2 基准测试说明 8.2.1 测试系统环境根据被测

28、设备支持系统环境，可以为Android、Linux或者iOS。 8.2.2 加速引擎的 SDK 提供神经网络加速引擎及其详细说明，提供接口函数包括初始化Init()，预处理PreProcess()，加载模型LoadModel()，运行Run()，卸载模型UnloadModel()和后处理PostProcess()。 8.2.3 前置信息披露 YD/T XXXXXXXX10 包含模型原始准确率，测试集图像大小和数量，及转换后模型精度（浮点/定点）。 8.2.4 模型文件提供原始训练模型如，同时提供相关信息包括模型类别，输入输出节点名，前处理时均值及其归一化参数，张量信息 (输入及输出)，

29、通道信息 (RGB/BGR)，数据格式(NHWC等)。 8.2.5 参考输出由于评估的应用场景及网络存在差异，评估的指标也各不相同。基准测试会根据被测对象提供相应参考输出来测量被测加速器或处理器的深度神经网络处理能力。 8.3 参考实现本节给出人工智能芯片推理任务的基准测试参考测试场景，目标准确率与测试数据集。测试场景测试场景数据集数据集模型模型 5.1 ImageNet ResNet_50, ResNet_101, Inception_v4, MobileNet_v1, MobileNet_v2 5.2 COCO 2017 Faster-RCNN (with FPN), Yol

30、o V3, SSD 5.3 VOC2012 VDSR 5.4 VOC2012,Cityscape Deeplabv3+ 8.4 测试方法本节给出人工智能芯片推理任务的基准测试参考测试用例（以基于ResNet50模型的图像分类任务为例）。测试编号测试编号 8.4.1 测试场景测试场景 5.1 图像分类任务测试项目测试项目基于 ResNet50 模型的图像分类任务测试目的测试目的测试具有深度学习加速能力的处理器在特定 AI 框架下的完成图像分类任务的推理时延，准确率，吞吐量，DUT 功耗，加速器利用率以及能效比指标前置条件前置条件模型名称（AI 框架） ResNet_50（AI

31、名称+版本）模型来源应给出网络结构和超参数，或附模型参考实现链接原始模型准确率具体的准确率数值，如 top1=72.90%, top5=91.00% 模型计算量具体模型的计算量大小，如 4.12GOPs 测试图像输入大小长 x 宽 x 通道数测试集数据集名称+数量系统系统名称+版本号推理框架（SDK）名称+版本号转换模型精度数据类型，例如 INT8 YD/T XXXXXXXX11 前处理具体采用的处理方式，例如采用 z-score 标准化：减均值除方差（不做裁减） Batch size 值 2n，n 取值为自然数测试步骤测试步骤 1、在测试系统下执行 benc

32、hmark demo 2、同时开启功耗采样 3、分析日志，输出结果，统计推理时延，准确率，吞吐量，DUT 功耗，加速器利用率以及能效比指标，时延指标不包括预处理准备时间程序运行逻辑程序运行逻辑测试代码实现逻辑参考如下： 1) 任务初始化（模型量化、模型加载） 2) 数据集前处理 3) 开始监测功耗 4) 开始计时 5) 推理 6) 计时结束 7) 功耗监测结束 8) 后处理 9) 测试指标输出预期结果预期结果返回执行任务的推理时延，准确率，吞吐量，DUT 功耗，加速器利用率以及能效比指标日志打印格式日志打印格式 * /*芯片名称*/ processor_name: /*场景名称*

33、/ test_name: /*模型名称*/ model_name: /*batch 的大小*/ batch size: /*DUT 功耗*/ power： /*时延*/ latency (ms/batch) : /*吞吐量*/ throughput : (计算公式：batch size/latency*1000) /*准确率*/ top1: top5: /*加速器利用率*/ utilization: /*能效比*/ Performance per energy: * YD/T XXXXXXXX12 测试结果测试结果 ResNet50（INT8）准确率 batch size 推理时延吞吐量功耗加速器利用率能效比 1 2 4 8 16 32 64 top1= top5= 128 备注备注

展开阅读全文