行业大模型标准体系及能力架构研究报告 2023.pdf

资源描述

1、行业大模型标准体系及能力架构研究报告I腾讯云计算腾讯云计算(北京北京)有限责任公司有限责任公司中国信息通信研究院云计算与大数据研究所中国信息通信研究院云计算与大数据研究所行业大模型标准体系及能力架构研究报告II推荐序推荐序“就模型而言，比起通用大模型，企业更需要针对具体行业的大模型，并结合企业自身的数据进行训练和精调，以打造出更实用的智能服务。通过研究行业大模型的标准体系及能力架构，可以更好地引导企业构建自有大模型，我们希望此次的研究成果，可以为行业的大模型应用带来更多的帮助。”腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生“随着人工智能技术的快速发展，行业大模型已成为推动产业升级

2、的重要驱动力。为了规范和引领行业大模型的健康、可持续发展，有必要构建行业大模型的标准体系，以科学评价大模型技术能力和应用效果。愿本次研究成果，助力大模型产业发展和生态建设。”中国信息通信研究院云计算与大数据研究所所长何宝宏“我们通过希望行业大模型标准体系及能力架构研究报告，能够帮助行业伙伴解决如何将大模型能力“应用”到自身的行业和场景里的问题，可以更有效的解决成本、数据、安全，合规等大模型实际落地难题。通过建立标准体系，为行业大模型的建设和应用提供指引和支持。”腾讯法务副总裁江波行业大模型标准体系及能力架构研究报告III行业大模型标准体系及行业大模型标准体系及能力架构研究报告能力架构研究报

3、告行业大模型标准体系及能力架构研究报告IV版权声明版权声明本报告版权属于腾讯云计算（北京）有限责任公司和中国信息通信研究院云计算与大数据研究所，并受法律保护。转载、摘抄或利用其他方式使用本报告文字或观点的，应注明“来源：腾讯云计算（北京）有限责任公司和中国信息通信研究院云计算与大数据研究所”。违反上述声明者，公司和研究院保留追究其法律责任的权利。行业大模型标准体系及能力架构研究报告V编委会编委会顾问：顾问：吴运声吴运声、魏凯魏凯、王麒王麒、吴永坚吴永坚、徐炎徐炎、江波江波、杨鹏杨鹏、徐樱丹徐樱丹、张张军、方腾飞军、方腾飞主编：主编：孙星孙星、曹峰曹峰、黄晶莹黄晶莹、李荪李荪、侯方侯方、韩旭

4、韩旭、李牧青李牧青、王颖王颖、赵丹赵丹萍萍、黄小明黄小明、梁小龙梁小龙、王川南王川南、尹迪尹迪、赵登梧赵登梧、胡哲胡哲、李珂李珂、马马雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯、李超李超、何茂亮何茂亮、宋宜徽宋宜徽、梅述家梅述家、代威代威、徐永太徐永太、黄超黄超、刘海涛刘海涛、李建慧李建慧、蒋增增蒋增增、王永霞王永霞、武杨武杨、郑剑锋郑剑锋、倪平倪平、李克鹏李克鹏、刘震刘震宇宇策划：策划：周威、王成、程力鑫、周军军、赵紫良、周威、王成、程力鑫、周军军、赵紫良、方海璇方海璇行业大模型标准体系及能力架构研究报告VI前言前言当前，随

5、着人工智能技术的不断发展，深度学习模型的规模逐渐增大，性能显著提升，各行各业迎来了新的发展机遇。通用大模型作为通用技术基座，在多个任务和领域上均表现出较好的性能，但由于缺乏专业知识与行业数据，并不能精准解决某个行业或企业的特定需求和问题，而且通用大模型的构建和训练成本通常很高，难以实现商用。为更好解决特定行业问题，行业大模型应运而生。行业大模型可满足特定场景需求，更好地为行业提供优质的服务，促进行业智能化转型升级。为促进行业大模型的健康快速发展，我们充分研究了构建行业大模型所需能力及构建方式，提出了行业大模型构建路线图及相应的标准体系，用以指导企业建设大模型能力。行业大模型构建路线图围绕行业需

6、求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化三方面展开，以更专业、成本更低的方式，引导行业和企业建立特有的大模型服务。大模型标准体系围绕大模型基础能力和特定行业特定场景服务能力展开对大模型能力进行全方位评估，保证大模型快速高质量发展。行业大模型标准体系及能力架构研究报告VII目录目录第一章第一章行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”.1(一)大模型技术应用不断演进，迎来发展新机遇.1(二)MaaS 支持大模型应用落地全流程能力构建.3(三)场景化需求快速推动大模型价值释放.6(四)行业大模型应用落地亟需建设路线指引.8第二章第二章行业大模型构建

7、路线图，指导企业建设大模型能力行业大模型构建路线图，指导企业建设大模型能力.11(一)行业需求分析与资源评估.111.业务需求评估.122.算力层评估.123.算法层评估.154.数据层评估.155.工程层评估.16(二)行业数据与大模型共建.171.明确场景目标.172.模型选择.183.训练环境搭建.194.数据处理.205.模型训练共建.21(三)行业大模型精调与优化部署.221.模型精调.222.模型评估.243.模型重训优化.264.模型联调部署.26行业大模型标准体系及能力架构研究报告VIII5.模型应用运营.27第三章第三章大模型标准体系先行，全面建立能力指标体系大模型标准体系

8、先行，全面建立能力指标体系.28(一)聚焦工程化应用，五大维度评估行业大模型基础能力.281.模型开发标准.282.模型能力标准.293.模型应用标准.304.模型运营标准.315.安全可信标准.32(二)围绕特定行业和场景需求，评估行业大模型服务能力.331.金融大模型标准.332.文旅大模型标准.343.政务大模型标准.354.传媒大模型标准.365.电信大模型标准.376.教育大模型标准.387.工业大模型标准.398.汽车大模型标准.409.家居大模型标准.41第四章第四章行业大模型应用行业大模型应用“百花齐放百花齐放”，价值不断释放，价值不断释放.43(一)文旅典型案例.43(二)

9、金融典型案例.46(三)传媒典型案例.47第五章第五章行业大模型行业大模型“千行百业千行百业”落地，驱动落地，驱动 AI 原生应用发展原生应用发展.49行业大模型标准体系及能力架构研究报告1第一章第一章行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”目前，国内外公司纷纷发布大模型，涉及通用大模型、行业大模型、垂直大模型与专属大模型，一些超强模型服务背后是千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域的一大步，能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等，催生出新的场景和产业模式，快速推动产业智能化应用落地。（一一）大模型技术应用不断

10、演进，迎来发展新机遇大模型技术应用不断演进，迎来发展新机遇随着 ChatGPT（Chat Generative Pre-trained Transformer，对话生成式预训练变换模型）的问世，大模型进入快速发展的时代。一些超强模型服务背后是千亿或万亿参数的基础模型，通过学习丰富的知识，成为与人类交互及连接万物的工具。图 1 通用大模型的发展2016 年 Open AI 发布 Gym 强化学习平台。从 2018 年 GPT-1 问世以来，模型参数从 GPT-1 的 1.17 亿，经过不断迭代，增长到 GPT-4的 1.76 万亿的参数规模，通用大模型的性能，也得到了显著的提升。行业大模型标准体

11、系及能力架构研究报告2斯坦福大学的研究发现，GPT-3 已经可以解决 70%的心智理论任务，相当于 7 岁儿童；至于 GPT3.5，更是解决了 93%的任务，心智相当于 9 岁儿童！2022 年 11 月，ChatGPT 正式发布，是基于 GPT-3.5 架构并通过强化学习训练后的大语言模型，目前仍以文字方式互动，支持包括自动文本生成、自动问答、自动摘要等多种任务。Google 从 2017 年 6 月，发布 Transformer 架构以来，陆续发布了 BERT、T5 等预训练模型，参数规模也在逐步提升。当前大部分大模型均利用 Transformer 架构搭建。近期，Google 发布的通才

12、模型PaLM-E，包含 5620 亿参数，可用于控制机器人，为通用人工智能（AGI）的实现提供了可能。图 2 Google PaLM-E 大模型控制机器人Meta 于 2023 年 2 月开源大模型 LLaMA，已经对大模型的产业链上下游产生极其重要的影响，带动了 Alpaca、Vicuna、FreeWilly2、BELLE、Chinese-LLaMA、Yuan-Chat、MiniGPT-4 等几十个开源大模行业大模型标准体系及能力架构研究报告3型，形成了“羊驼”开源大模型生态圈。7 月开源大模型 LLaMA2 发布，一定程度上降低了商业化部署的成本。图 3 LLaMA 大模型生态圈（二二）M

13、aaSMaaS 支持大模型应用落地全流程能力构建支持大模型应用落地全流程能力构建MaaS（Model-as-a-service，模型即服务）提供了一整套大模型服务工具链和开放平台，行业用户基于行业基础大模型，利用整体的模型套件经过精调再训练，生成满足特定场景需求的专属大模型。与提供基础设施的 IaaS（基础设施即服务）、提供工具的平台即服务（PaaS）和提供软件的 SaaS（软件即服务）相比，MaaS（模型即服务）以模型作为交付目标。基于 MaaS 构建的一站式行业大模型构建和应用解决方案，围绕模型的生命周期提供各种的产品和技术，辅助行业用户从数据预处理、模型构建、模型训练、模型评估到模型服务

14、实现全流程能力构建。解决了企业构建行业大模型成本高、时间长、难度大的问题，降低数字化转型的成本和风险，支撑客户快速实现大模型应用的产品化和商业化，更快地实现数字化转型和升级。行业大模型标准体系及能力架构研究报告4图 4 MaaS 解决方案行业用户利用 MaaS 构建专属的行业模型，可以根据自有数据进行精调，通过训练加速、推理加速完成模型的构建。构建专属行业模型，将预处理完成的数据，载入机器学习平台，选取特定算法并调试，载入特定模型完成训练任务，最后，通过压缩裁剪的方式优化调整模型，并完成模型的注册及验证测试工作，通过测试验证的模型将正式发布和部署。MaaS 通常内置了行业大模型和工具箱，配套标

15、准化流程和落地服务，支持行业用户进行行业大模型的精调，生成符合需求的定制化模型，并在此基础上进行部署，构建行业用户的智能应用，具体来说包括以下两个方面。第一，MaaS 可以通过基础行业大模型、定制场景大模型、模型推理服务 API 等不同的方式，为企业用户提供灵活和定制化服务。企业用户可以利用企业特有数据对大模型进行自主训练，完成模型的精调工作。企业用户可以根据特定业务场景，通过对话、问答、问答挖行业大模型标准体系及能力架构研究报告5掘、相似问句生成等任务，再次进行微调，仅需少量自训练数据量就可以得到企业专属的大模型。自主训练措施包括通过关键词提示、上下文提示、类别提示、语义提示等问答提示工程方

16、式，完成对特定任务的无监督训练。第二，MaaS 可以提供公有云的部署流程、私有化的部署流程，以及混合化部署多样化部署方式。公有云部署，在训练阶段用户先将数据上传到云存储并做好训练代码和环境的准备，完成训练任务后存储模型并进行模型评测。用户行业用户可以在公有云直接购买并使用公有云的机器资源，经过精调和二次训练，生成行业用户的专属大模型，并应用于业务系统，这样可以降低行业用户的训练成本。私有化部署，技术服务提供商可提供基础行业模型并部署在用户本地，用户在本地进行数据训练和模型精调，并调用本地算力和存储资源，完成模型二次训练，满足用户对于敏感数据的隐私保护。混合部署，可以将公有云方式与本地化部署方式

17、相结合，精调训练数据的过程可以在本地进行，通过部署私有化的软件与服务完成模型的精调任务，满足用户部署多样灵活的需求。图 5 公有化方式部署行业大模型标准体系及能力架构研究报告6图 6 私有化方式部署图 7 混合方式部署（三三）场景化需求快速推动大模型价值释放场景化需求快速推动大模型价值释放大模型受益于技术能力的提升和多样化的场景需求，如今其自身正是人工智能领域最大的动力之源，推动人工智能从技术积累、行业应用、产业变革到赋能千行百业的基础设施。行业大模型标准体系及能力架构研究报告7图 8 大模型在场景中的应用智能问答，应用于金融、文旅、政务等各个行业，根据不同行业的特征数据，生成对应场景的特定应

18、用，产品类型包括语音助手、企业客服、呼叫中心、专家咨询、智能助教、智能导诊、销售助手、培训辅导等。内容创作，行业客户可以依据产品特点，利用大模型生成特色文案，助力产品的推广；大模型应用于模板创作、剧本创作、编曲填词，为原创作者增加创意元素，协助作者更好的创作；大模型辅助新闻从业者生成访谈提纲、新闻摘要等；大模型辅助研究人员和教育工作者生成论文摘要、课程设计等，更快速的掌握知识或进行课程的编排。推荐系统，大模型可以根据历史销售数据和客户反馈，学习并生成个性化的销售话术，帮助销售人员更快速地了解客户需求，准确推荐产品，提高销售转化率；大模型通过分析大量的销售数据，提供预测分析功能，帮助销售人员更好

19、地理解市场需求和销售趋势；基于客户的购买历史和偏好，大模型生成智能推荐系统，为不同客户提供个行业大模型标准体系及能力架构研究报告8性化的产品推荐和营销活动；利用大模型创建自动化工作流程，自动生成跟进任务或提醒，减少人工操作失误，提高销售团队的效率。风控模型，基于 AI 大模型的智能风控系统可以通过分析海量数据，利用图神经网络、对抗生成网络和异常检测等技术，挖掘潜在的风险因素，识别异常行为，实时监测金融市场的风险变化，帮助金融机构避免损失，辅助金融机构能够进行更精准的风险评估和信用评估。除了以上场景，大模型在自动驾驶、智能运维、代码助手等很多方面都有着广泛的应用空间和产业需求。（四四）行业大模型

20、应用落地亟需建设路线指引行业大模型应用落地亟需建设路线指引通用大模型在一定程度上很难满足行业用户的直接需求，首先是模型所包含的参数量巨大，训练和部署对算力的消耗十分巨大，成本高昂；其次是模型的可解释性仍然较弱，通常需要增加内容管控手段保证结果的安全性；最后是模型对训练数据的依赖性仍然很强，对超出训练数据的任务效果不尽如人意。更为重要的是，在一些特定的行业，通用基础大模型的表现并不理想，因此行业大模型应运而生。行业大模型，通常基于该行业领域的数据进行训练和优化，更好地理解和处理该行业的专业术语、规范和语义。行业大模型更加专注于某个特定的行业，满足对应行业的需求。目前产业的行业大模型解决方案，助力

21、构建专属大模型及智能应用，并结合自身在算力方面的优势，为行业模型训练提供强大的支持和动力。但是，行业大模型最终要在真实场景落地，达到理想的服务效果，需要充分解决行业用户行业大模型标准体系及能力架构研究报告9的痛点。目前行业用户所面临的问题包括计算资源少、数据质量差、投入成本高，专业人才稀缺等突出问题。图 9 行业选择应用大模型的痛点计算资源方面，大模型的训练，需要对计算资源和存储资源提出较高要求，对于很多行业用户而言门槛很高，现有的资源难以支持大模型的训练和推理。同时高质量的行业知识库和训练数据是行业大模型构建的关键要素，模型训练过程，需要大量高质量的数据进行训练和优化。数据质量方面，行业用户

22、在模型训练过程中，经常会因为数据各类问题，导致大模型的效果和效率无法得到保障。成本投入方面，在确保业务使用的效果和可持续性方面，行业用户需要投入很高量级的数据、计算资源、专业技术和时间来训练、调试、优化并部署实施，成本极高。专业人才方面，行业客户通常缺少 AI 领域技术人才的储备，模型的开发落地通常对技术人才有很高的要求，相关资源的缺失影响大模型在产业的快速落地和持续优化。行业大模型标准体系及能力架构研究报告10面对这些痛点和问题，需要行业大模型技术服务提供商，提供行业大模型精调解决方案，帮助模型开发者与算法工程师，一站式解决数据的处理问题，高效率、高品质、低成本地创建和使用大模型。满足不同行

23、业用户的不同部署需求，支持私有化本地部署的方式，在权限管控、数据加密等方面提供完善的方案。技术服务提供商，应该为行业用户，提供例如金融、文旅、政务、传媒、教育等各行业的基础行业大模型，便于行业用户基于基础模型，进行便捷的精调，以支持不同业务场景和应用的开发。行业大模型标准体系及能力架构研究报告11第二章第二章行业大模型构建路线图，指导企业建设大模型能力行业大模型构建路线图，指导企业建设大模型能力行业大模型的构建可以加速行业用户的数字化转型效率，提升企业的服务质量。但行业大模型的构建，对行业数据、计算资源和部署运维等提出较高的要求，这对于很多行业用户而言有一定的门槛。更为重要的是，当前缺乏面向

24、行业大模型的构建方法和流程的指导方案，企业用户不清楚如何着手构建行业大模型。本章针对垂直领域的行业大模型，建立标准化流程，具体涵盖业务需求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化部署等关键环节，并对每个关键步骤的细节进行分析。图 10 行业大模型构建路线图（一）行业需求分析与资源评估图 11 行业大模型评估流程构建行业大模型首先需要对业务需求和资源进行评估，具体包括包括业务需求评估、算力层评估、算法层评估、数据层评估和工程层评估等。行业大模型标准体系及能力架构研究报告121.业务需求评估业务需求评估主要是明确业务的具体需求，将业务需求转换为明确、可量化的目标，从而确定行业模型

25、构建的基本方向。行业用户可以结合实际场景和需求，对以下三点进行明确：（1）业务数据：明确需要处理的数据模态。不同的数据模型影响基础大模型的选择；（2）业务指标：将业务需求初步细化为多个子任务，明确各子任务的期望指标；（3）业务服务方式：明确行业用户需要的服务方式。服务方式包括私有化部署或公有化部署，行业用户可以基于技术服务商提供的基础大模型进行私有化部署，也可以利用自有的大模型，通过技术服务提供商提供的模型工具，丰富私有化的部署手段。同样，采用公有云部署的行业用户，也可以根据实际业务需要，确定使用自有的大模型或是由技术服务提供商提供的基础模型。2.算力层评估算力层评估主要是确定行业大模型在实际

26、训练和部署中需要使用的算力资源类型和大小，从而对成本和进行时间预估。在算力评估方面，行业用户需要重点评估计算、存储和网络三部分。行业大模型标准体系及能力架构研究报告13图 12 算力层评估内容一是计算能力，需要考量不同算力上的行业大模型训练时长和成本情况。训练所需要的资源，通常与模型的参数量级，标注后的数据集大小相关。结合训练所采用的芯片、所支持计算网络，以及所选用的精调算法，可以评估单次训练时长。算力层评估可以在模型训练和部署层面上分别进行评估：（1）模型训练算力评估，以通用单卡芯片为例，计算能力可达到 312 TFLOPS，若基础大模型参数为百亿，采用有监督的参数精调（SFT）方式，标注后

27、数据集为 1GB，采用 RDMA100G 网络，这通常需要 32 张卡，每次训练耗时 2 至 3 周；若精调采用 Lora 方式，每次训练耗时可缩短到 1 周。（2）模型推理算力评估，推理所需要的算力资源，通常以 QPS（每秒查询数）评估，这与模型参数、芯片型号和数量相关。生成类模型的推理性能，一般以每秒生成的 token 数衡量。若模型参数达到百亿，运行大小 30G，在 2 卡条件下，QPS 约可达到 130 tokens/s。行业大模型标准体系及能力架构研究报告14二是存储方案，训练数据和大模型需要大量的存储空间，行业用户可以根据训练数据的大小，评估所采用的存储方案。当前，有多类的存储方案

28、可以选择，包括：（1）对象存储 COS（Cloud Object Storage），读取模式可谓下载数据到训练机器本地，读写速度可以超过 0.42GB/s，若采用COS+GooseFS 存储方案，可以提供基于对象存储的多层缓存加速，IOPS 可达 20 万；（2）文件存储 CFS（Cloud Files Storage），IOPS 可达 3 万，若采用 CFS Turbo 方案，IOPS 可达 300 万。通常训练数据小于 50GB 时，行业用户可采用 COS 或 CFS 方案。当训练数据大于 50GB 时，行业用户可采用 COS+GooseFS 或 CFSTurbo 的方案。三是网络通信，当

29、前大模型主要采用分布式训练的方式，训练节点间的通信问题严重影响训练效率。行业用户可以根据模型的参数量级和训练数据量，选择所采用的网络技术。行业大模型的训练需要高性能的网络支持，通常需要至少支持 RDMA 100G 的网络。RDMA技术是为解决网络传输中服务器数据处理的延迟而应用的技术，其支持跨过操作系统的内核开销，直接访问到网卡。支持 RDMA 网络的主流技术包括 RoCE 和 InfiniBand：（1）RoCE 是在以太网上实现 RDMA，目前的 RoCE v2 协议已经可以实现 RDMA 路由在第三层以太网络中传输，可以支持高性能和横向扩展架构；行业大模型标准体系及能力架构研究报告15（

30、2）InfiniBand 可以实现更高的传输性能，实现网络网卡间的无损通信，需要专用交换机。InfiniBand 的网络延迟极低，可达 100ns。3.算法层评估目前基础大模型和微调算法众多，算法层评估主要根据业务需求和算力资源的限制，确定最适合业务场景的大模型和精调算法。在基础大模型选择方面，首先，行业用户应参照业务需求，根据需要处理的数据类型，选择基础的语言大模型、视觉大模型或语音大模型等；其次，根据需要完成的任务，选择对应任务版本大模型，例如，需要完成客服任务，应该选择已经在对话数据集上微调过的基础大模型；随后，根据部署的硬件资源要求，选择大模型的参数版本。在精调算法选择方面，结合算力和

31、时间要求，可以选择不同的精调算法。在评估精调算法时，可以采用少量的样本数据先行进行评估，以保证精调的效果。以大语言模型精调为例，当前可采用的精调算法包括有监督的参数精调（SFT）或参数高效精调（Parameter-EfficientFine-Tuning，PEFT）。4.数据层评估行业用户应根据业务的实际情况以及期望目标，明确数据规模、数据质量和数据安全隐私等问题，从而完成数据层的评估。在数据规模方面，需要行业用户有一定的数据积累，通常行业大模型建设需要 400500 万条数据，根据不同的场景可以有一定的浮动。数据规模一般以 GB 或条数进行量化，其中一条数据是指行业用户在指定场景下的一次最小

32、单元场景的实现过程。例如，在公文写作行业大模型标准体系及能力架构研究报告16场景，一条数据就是一篇完整的公文；在客服场景，一条数据就是一次问答或是一次客服多轮对话的过程。在进行数据准备时，可以先使用少量数据进行评估，例如 300500 条。在数据质量方面，由于其对模型的效果影响会很大，推荐引入人工的标注和确认，至少从原始数据中挑选一定比例进行标注，从而构建并严重高质量的数据集。行业用户正式归档或是正式业务系统标注留存的数据，通常质量较高。在数据安全和隐私保护方面，行业用户需要评估数据是否包含个人信息、敏感信息等，必要时需要对原始数据进行脱敏处理。在数据格式方面，需确定具体数据格式包括哪些。如文

33、本数据、音频数据或是其他格式类型。无监督数据，即原始数据，数据的格式可以是网页数据、PDF、WORD、PPT 或是语音类；有监督数据，即经过标注的数据，数据格式可以为 json 或 Query 格式。5.工程层评估在构建行业大模型时，行业用户可以选择配套工具或第三方平台提升模型构建效率。因此，需要根据需求目标和构建成本对工程工具和平台等进行选择。行业用户需要评估模型训练所需的算法模型平台，确定平台适配性和训练流程。通常模型训练平台具有从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持能力。具体可以考虑以下几个方面：（1）模型训练平台是否包含需要的基础大模型或基础行业大模型，例

34、如金融行业基础大模型、文旅行业基础大模型等；行业大模型标准体系及能力架构研究报告17（2）数据标注平台是否可以提供数据标注作业、场景数据挖掘等数据生产服务；（3）训练和部署加速库是否具有加速组件，相应加速组件会有效提升模型训练的效率；（4）数据应用平台是否支持快速接入模型、数据和智能设备，提供模型服务、应用工作流编排、云边端调度等；（5）部署兼容性，行业用户需要评估希望部署的平台与行业大模型的兼容性，确认能否能够通过升级的方式进行更新；（6）模型加密，行业用户需要确认是否需要针对内置的模型加密，以防止模型本身的泄露问题。（二）行业数据与大模型共建行业数据与大模型共建包括明确场景目标、模型选择、

35、训练环境搭建、数据处理等环节。1.明确场景目标明确行业大模型实际应用场景及模型评价目标。例如金融领域，覆盖的业务场景可以包括风险控制、客服顾问、投资行研等。不同的业务场景，对于模型的评价目标会有不同。在风控场景，模型的评价目标主要为风险预警精确率、召回率、F1 值等；在客服顾问场景，模型的评价目标主要为平均响应时间、客户满意度等；在投资行研场景，模型的评价目标主要为数据准确性、成本效益等。与金融领域类似，在文旅领域，覆盖的业务场景可以包括行程定制、文案策划、讲解互动等。在行程制定场景，模型的评价目标主要为推荐准确性、定行业大模型标准体系及能力架构研究报告18制匹配度等；在文案策划场景，模型的评

36、价目标主要为信息覆盖度、文案创新性等；在讲解互动场景，模型的评价目标主要为响应时间、互动准确度等。在传媒、政务、教育等其他领域，明确实际应用场景及模型评价目标也都是关键环节。2.模型选择明确模型选型。根据大模型的基础应用领域，大模型可分为 NLP大模型、CV 大模型、多模态大模型等。行业客户应根据大模型的基础应用领域，确定所选择的模型。NLP 大模型主要用于自然语言处理，可以在客户服务、智能助手、问答文稿生成等领域，理解问题和需求，提供准确的解答和建议。如果行业用户的场景目标为智能客服领域，模型应选择 NLP 大模型。在此基础上，结合训练资源情况，选择所处行业优化适配的行业基础大模型，如 LL

37、aMA、ChatGLM 等。CV 大模型主要用于机器视觉，CV 大模型可以在图像分类、目标检测、图像分割、视频修复等领域，完成相应任务。CV 大模型的构建通常基于卷积神经网络、循环神经网络和注意力机制等，通常基于预训练模型，输出目标特征，并结合特征聚合模块，增强模型的全局图像感知能力，支持文字粒度、文本框粒度、整图粒度的特征表示，支持信息的抽取和识别。如果行业用户的场景目标为图像识别、视频修复，模型应选择 CV 大模型，并在此基础上，结合训练资源情况，选择所处行业优化适配的行业基础大模型。行业大模型标准体系及能力架构研究报告19多模态大模型主要用于跨模态场景，其相较于 NLP 类大模型，融合了

38、文字、图像、三维物体、声音等多维度的处理能力，可以有更丰富的应用场景。多模态大模型通过多模态语义理解、跨模态推理、多模态生成等技术进行构建，以实现跨模态的信息表达和交互，实现高精度、细粒度的模态融合。如果行业用户的场景目标为跨模态场景，如文生图、语音生成文案等，可选择多模态大模型，并根据训练资源情况，选择所处行业优化适配的行业基础大模型。多模态大模型的训练，通常对数据和算力方面的要求较高，所需的数据量和多样的数据类型较大，在训练和推理阶段消耗的资源较高。3.训练环境搭建搭建模型训练环境，包括硬件环境的搭建和软件平台的构建。其中硬件环境的搭建主要涉及计算、存储、网络等方面；软件平台的构建主要涉及

39、模型训练平台的选择、数据标注、加速组件等环境的建设。在硬件方面，行业用户可以根据资源及需求情况配置训练所需的计算、存储和网络资源，可优选支持容器 GPU 共享技术的计算资源；优选配置分布式的存储架构，配置多层次的存储加速引擎；优选支持GPU 直连的高吞吐量的 RDMA 网络。行业客户可以配置向量数据库，以支持 10 亿级的向量规模，日处理千亿级的检索能力。在软件方面，行业用户需要结合自身情况，选择优质的模型训练平台。优质的模型训练平台，可以提升模型训练、优化、评估、部署的整体效率。模型训练平台会预置多种 AI 任务的预训练模型及调优流程，支持用户数据准备与设置超参数，支持多种训练任务的调度和行

40、业大模型标准体系及能力架构研究报告20管理，支持自动化完成训练流程。行业用户可以应用独立的数据标注平台，完善数据集管理和数据标注的能力。加速组件应配置支持异步调度优化、显存优化、计算优化的环境，支持数据并行及模型并行。4.数据处理数据处理，将数据加工为模型训练所需数据，包括原始数据处理、数据标注、数据集划分等步骤。行业用户处理原始数据主要包括三个步骤，首先，对原始数据进行脱敏处理，以保证隐私及数据合规使用。原始数据可以来自公开数据集或是由实际业务系统收集的数据。其次，对数据进行预处理，包括去除噪声、去重、文本清洗、数据标注、切块等步骤。最后，通过数据转换、数据清洗、数据增强等，减少数据异常、缺

41、失、冗余的问题，保证数据集的高质量。数据可分为结构化数据和文本、图像、音视频等非结构化数据。结构化的数据预处理包括去重、处理缺失值和无效值等；文本数据的预处理包括降低字频、补充生僻字等；图像数据的预处理包括旋转、翻转、裁切等；音频数据的预处理包括降噪等；视频数据的预处理包括抽帧等。数据标注，当使用文本、图像等非结构化数据时，需要对处理好的数据进行标注。例如，文本类对象需要标注文字检测框、文字内容等；图像类对象需要标注目标检测框、实例分割块、关键点等；视频类对象需要标注目标识别框、语音分割块等；音频类对象需要标注语音、语调、音素等。行业大模型标准体系及能力架构研究报告21数据集划分，数据集可以划

42、分为训练集、验证集、测试集，其中训练集用于训练模型，通常包括无监督训练集和少量精标数据集；验证集可以用于模型超参数（hyper-parameter）的调整，以及过拟合情况的评估；测试集可以用于评估模型的最终性能。5.模型训练共建模型训练共建，对选定模型进行训练。模型训练中的核心要点是快速找到模型的最佳算法及对应的超参数。超参数的选择方法通常包括手动搜索、自动搜索等。行业大模型的训练过程，需要通过大规模的行业无监督数据进行自监督训练和有监督数据进行有监督的调优得到。在行业大模型的预训练过程中，可以通过增加有监督精调的数据，在预训练阶段就学习到更多的知识。模型训练应采用分布式并行训练技术，在训练过

43、程中使用 GPU集群（多机多卡）来提升训练速度。并行训练，包括数据并行、模型并行的训练模式，数据并行是指在多个设备上拷贝一份完整的模型参数，输入不同的数据参与计算，同步梯度，并行处理完成数据的训练；模型并行是指在多个设备上切分模型参数到各个 GPU，每个设备输入相同数据，同步参数，并行处理完成训练。模型训练共建流程为由行业用户将数据上传训练平台、准备训练代码和环境、发起模型训练任务、存储训练后的模型、测评训练后的模型。数据上传过程中，如采用公有云的部署方式，需要开通相应的存储资源，如采用本地化的部署方式，需要提前配置相应的私有化原行业大模型标准体系及能力架构研究报告22件和服务。在准备训练代码

44、前，需要配置完成相应的计算资源，可以根据不同的应用场景和模型特性，调整启动方式，配置对应的模型路径和数据路径。在结束模型训练后，需要经过必要的测评，才能部署发布。（三）行业大模型精调与优化部署行业大模型精调与优化部署包括模型精调、模型评估、模型重训优化、模型联调部署、模型应用运营等阶段。1.模型精调模型精调，首先选择合适的精调算法，精调算法选定后，利用前期准备的特定行业特定场景数据进行大模型的训练精调。目前行业大模型常用的精调算法，包括有监督精调算法和参数高效精调算法等。有监督精调（SFT）根据不同的任务及目标，将预训练模型的权重全部更新。有监督精调的具体做法是为目标模型添加一个大小为目标数据

45、集类别个数的输出层，并随机初始化该层的模型参数。在精调过程中，通过反向传播算法等对模型参数进行更新，使得模型在目标任务上表现更好。有监督精调，需要大量的标注数据用于目标任务，通常其所需的资源和时间会较多。行业大模型标准体系及能力架构研究报告23图 13 有监督的参数精调（SFT）参数高效精调（PEFT）一般针对特定的参数进行有效微调。常用的参数高效精调技术，包括模型蒸馏（distillation）、适配器训练（adapter training）、渐进收缩（progressive shrinking）等。模型蒸馏，主要通过训练一个较小的模型，模仿较大的预训练模型，将预训练模型生成的预测结果，训练

46、生成较小的模型，结合较大模型的知识学习情况，无需存储所有参数。适配器训练，是指在预训练模型中增加小型神经网络，用于特定任务的精调。这些适配器只占原始模型的一小部分，通常训练更快，对内存的需求更低。适配器可以针对多种任务进行训练，然后插入到预训练模型中以执行新任务。渐进收缩，主要涉及在精调期间逐渐减小预训练模型的大小。从一个大模型开始，逐渐减少参数的数量，直到达到所需的性能。这种方法可以产生比从头开始训练的模型性能更好的小型模型。目前在行业大模型精调中，参数高效精调（PEFT）的主流方法包括 P-tuning v2、LORA 等。其中 P-tuning v2 是由 Prefix-tuning 和

47、Prompt-tuning优化而来。P-tuning v2在每一层都加入了Prompts tokens行业大模型标准体系及能力架构研究报告24作为输入，而不是仅仅加在输入层，可以更多可学习的参数，同时也保证参数高效，通过加入到更深层结构中的 Prompt 能给模型预测带来更直接的影响。P-tuning v2 有更多的可优化的特定任务参数，以允许更多的每个任务容量，而它仍比原预训练语言模型会小得多。LORA 精调方法，通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。该方法通过在权重矩阵中增加低秩适配层，降维和升维矩阵，模拟特征秩。在任务训练时，固定模型的其他参数，只优化

48、两个矩阵的权重参数，更新低秩适应层，这允许模型在不改变其一般知识的情况下有效地学习特定于任务的信息。图 14 P-tuning 和 P-tuning v2 精调算法原理图 15 LoRA 精调算法原理2.模型评估行业大模型标准体系及能力架构研究报告25模型评估，在精调生成对应任务的大模型后，对模型进行评估，以判断模型是否满足应用要求。通常包括功能和性能两方面评估。根据应用场景和任务类型的不同，大模型的评估维度会有所不同。对于 NLP 类型大模型而言，其评估维度可以包括功能覆盖度、性能优越度。其中功能评估可以评估其是否涵盖词法分析、句法分析、语义分析、语义消岐、机器翻译、文本分类、文本生成、内容

49、推荐、阅读理解、摘要生成、文本纠错等功能。性能评估包括对应任务的准确率、召回率、F1 值等，必要时需要引入人工进行主观判断，以保证评估的完整性。对于 CV 类大模型而言，其评估维度可包括功能覆盖度、性能优越度。其中功能评估包括是否涵盖字符识别、图像识别、动作识别、图像分类、内容推荐、目标检测、语义分割、实例分割、视觉检索等功能。性能评估可以通过准确率、召回率、F1 值、命中率、平均交并比、检测准确率、分类准确率等维度进行评价，必要时需要引入人工进行主观判断。对于多模态类大模型而言，其评估的维度可以包括功能覆盖度、性能优越度。其中功能评估可以包括是否涵盖图文检索、图文生成、视频文本相关度匹配等功

50、能，性能评估可以通过命中率、准确度、匹配度等维度进行评价，可以引入人工进行主观判断。在模型评估过程中，可以引入更多的测试数据集，保证数据集的全面性、完整性、多样性，以保证模型评估的效果准确，更好的优化模型。行业大模型标准体系及能力架构研究报告263.模型重训优化模型重训优化，根据模型评估的情况，通常需要对模型进行多轮迭代训练优化。可以应用强化学习方式进行模型的重训，通过人工标注答案满意度，选出最符合人类思考交流习惯的答案，循环更新生成大模型。行业用户可以将重训得到的模型在模型训练平台上提交至模型仓库，并进行模型的验证测试，验证后可以正式发布并应用。模型重训可以分为离线重训和在线重训。对于实时性

展开阅读全文