生成式AI企业应用落地技术白皮书.pdf

资源描述

致广大而尽精微生成式 AI 企业应用落地技术白皮书神州数码集团股份有限公司神州数码通明湖研究院北京信百会信息经济研究院CONTENT 目录1 生成式 AI 是一场技术范式变革 2 生成式 AI 的六层技术生态 2.1 AI 算力基础设施 2.2 基础大模型与相关技术 2.3 大模型与训练、评测数据 2.4 生成式 AI 应用开发技术 2.5 生成式 AI 安全与监控 2.6 生成式 AI 应用设计3 生成式 AI 企业应用落地实践探索和总结 3.1 生成式 AI 与企业数字化转型 3.2 企业应用落地的关键问题与应对方法 3.3 企业应用落地的四类驱动模式4 AI 产业政策与发展趋势 4.1 我国 AI 产业政策 4.2 AI 产业发展趋势 4.3 促进我国 AI 产业发展的对策建议5 写在最后6 引用 38814222635384141425565656973747632022年末ChatGPT的横空出世及其之后的持续迭代，以一种人人可亲身感知的方式，把人工智能在自然语言领域里的重大进展在一夜之间展示在世人面前。而在企业应用场景方面，之前的AI技术都集中在相对专业的应用场景内，如机器视觉、语音识别、或推荐系统、风控管理等。但是语言，作为人类重要的思维工具以及知识组织和传播的最主要手段，其“能力泛化”的可能性远远超出了其他领域。因此，当ChatGPT能够与人类进行深入、富有深度的对话时，人们开始想象一个真正能够理解业务或专业、思考解答专业问题、甚至进行业务的组织、管理和创新的机器的可能性。对企业的数字化转型进程而言，生成式AI技术带来的潜在影响很容易让人将之类比于交通史上铁路系统的发明、亦或动力系统中对交流电的引入。在生成式 AI技术出现之前的十多年间，数字化转型一直是企业采取的一项重要战略，来促进企业在新的商业环境中保持竞争优势、创造新的商业机会。根据 2011年，数字化转型最早的提出者之一 Gartner 的定义，数字化转型包括从 IT现代化升级（比如全面云化升级），到通过数字技术进行业务优化（比如精准营销）或业务模式创新（比如创新的引流和盈利模式）的一系列战略举措。近几年来，数字化转型的重点聚焦领域，已经越来越转向企业数据资产的建立，神州数码集团的创始人和 CEO郭为在数字化的力量一书中，对此提出了全面和系统的论述。而生成式 AI出现之前，数据一般只有经过结构化处理之后，才能够在企业应用环境中发挥作用；而在企业的经营活动中，产生的大量的数据无法被结构化处理，比如内部海量的会议纪要、周报、季报，其中包含大量关于企业具体业务事项的分析和讨论；企业的大量的合同文本、项目验收材料，其中包含有大量的交易细节；而在销售和客服人员与顾客的线上互动文本，其中也有一手的客户对产品和服务的反馈；再有，就是企业产品的大量的用户手册、故障分析文档、产品服务和支持技术资料等等，其中有丰富的技术支持所需的知识。所有这些包含的非常有价值的信息和知识，以往只能限于少数专家或管理者的随机及离散地利用。传统的数据处理和分析方法对这种非结构化的文本数据无所适从。高价值的信息无法被有效提取，意味着企业可能错失了重要的决策依据、市场洞察和创新机会。以大语言模型为代表的先进的自然语言处理技术的出现，预示着这种情况开始发生变化。企业有可能利用这些创新技术来自动分析、归类和抽取这些非结构化数据中的关键知识，进而为决策者提供有力的支持。例如，通过自动分析销售和客服的交互文本，企业可以更准确地了解客户的需求和不满，进一步优化产品和服务。更1 生成式 AI 是一场技术范式变革4进一步，企业还可以利用这些技术结合知识图谱技术，将分散在不同文档和系统中的信息连接起来，形成一个跨组织结构、跨业务领域、跨时间维度的企业大脑；为企业提供一个一体化的知识查询甚至咨询平台。这样的平台将会成为企业的超级销售助理、超级客服助理或者是超级管理助理。生成式 AI技术的出现，为企业数字化转型，注入了强大且更为直接的新动能。不过，以上对生成式AI技术对数字化转型的推动的“推演”，可能还存在很大局限。如同早期的英国铁路，斯托克顿-达灵顿专线其实是在铁轨上跑马车。早期的蒸汽机的一个主要应用场景是在枯水期将水引向高处蓄水池以帮助驱动水车。目前我们设想的生成式 AI的应用场景，也处于早期状态。生成式 AI技术为企业数字化转型带来的会是更为根本的变革，即技术范式的改变（Paradigm Shift）。我们借用技术的本质一书中对“技术域”的定义来解读“技术范式的改变”：作者在这本书的第 8章指出，（它）不是单独一个技术体的出现，而是新技术体引发的“重新域定”。新技术域对经济的影响也比单个技术对经济的影响要更深刻。作者认为，经济并不是采用（Adopt）了一个新的技术体，而是遭遇（Encounters）了一个新的技术体。经济对新的技术体的出现会作出反应，它会改变活动方式、产业构成以及制度安排，也就是说，经济会因新的技术体而改变自身的结构。如果改变的结果足够重要，我们就会宣称发生了一场颠覆性改变。生成式 AI 技术正在形成新的技术域定，它首先对应用软件开发产生了显著影响。得益于计算机程序设计语言的严格语法、清晰逻辑性和罕见的二义性，生成式 AI技术在代码生成和辅助编程方面的效果日益突出。展望未来，软件开发的重心将更多地倾向于需求分析和软件架构设计，而编码和代码质量审核的流程，将在先进的辅助编程工具的助力下，实现效率的飞跃性提升。在 2017年，曾经是 OpenAI创始成员和研究科学家，担任特斯拉技术总监的 Andrej Karpathy就预见到了引入 AI之后的新软件开发范式，他在一篇技术博客中提出了软件2.0的概念。在软件 1.0的模式下，由程序员设计软件解决问题的方法和细节逻辑，并通过编写显示指令来实现这些逻辑。而软件 2.0是利用神经网络自动完成软件的设计。未来大部分程序员无需编写复杂的程序，维护复杂的软件库、或者分析它们的性能。他们只负责收集、清理、操作、打标签、分析和可视化为神经网络提供信息的数据即可。随着生成式 AI技术的快速迭代，业界内正在宣称“软件工程 3.0”时代的开启：AI重新定义了开发人员构建、维护和改进应用软件的方式，研发团队的主要任务而是以含有私域专业知识的语料（或图像、视频）来训练或精调模型、围绕业务主题设计提示模板（Prompt Template）、探索最有效的智能体（Agent）机制等。5图 1 Software1.0 到 3.0综上所述，不论是“1.0”“2.0”还是“3.0”模式的软件，生成式 AI技术都将为其注入革命性的创新力量。应用会在价值和体验、安全和运营、架构和交付等方面发生深刻变革，从而催生出企业应用的大升级和大迭代。而更快和更广泛的业务数字化转型，则会产生更多的数据资产和应用场景，数字化转型的飞轮效也将应运而生。为什么会有这篇白皮书每一次技术的范式变革都深刻地重塑了经济格局和社会结构，同时也催生出企业数字化的新浪潮。例如，以 2010年为分水岭，移动互联网和智能手机的快速渗透为众多崭新的应用提供创新的土壤。在此背景下，移动定位、身份绑定和移动支付等技术场景快速落地，为企业开辟了全新的移动获客渠道。不少企业敏锐地捕捉到这一趋势，纷纷推出小程序或打造移动应用平台，助力自身在激烈的市场竞争中快速而精准地获取用户、拓展市场地位。这不仅为企业和市场带来了前所未有的变革和机会，甚至形成了新的社会消费习惯。由于对上一次的技术变革带来的影响仍记忆犹新，使得这一轮人工智能的飞跃式进展所产生的震撼和影响更为强烈。不仅技术层面的 CIO、CDO和 CTO表现出浓厚的兴趣，企业的各个业务单元、包括 CEO在内的高级决策层，几乎都在第一时间启动了密切地关注与讨论。而另一方面，在这场由生成式 AI引领的技术范式变革中，相关的推动力量从实验室快速走到了公众舆论6中心。这些力量，不再仅仅局限于学术会议的探讨。行业头部公司、初创企业及各个研究团队，也在数字化的今天利用自媒体平台和社区平台积极互动，并保持与主流媒体的沟通。开源社区的贡献和风险投资的活跃参与，更是助燃了这场技术革命，大量创新的想法都会快速落地实现、并成为资本追逐的目标。大量的自媒体在这场热潮中成为了连接“圈内”和公众的纽带，他们迅速收集信息，并按更易传播的方法拆解（或碎片化）信息，使其在短时间内成几何级数放大，触达更广泛的受众。然而，这种聚光灯下的创新展现，也给企业带来了难题。在信息海量涌入的时代，过多的信息反而形成了负担。企业在努力把握技术趋势、评估技术进展对自身业务的潜在影响时，往往陷入信息过载的困境，这不仅无法快速做出决策，更可能导致企业面临选择困惑，产生不必要的焦虑。而大量的粗粒度信息，也会对技术产生误解并不恰当的期望，这反而会阻碍早期的创新型尝试。在与众多企业客户深入交流的过程中，我们深刻地认识到，对于当前的技术进展和各种应用实践进行系统的梳理与小结是至关重要的。这不仅能为企业提供一个清晰的技术发展蓝图，同时也助于他们更好地了解趋势，捕捉潜在机会，进而制定更加科学、前瞻性的战略计划。此外，这样的梳理还能推动行业间的交流与合作，为企业之间打造共赢的合作模式，加速整个数字化转型领域向更新的阶段发展。我们希望通过编撰这篇白皮书，能够起到“抛砖引玉”的效果，引发业界的讨论。我们热切地期望生成式AI相关的技术提供者、应用解决方案的开发者、行业内的重要客户，以及各大研究机构等，能够以这篇白皮书为“靶子”进行深入的梳理和探讨。我们更希望它能成为企业客户和生成式 AI技术落地实践者之间共识的起点，帮助大家澄清概念、分析当前的技术趋势，预测未来可能的发展方向。我们深知，单凭一家之力难以捉摸整个行业的脉搏，但是，通过集思广益，我们相信能够对这一领域产生更深入、更全面的了解。在这篇白皮书中，我们旨在全面探索生成式 AI技术的进展与应用。后续内容将分别从生成式 AI的相关技术梳理、技术落地企业应用的路径、以及生态和监管这三个维度展开：对相关技术梳理，将从生成式 AI的六层技术生态的角度，思考和总结生成式 AI技术在不同维度带来的技术创新和挑战；然后，我们将深入探索生成式 AI在落地企业中的实际应用，以及与现有业务的整合和可能遇到的挑战；最后，我们将讨论生成式 AI在整个行业生态中的地位，伴随的伦理考量，以及对应的监管建议和未来发展趋势。通过这三个章节，希望可以为读者提供清晰的技术发展蓝图，帮助企业和研究者更好地理解、应用并推动技术的健康发展，从而应对信息过载、技术误解和创新尝试中的挑战，正如我们在白皮书开篇所述的背景和目的。7并发式创新的复杂局面和企业应对的策略生成式 AI的企业应用落地，事实上已经形成了基础研发、监管和安全、应用开发、企业（或行业）私域数据就绪、企业能力就绪等多个领域并行探索的局面。上述每一个领域既相互促进，又相互制约，而在企业应用的实际环境中，又需要探索业务流程、使用习惯和技术落地之间的变通和粘合。例如企业（或行业）私域数据就绪意味着企业需要建立一套完整的数据管理和维护体系，来确保数据的质量、完整性和安全性，当大语言模型需要进行微调或适应特定场景时，可以迅速地获得高质量的训练数据。而最为重要的是，生成式 AI的基础技术研发还在快速进展之中，制约其在真实业务场景使用范围的问题：例如在私域知识框架内的对齐，包括幻觉消除，知识收敛，以及上下文长度等，还在不断探索和解决之中。其中应用场景更为广阔的多模态大模型技术，更是令人充满期待。从来没有哪一个时刻，使得企业在制定技术战略时，需要理解如此复杂的技术趋势，平衡考虑如此多的矛盾因素。从近期和客户的广泛交流中，我们发现，一些非常值得借鉴的策略已经形成：1、两个立即着手：立即着手采用点状业务创新的方式：紧密跟踪最新技术进展，探索安全和监管的边界构建；立即着手采用共创的方式：选择外部供应商和合作伙伴，为有可能到来的生成式 AI的场景爆发准备好强大的外援力量。2、两个规划制定：私域知识治理规划：生成式 AI技术助力企业数字化转型，无论如何都需要企业私域知识的加持，部分企业曾经开展过数据治理工作，这为企业私域知识治理打下了很好的基础；生成式 AI应用开发和管理平台规划：不论软件 1.0、2.0还是 3.0 的应用，都是企业数字化转型落地的手段，在点状创新之后，需要认真规划新应用的体系化开发、部署、运维和管理的平台，以及大模型及其算力管理平台和现有技术栈的融合。神州数码，作为中国 IT生态的核心参与者，始终致力于促进先进技术在企业的系统化应用。作为生态链的建设者和守护者，我们深知生成式 AI技术的崛起标志着一场技术革命的开始。因此，我们决意联合整个生态体系，共同帮助企业全面拥抱这一技术范式转变的到来。面对巨大而复杂的机遇与挑战，儒家经典礼记中庸篇为我们提供了宝贵的指导思想：“故君子尊德性而道问学，致广大而尽精微。”这启示我们在追求技术创新的道路上，既要有宏观的视角，又必须全神专注于每一个关键的落地技术细节。持此信念，神州数码将继续汇聚各方力量，助力生成式 AI技术为企业数字化转型注入更强劲的动力。82 生成式 AI 的六层技术生态GPT的成功，促成整个 AI行业的技术生态正发生着巨大变革，并形成了激烈的竞争：从众多 AI芯片厂商奋力追赶英伟达当前的技术优势，到模型厂商间的“百模大战”迅速升级为“千模混战”，生态中的厂商都在力图找准自己的定位，形成自己的技术优势。激烈竞争的同时也带来了技术的快速发展，相关的论文和报告以惊人的速度发布着，新的应用以及产品更是层出不穷。随着不断地创新、试错以及优化，生态架构中许多关键的概念逐步清晰，一些关键的技术沉淀下来，积极影响着企业场景的落地。我们可以明显观察到生成式 AI相关技术的发展已经形成了六层技术生态体系，包含 AI算力基础设施、基础大模型与相关技术、大模型与训练及评测数据、生成式 AI应用开发技术、生成式 AI安全与监控以及生成式 AI应用设计。本章概述了架构中每层的核心技术，并结合自身在实际应用场景中的经验与思考，为大家带来生成式 AI技术生态的总结。2.1 AI 算力基础设施大模型的基础算力设施是AI生态中不可或缺的核心组成部分，为大模型在企业场景中的实际应用提供了关键的驱动力。其中AI芯片是算力的核心来源，其选型会直接影响到后续大模型的开发效率和性能。与此同时，AI服务器，作为AI芯片的主要承载平台，其架构设计和性能优化也显得尤为关键。基于AI服务器，各大厂商会根据所持有的算力资源，发展出不同的经营模式。一些厂商选择采用“基础设施即服务（IaaS）”模式，主要图 2 生成式 AI 六层架构技术生态体系9提供硬件设施的使用权限；而一些厂商则采用“平台即服务（PaaS）”模式，不仅提供算力，还为用户提供了一系列与模型开发相关的服务。为了更高效地管理这些AI服务器和算力资源，许多企业和政府机构会选择构建智算中心，这是一种集中管理和优化算力资源的方式，同时也反映了其对AI技术的重视和支持。我们将深入探讨大模型基础设施的各个方面，包括AI芯片、AI服务器、AI IaaS、AI PaaS以及AI智算中心，阐述大模型对基础设施的特定需求，旨在为读者提供一个更全面的视角。2.1.1 AI 芯片2.1.1.1 AI 芯片概述与分类AI芯片也称为AI加速器，专门用于处理人工智能应用中需要的大量计算任务的模块，为AI任务提供基础算力。AI芯片前身是GPU（Graphics Processing Unit，图形处理单元），专门为游戏或者图像软件提供高效图形渲染的处理器，之后在人工智能技术逐步发展的过程中发现GPU的独特高效并行计算架构同样适用于人工智能计算加速过程。在人工智能理论知识逐渐丰富的过程中，芯片厂家也对AI芯片处理器的计算单元和架构组成有了更多的探索。根据芯片的处理单元和可编程灵活性分类，AI芯片可以分为GPGPU、FPGA和ASIC以及类脑芯片。其中GPGPU（General Purpose Graphics Processing Unit，通用图形处理器）是GPU的衍生概念，保留了GPU的并行计算能力，去除了图像渲染显示部分。目前学术界和工业界普遍使用英伟达的AI芯片进行人工智能模型和应用开发，考虑到模型应用的普适性人们也都以GPGPU作为首选。FPGA（Field Programmable Gate Array，现场可编程门阵列）可以通过配置文件重新定义门电路和存储器之间的连线从而改变计算方式，与GPU相比具有高性能低功耗和可硬件编程的特点。ASIC（Application Specific Integrated Circuit，专用集成电路），是一种专用芯片，是为了某种特定的需求而专门定制的芯片的统称。在其所针对的特定的应用领域，ASIC芯片的能效表现要远超GPU等通用型芯片以及半定制的FPGA。近几年，颠覆传统冯诺依曼架构模拟人脑神经元结构的类脑芯片成为学界和工业界探索的新思路。根据 AI应用场景分类芯片有云端、终端和边缘端三种类型。云端芯片一般部署在公有云或私有云侧，支持模型的训练和推理任务。其优点是高性能、高计算密度，缺点是单价高、产品硬件形态单一。终端芯片通常部署在手机等移动设备中，支持模型推理任务，其优点是低功耗、高效能、成本低、产品最终硬件形态众多。边缘端芯片部署在边缘设备上如路边监控控制通讯设备，其对功耗、性能、尺寸的要求介于终端和云端之间，同10样以推理任务为主，产品的硬件形态相对较少。根据芯片在 AI任务中的功能分为训练芯片和推理芯片。训练芯片支持大型模型的训练过程，通过大量数据的输入训练构建复杂的深度神经网络模型。在模型训练的过程中涉及大量的训练参数和复杂的模型网络结构，需要巨大的运算量，对处理器的计算能力、可处理数据精度和可拓展性的要求都很高。推理芯片支持使用训练好的模型进行推理运算，对单位能耗算力、时延和成本有一定的要求。2.1.1.2 AI 芯片的性能指标和大模型的算力消耗在模型推训的过程中，主要关注 AI芯片硬件的以下几个指标：算力、功耗、面积、带宽和显存。算力是衡量 AI芯片的重要指标，常用的单位是 TOPS和 TFLOPS,分别代表芯片每秒能处理多少万亿次的INT8的整型运算或 FP32单精度浮点运算。AI芯片的算力越高代表它的运算速度越快，性能越强。功耗是芯片运行的电力消耗，由于模型推训耗时漫长，大量的电力消耗进而需要更大的资金投入，对使用者而言，AI芯片的功耗不容忽视。摩尔定律预言了芯片面积和利润的关系，通常来讲相同工艺制程之下，芯片面积越小、良率越高，则芯片成本越低。考虑到大数据并行访问的需求，AI和大数据处理需要高带宽和大存储容量的内存。因此，大模型对于 AI芯片有以下两项性能要求：其一，带宽,位数越大说明时钟周期内所能传输的数据量越大；其二，显存，大显存能减少读取数据的次数，降低延迟。大模型的算力消耗受以下几个因素影响，每参数每 Token算力需求、模型参数规模、训练数据规模和算力使用效率。以GPT-3(175B)为例，其模型的参数量是175B，假设训练数据为300B tokens，每参数每token对算力的消耗是6 Flops，以NVIDIA 80GB A100 GPU为例,理论算力是312TFLOPS，Megatron利用张量并行和流水线并行技术能达到 51.4%的利用率，即每秒能完成 0.16PFLOPS，根据上述条件，结合模型算力消耗约等于（每参数每token的训练需求*训练数据规模*参数规模）/算力使用效率，推测单张A100完成一次迭代计算所需耗时约为65年，若采用1000张A100，训练时间大约可缩短为1个月左右。2.1.2 AI 服务器区别于传统服务器，AI服务器搭载了各类 AI加速卡，通过异构的方式组成不同的AI服务器。其常见的组合形式是 CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或 CPU+多种加速卡等。近期甚11至提出了“GPU+DPU的超异构”设计，加入 DPU的强大数据处理调度能力的 AI服务器将更加适合大模型时代超大数据量并行计算的场景。AI服务器根据应用场景、芯片类型和 GPU数量有不同的分类。根据深度学习应用场景分为训练型服务器和推理型服务器，训练型服务器对算力要求较高，推理型服务器对算力要求较低。根据 AI服务器搭载的芯片不同，分为“CPU+GPU”的异构类型和“CPU+XPU”超异构类型。最后，根据搭载 GPU的数量分为多路 AI服务器，常见的有四路、八路和十六路 AI服务器。大模型的训练和推理任务对算力和网络都有了新的需求，超大参量的模型需要超高的算力，然而训练时间的延长，对模型训练期间的网络稳定性也有要求。近来，芯片领头企业将目光转向了“超异构”计算架构，集成CPU、GPU和 DPU多种芯片的 AI服务器可以高效解决 AI大模型计算中遇到的多种计算加速、可拓展性、数据带宽延迟、训练速度、网络稳定性等问题。2.1.3 AI IaaSIaaS（Infrastructure as a Service，基础设施既服务），运营商通过软件定义算力资源的方式将硬件资源池化提供给客户。客户通过即用即付的方式获取计算、存储和网络等 IT基础设施资源的调度使用权限，并在此基础上部署、维护和支持应用程序。运营商负责运营维护基础物理设施，采用依赖虚拟化、容器和自动化技术的云计算架构高效控制 IT资源。AI Iaas服务平台通过软件定义 AI算力组成具备池化能力、池化调度和运维管理能力的功能架构。其中，池化能力支持算力切分、远程资源调用、资源聚合、算力超分和随需应变的功能。池化调度包括本地或跨机房调度、指定节点、指定型号、任务队列调度和多资源池管理。资源池的运维管理功能包括运行时自动注入、组件高度可用、集群运维管理、平台运维管理以及全局资源监控。AI IaaS的关键技术点是算力池化。算力池化基于传统云计算技术（如 Kubernetes、OpenStack）用软件定义的方式，对 GPU等 AI算力资源进行分时调度管理,并且采用 GPU/AI芯片的 Runtime提供的 API劫持、应用程序监控等技术实现计算资源跨界点远程调用。AI IaaS通过高速无损网络互连互通的 CPU、GPU、ASIC芯片等算力资源进行池化整合，实现资源的集中调度、按需分配，使资源充分利用，降低碎片概率，提高总体有效算力、降低智算中心购置成本，能够做到化整为零。革新传统的整卡分配、“一虚多”的虚拟化分配等粗放式分配方式，使能精细化分配能力，根据 AI 任务的资源需求进行按需分配，使资源可被充分利用，降低碎片概率，提高总体有效算力，降低基础硬件设施购置成本。122.1.4 AI PaaSPaaS（Platform as a Service，平台即服务）为软件研发提供了一种服务化的平台，采用软件即服务（SaaS）的模式交付。对于 AI大模型的开发者，PaaS提供了一个便捷的环境，支持大模型应用的快速部署、开发和测试。PaaS 平台架构AI 大模型的 PaaS 平台主要提供以下五大功能：1、加速生产和部署：提供工具和指南，优化并加速模型的推理，满足生产部署的需求。比如平台会使用如Docker或 Kubernetes的容器技术，确保模型在不同的环境中都能一致、稳定地运行，并通过 CI/CD流程，确保模型的更新和部署能够自动且连续地进行。2、模型库与接口：提供统一的接口，支持多种预训练的 NLP模型，如 BERT、GPT、RoBERTa等。Transformer库的 API支持各种 NLP任务，如文本分类、命名实体识别、文本生成等。通过 API调用，开发者可以轻松地加载和使用模型，并可以通过接口提供丰富的参数和选项，使开发者可以根据自己的需求进行定制。3、数据管理与处理：Datasets库可以提供 NLP数据集的访问、管理和处理工具，Tokenizers库可以支持文本数据的标记化，为模型准备输入数据。比如开发者可以直接在平台上加载和使用库中包含的多种NLP数据集，平台会允许开发者上传自己的数据集，并为数据集提供版本管理功能，从而确保数据的一致性。4、模型训练与微调：允许用户下载预训练模型，进行微调，适应特定任务，包括模型训练、微调、封装、验证、部署和监控。使用预训练模型并对其进行微调已经成为了 AI领域的标准做法，尤其是在 NLP中。这种方法结合了预训练模型的通用知识和特定任务的数据，从而获得了更好的性能。5、模型共享：ModelHub和 Space为用户提供模型共享、代码分享和协作环境。鼓励开发者之间的开放合作，促进 NLP技术的快速发展。13图 3 大模型 PaaS 平台传统的 PaaS平台主要关注用户软件应用开发周期的加速，通过开发工具的集成、硬件基础设施的自动管理、多租户应用共享基础资源和开发者多平台灵活访问的方案为企业和开发者提供便捷服务。大模型的高算力和高开发门槛要求 PaaS平台更加关注大模型的开发部署流程的优化。参考目前市场中成功的厂家案例，如 Google AI Platform、AWS SageMaker和 HuggingFace等，这些厂家平台在部署大量基础设施资源的情况下为用户提供大模型快捷开发环境、大模型的全生命周期的监控调优，同时也会提供一些预训练模型和数据集。大模型PaaS平台的上述功能优势也将为个人开发者和一些微小企业的 AI应用开发提供便利，大大降低大模型硬件基础设施的购买运维成本和搭建复杂的基础开发环境的时间精力消耗。2.1.5 智算中心智算中心是基于最新人工智能理论，采用领先的人工智能计算架构，提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施，通过算力的生产、聚合、调度和释放，高效支撑数据开放共享、智能生态建设、产业创新聚集，有力促进 AI产业化、产业 AI化及政府治理智能化。智算中心作业环节是智算中心的支撑部分，智算中心通过作业环节实现了算力的生产、聚合、调度和释放，是区别于其它数据中心的具体体现。功能部分是四大平台和三大服务，四大平台分别是算力生产供应平台、数14据开放共享平台、智能生态建设平台和产业创新聚集平台；三大服务分别是数据服务、算力服务和算法服务，目标是促进 AI产业化、产业 AI化及政府治理智能化。智算中心通常采用三方主体协作的投资建设运营模式：1、投资主体：智算中心建设通常采用政府主导模式，政府作为投资主体加快推进智算中心落地，以智算中心为牵引打造智能产业生态圈，带动城市产业结构优化升级，增强城市创新服务力。2、承建方主体：智算中心建设通常选择政府主导下的政企合作模式，由企业具体承建智能计算中心。3、运营主体：运营主体为具体负责智算中心投入使用后的运营服务机构。AI 智算中心不仅是一个高效的计算中心，更是一个综合性的创新平台，它结合“平台+应用+人才”的三合一策略，为新型AI产业的繁荣提供强大的算力支持、实际应用开发的鼓励，以及顶尖AI专家的培养和吸引。此外，中心还强调“算力+生态”的双轮驱动，通过持续的硬件投资和开放的AI生态合作，旨在吸引更多的企业和研究机构，从而推动AI全产业链的形成和快速发展。2.2 基础大模型与相关技术2.2.1 大模型研究发展迅速2017年 Transformer模型提出并在机器翻译领域取得巨大成功后，自然语言处理大模型进入了爆发式的发展阶段。自 2018年以来，大型预训练语言模型的发展经历了几个重要阶段和突破：2018年，Google发布了BERT模型，引领了自然语言处理领域预训练范式的兴起；2020年，OpenAI发布了 GPT-3模型，展示了强大的文本生成能力和在少量标注任务上的优秀表现，然而基于提示词学习的方法并未在大多数任务上超越预训练微调模型；2022 年 11月，ChatGPT 的问世展示了大语言模型的潜能，能够完成复杂任务并在许多任务上超越有监督模型。这一突破表明大型语言模型在复杂任务上的潜力。大语言模型的实现细节和训练过程仍存在许多复杂性，对研究人员提出了挑战。同时，大语言模型的发展也带来了一些挑战和争议，关于数据隐私、模型偏见和滥用等问题引发了广泛讨论。为了解决这些问题，研究人员和机构开始探索模型透明化、可解释性和模型治理方法。更多的具备多模态功能的大模型也将很快推出，例如 Google的 Gemini，OpenAI的 Gobi，开源的 NExT-GPT等。多模态大模型的视觉功能会带来潜在的法律安全风险，这些潜在的风险会延缓多模态大模型的推出进度。152.2.2 大模型与小模型将持续并存大模型与中小模型在未来几年会并存。尽管大模型当前表现优异，但对于各行业使用者来说，实际应用于业务场景仍然存在较高的技术和成本门槛。从业务层面分析，一定会出现资源配置更加高效的小模型，例如细分领域的专用小模型。不仅仅存在大模型和小模型的融合使用，大模型的小型化，以大模型为底座的小型化微调，也是一种趋势，这种方式能够以低廉的成本解决大量的业务问题。“大和小是一个相对的变化。”。当前大模型的参数标准并不统一，相对于参数量级，模型的效果且是否能够支持快速迭代对于用户实际应用来说更为重要。用户能够在一个白盒大模型基础上快速地、低成本地微调和迭代出定制化的小模型，才能高效地实现丰富场景的大模型应用。模型需要持续迭代，表明了 AI基础软件工具链的重要性。2.2.3 大模型的基础理论与设计2.2.3.1 大模型网络架构的发展当前主流大模型是基于Transformer架构进行设计的。传统的Transformer架构通常具有二次计算复杂性，在上下文长度较长时，训练和推理效率已成为一个重要问题。为了提高效率，一些新的语言建模架构被提出来，例如 RWKV，RetNet等。Transformer，由于其架构的出色并行性和容量，使得将语言模型扩展到数百亿或数千亿个参数成为可能，Transformer 架构已成为开发各种大模型的事实标准骨干。一般来说，主流大模型架构可以分为4种类型，即Decoder-Only、Encoder-Only、Encoder-Decoder和MoE。Decoder-Only，典型代表是 GPT 和 LLaMA 等模型，Encoder-Only的典型代表是 BERT 和 ALBERT 等模型，Encoder-Decoder的典型代表是 T5 和 BART 等模型；值得特别注意的是，即使GPT-4的技术细节未公开，业界的广泛认知是其使用了MoE架构。RWKV，结合 Transformer 和 RNN 的优势，训练时能够像 Transformer 那样并行计算，推理时又能像 RNN 那样高效。高效推理，对于降低模型成本，尤其是在端侧部署有重要意义。RWKV 的计算量与上下文长度无关，对于更长的上下文有更好的扩展性。和 RNN 一样，历史信息是靠隐状态（WKV）来记忆的，对于长距离历史信息的记忆不如 Transformer，如何设计提示对模型的性能会有很大影响。RetNet，作为全新的神经网络架构，同时实现了良好的扩展性、并行训练、低成本部署和高效推理。在语言建模任务上 RetNet 可以达到与 Transformer 相当的困惑度（perplexity），推理速度提升 8.4倍，内存占用16减少 70%，具有良好的扩展性，并且当模型大小大于一定规模时，RetNet 的性能表现会优于 Transformer。这些特性将使 RetNet 有可能成为 Transformer 之后大语言模型基础网络架构的有力继承者。图 4 Transformer 网络架构图 5 RWKV 网络架构 2.2.3.2 大模型的训练目标多样化基础大模型是对世界知识的压缩，从基础模型到通用模型，模型的性能的构建主要来源于包含四个阶段：预训练、指令微调、奖励建模和对齐微调。这四个阶段分别需要不同规模的数据集，采用不同的训练目标，从而训练得到不同尺寸的模型，因此所需要的计算资源也有非常大的差别。预训练，在将大规模语料库中的通用知识编码到庞大的模型参数中起着关键作用。对于训练大模型，有两种常用的预训练任务，即语言建模和去噪自编码。指令微调，目标是增强（或解锁）大语言模型的能力，是一种提高大语言模型能力和可控性的有效技术。使用格式化的实例以有监督的方式微调大语言模型（例如，使用序列到序列的损失进行训练）。指令微调后，大语言模型展现出泛化到未见过任务的卓越能力，即使在多语言场景下也能有不错表现。奖励建模，目标是构建一个模型，用于进行文本质量评价。在使用场景中，指令微调模型会根据一个提示词，生成多个不同结果，然后由奖励模型进行质量排序。对齐微调，目标是将大语言模型的行为与人类的价值观或偏好对齐。与初始的预训练和指令微调不同,语言17模型的对齐需要考虑不同的标准（例如有用性,诚实性和无害性）。已有研究表明对齐微调可能会在某种程度上损害大语言模型的通用能力，这在相关研究中被称为对齐税。对齐微调是一项具有挑战的工作。现有的很多开源大模型只做到指令微调，都没有做到对齐微调。2.2.3.3 Scaling Law 的指导意义OpenAI于2020年最先引入了语言模型缩放法则，他们认为,增加模型大小比增加数据大小更重要。DeepMind于2022年提出几乎完全相反的观点:以前的模型明显训练不足,增加训练数据集的大小实际上会带来更好的性能提升。影响模型性能最大的三个因素：计算量、数据集大小、模型参数量。当其他因素不成为瓶颈时，这三个因素中的单个因素指数增加时，Loss会线性地下降。OpenAI观点：最佳计算效率训练是在相对适中的数据量上训练非常大的模型并在收敛之前Early Stopping。影响模型性能的三个要素之间存在幂指数的关系，每个参数并受另外两个参数影响。当没有其他两个瓶颈时，性能会急剧上升，影响程度为计算量参数数据集大小。训练要同时增大参数规模和数据集大小。大模型比小模型的样本效率更高，能以更少的优化步骤和使用更少的数据量达到相同的性能水平。DeepMind观点：模型太小时，在较少数据上训练的较大模型将是一种改进；模型太大时，在更多数据上训练的较小模型将是一种改进。可以通过 Scaling Law进行模型性能的预测。随着模型规模和复杂性的大幅增加，很难预测模型性能的变化。通过开发更好的模型性能预测方法，或提出一些新架构，使资源的利用更加高效，训练周期加速缩短。一些可能的方法包括：训练一个较小的“种子”模型并推断其增长，模拟 Increased Scale 或 Model Tweaks 的效果，在不同规模上对模型进行基准测试以建立 Scaling Laws。使用这些方法可以在模型构建之前就洞察到模型的性能。2.2.3.4 模型可解释性具有重要意义模型的可解释性是指以人类可理解的方式解释或呈现模型行为的能力。随着大模型的不断进步，可解释性将变得极其重要，以确保这些模型具有透明性、公平性和益处。大语言模型内部机制仍然不明确，这种透明度的缺乏给下游应用带来了不必要的风险。因此，理解和解释这些模型对于阐明其行为、消除局限性和降低社会不利影响至关重要。模型的可解释性从技术角度分为传统微调范式的可解释和提示范式的可解释。传统微调范式的解释，用于18解释个体组件所学习的知识或语言属性，解释大语言模型如何为特定输入做出预测。提示范式的解释，目标是用于理解大语言模型如何能够迅速从有限示例中掌握新任务，阐明对齐微调的作用，分析幻觉产生的原因。为提高模型预测的理解度，帮助用户建立适当的信任，同时也有助于研究人员和开发者发现模型的潜在问题并改进性能，需要制定评估生成解释的度量标准，研究如何利用解释来调试模型和提高性能。2.2.3.5 模型幻觉是一个高价值的研究方向当模型生成的内容不遵循原文（与给定的输入或源内容不一致）或者和事实不符，就认为模型出现了幻觉的问题。数据质量、数据重复、数据不一致及模型对自身能力的高估是导致幻觉产生的重要原因。在文本生成等大模型应用中，减少幻觉是一个亟待解决的重要问题。为减少幻觉，可从预训练、微调、强化学习等多个阶段对模型训练进行干预。预训练阶段可关注语料质量;微调阶段可人工检查数据;强化学习阶段可惩罚过度自信的回复。此外推理阶段，也可通过解码策略优化、知识检索、不确定度测量等方式缓解幻觉。尽管减少幻觉取得一定进展，但可靠评估、多语言

展开阅读全文