1、本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告海外行业深度海外行业深度 逐浪大模型:互联网巨头逐浪大模型:互联网巨头的的 A AI I 野望野望核心观点核心观点 语言模型已步入大模型发展阶段,国内大模型研发应用热潮持续高涨,科技大厂在模型、算力、平台、应用进行了四位一体的全面布局,如阿里的“通义大模型+飞天智算平台+魔塔社区+行业应用”、百度的“文心大模型+昆仑芯+飞桨平台+行业应用”、腾讯的“混元大
2、模型+HCC 算力集群+太极机器学习平台+行业应用”、字节的“视觉语言模型+火山高速训练引擎+火山机器学习平台+行业应用”。大模型落地将形成 API、PaaS 和 MaaS 三种收费模式,目前仍以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规模。摘要摘要 大模型发展全面加速,通过“预训练大模型发展全面加速,通过“预训练+精调”模式进行落地。精调”模式进行落地。语言建模经过统计语言模型、神经语言模型、预训练语言模型,已经全面迈入百亿、千亿参数规模的大语言模型阶段。大语言模型具备优秀的上下文学习能力、上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。大模
3、型研究存在 Google 的Bert 模式、OpenAI 的 GPT 模式和国内的混合模式三条技术线,以 ChatGPT 为主导 GPT 模式目前已经占据主流。目前,国内已有至少 19 家企业及科研院所参与人工智能大模型训练,主要分为大型科技公司、科研院所和初创科技团队三类。国际对比来看,目前美国领跑,中国跟跑,但差距不断缩小。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。互联网大厂在“模型、算力、平台和应用”互联网大厂在“模型、算力、平台和应用”进行
4、进行四位一体布四位一体布局。阿里“通义大模型局。阿里“通义大模型+飞天智算平台飞天智算平台+魔塔社区魔塔社区+行业应用”:行业应用”:在模型层,阿里达摩院主导大模型研究,发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。在算力层,阿里云推出全栈智能计算解决方 维持维持 强于大市强于大市市场表现市场表现 相关研究报告相关研究报告-14%6%26%46%66%86%2022/5/302022/6/302022/7/312022/8/312022/9/302022/10/312022/11/302022/12/312023/1/31202
5、3/2/282023/3/312023/4/30传媒标普500互联网互联网 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 5:AIGC 模型十大开发机构.6 图 6:预训练语言模型参数量.6 图 7:训练大模型“预训练+精调”模式.6 图 8:通义大模型架构.9 图 9:通义 M6 发展历史.9 图 10:M6-OFA 模型-任务完成模式(架构统一).10 图 11:M6-OFA 模型-预训练模式(模态统一).10 图 12:通义-AliceMind 发展历程.10 图 13:通义-AliceMind 在 CLUE 榜单中名列前茅.11 图 14:通义-视觉框架.11
6、 图 15:飞天智算平台.12 图 16:S4 框架.14 图 17:魔塔社区特点.15 图 18:阿里所有产品将接入大模型升级.16 图 19:百度 AI 大底座.17 图 20:文心大模型全景图.18 图 21:文心基础大模型组成.18 图 22:文心 NLP 大模型发展历程.20 图 23:从大规模知识图谱和海量无结构数据中学习.21 图 24:融合自编码和自回归结构.21 图 25:基于飞桨 4D 混合并行技术进行高效训练.22 图 26:层次化提示(Prompt)学习技术.23 图 27:文心 PLATO 技术研发框架.23 图 28:PLATO 基于隐变量的生成式开放域对话大模型.
7、24 图 29:PLATO 提出隐变量建模 Context 和 Response 的映射信息来解决一对多问题.25 图 30:PLATO-2 引入两阶段训练.25 图 31:PLATO-X 引入 role embedding 感知用户角色.26 图 32:UFO 架构.26 图 33:UFO 多任务联合优化.27 图 34:网络稀疏化(Path Routing).28 图 35:多规模网络学习(Stochastic Architecture Slimming).29 图 36:VIMER-UFO 2.0 单模型 28 个公开测试集 SOTA.29 图 37:VIMER-StrucTexT 2.
8、0 文档图像表征学习.30 图 38:商品搜索中多模态信息存在信息缺失问题.31 图 39:商品搜索中多模态信息存在信息缺失问题.31 图 40:基于 VIMER-UMS 的多模态商品搜索.32 图 41:ERNIE-ViL 架构图.33 图 42:ERNIE-ViL 融合场景进行判断.33 图 43:文心 ERNIE-ViLG 2.0 架构图.34 图 44:文心 ERNIE-ViLG 2.0 生成图示例.34 图 45:文心 ERNIE-ViLG 2.0 应用场景.34 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 46:昆仑芯发展历程.35 图 47:昆仑芯产品
9、迭代.35 图 48:飞桨平台全景图.36 图 49:飞桨四大领先技术.37 图 50:飞桨主流模型概览.37 图 51:飞桨硬件生态.38 图 52:飞桨产业实践范例库.38 图 53:飞桨位列中国深度学习市场应用规模第一.39 图 54:飞桨在各指标位列榜首.39 图 55:百度全新 AI 搜索体系.40 图 56:百度文心行业大模型全景.41 图 57:文心大模型产品矩阵.42 图 58:腾讯混元 AI 大模型架构.43 图 59:HCC 大幅提速大模型训练.44 图 60:星星海自研服务器.44 图 61:网络集群算力.45 图 62:HCC 存储架构.45 图 63:太极机器学习平台
10、架构.46 图 64:太极 AngelPTM.46 图 65:AI Lab 数字人.47 图 66:绝悟 RLogist 提出一种类似医生病理阅片的决策思路.48 图 67:文涌 2.0 基于混元大模型展现出生成能力.50 图 68:火山引擎发布的智能推荐-高速训练引擎.53 图 69:火山引擎机器学习平台.54 图 70:智能创作云 SaaS 产品.55 图 71:中国大语言模型产业参与厂商类型与定位逻辑.56 图 72:TLT 进行预训练过程中的主要流程.58 1 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。一、大模型发展情况一、大模型发展情况 1、行业发展历程、行
11、业发展历程 语言是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。然而,除非配备强大的人工智能(AI)算法,机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。从技术上讲,语言建模(Language Model,LM)是提高机器语言智能的主要方法之一。一般来说,LM 旨在对单词序列的生成概率进行建模,以便预测未来(或缺失)单词的概率。LM 的研究在学界中得到了广泛的关注,可以分为四个主要发展阶段:统计语言模型(统计语言模型(SLM):):SLM 是基于 20 世纪 90 年代兴起的统计学习方法开发的。其基本思想是基于马尔可夫假设
12、构建单词预测模型,例如根据最近的上下文预测下一个单词。具有固定上下文长度 n 的 SLM 也被称为n-gram 语言模型,例如二元和三元语言模型。SLM 已经被广泛应用于提高信息检索(IR)和自然语言处理(NLP)任务的性能。然而,它们经常受到维度灾难的影响:由于需要估计指数级的转移概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,例如后退估计和 Good-Turing 估计已经被引入为缓解数据稀疏问题。神经语言模型(神经语言模型(NLM):):NLM 通过神经网络,例如递归神经网络(RNNs),来描述单词序列的概率。作为一个显着的贡献,Y.Bengio 和 R.Ducharme
13、等人引入了单词的分布式表示的概念,并构建了基于聚合上下文特征(即分布式单词向量)的单词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种自然语言处理任务构建统一解决方案。此外,word2vec 提出了构建一个简化的浅层神经网络,用于学习分布式单词表示,这在各种 NLP 任务中被证明非常有效。这些研究开创了语言模型用于表示学习(超越了词序列建模)的应用,对 NLP 领域产生了重要影响。预训练语言模型(预训练语言模型(PLM):):作为早期尝试,ELMo 被提出来通过预训练一个双向 LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示
14、,然后根据特定的下游任务微调 biLSTM 网络。此外,基于高度可并行化的 Transformer 架构和自注意力机制,BERT 提出了通过在大规模无标注语料库上设计特定的预训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有效,可作为通用语义特征,大大提高了 NLP 任务的性能。这项研究启发了大量的后续工作,建立了“预训练和微调”学习范式。在此范式下,开发了大量关于 PLM 的研究,引入了不同的架构(例如 GPT-2 和 BAR)或改进的预训练策略。在这个范式中,通常需要微调 PLM 以适应不同的下游任务。大型语言模型(大型语言模型(LLM):):研究人员发现,扩展 PLM(
15、例如扩展模型大小或数据大小)通常会导致模型在下游任务上具有更强的能力(即遵循缩放定律)。一些研究探索了通过训练更大的 PLM(例如 175B 参数的 GPT-3和 540B 参数的 PaLM)来达到性能极限。尽管缩放主要是在模型大小(具有类似的架构和预训练任务)方面进行的,但这些大型 PLM 显示出与较小 PLM(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为,并展现出令人惊讶的能力(称为涌现能力)以解决一系列复杂任务。例如,GPT-3 可以通过上下文学习来解决少样本任务,而 GPT-2 做不好。因此,研究界为这些大型 PLM 创造了“大型语言模型(LLM)”的
16、术语。LLM 的一个显著应用是 ChatGPT,它利用 GPT 系列的 LLM 适应对话,具有惊人的与人类对话的能力。大语言模型相较于以往的语言模型具备显著优势,其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。2 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。大型语言模型研究的发展大型语言模型研究的发展有三条技术路线:有三条技术路线:Bert 模式、模式、GPT 模式、混合模式。模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019
17、 年后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于繁荣。从 Bert 往 GPT 演化的过程中,模型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识。从任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语言模型预训练+任务 Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT 模式是由两阶段到一阶段(单向语言模型预训练+zero-shot prom
18、pt),比较适合生成类任务、多任务,表现得“重而通”。T5模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,如果模型规模不特别大,面向单一领域的理解类任务,适合用 T5 模式,而 GPT 模式在做生成类任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。图图 1:语言模型发展时间线语言模型发展时间线 数据来源:真格基金,中信建投 如今,LLM 正在对人工智能社区产生重大影响,ChatGPT 和 GPT-4 的出现引发了重新思考人工智能通用智能(AGI)的可能性。OpenAI 已经发表了一篇名为“Plan
19、ning for AGI and beyond”的技术文章,讨论了实现 AGI的短期和长期计划,而最近的一篇论文则认为 GPT-4 可能被视为一个早期版本的 AGI 系统。LLM 的快速进步正在彻底改变人工智能的研究领域。在自然语言处理领域,LLM 可以在某种程度上充当通用语言任务求解器,研究范式已经转向使用 LLM。在信息检索领域,传统的搜索引擎正在被 AI 聊天机器人(即 ChatGPT)挑战,而 New Bing 则是基于 LLM 增强搜索结果的初始尝试。在计算机视觉领域,研究人员试图开发类似于 ChatGPT的视觉语言模型,以更好地服务于多模态对话,而 GPT-4 通过集成视觉信息已经
20、支持多模态输入。这股新的技术浪潮有可能会导致基于 LLM 的真实世界。例如,Microsoft 365 正在被 LLM(如 Copilot)赋能以自动化办公工作,而 OpenAI 支持在 ChatGPT 中使用插件来实现特殊功能。起源于 Transformer 模型,ChatGPT 经过 5 年迭代成功出世。ChatGPT 的诞生经历了从 Transformer-GPT-GPT2-GPT3-ChatGPT 的逐步迭代过程,其具体发展历程如下:(1)2017 年 6 月,Google 发布论文 Attention is all you need,首次提出 Transformer 模型,成为 GP
21、T 发展的基础;(2)2018 年 6 月,OpenAI 发布论文 Improving Language Understanding by Generative Pre-Training,首次提出 GPT 模型,即 GPT-1,模型参数量达 1.17 亿;(3)GPT-1GPT-2GPT-3Instruct-GPTGPT模式模式ChatGPTT5BARTM2m-100BigBird混合模式混合模式Bert模式模式BERTCNNRNNGANTransfo-rmer国内国内LLMMachineLearning基于规则基于规则的少量数的少量数据处理据处理RoBERTaXLMALBERT基于模版和规则
22、的前深度学习阶段根据一定范围的的数据进行参数分类开始模仿人脑进行大量数据的标记和训练对人脑学习过程进行重点关注1950年开始年开始神经网络神经网络1980年开始年开始1990年开始;年开始;2006年获得年获得突破突破2017年年2018年年2019年年2020年年2022年年进行海量数据学习训练,人类的反馈信息成为模型学习的内容 3 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。2019 年 2 月,OpenAI 发布论文Language Models are Unsupervised Multitask Learners,提出 GPT-2 模型,大模型共计 48 层,
23、参数量达 15 亿;(4)2020 年 5 月,OpenAI 发布论文Language Models are Few-Shot Learners,提出 GPT-3 模型,参数量达 1750 亿;(5)2022 年 2 月底,OpenAI 发布论文Training language models to follow instructions with human feedback,公布 Instruction GPT 模型,参数量达 13 亿;(6)2022 年 11 月 30 日,OpenAI推出 ChatGPT 模型,并提供试用。图图 2:ChatGPT 发展时间线发展时间线 数据来源:Op
24、enAI,中信建投 2、大语言模型概览、大语言模型概览 通常,大型语言模型(LLMs)是指包含数千亿(或更多)参数的语言模型,它们是在海量文本数据上进行训练的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具体来说,LLMs 建立在 Transformer 架构之上,其中多头注意力层在一个非常深的神经网络中堆叠。现有的 LLMs 主要采用类似的模型架构(即 Transformer)和预训练目标(即语言建模)作为小型语言模型。作为主要区别,LLMs 大量扩展了模型大小、预训练数据和总计算量(数量级)。它们可以更好地理解自然语言,并基于给定的上下文(即提示)生成高质量的文本。这种
25、能力提升可以部分地由缩放法则描述,即性能大致随着模型大小的增加而显著增加。然而,一些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时才能观察到。百亿参数量级别的模型:百亿参数量级别的模型:这类模型的参数规模除了 LLaMA(最大版本 65B 参数)和 NLLB(最大版本 54.5B参数),大多在 10B 至 20B 之间。这一参数范围内的模型包括 mT5、PanGu-、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作为研究指令微调的首选模型,因为它从三个方面探索了指令微调:增加任务数量、扩大模型规
26、模和使用思维链提示数据进行微调。CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型,其提出了一个新的基准测试 MTPB,专门用于多轮程序合成,由 115 个专家生成的问题组成,为了解决这些问题,需要大语言模型获得足够的编程知识(例如数学、数组操作和算法)。对于多语言任务,mT0(13B)可能是一个比较好的候选模型,因为它在多语言任务中使用多语言提示进行微调。此外,对于中文的下游任务,PanGu-具有较好的表现,特别是在零样本或小样本的设置下,该模型基于深度学习框架 MindSpore 开发,拥有多个参数版本(最大版本 200B 参数),而最大的公开版
27、本只有 13B 参数。此外,作为最近发布的模型,LLaMA(65B)在与指令遵循相关的任务中展2016.4第一个项目OpenAI OpenAI Gym BetaGym Beta发布,以开发和比较不同强化学习算法2017.5开源一个重现强化学习算法的工具OpenAI OpenAI BaselinesBaselines,提供用于正确的强化学习算法实现的最佳实践2018.6发布GPTGPT,一个在诸多语言处理任务上都取得了很好结果的算法,首个将Transformer与无监督预训练技术相结合的算法,其取得的效果好于已知算法2019.2发布拥有15亿参数GPTGPT-2 2,基于800万网页数据、40G
28、Web Text作为训练数据2019.4首次将生成模型从首次将生成模型从自然语言处理领域自然语言处理领域扩展到其他领域:扩展到其他领域:公布MuseNetMuseNet,一个深度神经网络,可以用10种不同的乐器生成4分钟的音乐作品,并且可以结合从乡村到莫扎特到披头士的风格2020.4发布MicroscopeMicroscope,一个用于分析神经网络内部特征形成过程的可视化工具2020.5发布GPTGPT-3 3模型模型,对于所有任务,无需进行任何梯度更新或微调,仅通过与模型的文本交互指定任务和少量示例即可获得很好的效果;一个月后,发布Image GPTImage GPT模型模型,将GPT的成功
29、引入计算机视觉领域2021.1发布CLIPCLIP,能有效地从自然语言监督中学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称2021.1发布DALL EDALL E模型模型,一个120亿个参数的GPT-3版本,被训练成使用文本-图像对的数据集,从文本描述中生成图像2022.1发布InstructGPTInstructGPT,大量使用了人类反馈与指导,在GPT3的基础上,进一步精调,使得输出更加可控2022.4发布DALL E 2.0DALL E 2.0,其效果比第一个版本更加逼真,细节更加丰富且解析度更高2022.9发布WhisperWhisper,一个语言识别预训练模型
30、,结果逼近人类水平,支持多种语言2022.11发布ChatGPTChatGPT,一个AI对话系统,可以写代码,写博客、写短剧等等 4 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。现了卓越的性能。由于其开放性和有效性,LLaMA 引起了研究界的广泛关注,许多工作致力于微调或继续训练其不同的模型版本以实现新模型或工具的开发。百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。例如,GPT-NeoX-20B 使用了 12 个微服务器,每个服务器配备了 8 个 NVIDIA A100-SXM4-40GBGPU,LLaMA使用了 2048 个 A100-80GGPU。
31、为了准确估计所需的计算资源,我们还是建议使用衡量涉及计算量的指标,例如计算 FLOPS(每秒浮点数运算次数)。千亿参数量级别的模型:千亿参数量级别的模型:在这类模型中,只有少数几个模型进行了公开发布。其中,OPT、OPT-IML、BLOOM和 BLOOMZ 的参数量几乎与 GPT-3(175B)大致相同,而 GLM 和 Galactica 的参数数量分别为 130B 和 120B。其中,OPT(175B)专注于复现和开源,旨在使研究人员能够进行大规模可重复研究。对于跨语言泛化研究,可以将 BLOOM(176B)和 BLOOMZ(176B)用作基础模型,因为其在多语言建模任务中具有较好的能力。在
32、这些模型中,OPT-IML 进行了指令微调,是研究指令微调效果的较好选择。千亿参数量级别的模型通常需要数千个 GPU 或 TPU 进行训练。例如,OPT(175B)使用了 992 个 A100-80GBGPU,GLM(130B)使用了 96 个NVIDIADGX-A100(8x40G)GPU 节点集群。图图 3:大模型发展时间线大模型发展时间线 数据来源:Arxiv,中信建投证券 据中移智库统计,截止到 2023 年 4 月 18 日,国内至少有 19 家企业及科研院所涉足人工智能大模型训练,主要分为大型科技公司、科研院校和初创科技团队三类。具体来看:百度、阿里等 12 家大型科技公司和中国科
33、学院、清华大学等 3 家科研院校已经提供开放测试,或有明确的推出时间计划;字节跳动、搜狗创始人王小川、美团创始人王慧文、创新工场创始人李开复等则是最近对外宣布组建团队,进军大模型研发领域。其中,字节跳动旗下火山引擎于 4 月 18 日发布自研 DPU(数据处理器)等系列云产品,推出新版机器学习平台,可以支持万卡级大模型训练、微秒级延迟网络,为预训练模型提供强大的算力支持。5 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 4:国产大模型发展时间表国产大模型发展时间表 数据来源:各公司官网,中信建投证券 从大模型的布局体系来看,科技大厂在算力层、平台层、模型层、应用层进
34、行了四位一体的全面布局。百度、阿里、华为三家均从芯片到应用进行自主研发的全面布局,如百度的“昆仑芯+飞桨平台+文心大模型+行业应用”、阿里的“含光 800 芯片+M6-OFA 底座+通义大模型+行业应用”、华为的“昇腾芯片+MindSpore 框架+盘古大模型+行业应用”。垂直行业科技企业和科研院校,主要以研发大模型算法及细分领域应用为主,自有算力相对薄弱,很少涉及芯片领域自主研发。从大模型参数量看,科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大:阿里通义千问大模型参数在 10 万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在 2 千亿级以
35、上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规模。目前,百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在 B 端垂类市场积累了标杆应用案例,腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在 C 端市场应用方面,百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在进行友好客户测试,阿里通义千问大模型则计划在今年 9 月份进行公测,
36、腾讯混元助手大模型则处于计划开发状态。从大模型业界评估看,国内大模型与 GPT-4 有较大差距,但科技大厂具备追赶实力。目前国内大模型处于百花齐放的状态,但业界普遍认为,第一梯队当属百度、阿里巴巴、腾讯、华为四家。综合实力方面,四家企业在大模型研发投入、技术能力和人才团队实力较强;商用推进方面,四家企业均依托现有业务领域更容易形成大模型应用规模效应。从模型数量和参数量来对比,美国领跑,中国跟跑,且差距不断缩小。从 AIGC 模型数量来看,全世界前十的 AIGC 模型研发者中,中国机构占了四个。包括其中有学院派的 BAAI 智源研究院和清华大学,也有产业界的百度和阿里巴巴研究院。虽然以色列的实验
37、室 AI21 和加拿大初创公司 Cohere 也在构建大型模型,但中国是除英美以外唯一拥有多实验室的参与者。在模型预训练参数方面,中国在模型的规模和性能方面大概落后西方一年。例如,OpenAI 在 2020 年 6 月推出 GPT-3 模型,中国的智源、华为、百度在差不多一年之后才研发出2023.3.23OpenAIGPT开放开放Plugins功能功能2022.11OpenAI推出推出ChatGPT2023.2.27Meta开源开源LLaMA2023.3.2OpenAI推出推出ChatGPT API2023.11Google发布发布PaLM-E2023.3.15OpenAI推出推出GPT-4.
38、0及及API2023.3.16微软/百度发布发布Microsoft 365 Copilot发布百度文心一言发布百度文心一言2023.32023.3.20英伟达/Google英伟达开发者大会英伟达开发者大会谷歌正式开放谷歌正式开放Bard2023.52023.5.6科大讯飞星火大模型星火大模型2023.5腾讯发布混元大模型发布混元大模型2023.5.6GoogleI/O大会,推出融合的大会,推出融合的AIGC的的Gmail和和Google Docs2023.5.23微软微软开发者大会,发布新微软开发者大会,发布新Windows等等2023.5.6苹果全球开发者大会,发布全球开发者大会,发布MR设
39、备设备2023.62023.42023.4.11阿里通义千问通义千问2023.4.10360/商汤科技360智脑智脑商汤日日新商汤日日新2023.4.13知乎知乎图知乎图AI2023.4.10华为盘古系列盘古系列AI大模型大模型2023.4.17昆仑万维天工大模型天工大模型2023.4.18字节跳动推出大模型训练云平台推出大模型训练云平台2023.4.18腾讯混元在五大跨模态视频检混元在五大跨模态视频检索数据集榜单夺冠索数据集榜单夺冠 6 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。了体量与之相当的模型,又用了一段时间才让模型的技能和 GPT-3 相媲美。但 ChatG
40、PT 在 12 月推出后,科大讯飞在 5 月的时间推出的星火大模型,基本上已经可以对标 ChatGPT。图图 5:AIGC 模型十大开发机构模型十大开发机构 图图 6:预训练语言模型参数量预训练语言模型参数量 数据来源:Leonis Capital,中信建投证券 数据来源:Leonis Capital,中信建投证券 3、产业发展趋势、产业发展趋势 大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放 API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困
41、境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。图图 7:训练大模型“预训练训练大模型“预训练+精调”模式精调”模式 数据来源:IDC,中信建投证券 文本 知识 图像.视频产业应用产业应用原子能力原子能力任务相关少量数据海量无标注数据精调精调应用应用精调精调专业教育预训练预训练通识教育类似人类学习机制
42、自监督学习自监督学习智能检索智能推荐智能客服智能审核工业质检智能录入.智能对话智能创作智能回答文档理解目标检测图像分割.7 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。大模型增强了 AI 技术的通用性,让开发者以更低成本、更低门槛,面向场景研发更好的 AI 模型,助力普惠 AI 的实现。但目前,基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走,不仅需要有与场景深度融合的大模型体系,也需要有支持全流程应用落地的专业工具和平台,还需要开放的生态来激发创新;三层之间交互赋能,才能形成良性循环的产业智能化生态共同体。我们看到 OpenAI 在开发 GPT 大模型的
43、过程中具有相似的思路,在不断加强大模型本身性能的同时,将 GPT 打包成产品,对外提供 API 服务,相关开发者、企业、学术机构以及高校都可以申请使用。开放后,大量开发者利用 API 开发出了各种各样的功能,例如翻译机、网站生成器等;OpenAI 则通过用户获取了更多的行为数据,形成了对 GPT 的反哺。由此可见,“模型+工具平台+生态”三层共建有助于业务的良性循环,也更容易借助长期积累形成竞争壁垒。模型层是大模型能力的核心引擎。模型层从技术发展与产业应用出发,主要包含基础、任务、行业大模型,模型的训练要求高,算力消耗大,建设人员主要为高级算法人员。基础大模型主要优势在于其通用性,可以让该技术
44、方向的相关应用任务都得到进一步提升,但也正是这样的优势导致基础大模型在行业、任务中表现尚未最优。任务大模型是在基础大模型上,面向典型的任务,如对话、搜索、文档智能、人脸识别、OCR 等,进一步结合任务特性,优化模型算法,学习任务相关数据与知识,从而使得大模型在任务上表现出更优异的效果,很多任务甚至可以零样本直接应用。行业大模型是在基础或任务大模型上,进一步融合行业数据、知识以及专家经验,提升大模型对行业应用的适配性,目前在金融、能源、制造、传媒、城市等已经有头部企业或机构与科技公司或科研单位联合发布了行业大模型。基础+任务+行业三层大模型相互促进,共同支撑起产业转化。工具平台层将大模型落地研发
45、标准化,推动 AI 广泛落地。大模型在深度学习平台的有力支撑下,实现了高效生产并真正为产业所用,深度学习平台为大模型解决硬件适配,提供蒸馏、剪枝、压缩等技术并向外输出部署方案,支撑自然语言处理、计算机视觉、跨模态等各类大模型的应用。同时,基于深度学习平台进一步推出基于大模型的 AI 开发平台、工具套件、大模型 API 等,将基于大模型的精调、大模型能力调用产品化,让更多AI应用型开发者或业务专家,可以零门槛或低门槛地将大模型应用于自己的业务中,以此全面释放大模型效能,助力开发者效率提升。生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式,让 AI 在识别、理解、生成等
46、方面的能力实现突破,带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于大模型能力的生态,提供能力、工具、服务,连接供需,吸引更多的开发者和企业共创、共享,是释放大模型潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化,拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。“模型+工具平台+生态”的模式需要协同优化,才能拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。8 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条
47、款和声明。二、互联网大厂模型二、互联网大厂模型 1、阿里、阿里 阿里以“通义大模型+飞天智算平台+魔塔社区+行业应用”成为大模型全部环节的重要参与者。2019 年,阿里达摩院开启大模型研究。2022 年 9 月,阿里正式发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind自然语言处理模型、通义视觉计算机视觉模型。2022 年 11 月,阿里推出 AI 开源社区“魔搭”(ModelScope),旨在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和 API接口。目前该平台已有超过 300 个开源模型,包括阿里自有的通义大模型系列以及澜舟科技孟
48、子系列模型等外部资源和能力。2023年4月,阿里正式发布了“通义千问”产品,该产品基于10万亿级参数的大模型底座M6-OFA,未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强 API 等多种能力。另外,阿里不仅拥有最多的英伟达 A100 芯片,还拥有自研芯片含光 800、倚天 710 芯片,共同为人工智能大模型提供算力。1.1 模型 阿里推出“通义”系列大模型,由统一底座层、通用模型层、行业模型层组成,不仅通用多种任务,又容易落地应用,其中,应用在 B 端更有优势。2022 年 9 月 2 日,阿里推出“通义”系列大模型,核心模型通过“魔搭”社区向全球开发者开源开放,推出“飞天智算
49、平台”提升 AI 训练效率。通义大模型通过打造业界首个 AI统一底座并构建大小模型协同的层次化人工智能体系,解决了大模型通用性与易用性仍欠缺的难题。通义大模型由统一底座层、通用模型层、行业模型层组成。其中,统一底座是基于 transformer 框架,由统一学习范式和模块化设计理念构成;通用模型层主要包括通义-M6、通义-AliceMind 和通义-CV 三大模型体系。由于低训练能耗优势,通义大模型运行速度加快,例如,M6 在相同参数规模下的训练能耗仅是 GPT-3 的 1%。目前,阿里通义大模型已广泛用于电商、设计、医疗、法律、金融等领域,助力其降本增效。而在落地应用方面,阿里原有的产品资源
50、导致其在 B 端更有优势。阿里巴巴于 2023 年 4 月 7 日推出通义千问大语言模型内测。在 4 月 11 日的 2023 阿里云峰会上,阿里巴巴 CEO 张勇表示阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。阿里将结合 200 多万的企业用户和辐射的 2-3 亿真实活跃用户资源,把文本作为核心场景镶嵌到钉钉的三大入口,预计 2023Q3 推送给部分 B 端客户的企业钉。9 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 8:通义大模型架构通义大模型架构 数据来源:机器之心,中信建投证券 通义-M6 属于多模