1、2023中国AIGC商业潜力研究报告亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)目录C O N T E N T SAIGC概述1.1人工智能概念梳理1.2生成式人工智能因素分析1.3中外人工智能对比1.4AIGC原子能力变化01AIGC生态底座价值链分析2.1 AIGC生态底座价值拆解2.2 算力价值分析2.3 数据价值分析2.4 算法价值分析2.5 A
2、IGC生态服务商总结2.6 大模型生态底座产业图谱02AIGC原子能力商业潜力分析3.1 AIGC原子能力覆盖行业梳理3.2 AIGC基础模态原子能力分析3.3 AIGC多模态原子能力分析3.4 AIGC原子能力商业潜力评估总结3.5 原子能力产业图谱3.6 优秀企业案例03AIGC商业潜力规模预判4.1 AIGC商业潜力边界模型4.2 边界突破趋势4.3 AIGC未来商业潜力规模预测04亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生
3、(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)6资料来源:公开资料、亿欧智库整理历次AI寒潮沉淀的技术,终在算法、算力、数据三者共振的情况下诞生出大模型u 在1956年的达特茅斯会议上,“人工智能”的概念被首次提出,六十多年以来,历经逻辑推理、专家系统、深度学习等技术的发展,人工智能也经历了数次沉浮,有如日中天的发展时期,也有因技术不足热度退去后的寒潮。而每一次寒潮后,也会经历技术的蛰伏发展,为人工智能带来里程碑式的进步。亿欧智库:AI发展的2.5次寒潮1970年代第1次寒潮当时主要研究集中在逻辑抽象、逻辑运算和逻辑表达等方面,出现许多逻辑证明相关的逻辑程序语
4、言,如著名的Prolog。但是当时研发出来的人工智能系统缺乏实用性,几乎无法解决任何实际问题,无法达到人们期望,政府逐步减少投资,高潮衰落,进入第一次寒冬。1990年代第2次寒潮出现神经系统与专家网络。神经系统在解决复杂问题上能力不足,且训练时需要的数据量较大。专家系统的实用性只局限于特定领域,同时升级难度和维护成本都居高不下。日本推出第五代计算机计划抛弃冯诺依曼架构,采用新的并行架构,采用新的存储器,新的编程语言,以及能处理自然语言、图像的新操作方式,但局限于理论和计算机算力,以及知识完全依靠人工输入和维护,最终宣告项目失败。2010年代第2.5次寒潮存在计算能力不足的瓶颈,以深度学习为驱动
5、力的人工智能技术更多仍停在分类、聚类和预测阶段,能够完全复制人类思维方式的强人工智能依旧发展缓慢。互联网公司对AI的开发便捷程度与先进程度超过许多AI公司,因为互联网可以使用自己的不公开的内部数据进行训练。感知器l神经网络的第一个里程碑算法l可以解决简单的线性分类问题l为后期更复杂的算法奠定基础Hopfield神经网络l一种具有循环、递归特性,结合存储和二元系统的神经网络l提供了模拟人类记忆的模型l在机器学习、联想记忆、模式识别、优化计算等方面有着广泛应用多层前向BP网络l非线性映射能力:适合于求解内部机制复杂的问题l自学习和自适应能力:训练时能自适应的将学习内容记忆于网络的权值中l容错能力:
6、局部神经元受到破坏后对全局的训练结果不会造成很大的影响深度学习l弥补了传统BP神经网络的缺陷,利于可视化和分类,识别精度上升,训练难度下降l无需人工提取规则特征,机器通过海量数据,即可自动实现规则的特征提取,有机器本身完成最复杂的算法归纳芯片&服务器&数据l计算机硬件设施飞速发展,GPU、TPU等新一代芯片及FPGA异构计算服务器,提供强大算力l互联网、物联网发展迅猛,为人工智能提供了规模空前的训练数据,数据可获得性大幅提升ChatGPT出现亿欧智库:AI技术发展里程碑共振:振动频率相同的物体、当一个发生振动时、引起其他物体振动亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿
7、欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)7资料来源:arXiv、亿欧智库整理预学习引发AIGC技术质变u 预学习的出现解决了过去生成式大模型的痛点,但预学习本身存在模型尺寸、小样本数量、微调能力的不可能三角,解决方法也不尽相同:对于极大模型,使用知识蒸馏;对于少样本学习能力,进行数据增强;对于监督训练表现欠佳的模型,进行提示学习。u 以GPT为例,在目前阶段,厂商通常的做法是扩大模型尺寸。亿欧智库:预学习大模型引发
8、AIGC技术质变亿欧智库:预学习之不可能三角与对应解决方案预学习大模型的出现解决了过去各类生成式模型使用门槛高、训练成本高、内容生成简单和质量偏低的痛点,满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预学习思路:将大量低成本收集的训练数据集中,学习其中的共性 然后将其中的共性移植到特定任务的模型中,再进行微调,去学习该特定任务的特性部分合理的模型尺寸(小于10亿参数量)先进的小样本先进微调能力训练任务共性学习特性学习微调特定任务 知识蒸馏 大模型是网络的集合,拥有良好的性能和泛化能力,小模型网络规模较小,表达能力有限 降低模型时延,压缩网络参数:利用大模型学习的知识指导小模型训练,使
9、得小模型与大模型性能相当,而参数数量可大幅降低,从而实现模型压缩与加速 提升模型精度:训练一个更高精度的大模型,用大模型对原模型知识蒸馏,获得更高精度 数据增强 缺少足够的标记数时,可以生成伪标签和伪数据实例,利用这些额外数据,模型能够进行有效的监督训练。提示学习 利用离散提示(离散文本模板)或连续提示(连续参数嵌入)进行微调,在微调期间仅更新离散提示或连续提示中的一种,提高准确度亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203
10、972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)8资料来源:公开资料、亿欧智库整理AI大模型底座驱动AIGC概念落地u 在AIGC概念实际落地的过程中,只有基础大模型与通用技术是远远不够的,还需要能与场景融合匹配,更需要支持应用落地的工具平台和开放包容的创新生态,三者协同优化,加速AIGC落地。u 在全应用流程中,主要通过大量的无标注文本进行共性学习,获得预训练大模型,此后再根据应用场景特征进行微调,更好与项目任务适配。亿欧智库:AI大模型驱动AIGC概念落地工具平台生态大模型特性学习共性学习通过海量无标注文本和自监督学习,进行共性学习,得到预训练大模型通过任务相关少量
11、数据进行精调,进行特性学习通过工具平台支撑生态应用落地通过学习海量无标注文本与数据进行预训练和自学习监督,提高AI大模型在前期学习的范围与深度,提升模型水平,赋能大模型在后续具体任务中的应用共性学习在共性学习“预训练”的基础上,根据具体应用场景的特性,使用少量数据进行微调,高精度地完成任务特性学习 大模型:在技术发展和产业应用方面占据重要地位,主要包含基础、任务和行业大模型,三层大模型相互促进,共同支撑产业转化与发展 工具平台:推出了基于大模型的AI开发平台、工具套件、大模型API等,让更多开发者能够低门槛地将大模型应用于自己的业务中,从而助力开发者效率提升 生态:释放大模型的潜力,推动AIG
12、C技术的广泛应用和产业化 大模型支撑生态发展,而生态反哺大模型进行技术进步模型+工具平台+生态模式需要协同优化,以更好帮助AIGC在不同领域快速落地亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)9资料来源:CSDN、中信建投证券、亿欧智库整理多模态打破多种信息之间的边界并生成质量稳定的内容,提升AIGC内容多样性u 相比于信息模态单一的单模态模型,多模态模
13、型可以同时处理更多模态的信息并将它们相互转化。u 现今多模态模型以图文多模块为主。Transformer虽受制于单模态但其权重共享适用于多模态;ViT模型处理输入图片,使得Transformer可用,从而打破NLP和CV间屏障;BEiT将生成式预训练从自然语言处理迁移到了计算机视觉;扩散模型多用于文本图像生成。亿欧智库:从单模态转向多模态亿欧智库:多模态提升AIGC内容多样性文本声音图像视频信号多模态多模态信息单模态模型:信息来源或形式单一,例如文字、图片、音频等信息媒介和红外、雷达等传感器。因为输入数据的长度有限制,所以基于Transformer的大模型只能基于单一文本模态,不能将其泛化能力
14、迁移到其他如图片、音频的模态上,但其拥有的权重共享理念适用于多模态模型,权重共享指部分模块共享权重参数 在图片和文字的多模态中,图片训练得到的权重参数可以直接用于训练文本,结果有效且无需进一步微调Transformer权重共享适用于多模态,但存在单模态局限 扩散模型包括正向扩散与反向扩散两个过程,填补文本图像生成中的技术空白扩散模型帮助生成文本图像利用ViT解除输入限制,进行特征提取图片分割TransformerEncoderClassViT模型对图片进行线性映射处理,变成Transformer可用的输入,打破自然语言处理和计算机视觉之间的壁垒Position EmbeddingBEiT模型将
15、生成式预训练从NLP迁移到CV图片分割MMMBlockwiseMaskingBEiTEncoderPatch&Position EmbeddingDecoderBEiT将BERT中的掩码语言学习方法应用到图像领域,将生成式预训练从自然语言处理NLP迁移到了计算机视觉CV。BEiT解决了计算机视觉上生成式预训练遇到的问题,解决方法:使用ViT结构处理图像信息亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(
16、203972)亿欧智库-李先生(203972)10资料来源:CSDN、中信建投证券、亿欧智库整理多模态信息持续融合增加技术多样性,拓宽场景u 多模态在视频分类、情感分析、语音识别等领域都得到了广泛应用,涉及图像、视频、语音、文本等融合内容,未来还将进入交互、感知、内容等更多应用场景。亿欧智库:多模态融合架构用户发出模糊指令用户信息环境信息声纹信息声音中的文字声音中的情感肢体动作人脸信息面部表情嘴唇的动作相对位置环境信息服务1生物识别服务2用户意图感知多模态自然语言理解多模态情感服务3服务呈现音视频输出IoT控制应用场景生成内容跨模态搜索图像、文本图像标注图像、文本转移学习图像、文本跨模态嵌入图
17、像、视频、文本视频分类语音、视频、文本事件检测语音、视频、文本情绪分析语音、视频、文本情感分析语音、视频、文本语音识别语音、视频视觉问答图像、文本图像标注图像、文本图像合成图像、文本视频解码视频、文本亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)11u 在决策式AI方面,中国已经处在第一梯队,中国是发表AI论文最多的国家,且近10年来占比逐年增加。u 而在
18、生成式AI方面,与国外还存在参数量的差距,背后隐含着算力资源、数据质量等基础要素的不足的原因。资料来源:中国信通院、Leonis Capital行研、亿欧智库整理中国决策式AI已达到世界一流水平,而生成式AI还与国外存在基础要素的不足亿欧智库:中国的决策式AI已经达到世界领先水平亿欧智库:中国生成式AI参数量与国外有一定差距中国是发表AI相关论文最多的国家,近十年发表9万余篇,占近10年全球AI论文发表总量的22.7%。在2021年AI受关注论文居前十的企业中,中国企业占到4家。技术2023年,中国的“灯塔工厂”增至50座,占比超过总数的1/3以上,持续排名全球第一。此项目由达沃斯世界经济论坛
19、与管理咨询公司麦肯锡合作开展遴选,“灯塔工厂”也被誉为“世界上最先进的工厂”,具有榜样意义的“数字化制造”和“全球化4.0”示范者,代表当今全球制造业领域智能制造和数字化最高水平。应用2018年1月2018年6月2019年1月2019年6月2020年1月2020年6月2021年1月2021年6月2022年1月2022年6月ELMo940万GPT1.17亿BERT1.1亿ERNIE1.02亿GPT-215亿Meena26亿RoBERTA3.55亿KEPLER1.1亿Generative BST94亿Megatron-LM83亿ERNIE100亿DeBERTa15亿Megatron-Turing
20、NLG5300亿Minerva5400亿GPT-31750亿Chinchilla700亿GLM1300亿10亿100亿1000亿10000亿参数量中国开发者其它开发者中国的生成式AI处于发展的初期,底层技术和国外还有较大的差距。国外芯片龙头公司的断供及次品供应使得中国生成式AI的基础硬件提供不了足够算力。技术虽然国内众多厂商开始布局AIGC,但是目前的商业模式还不成熟。技术层面的不足也限制了应用端的发展。应用020406080100120140国家电网英伟达亚马逊华为技术阿里巴巴集团腾讯控股MetaIBM微软Alphabet2021年受关注论文篇数居前10的企业Fast follower Fi
21、rst in classCopy to China Copy from China中国开发者其它开发者中外大模型参数量对比亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)12资料来源:公开资料、亿欧智库整理AIGC原子能力动态变化曲线u AIGC的原子能力随着时间的变化,内容呈现复杂化、多维化的特征,基础模态原子能力向多模态转变,表明目前AIGC商业应用的尝
22、试正下沉至长尾场景,大模型的泛化能力、实时性、强推理与共情能力正在不断渗透为虚拟人、聊天机器人、知识图谱、合成数据、AIGS进行多维度的赋能,推动通用人工智能时代到来。原子能力:指支撑各类应用、各类场景的要素技术;以生成内容为例,目前大部分应用和场景都需要AIGC的文本、代码输出、图像生成音视频合成的原子能力原子能力维度(内容复杂度)复杂度根据单位内容的token大小时间亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿
23、欧智库-李先生(203972)亿欧智库-李先生(203972)目录C O N T E N T SAIGC概述1.1人工智能概念梳理1.2生成式人工智能因素分析1.3中外人工智能对比1.4AIGC原子能力变化01AIGC生态底座价值链分析2.1 AIGC生态底座价值拆解2.2 算力价值分析2.3 数据价值分析2.4 算法价值分析2.5 AIGC生态服务商总结2.6 大模型生态底座产业图谱02AIGC原子能力商业潜力分析3.1 AIGC原子能力覆盖行业梳理3.2 AIGC基础模态原子能力分析3.3 AIGC多模态原子能力分析3.4 AIGC原子能力商业潜力评估总结3.5 原子能力产业图谱3.6 优
24、秀企业案例03AIGC商业潜力规模预判4.1 AIGC商业潜力边界模型4.2 边界突破趋势4.3 AIGC未来商业潜力规模预测04亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)14资料来源:专家访谈、国海证券、公开资料、亿欧智库整理短期内算力成本占据生态圈核心,算法与配套的数据价值在远期凸显u AIGC大模型的训练、微调和运营需要大量的计算资源支撑,目前算
25、力占据AIGC生态圈65%成本,数据及算法占据剩下35%的成本。u 从短期看,一头独大的格局不会发生太大变化,大模型新入局玩家的算法训练和老玩家大模型的微调、迭代将会持续刺激算力成本上扬。u 从长期看,有望出现三头并进格局,模型算法的迭代会成为AIGC通往AGI的解决方案,随着应用不断下沉长尾的专用场景,专用算法及场景沉淀的数据将会成为AIGC体验的核心,另外,合成数据及减少算力依赖的框架算法成熟将会加大缓和算力紧张的缺口。亿欧智库:AIGC生态底座价值链AI芯片65%内存17%硬盘4%其他14%数据23%算力65%算法12%数据收集35%数据标注45%数据清洗/存储20%人力算力65%算力层
26、为AIGC模型训练提供最重要的基础支持,成本主要由AI芯片、内存、硬盘等构成,其中AI芯片是算力的核心 数据集快速膨胀和参数量持续上涨导致算力需求及算力成本大幅上升数据23%数据层主要负责AI数据的收集、标注、清洗、储存 随着AIGC不断发展,专业领域的复杂数据标注需求提升算法12%随着AI资产的复用和自动化程度的提升,可以实现规模效应该成本测算基于2023年数据亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-
27、李先生(203972)亿欧智库-李先生(203972)15资料来源:浪潮、OpenAI、Nature、公开资料、亿欧智库整理扩大算力是AIGC的刚需u 随着数字经济蓬勃发展,数字化新事物、新业态、新模式推动应用场景向多元化发展,扩大算力是AIGC短期内最需要解决的问题,在后摩尔时代,算力供给和需求都会飙升,据预测,中国智能算力规模将会拥有47.5%的年复合增长率,但与智能算力需求仍存在较大差距。亿欧智库:中国算力需求剪刀差算力构成了AIGC产业的核心底座,主要包括AI芯片、AI服务器和数据中心AI芯片:是算力的基础,主要分为CPU、GPU、FPGA、ASIC四类。CPU是人工智能计算的基础,而
28、GPU、FPGA和ASIC为协助CPU进行大规模计算的加速芯片。AI服务器:对AI芯片进行系统集成。AI服务器的架构为“CPU+加速芯片”,在进行模型处理推理和训练时,效率更高。数据中心:提供计算服务,承接AI算力需求。AIGC使用算力资源在云端实现模型训练。32 75 155 268 427 641 923 1271 020040060080010001200140020192020202120222023E2024E2025E2026E中国智能算力规模及预测亿欧智库:中国2019-2026年智能算力供应2022-2026ECAGR:47.5%单位:EFLOPS1e-21e-101e-81e
29、-61e-41e+01e+21e+419851995200520152020NETtalkRNN for speechTD-Gammom v2.1亿欧智库:1985-2025年智能算力需求单位:petaFLOPdaysBILSTM for speechMLP-based neural network breaksGPT-32025Megatron-BERTGPT-2BERTAlexNetRetsNetsAlphaZeroAlphaGoZero2022年之后AIGC时代每年AI算力需求在短期内会有6400%的年需求根据OpenAI预测,人工智能算力需求短期类年均将增长64倍*华为轮值董事长胡厚崑
30、也在2022年WAIC上表示,未来10年人工智能算力需求将增长500倍根据浪潮预测,未来五年内,智能算力的CAGR为47.5%,算力存在明显的短缺状态。亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)16资料来源:专家访谈、公开资料、亿欧智库整理短期内GPU不可撼动,但随着AI任务比例变化,FPGA及ASIC有望远期成为主力AI芯片u 短期看,GPU占据AI
31、GC训练及推理的绝对地位,英伟达基于CUDA强大的并行计算能力及自身产品力构建了护城河;远期看,FPGA及ASIC芯片时延低、特需设计等特点将成为主力芯片,国内厂商凭借两者的多年积累有望加速AI芯片的自主化进程。短期内远期变化云端云端边缘端云端主要部署高算力的AI训练芯片和推理芯片进行训练和推理任务,边缘端基本只部署推理芯片进行应用芯片种类GPUGPUFPGAFPGAASICASICGPU在AI模型构建中具有高适配性与高并行性的特点,可以更好支持AI模型训练中大量矩阵和向量的计算,同时,其强大的通用能力在推理任务中表现良好(GPU目前在训练和推理中占据绝对主力,不过推理的市占地位整体不及训练任
32、务)根据GPU强大的通用能力依旧在AI芯片占据一席之地FPGA在训练任务所需要的浮点运算能力中较弱;可通过编程灵活配置芯片架构适应算法迭代,平均性能较高,拥有可编程性、可重构性和定点运算功能,在推理端使用较多开发时间长,研发成本高,进入门槛高大模型架构未统一,导致训练端未普及应特定用户要求和应用程序的需要而设计、制造的集成电路,有稳定的性能和优秀的功耗控制在面对推断环节的小批量数据处理时,可以凭借流水线并行,达到高并行+低延迟的效果受延迟、隐私和带宽限制的驱动,逐渐被布署于IoT设备当中,以满足低功耗+灵活推理+快速响应的需求随着技术、算法的普及和趋向统一,专业性更强的ASIC将更具备竞争优势
33、,ASIC在研发制作方面一次性成本较高,但量产后平均成本低,具有批量生产的成本优势云端云端雾/边缘端远期来看,大模型进入出清阶段,AI芯片主要负责日常运行的推理任务,训练任务则下渡到雾/边缘侧以满足具身智能应用需求训练推理雾/边缘端训练推理亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)17资料来源:近10年国际学术论文中的语言选择和中文使用情况分析研究、O
34、neFlow、w3techs、亿欧智库整理缺乏优质数据,让中文大模型患上“心脏病”u AIGC由PGC和UGC进行内容支撑,缺乏过往内容的将会直接性影响AIGC,缺乏高质量的中文数据资料,将会影响到中文大模型在知识领域的能力。u 此外,国内拥有大量高价值数据的互联网企业更倾向于将数据封闭在APP和平台中,不同APP间数据不能连通,无法进行搜索,形成“数据孤岛”现象。亿欧智库:英文数据占领主导地位亿欧智库:中文数据质与量皆有差距1英文互联网和中文互联网普及的时间差达到了半个世纪2当今高质量的学术论文以英文为主公开已标注数据集以英文为主,缺乏中文3英文拥有数量极大的训练用数据集GPT训练数据来源
35、Common Crawl(网站抓取的大型数据集)WebText2(Reddit网页爬取)Books(故事型书籍数据集)Wikipedia(维基百科)Journals(学术写作数据集)Common Crawl 包含约31亿个网页内容和320TB的文字信息 数据包含原始网页、元数据和文本提取 数据集中,英文数据占46%,俄、德、日、中都占5%左右中国移动互联网的兴起,导致数据从更开放的网站,迁移至较为封闭的APP/小程序中移动互联网时代,国内大厂从融资、估值到上升都需要用户数据讲故事,所以大量数据封闭在各企业的APP和平台中,最终形成了APP内部的闭环,产生了“数据孤岛”的现象。544518468
36、4222018.62019.62020.62021.6数量(万个)国内的网站数量规模下降,但是互联网的流量有着上升趋势互联网企业为了实现自己的流量和盈利目的,屏蔽其他软件,切断搜索路径,进行资源与内容的分割。导致不同平台之间数据流通共享大幅减少,信息可检索度降低。亿欧智库:中国网站数量亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)18资料来源:公开资料、亿
37、欧智库整理数据马太效应或导致中国大模型难以获得商业循环的支撑u 由于英文数据和中文数据之间的指数级别的差距,建立在数据之上的模型也会出现越来越大的差距,形成数据马太效应。u 数据马太效应或导致英文大模型获得更多的商业机会,中文大模型亟需大量高质量的标注数据提升模型能力。亿欧智库:数据马太效应中文AI大模型缺乏优质中文数据中国下游应用开发者英文大模型海外下游应用开发者无法满足寻求大模型寻求大模型提供大模型提供高质量标注数据使用英文数据训练大模型寻求大模型提供大模型提供高质量标注数据数据马太效应或导致中国大模型发展缺乏商业支撑数据马太效应 对于中国AI大模型服务商,缺乏高质量的标注数据,缺乏愿意买
38、单的下游客户,无法形成积极正向的商业循环,形成中外大模型的马太效应。以GPT-4为例,虽然靠迁移回译能够满足大部分中文对话,但是随着模型的不断迭代,以及英文数据的持续填充,数据马太效应导致英文模型和中文模型的能力差距会逐渐增大。目前来看,中英模型的能力差距在5%-10%左右,长此以往,基于“大模型+微调”的原则,使用中文大模型的下游应用也会出现差距,英语(甚至是日耳曼语系)下游开发企业将会获得相对竞争优势。使用英文数据训练的模型整体能力将比使用中文数据的模型强,且会越来越强亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(2039
39、72)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)19资料来源:整数智能、公开资料、亿欧智库整理中文高质标注数据是国内大模型能力跻身国际先进水平的充要条件u 数据工程是AI工程的基础环节,其核心在于高质高效的数据标注,数据工程所得出的数据的质量,直接影响到整个模型的质量与精度。u 中国数据量呈指数级增长,其中大占比的非结构化数据产生海量数据标注与清洗的需求,未来市场前景广阔。亿欧智库:数据工程占80%工程时长亿欧智库:数据巨量化,标注需求扩张数据采集数据标注影响10%的准确率模型
40、训练模型部署影响1%的准确率亿欧智库:中国生产数据量(2018-2026E)7.51248.656.16201820202025E2026E中国生产数据量(单位:ZB)数据类型结构化数据占20%以文件形式存在的非结构化和半结构化数据占80%标注数据在大模型早起开发和专用领域开发中有着不可替代的作用,模型的监督学习需要数据的标注来保证精度,而半监督学习和无监督学习往往无法达到同样的精度。非结构化数据非结构化机器数据和文件占非结构化数据的90%非结构数据需要经过标注才能被利用,带来大量数据的标注需求 但国内只有22%的企业有自建的数据团队,且目前数据标注的精度与国外顶尖水平还存在差距数据标注 技术
41、理论、算法模型、应用场景不断优化创新,人工智能产业对训练数据的质量与数量要求快速提升 产业对数据类型的需求多样化,垂直类需求增长,产业链出现专业化分工的趋势,使得不同领域的专业化数据服务提供商作用凸显数据工程时长占比80%模型工程时长占比10%充要条件:充分必要条件亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)资料来源:公开资料、亿欧智库整理开发通用大模型
42、成为AIGC应用的底座u 算法模型是人工智能的“灵魂”,通过建立算法模型并进行下行研发实现AI资产的复用获得盈利。u 盈利方式通过大模型使用授权、行业大模型定制、工作流订阅及基于下游任务微调三种途径进行订阅模式、平台服务模式、定制化服务模式、API服务模式、广告和推广模式、数据授权模式的商业变现。行业大模型通用大模型原子能力工作流订阅及基于下游任务微调行业大模型定制通用大模型使用授权订阅模式API服务模式平台服务模式定制化服务模式广告和推广模式数据授权模式大模型商业应用演化大模型各阶段盈利模式大模型细分收费方式20亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生
43、(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)目前大模型生成应用服务以B端为主,平台服务模式占比相对较高u 作为服务提供商,AIGC向B端和C端用户提供生成内容的技术平台和工具,并通过收取平台使用费、交易手续费、广告和推广收益以及数据授权收益等方式获得收益。u 在用户定位方面,AIGC主要面向B端用户,如媒体、广告主、文化机构等,以及开发者、科研机构等需要使用生成内容技术的用户。B端C端订阅模式平台服务模式定制化服务模式API服务模式
44、广告和推广模式数据授权模式5%10%15%20%25%30%2022年Q4-2023年Q1盈利模式占比定义:用户通过订阅服务,定期或按需获取人工智能生成的内容。案例:OpenAI:提供了GPT-3订阅服务 Grammarly:提供英文语法和写作帮助的订阅服务定义:AIGC提供生成内容技术平台和工具,通过收取平台使用费获得收益。案例:Google Cloud AI:提供各种AI平台服务定义:公司可以根据客户的特定需求,提供定制化的人工智能生成内容服务。案例:Hugging Face:提供NLP领域的开源软件,同时也提供定制化的NLP服务定义:公司提供人工智能生成内容的API,供开发者集成到自己的
45、应用程序中。案例:Google Cloud Vision API:提供基于图像和视频的视觉智能API服务定义:人工智能生成的内容可以作为广告或推广渠道,通过展示广告或推广内容来获得收益。案例:阿里巴巴“文娱大脑”:为企业生成各种类型的广告文案定义:人工智能生成的内容可以作为数据的授权和授权来源,被其他公司或个人购买或授权使用。案例:OpenAI:将GPT-3的API授权给了Microsoft和GitHub等公司资料来源:专家访谈、公开资料、亿欧智库整理21亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李
46、先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)22资料来源:公开资料、亿欧智库整理AIGC生态底座服务商总结u 整体来看,数据和算力是大模型性能的关键限制因素,而算法的不断改进是让大模型接近其上限能力的关键,同时也是商业变现的“接口”。AIGC生态底座服务商会形成以互联网企业的通用大模型+行业大模型+原子基础能力的泛化派玩家,以大模型AI服务商、行业/垂直领域AI服务商为主的专用派服务商,结合企业自身过去的业务与技术强化AIGC在长尾场景的应用能力。亿欧智库:AIGC模型底座能力评估模型亿欧智
47、库:AIGC底座不同类型玩家能力天花板:数据地板:算力数据的多样性和数量对于大模型的表现至关重要,因为大模型需要大规模的高质量数据进行训练,以提高其理解和生成语言的能力。大模型需要强大的计算资源来进行训练和推理,以处理庞大的参数量和复杂的计算任务。较低的算力会限制大模型的训练速度和性能。三类玩家模型能力原子能力行业大模型通用大模型互联网企业大模型AI服务商(以过去做NLP和CV模型为主的AI企业)行业/垂直领域AI服务商(行业AI服务商,例如自动驾驶、AI医疗等)数据:算法:算力:数据:算法:算力:数据:算法:算力:通过基础原子能力向各行各业进行“AIGC+”式的赋能。利用大模型的生成能力、实
48、时能力、推理能力及泛化能力,结合自身过去NLP和CV相关AI能力的积累,强化和创新原子能力,另外通过大模型的上述能力开发可以覆盖行业场景的长尾环节。大模型AI服务商以合作形式进行开发行业大模型。通常将数据收集、数据标注等处理业务外包给数据服务商。与行业龙头合作增强行业的认知,将行业常规的问题处理逻辑嵌入行业大模型中。基于自身对于行业/垂直领域的理解,结合自身的AI能力开发行业大模型,具备算法与数据的能力,但是通常需要外包算力的支持。大模型的先驱者,以数据、算法、算力三者全而强的互联网企业为主。他们具备web1.0时代至今积攒的巨额市场利润以及庞大的高质量数据与优秀人才进行AIGC大模型的开发。
49、AI公司通常拥有专门的机器学习工程师和数据科学家,能够创建并优化复杂的模型。-算法是大模型“建筑的主体结构”,任何天花板、地板都不能独立于“建筑主体结构”而存在。如果算法存在代差,再高质量的数据与充沛的算力都无法拔高大模型的能力,所以引入更高效的算法是提高大模型学习速度、推理能力和语言生成质量的关键因素。主体结构:算法亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203
50、972)23大模型生态底座产业图谱u AIGC产业基础层以提供算法、算力、数据处理的企业为主,产出大模型,再经过中间层服务商微调及针对训练。算力算法芯片ASICAI服务器GPUFPGAAIDC云计算数据存储服务机器学习存储设备云存储数据查询与处理数据转换与编排数据标注与管理数据治理与合规机器学习增强学习深度学习CV多模态NLP资料来源:亿欧智库整理亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(2039