生成式人工智能大模型观察.pdf

资源描述

1、4243上海信息化上海信息化产业聚焦ESTATE FOCUS随着聊天机器人ChatGPT火爆全球，诞生于1956年达特茅斯会议上的“人工智能”（Artificial Intelligence，简称AI）概念，历经多次技术迭代与应用场景拓展，迎来新的发展热潮，生成式人工智能大模型（Artificial Intelligence Generated Content，简称AIGC）成为当前炙手可热的研究和投资方向之一。本文通过分析AI的发展历程以及AIGC的技术实现路径，力求科学地评估机器与人之间的认知差异，预测AIGC的发展轨迹，并对AIGC行业发展所面临的多种问题进行剖析，提出AIGC行业健康发

2、展的建议。生成式人工智能大模型观察文王林生成式人工智能大模型正成为现阶段推动数字经济发展的重要力量。一方面，其推动了行业投资、研究和应用；另一方面，又对教育、就业、数据监管、隐私保护、知识产权等社会规则带来了挑战。行业发展概况国外多模式繁荣发展国外AIGC行业呈现繁荣发展态势，头部企业的主要产品按照文本、图像、音频、视频分类如下：文本领域：AutomatedInsights（结构化写作）、Anyword（文案工具）、Copy.ai（数字广告文案）、Jasperai（营销文案）、ChatGPT（通用类聊天机器人）、ChatBox（聊天客服机器人）、Jenni.ai（论文）

3、；图像领域：Midjourney（文生图）、DALL-E2、StableDiffusion（开源文生图）；音频领域：MurfAI（文本转语音生成器）、AIVA（歌曲生成）；视频领域：Synthesia（拼凑生成视频）、WonderStudio（影视特效）、RunwayGen-2（视频生成）。国外AIGC赛道的独角兽公司主要有：推出了ChatGPT的OpenAI估值高达200亿美元，Hugging Face估值20亿美元，Lightricks估值18亿美元，Jasper估值15亿美元，Glean和Stability AI估值为10亿美元，Character.AI估值10亿美元。国内多家企业纷纷入

4、场目前，百度（文心一言）、阿里（通义千问）、华为（盘古系列AI大模型）、商汤（日日新大模型）、知乎（知海图AI）、科大讯飞（1+N认知智能大模型）等互联网大公司纷纷布局AIGC。据预测，2023年我国AIGC市场规模可达170亿元。随着商业化落地逐渐深入和产业生态逐步完善，预计20252027年为场景应用蓬勃发展期，20282030年为行业整体加速期，2030年市场容量预计超万亿元，届时将呈现蓬勃发展的新业态。2022年以来，我国AIGC赛道投资数量开始出现明显增长，在已披露金额的融资事件中，大多为千万元级和亿元级的融资体量。其中，融资体量达到亿元级的项目包括国

5、内最早开展AIGC商业化落地的小冰公司，以及超参数科技、光年之外、澜舟科技等科技公司。数字力场、TIAMAT、聆心智能、面壁智能、诗云科技等为千万元级融资，预计2023度投融资体量将有数倍增长。数字经济的新增长引擎AIGC的优势在于可以突破人类创作的限制，实现无限的内容创造。它可以根据用户的需求和偏好，生成符合用户期望的内容，提高用户满意度和忠诚度；可以节省人力和时间成本，提高内容生产的效率和规模；还可以创造出人类无法想象的新颖和有趣的内容，拓宽人类的知识和视野。数字经济是以数据资源为关键要素，以现代信息网络为主要载体，以信息通信技术融合应用、全要素数字化转型的新经济形态。AIGC作为数字经济

6、重要的智能方式，能够生成更加复杂、自然的语言、图像、语音等，与用户进行更加真实的交流与互动，这种真实感会带来更多的商业价值和竞争优势。此外，AIGC还可以用于自动化生成分析报告、风险评估、投资策略等内容，进一步提升工作效率。AIGC将成为重组要素资源、重塑经济结构、重构竞争格局的重要数字经济引擎。4243上海信息化上海信息化产业聚焦ESTATE FOCUS随着聊天机器人ChatGPT火爆全球，诞生于1956年达特茅斯会议上的“人工智能”（Artificial Intelligence，简称AI）概念，历经多次技术迭代与应用场景拓展，迎来新的发展热潮，生成式人工智能大模型（Artificial

7、Intelligence Generated Content，简称AIGC）成为当前炙手可热的研究和投资方向之一。本文通过分析AI的发展历程以及AIGC的技术实现路径，力求科学地评估机器与人之间的认知差异，预测AIGC的发展轨迹，并对AIGC行业发展所面临的多种问题进行剖析，提出AIGC行业健康发展的建议。生成式人工智能大模型观察文王林生成式人工智能大模型正成为现阶段推动数字经济发展的重要力量。一方面，其推动了行业投资、研究和应用；另一方面，又对教育、就业、数据监管、隐私保护、知识产权等社会规则带来了挑战。行业发展概况国外多模式繁荣发展国外AIGC行业呈现繁荣发展态势，头部企业的主要产品按照

8、文本、图像、音频、视频分类如下：文本领域：AutomatedInsights（结构化写作）、Anyword（文案工具）、Copy.ai（数字广告文案）、Jasperai（营销文案）、ChatGPT（通用类聊天机器人）、ChatBox（聊天客服机器人）、Jenni.ai（论文）；图像领域：Midjourney（文生图）、DALL-E2、StableDiffusion（开源文生图）；音频领域：MurfAI（文本转语音生成器）、AIVA（歌曲生成）；视频领域：Synthesia（拼凑生成视频）、WonderStudio（影视特效）、RunwayGen-2（视频生成）。国外AIG

9、C赛道的独角兽公司主要有：推出了ChatGPT的OpenAI估值高达200亿美元，Hugging Face估值20亿美元，Lightricks估值18亿美元，Jasper估值15亿美元，Glean和Stability AI估值为10亿美元，Character.AI估值10亿美元。国内多家企业纷纷入场目前，百度（文心一言）、阿里（通义千问）、华为（盘古系列AI大模型）、商汤（日日新大模型）、知乎（知海图AI）、科大讯飞（1+N认知智能大模型）等互联网大公司纷纷布局AIGC。据预测，2023年我国AIGC市场规模可达170亿元。随着商业化落地逐渐深入和产业生态逐步完

10、善，预计20252027年为场景应用蓬勃发展期，20282030年为行业整体加速期，2030年市场容量预计超万亿元，届时将呈现蓬勃发展的新业态。2022年以来，我国AIGC赛道投资数量开始出现明显增长，在已披露金额的融资事件中，大多为千万元级和亿元级的融资体量。其中，融资体量达到亿元级的项目包括国内最早开展AIGC商业化落地的小冰公司，以及超参数科技、光年之外、澜舟科技等科技公司。数字力场、TIAMAT、聆心智能、面壁智能、诗云科技等为千万元级融资，预计2023度投融资体量将有数倍增长。数字经济的新增长引擎AIGC的优势在于可以突破人类创作的限制，实现无限的内容创造。它可以根据用户的需求和偏好

11、，生成符合用户期望的内容，提高用户满意度和忠诚度；可以节省人力和时间成本，提高内容生产的效率和规模；还可以创造出人类无法想象的新颖和有趣的内容，拓宽人类的知识和视野。数字经济是以数据资源为关键要素，以现代信息网络为主要载体，以信息通信技术融合应用、全要素数字化转型的新经济形态。AIGC作为数字经济重要的智能方式，能够生成更加复杂、自然的语言、图像、语音等，与用户进行更加真实的交流与互动，这种真实感会带来更多的商业价值和竞争优势。此外，AIGC还可以用于自动化生成分析报告、风险评估、投资策略等内容，进一步提升工作效率。AIGC将成为重组要素资源、重塑经济结构、重构竞争格局的重要数字经济引擎。44

12、45上海信息化上海信息化行业存在的问题大模型训练的资源限制大语言模型的训练过程，需要算力高、算法精和数据多的三重支撑。而算力高要求高能耗的支撑，算法精意味着迭代要快，数据多意味着要更多高质量的开放数据，这导致AIGC行业具有较高的准入门槛，需要有雄厚的资金用以支撑其训练费用。只有部分大企业和资深创业者团队能够持续性深耕行业，导致AIGC基本上成为行业巨头之间的“军备竞赛”。AIGC的致命弱点在于，其所生成的内容不仅要经过人类的二次高质量解读或加工，而且要在本地部署带有垂直细分领域数据库的“小模型”进行二次精细训练，在这样的背景下，大模型的训练就会变得毫无意义。暂时应用到低期望场景AIGC是对参

13、与训练的各类型数据的排列组合，对其输出结果的评判标准是人的期望，在一些例如陪标、娱乐、代码生成等低期望的应用场景，AIGC的表现是超过期望的。但在例如发现新知识、创造新理念、情感支持等高期望的场景，AIGC还未进入技术入门阶段。AIGC远远未达到人类的认知水平和高度，未触及人类所特有的创新、韧性、灵感、直觉等主观能动性。对于大多数企业来说，探索如何使用AIGC 实现特定场景的商业化落地，服务目标客户并实现其商业价值。对现有社会规则的冲击现有社会的管理核心还是属地管理模式，不能忽视AIGC应用对法律、伦理和社会秩序的挑战。AIGC可能制造、传播错误、不准确的虚假事实，传播深度伪造内容和其他虚假信

14、息，进行诈骗、色情、诽谤、假冒身份等新型违法犯罪活动；大模型训练使用他人版权作品、应用自主产出的创造性内容等面临版权保护争议；生成的内容无法摆脱性别、年龄、种族等方面的算法歧视，哪类训练数据多，就输出哪类训练数据的偏好。AI大模型的训练和部署需要消耗大量算力，碳排放惊人，其环境影响也不容忽视。AIGC的挑战在于它需要解决一些技术和伦理方面的问题。技术方面，AIGC需要不断提升人工智能模型的性能和质量，保证生成内容的准确性、合理性、逻辑性、一致性等。它也需要考虑如何处理多语言、多媒体、多风格等复杂的内容生成场景，以及如何评估和优化生成内容的质量和效果。伦理方面，AIGC需要遵守相关的法律和规范，

15、防止生成内容涉及侵权、抄袭、造假、诽谤、暴力、色情等不良信息。它也需要尊重用户的隐私和权利，保护用户的数据安全和知识产权。行业健康发展建议高质量数据资源的共享AIGC作为数据库的逻辑架构，遵循“垃圾进、垃圾出，精华进、精华出”的黑箱策略，高质量的训练数据是AIGC重要食粮来源，要深化数据高效共享协调机制，提升数据共享统筹协调力度，促进数据有序开发利用，明晰数据公开的范围和边界，实现最大程度开放和保护。打造统一数据资源公开平台，构建统一规范、互联互通、安全可控的公共数据库，实现数据跨地区、跨部门、跨层级共享效益，为AIGC的发展打造坚实的数据共享底座。人类认知通过算法实现工具的使用是人类进入文明

16、时代的标志，工具的发明大大提高了生产力，节约了时间成本，AIGC作为新型的工具载体，是人类认知拓展的延伸。人类认知包括感觉、知觉、记忆、思维、想象和语言等，人脑接受外界输入的信息，经过头脑的加工处理，转换成内在的心理活动，进而支配人的行为。如果AIGC具有和人类一样的学习与进化能力，那么根据现有的技术水平，可以将人类的认知过程、风格、能力、策略进行标准化、结构化，进而转化为AI算法进行技术实现。被替代行业的结构调整随着AIGC的突破，预计全球将有3亿个传统工作岗位被机器取代，招聘网站相关数据显示，包括游戏原画、美术设计、基础编程、基础编辑等岗位数量正在收缩。每一轮科技革命似乎都会引发“新技术会

17、否引发失业”的隐忧，但人类社会总是会用“进步”的答案证明这样的担忧是多余的。随着AIGC撞开新时代的大门，新一轮就业结构调整已不可避免，社会发展生生不息，会有新的工作岗位、商业模式不断出现，人类最大的优势在于顺应变化且不断进化，会不断随行业的发展进行自我转型与升级。AIGC作为人类创造性利用工具的一种表现形式，将人从繁重、重复、冗杂的脑力劳动中解放出来，从而投身于更加具有创造性的工作，也将促进社会秩序和规则的进一步优化。随着技术的改进和优化，以及数据资源的丰富和完善，AIGC将能够生成高质量、多样化、个性化的内容，满足用户的多种需求和应用场景，满足更强大和更智能的高期望需求，也将为社会带来更多

18、创新和进步，AIGC在数字经济发展中的战略性、基础性、先导性和赋能作用正在逐步显现。产业聚焦ESTATE FOCUS4445上海信息化上海信息化行业存在的问题大模型训练的资源限制大语言模型的训练过程，需要算力高、算法精和数据多的三重支撑。而算力高要求高能耗的支撑，算法精意味着迭代要快，数据多意味着要更多高质量的开放数据，这导致AIGC行业具有较高的准入门槛，需要有雄厚的资金用以支撑其训练费用。只有部分大企业和资深创业者团队能够持续性深耕行业，导致AIGC基本上成为行业巨头之间的“军备竞赛”。AIGC的致命弱点在于，其所生成的内容不仅要经过人类的二次高质量解读或加工，而且要在本地部署带有垂直细分

19、领域数据库的“小模型”进行二次精细训练，在这样的背景下，大模型的训练就会变得毫无意义。暂时应用到低期望场景AIGC是对参与训练的各类型数据的排列组合，对其输出结果的评判标准是人的期望，在一些例如陪标、娱乐、代码生成等低期望的应用场景，AIGC的表现是超过期望的。但在例如发现新知识、创造新理念、情感支持等高期望的场景，AIGC还未进入技术入门阶段。AIGC远远未达到人类的认知水平和高度，未触及人类所特有的创新、韧性、灵感、直觉等主观能动性。对于大多数企业来说，探索如何使用AIGC 实现特定场景的商业化落地，服务目标客户并实现其商业价值。对现有社会规则的冲击现有社会的管理核心还是属地管理模式，不能

20、忽视AIGC应用对法律、伦理和社会秩序的挑战。AIGC可能制造、传播错误、不准确的虚假事实，传播深度伪造内容和其他虚假信息，进行诈骗、色情、诽谤、假冒身份等新型违法犯罪活动；大模型训练使用他人版权作品、应用自主产出的创造性内容等面临版权保护争议；生成的内容无法摆脱性别、年龄、种族等方面的算法歧视，哪类训练数据多，就输出哪类训练数据的偏好。AI大模型的训练和部署需要消耗大量算力，碳排放惊人，其环境影响也不容忽视。AIGC的挑战在于它需要解决一些技术和伦理方面的问题。技术方面，AIGC需要不断提升人工智能模型的性能和质量，保证生成内容的准确性、合理性、逻辑性、一致性等。它也需要考虑如何处理多语言、

21、多媒体、多风格等复杂的内容生成场景，以及如何评估和优化生成内容的质量和效果。伦理方面，AIGC需要遵守相关的法律和规范，防止生成内容涉及侵权、抄袭、造假、诽谤、暴力、色情等不良信息。它也需要尊重用户的隐私和权利，保护用户的数据安全和知识产权。行业健康发展建议高质量数据资源的共享AIGC作为数据库的逻辑架构，遵循“垃圾进、垃圾出，精华进、精华出”的黑箱策略，高质量的训练数据是AIGC重要食粮来源，要深化数据高效共享协调机制，提升数据共享统筹协调力度，促进数据有序开发利用，明晰数据公开的范围和边界，实现最大程度开放和保护。打造统一数据资源公开平台，构建统一规范、互联互通、安全可控的公共数据库，实现

22、数据跨地区、跨部门、跨层级共享效益，为AIGC的发展打造坚实的数据共享底座。人类认知通过算法实现工具的使用是人类进入文明时代的标志，工具的发明大大提高了生产力，节约了时间成本，AIGC作为新型的工具载体，是人类认知拓展的延伸。人类认知包括感觉、知觉、记忆、思维、想象和语言等，人脑接受外界输入的信息，经过头脑的加工处理，转换成内在的心理活动，进而支配人的行为。如果AIGC具有和人类一样的学习与进化能力，那么根据现有的技术水平，可以将人类的认知过程、风格、能力、策略进行标准化、结构化，进而转化为AI算法进行技术实现。被替代行业的结构调整随着AIGC的突破，预计全球将有3亿个传统工作岗位被机器取代，

23、招聘网站相关数据显示，包括游戏原画、美术设计、基础编程、基础编辑等岗位数量正在收缩。每一轮科技革命似乎都会引发“新技术会否引发失业”的隐忧，但人类社会总是会用“进步”的答案证明这样的担忧是多余的。随着AIGC撞开新时代的大门，新一轮就业结构调整已不可避免，社会发展生生不息，会有新的工作岗位、商业模式不断出现，人类最大的优势在于顺应变化且不断进化，会不断随行业的发展进行自我转型与升级。AIGC作为人类创造性利用工具的一种表现形式，将人从繁重、重复、冗杂的脑力劳动中解放出来，从而投身于更加具有创造性的工作，也将促进社会秩序和规则的进一步优化。随着技术的改进和优化，以及数据资源的丰富和完善，AIGC将能够生成高质量、多样化、个性化的内容，满足用户的多种需求和应用场景，满足更强大和更智能的高期望需求，也将为社会带来更多创新和进步，AIGC在数字经济发展中的战略性、基础性、先导性和赋能作用正在逐步显现。产业聚焦ESTATE FOCUS

展开阅读全文