2024大模型十大趋势手册走进“机器外脑”时代.pdf

资源描述

1、走进“机器外脑”时代2024大模型十大趋势人工智能正在迅速发展，大模型技术正成为赋能各行各业的关键。从算力底座、智力增强到人机协作，大模型正在重塑人类社会，成为我们可依赖的外脑。10趋势1 算力底座迈向十万卡集群量变，速度和效率双提升28趋势6 游戏环境大模型与游戏共生，打造Agent最佳训练场15趋势2 推理分析LLM带来推理能力跃迁，开启“智力即服务”32趋势7 移动革命端侧模型优化带来应用入口变革18趋势3 创意生成AIGC应用爆发，降低专业创作门槛35趋势8 具身智能人型机器人与大模型共同进化，为外脑提供“躯体”22趋势4 情绪感知LLM赋予机器情感价值，打开人机陪伴市场45创新者预见

3、略研究院院长顾问主编策划研究团队联合出品徐思彦王亚鑫编写委员汪铖杰王强杜晓宇马晓芳袁晓辉李瑞龙陈楚仪曹建峰白惠天刘莫闲王鹏陈玉珑李永露张志忠李嘉麟刘俊刘永黄小明戚蕴朱洁梁鹏姚荪谢睿陈梦凡张栋王枢刘琼腾讯研究院上海交通大学腾讯优图实验室腾讯云智能腾讯青腾王川南李侃PREFACE序言PREFACE序言1继ChatGPT开启大语言模型引领的新一轮人工智能革命以来，我们持续见证了人工智能领域技术的加速迭代，在过去的一年里众多公司如Google、Midjourney、Adobe以及Inflection等，都推出了创新的模型和产品，标志着大模型技术的成熟和大规模应用的开始。

4、今年2月，Sora的出现再次震撼了技术界，预示着我们可能很快就会见证更多令人兴奋的技术突破。过去半年，我们以日为单位更新“AI每日动态”，这可以充分反映出来，AI技术的发展日新月异，以日来统计的话也是毫不过分的。在海量GPU和新一代大模型的加持下，人工智能在三个方向上有了实质性的飞跃。第一是推理能力。大语言模型为人工智能带来了所未有的推理能力，极大地扩展了机器的认知边界。这种推理能力的跃迁得益于LLM在理解和生成自然语言方面的巨大进步。它们能够解析复杂的文本，提取关键信息，进行逻辑推理，并生成连贯、有见地的回应。这使得LLM能够处理各种知识密集型任务，如法律分析、市场研究、科学发现等，为个人和

5、企业提供了强大的智能支持。以往人类智力难以企及的科学探索高地，都可以在AI的帮助下实现。例如，英伟达的“地球 2 号”项目，旨在创建地球的数字孪生体。模拟整个地球的运行，以预测其未来变化。通过这样的模拟，可以更好地预防灾难，更深入地理解气候变化的影响，从而更好地适应这些变化。通过这样的模拟，可以更好地预防灾难，更深入地理解气候变化的影响，从而让我们能够更好地适应这些变化。随着更高级的推理智能被开发出来，各行各业都将有机会拥有“机器之心”。AI 将引领新的服务模式，即“智力即服务”（IQaaS），该模式的一个重要特征将是机器的推理能力以在云端的方式、通过大模型提供给用户，“AI数字员工”将进一步

6、成为现实。大模型使机器不再仅仅是执行简单任务的工具，而是成为了人类的“智力外脑”。走进“机器外脑”时代司晓腾讯副总裁腾讯研究院院长02序言走进“机器外脑”时代第二个方面是创意的生成。AI技术，尤其是AIGC，正迅速成为创意产业的一股颠覆性力量，为创意工作者提供了前所未有的生产力提升。今年2月，Sora的问世不仅是技术界的一次震撼，更是对未来创新潜力的一次大胆展示。AIGC技术通过文生文、文生图、文生视频等多种形式，使得创作、设计、分析等任务变得更加高效和易于实现。Sora和SUNO等现象级产品的出现，标志着AI生成内容的质量和多样性达到了新的高度。它们不仅让普通人能够创作出接近专业水准的音乐

7、和视频作品，而且正在快速改变媒体、影视和音乐行业的生态。这些技术的普及，降低了专业技能训练的门槛，使得创意表达更加通用化。现在，只要有创意想法，人们就可以利用AI这个强大的“创意外脑”，将灵感转化为现实。AI的这种能力，不仅为专业创意工作者提供了强大的辅助工具，也为普通爱好者打开了创作大门，使他们能够轻松实现自己的创意愿景。随着AI技术的不断进步，我们可以预见，创意产业将迎来一个更加多元、开放和创新的新时代。另一个方向属于广义的情感陪伴。Dan模式的全网爆火，不仅展示了AI在情绪理解与表达上的巨大进步，更凸显了其与人类情感交流的无缝对接。GPT4o等高级AI系统的自然交互体验，让人与机器的界限

8、变得模糊，仿佛科幻电影 Her 中的情感故事正在逐步成为现实。AI技术在满足人类情感需求方面展现出巨大潜力，扮演起了人们的“情感外脑”。AI聊天机器人提供的心理咨询服务，以其24/7的不间断陪伴，为需要帮助的人们提供了及时的情绪支持和专业建议。在儿童领域，智能玩具不仅陪伴孩子们成长，更通过情感交互，培养孩子们的情感认知和社交技能。随着情感智能技术的不断成熟，数字生命的议题也日渐升温。一些创新尝试正在探索如何利用数字技术复刻已故亲人，为生者提供缅怀与思念的渠道。尽管这一领域还面临着诸多法律和伦理挑战，但其在情感陪伴方面的应用前景无疑为AI赋予了新的温度和深度。AI不再仅仅是冷冰冰的生产力工具，它

9、正在成为人类情感世界中的一个温暖伙伴。随着技术的不断发展和应用的不断拓展，我们有理由相信，AI将在人类的情感生活中扮演越来越重要的角色，为人们带来更多的陪伴与慰藉。PRE-FACE103序言走进“机器外脑”时代在本报告中，腾讯研究院基于科技行业发展和腾讯自身在AI领域的深耕，提出了10个关键性的趋势，试图理解全世界范围内正在发生的AI巨变。与往年一样，我们从技术、应用、社会三个方面来预测AI给经济社会带来的影响。我们正在进入一个“机器外脑”时代。加速技术为大模型行业的发展提供了算力的保障。随着大模型与人机协作的深入，个体创作的门槛进一步降低，越来越多的个体借助大模型外脑成为“斜杠青年”、“超级

10、生产者”，甚至开启自己的“一人企业”。端侧模型的优化将大幅提升提升移动设备的体验，开启全新的人机交互方式。在工业领域，多模态通用感知技术正在提升生产力，而游戏与大模型的共生关系为Agent训练提供了新的舞台。开源模型的成熟，为技术共享与创新提供了强大的生态支持。最后，人机对齐成为确保大模型安全与治理的核心议题，指引着我们走向一个更加智能、高效和安全的未来。这十大趋势共同勾勒出一个由大模型驱动的新未来。在这个未知和无限可能的时代，我们正在目睹AI如何将创意转化为现实，如何让个性化服务触手可及，以及如何为传统行业注入新的活力。AI让智力资源平权化，意味着无论背景或资源如何，每个人都有机会借助AI外

11、脑实现自己的创意与梦想。这一变革不仅降低了创新的门槛，也为社会各阶层带来了前所未有的机遇。只要你拥有创新的想法并善于利用AI这一强大的外脑，即使在资源有限的情况下，也有可能以低成本创造出令人瞩目的成就。让我们一起走进这个“机器外脑”时代，见证人类能力的再次飞跃。PRE-FACE104序言走进“机器外脑”时代PREFACE序言2人物-行为-场景一体化视觉表达与理解是未来人工智能的重要研究方向。随着生成式人工智能以及通用人工智能大模型技术的发展，赋予了智能体感知理解、任务思考、持续学习的一系列能力，并通过直接的物理交互满足人类的各种需求。因而，在未来智能体可以承担更多的体力劳动和重复性任务，而人类

12、则可以更加专注于创造性和思维类工作。其中，人物-行为-场景一体化视觉表达与理解是具身智能、智能生成等人工智能的核心基础，是链接物理世界的关键，一系列顶尖高校以及公司人员都已经下场研究这一新的AI范式。斯坦福大学李飞飞教授创建的公司就利用类似人类的视觉数据处理方式，使人工智能能够进行高级推理。她曾在温哥华TED演讲中表示，其研究涉及一种可以合理地推断出图像和文字在三维环境中样子的算法，并根据这些预测采取行动，这种算法概念叫做“空间智能”。为了解释这一概念，她展示了一张猫伸出爪子将玻璃杯推向桌子边缘的图片。她表示，在一瞬间，人类大脑可以评估这个玻璃杯的几何形状，三维空间中的位置，它与桌子、猫和所有

13、其他东西的关系，然后预测会发生什么，并采取行动加以阻止。她说：“大自然创造了一个以空间智能为动力的观察和行动的良性循环。”她还补充说，她所在的斯坦福大学实验室正在尝试教计算机“如何在三维世界中行动”，例如，使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。英伟达CEO黄仁勋此前在多个场合强调了一体化视觉表达的重要性，并预测人形机器人将成为未来主流产品。英伟达近期发布人形机器人通用基础模型Project GR00T，希望能让机器人拥有更聪明的“大脑”。由Project GR00T驱动的机器人能够理解自然语言，并通过观察人类行为来模仿人类动作。“人物-行为-场景”一体化的AI新范式

14、马利庄上海交通大学特聘教授人工智能研究院副院长05序言“人物-行为-场景”一体化的AI新范式2024年5月，以“大模型具身智能”为主题的松山湖科学会议上，近40位院士专家围绕主题分享最新技术趋势和突破性进展。波士顿咨询公司(BCG)预测，到2030年，智能机器人系统可能给全球经济带来约4万6万亿美元的年增长价值。当前对人物理解的研究依旧是机器视觉的核心，但需要从单纯的人脸识别、动作识别等人物视觉技术逐渐转换为与场景交互的一体化表达范式。例如，高速动态场景中自动驾驶系统无法理解周围环境中人和物的多变行为意图，容易引发严重的交通安全事故;服务机器人无法预测儿童的意图，也成为家庭的安全隐患。其核心

15、问题是人物行为具有多样性和歧义性，同样的行为在不同的场景下具有不同的含义，行为意图的歧义性必须通过时序序列分析才能进一步消除。因此，必须研究时序数据进行人物-行为-场景一体化视觉表达，而这就需要对多模态的数据进行联合分析。图灵奖得主Hinton教授在5月访谈中就表示多模态学习可以使模型更好地理解空间事物，因为仅从语言角度来看很难理解这些空间事物。当让模型成为多模态时，如果让它既能做视觉，又能伸手抓东西，并能拿起物体并翻转它们等等，多模态模型就会更好地理解物体。随着diffusion、视频生成大模型的不断发展，真实物理世界的规则先验将成为未来视觉、人工智能研究重点。相较于ChatGPT、图文大模

16、型等生成式人工智能在低维空间探索世界，Sora等视频生成式人工智能开始初步在三维空间模仿真实世界，并以人更容易接受的视频形式加以展示，这样高精度仿真世界投影的出现，也展示出了算力以及算法的进步。Sora生成的视频令人惊讶更多在于它大颗粒度上符合受众对真实物理世界的观察与体悟，让人感觉如“亲眼所见”。其背后是对相关物理规律，如近大远小、自由落体等进行深度挖掘、数字化后的成果。然而，众多权威学者和业内专家发声强调，Sora在二维视觉信息的传播与时空维度的表现力上虽然独树一帜，但并未达到对真实世界的全貌进行全面刻画和模拟的高度，尚未形成严格意义上的世界模型。但瑕不掩瑜，能够生成看起来像是在三维环境中

17、自然移动和互动的视频，已经可以看作是人工智能“虚拟创世”趋势的关键节点。PRE-FACE206序言“人物-行为-场景”一体化的AI新范式在AIGC发展的时间线上，总体是从单模态到多模态，从小模型到大模型这样的越来越复杂化和智能化的过程。AIGC模型的基本逻辑是从多模态的数据集，通过训练生成的大模型，服务于相应的各类应用任务。数据集包含文本、图像、语音、视频、结构化数据、3D信号等等。大模型通过训练来进行生成式的选择，然后不断的加以扩展。这个生成和扩展是需要大规模数据或知识的积累，就像一个人，行万里路以后具备了丰富经验，脑子里有很多经验与知识。但最后还有一步，还是要有一些专家或公认的权威人士对它

18、做强化训练，通过强化学习等生成合理可用的AI模型。最后一步非常重要，如果纯是AI生成的内容，逻辑上可能会混乱，通过强化学习，提高它的精准度，并加以约束使之符合社会伦理、政策法规等。适应的任务范围包括知识检索、文本生成、音频制作、视频制作、科学研究等等，内容是非常广阔。为适应数智时代数字内容智能化生产趋势，2024年4月17日，国家人力资源社会保障部等九部门就联合发布加快数字人才培育支撑数字经济发展行动方案(20242026年)，旨在通过规划数字人才未来的“成长地图”和培育体系，夯实数字经济高质量发展的“人才底座”，发挥数字人才支撑数字经济的基础性作用。人工智能是新一轮科技革命和产业变革的重要

19、驱动力量。其中，具身智能是场景理解感知、逻辑思考、行动决策三者有机智能融合的机器或系统，是人工智能在物理世界的进一步延伸。当今数智时代，能够以十分之一的成本实现千百倍内容生产速度的AIGC(生成式人工智能)，正越来越多地参与到数字内容的创意性生成，AIGC可以说将成为了未来互联网的内容生成基础设施，内容生产需求迈入强需求、视频化、拼创意的螺旋式升级阶段。具身智能、智能生成等人工智能技术的发展既需要一套人物-行为-场景一体化表达范式，同时也需求大规模数据或知识的积累以及专业的强化训练。大规模数据或知识的积累这就隐藏着数据以及训练量的规模法则，微软全球前副总裁姜大昕就认为在肉眼可见的未来，至少还有

20、十万亿和百万亿两个数量级。通过大规模数据以及训练集成了一体化表达范式的人工智能通用模型也可以在AIGC大模型、具身智能等应用中大放异彩，从而让机器能够更多地承担冗余重复的工作，释放更多的时间让人类能够更加享受创造性的工作以及高品质的生活。PRE-FACE207序言“人物-行为-场景”一体化的AI新范式PREFACE序言3过去的几十年，于中国实体产业来说是不平凡的，也是令人尊敬的。他们实现了技术与体验的数次跃迁，站在了信息化、数字化、智能化与开放化的“四化”前沿，并继续深入探索如何充分运用AI大模型、云计算、大数据等数字技术和产品，全方位重塑自身业务流程、商业模式与组织架构，迈进以用户体验为中心

21、、业务快速迭代、健康可持续的新发展阶段。作为千行百业的亲密合作伙伴，腾讯云有幸近距离见证了实体产业数字化、智能化转型道路上的点点滴滴，与每个客户一道深刻体会行业的沧桑巨变，体会数字经济时代对业务上、组织上和思维上的莫大影响。近年来，腾讯云也从数字新基建、数字新连接及场景新服务等维度入手，以长期主义心态，不断夯实云计算、大模型等产品技术能力，发挥触达亿万用户的连接能力，与合作伙伴共建开放、健康、安全的数字生态，助力实体经济高质量发展。过去一年里，我们发布了全链路自研的混元大模型，在国内率先采用混合专家模型(MoE)结构。目前，混元已经在腾讯内部600多个业务和场景中落地测试。例如，腾讯会议就基于

22、混元推出AI小助手，通过简单自然的指令，就可以完成发言提醒、观点总结、会议纪要等能力，大幅度提升会议效率。同时，我们面向ToB企业用户也推出了行业大模型，基于腾讯云TI平台和混元大模型基座，以高浓度的行业数据，加强模型对行业专业知识的理解；结合搜索增强与实时查询能力，提升模型解决产业问题的实时性、准确度、安全性等能力。目前，也已经在金融、医疗、教育、汽车、能源等20多个行业落地。共创、共建、共享智能美好未来吴运声腾讯云副总裁腾讯云智能负责人腾讯优图实验室负责人08序言共创、共建、共享智能美好未来我们也看到，还有很多企业非常期待将大模型能力快速应用于生产、销售和服务。这需要模块化的大模型Pa

23、aS工具，大幅降低开发门槛，缩短从模型到应用的距离。因此，围绕文本、图片、视频三种信息主要载体，我们推出了三款PaaS产品，“大模型知识引擎”、“大模型图像创作引擎”和“大模型视频创作引擎”，打造大模型原生工具链，助力企业在知识服务、图像和视频创作上提质提效。从通用模型到行业模型到模型开发工具再到即插即用的模型产品，我们一直以“全自研、高可用、强安全”的产品思路，去助力广大用户提效、去尽可能地降低技术使用门槛、去加速AI模型普惠。而这背后，也离不开腾讯在人工智能、大模型方面的投入与积累：过去五年，腾讯在人工智能领域申请专利超过10000项，居全球互联网行业榜首。腾讯优图实验室拥有1600多项人

24、工智能相关专利，发表顶会论文800多篇，多次在国际权威比赛中创造世界纪录。可以说，人工智能正在迅速发展，大模型技术也正成为赋能各行各业的关键。从算力底座、智力增强到人机协作，大模型正在重塑人类社会，成为我们可依赖的外脑。今天，我也很开心看到2024AI大模型十大趋势走进“机器外脑”时代白皮书发布，报告中所呈现的内容方向精准且富有前瞻性，深入剖析了大模型发展的可能方向和应用影响。比如，其中有一节谈到多模态AIGC会重塑内容产业生态，我是基本认同的。多模态大模型的技术路线是一条充满创新与突破的道路，它融合了多种模态的数据，如文本、图像、音频等，通过复杂的算法和强大的计算能力，挖掘出数据背后隐藏的

25、模式和规律。这种融合不仅极大地丰富了模型对世界的理解和表达能力，还为解决复杂问题提供了全新的思路和方法。其价值更是不可估量。比如在医疗领域，能够辅助医生进行更精准的诊断；在工业生产中，提升生产效率和质量；在文化创作领域，激发无限的创意灵感。多模态大模型正在成为推动社会进步和发展的强大引擎，为人类创造更美好的未来奠定了坚实的基础。这份报告，既凝聚了腾讯云与各方在AI模型方面的洞察与互动，也引发了更多全新的讨论和大胆的畅想。我们希望，该报告能对正在探索人工智能、大模型发展的从业者们有所启发，也希望广大读者给予我们宝贵的反馈意见，期望后续与更多同行者一道推进科技赋能与产业创新，共创、共建、共享智能美

26、好未来。PRE-FACE309序言共创、共建、共享智能美好未来趋势1 生成式 AI 的迅猛演进，推动 AI 基础设施（AI Infra）加速发展，增长趋势将从大模型专业领域延伸至各行业领域，AI Infra“质量双螺旋”的发展模式将逐步形成，单集群从万卡“量变”至十万卡的同时，集成、互联和分布式将成为AI Infra“质变”破局的三板斧。算力底座：迈向十万卡集群量变，速度和效率双提升作者：刘莫闲10趋势1算力底座生成式 AI的演进也在推动它的底层基础-人工智能基础设施（AI Infrastructure，简称 AI Infra）技术的进步和建设的持续增长。由于生成式 AI 技术迭代和商业化探索

27、仍在加速进行，AI Infra 短期的发展总体呈现供需两旺的形势。一般的，AI Infra是指支撑 AI 大模型开发、部署和管理的软硬件工具组合。国际上，AI Infra 通常会被划分为 5 层，自下向上分别是：算力设施、基础大模型、数据和存储、模型开发和部署、以及监测与对齐。当前，生成式人工智能的发展仍处于初期阶段，行业对 AI infra 的需求也相对初级，主要集中在算力设施层，未来将发展需求将逐步覆盖其他层级。而随着算力基础设施建设的规模进一步扩大，技术迭代逐步深入，人们对算力设施层关注的焦点，正在从单一对“量”的追求，向“质”、“量”兼顾演变。换句话说，未来AI算力基础设施的发展，将在

28、更大规模加速卡集群容量、和更高算力利用率及计算能效之间交替进化、相互促进。AI Infra“质量双螺旋”的发展模式逐步显现，并向上层延伸。人工智能基础设施供需两旺，增长趋势向行业企业延伸生成式AI算力需求惊人，AI服务器市场增长预期明确。相关研究报告显示，自2012年以来，AI大模型训练的算力呈指数级增长，每3.4个月翻一倍。这意味着，从2012到2018年，AI算力增长了超过30万倍。与2012年的模型相比，2020年提出的模型需要600万倍的计算能力。预计这个增长还会继续快速提升。图：历史上主要 AI 模型训练的算力用量趋势图片来源：https:/blog.heim.xyz/trainin

29、g-compute-thresholds/11趋势1算力底座以OpenAI为例，自ChatGPT发布已来，GPT等大模型能力快速和持续的提升，也得益于大规模AI加速算力对于模型训练的支撑：根据公开信息，OpenAI训练GPT-4大约需要25000张A100训练90-100天，训练GPT-MoE-1.8T需要8000张H100训练90天，训练Sora预计需要4200-10500张H100训练1个月，而训练GPT-5可能需要多达50000张 H100。在Scaling Laws的指引下，越来越多的AI科技企业对于大模型更强能力的追求，正在引发更多的、对于更大规模、更高算力的AI Infra的惊人需

30、求。Meta到今年底前计划再获得35万个H100 GPU，并宣布将资本支出大幅提高到350-400亿美元；OpenAI和微软正在制定一个新的数据中心项目计划，投资可能高达 1000 亿美元，其中还包含一个名叫“星际之门”的AI超级计算机。此外，亚马逊、微软等云服务商也在计划数年内投入近百亿美元增加其在全球各地的超大规模云计算和AI基础设施，以匹配迅速增长的大模型建设和服务需求。IDC预计，全球人工智能硬件市场（服务器），将从2022年的195 亿美元增长到2026年的347亿美元，五年年复合增长率达17.3%；其中，用于运行生成式人工智能的服务器市场规模在整体人工智能服务器市场的占比将从202

31、3年的11.9%增长至2026年的31.7%。AI Infra建设需求向行业企业延展，制造业对于AI Infra的建设最积极。全球各大科技巨头对AI基础设施的投入充分体现了他们对AI发展前景的乐观预期和决心。这一趋势不仅将加速人工智能技术的突破和应用落地，也将为相关产业链带来巨大的发展机遇。图：全球人工智能服务器市场规模预测2022-2026来源：IDC 2022-2023 全球计算力指数评估报告12趋势1算力底座根据微软与Forrester Consulting联合进行的人工智能基础设施现状2024年度调查报告显示，在受访的 1500多名各行业和地区的商业领袖中，56%的人反映所在企业并

32、没有良好的基础设施来支持AI相关的业务工作；41%的人认为人工智能基础设施是现阶段企业发展人工智能时最需要帮助的领域；而43%的人主张积极主动的发展自己的人工智能基础设施战略，其中最积极主动的行业包括：制造业，金融，软件，零售和卫生保健。AI算力设施“量”变，集群规模将从万卡迈向十万卡生成式AI的训练集群规模，以步入万卡量级。按照 Scaling Laws的基本逻辑，拥有越大的模型参数，人工智能大模型的能力就会越强。同时，训练大模型所需要的算力集群规模也就越大，这样才能在合理的时间内完成大模型的训练。从国内外头部的大模型训练情况得知，目前训练大模型所需要的单集群规模，已经从千卡上升至万卡。也就

33、是说，训练一个大模型所需要的算力基础设施，需要10000张以上的AI加速卡集成在一个AI智算集群才能完成：OpenAI已在训练GPT-MoE-1.8T时使用了8000卡集群；Meta于2022年公布了拥有1.6万张A100 GPU的超级计算集群 RSC，并于2024年初公布了2个24576张Nvidia H100集群，支持Llama3的训练；国内头部科技企业也陆续实现万卡集群来训练大模型；万卡集群的实现和运行，是各层级软硬件紧密耦合和持续调试的复杂系统工程。万卡集群并不是简单的将 AI 加速卡在硬件层面进行单纯的连接和堆砌，还要能够基于计算任务进行统一调度和管理，以实现大模型训练和推理的算力集

34、群。实现稳定运行的万卡集群，并有效支撑大模型训练并非易事，总体看技术上会面临硬件和软件两个层面的挑战：首先，构建万卡级别的超大规模集群本身就是一项极其复杂的系统工程。集群中成千上万的高性能计算单元需要以极高的带宽和极低的延迟进行互联，对网络拓扑、传输协议、线缆布线等都提出了苛刻的要求。同时,高密度部署还面临着散热和供电的巨大压力。现有的计算机网络和数据中心技术需要全面升级,才能满足万卡集群的苛刻要求。其次,在软件层面,实现高效的分布式并行训练也面临重重挑战。传统的数据并行和模型并行范式在万卡尺度下将遇到通信瓶颈和负载不均衡等问题。需要全新的混合并行范式和任务调度机制,在最小化通信开销的同时实现

35、高效的并行计算。分布式训练框架还需要内置故障检测和恢复机制,确保系统能容忍局部节点的失效。此外,高效的分布式优化算法,自动混合精度训练,以及针对大规模异构集群的资源管理和任务编排技术,都亟待突破。国内外A加速卡的发展呈现多元化发展趋势，不同芯片架构、不同品牌、不同型号的 AI加速卡都将有可能成为万卡集群算力调度的一部分。如何将异构加速卡进行统一虚拟化、调度管理、并执行模型训练更是需要持续面对的技术挑战。突破这一难题，不仅需要考虑硬件层面的兼容问题，还要考虑不同并行计算、分布式训练等软件系统的相互兼容和融合，以及软硬件集成运行时的稳定性和可扩展性等问题。腾讯云在这方面做了必要的技术储备，除了适配

36、国际上不同型号GPU外，还针对国内AI加速卡进行适配，为市场提供多样化算力选择。13趋势1算力底座下一代AI大模型的训练推动十万卡集群的探索。目前，国内外头部科技企业、云服务商以及科研机构正在逐步解决万卡集群建设和运行中的诸多难题，万卡集群的建设已在加速实现，并且在逐步迈向十万卡集群水平。在国内，多个万卡及以上规模的AI算力集群正在陆续建设；腾讯基于自研的高性能网络星脉，以及新一代算力集群HCC，可以支持10万卡GPU的超大计算规模；国际上，马斯克创立的xAI公司训练Grok2将采用约2万卡的H100集群。马斯克进一步透露计划建造由10万张H100组成的超级算力集群，用于 Grok3 的训练。

37、AI算力设施发展“质”、“量”兼顾，集成、网联和分布式将成破局三板斧AI算力设施应激式发展的副作用显现，全球呼吁“质”、“量”兼顾的可持续计算。生成式AI的进展速度不断的加快，不断给我们带来对技术革新的惊喜和赞叹，Scaling Laws逐步也成为业界共识。然而，“大力出奇迹”的粗旷发展思路，也导致了全球 AI Infra 建设的应激式响应，除了 AI 加速卡等器件的价格上涨外，激增的高功率智算集群给社会、环境以及投资企业带来的负面影响也在陆续显现，并有加剧的风险。AI Infra 的未来发展，需要“质”、“量”兼顾。包括国际经济论坛（WEF）、英特尔、英伟达、IBM、谷歌等在内的众多国际组织

38、和企业纷纷呼吁“可持续计算”的发展，在不断提升计算能力的同时，重视提高算力设施的利用率（Model FLOPs Utiliza-tion，简称MFU）和能效（每瓦电能所实现的AI运算次数），控制和降低AI infra对能耗、环境等方面的负面影响，从而在AI发展持续递增的行业背景下，为“量”的进一步增长提供发展空间。集成、网联和分布式将成为 AI Infra可持续发展的破局三板斧。可持续计算的具体实现几乎涉及 AI Infra从底层物理器件到上层模型算法的所有方面，各种技术更新和优化措施的效果和周期也都不尽相同。当前，AI Infra“质”变所面临的基础问题，是算力集群的高能耗和低能效。而从解决

39、问题的关键性和经济性两方面来看，硬件持续集成、高性能网络互联、以及分布式训练优化将可能成为破局的三个技术路线。硬件的持续集成，主要指从芯片、加速卡到模块和机柜等各个硬件层面元器件、组件的迭代并持续集成，这也将是未来一段时间 AI Infra 核心硬件系统主要演变路线之一。高性能网络互联，是组建大规模算力集群的关键技术，主要解决不同芯片单元、加速卡、节点以及机柜乃至集群等各级计算系统之间的高性能数据交换。大模型训练一般需要TB 每秒级别的互联带宽和毫秒级的延迟标准。不断提升的网络互联技术，一方面有助于提高系统集成度，使十万卡甚至更大规模的集群得以实现，另一方面也提高数据交换效率，降低能耗。腾讯自

40、研的高性能网络解决方案“星脉”，专为大模型训练等大规模并行计算场景打造，采用自研端网协同协议TiTa，支持基于RDMA的计算节点间互联，最高带宽可达3.2TB/s，最大支持单集群10万卡的组网性能。提升大规模分布式训练的计算效率一直是该领域核心问题，分布式训练框架便是关键的 AI Infra 环节。分布式训练框架是将大模型训练任务进行分解和并行策略指定、并进一步调度和管理AI算力集群按策略执行训练任务的关键软件系统。合适的分布式训练框架和持续的针对性软硬件系统调优，可实现更高的算力利用率，节省训练算力成本。腾讯自研Angel机器学习平台面向大模型训练，在预训练、模型精调、强化学习多个阶段进行优

41、化，相比业界开源框架，可以用更少的资源训练更大的模型，训练速度是主流框架的2.6倍。集成、网络互联和分布式训练优化将为 AI Infra 向质量兼顾的新发展阶段打开局面，与此同时单晶元芯片、液冷、分布式数据库、神经形态计算等各其他层面的持续优化和技术创新也会在未来几年取得新的进展，推动 AI 基础设施持续进化。14趋势1算力底座趋势2 大型语言模型（LLM）为人工智能带来了所未有的推理能力，极大地扩展了机器的认知边界。它们不再仅仅是执行简单任务的工具，而是成为了人类的智力外脑，能够提供深入的分析、创造性的解决方案和复杂的决策支持。这种推理能力的跃迁得益于LLM在理解和生成自然语言方面的巨大进步

42、。它们能够解析复杂的文本，提取关键信息，进行逻辑推理，并生成连贯、有见地的回应。这使得LLM能够处理各种知识密集型任务，如法律分析、市场研究、科学发现等，为个人和企业提供了强大的智能支持。推理分析：LLM带来推理能力跃迁，推动智力即服务作者：徐思彦15趋势2推理分析与以往的人工智能相比，大语言模型的显著特征是推理能力的强大表现。推理能力是指模型在处理信息时，能够进行逻辑推导、分析和解决问题的能力。通常体现在能够对复杂问题的理解、对信息的整合以及在给定上下文中生成合理、连贯和有说服力的回答。如同人类学习语言一样，AI大模型通过大量数据的学习和模仿，逐渐构建起丰富而高效的模型。在训练阶段，大模型通

43、过深度学习技术，通过多层神经网络，对接收输入的海量数据进行学习和优化，并通过学习调整模型的参数，使其能够对输入数据进行准确的预测。推理（Inference)阶段则建立在训练完成的基础上，将训练好的模型应用于新的、未见过的数据。模型利用先前学到的规律进行预测、分类或生成新内容，使得AI在实际应用中能够做出有意义的决策。这些模型利用深度学习架构，如Transformer，来捕捉文本中的长距离依赖关系，并通过注意力机制聚焦于输入序列中与任务最相关的部分。此外，通过使用启发式算法如贪婪解码、束搜索或思维链（Chain of Thought）Prompt-ing等策略，LLM能够生成连贯且逻辑性强的文本

44、，展现出在复杂问题上的推理能力。思维链的生成更高的算力与更好的模型的加持下，机器不再仅仅是执行简单任务的工具，而是成为了人类的智力外脑，能够提供深入的分析、创造性的解决方案和复杂的决策支持。它们能够识别问题的核心要素，构建逻辑框架，并通过逐步推演得出结论。这种能力使得大模型在法律、医疗咨询、科学研究等高知识密度领域展现出巨大潜力，为用户提供了更为精准和深入的服务。过去几十年我们一直在追求更快的计算机，但现在和未来，我们将追求更强大的大脑。Andrej Karpathy 提出了“软件2.0”，即传统软件开发转变到以AI模型为核心的新时代。未来，我们将依赖于无尽的算力和多样化的AI模型来构建“机器

45、之心”，这将使我们能够实现前所未有的智能服务和应用。机器外脑开启“智力即服务（IQaaS）新模式Fig.2:Left:Overview of the reasoning tasks introduced in this survey,as detailed in Section 3.Right:Overview of the reasoning techniques for foundation models,as detailed in Section 4.support16趋势2推理分析AI将引领新的服务模式，即“智力即服务”，它通过云端平台为用户提供了一种灵活、高效的人工智能使用方式。过

46、去的SaaS服务通常按每个账户定价，本质上是以员工成本为基准，以提高员工的生产力。在大模型时代，直接出售工作成果开辟来了新的垂直机会。LLMs为创业公司提供了一个机会发掘以前受到软件的市场推广和定价限制而无法涉足的领域。为此，创业者应考虑的不仅仅是出售软件以提高端用户的生产力，而是思考如何出售工作需求包本身。与传统的本地部署相比，智力即服务模式允许用户根据实际需求快速调整资源，无需大量前期投资即可获得专业的AI能力。企业和个人可以根据自己的具体需求，选择相应的LLM服务，如文本分析、情感分析、机器翻译等。这些服务以需求包的形式被调用，并且可以轻松集成到现有的工作流程中，提高效率，优化决策过程，

47、并创造新的商业价值。例如，企业可以把优化营销结果的目标拆分成“利用LLM进行市场趋势分析，预测消费者行为，制定更有针对性的营销策略”，然后通过“智力即服务”获取这些服务。这种模式不仅降低了技术门槛，还通过持续的更新和优化，保证了服务的先进性和可靠性。此外，大模型的专业化和定制化服务能力，使得不同行业的企业都能获得符合自身特定需求的智能解决方案。这促进了企业运营效率的提升，支持了基于数据分析的决策制定，同时激发了创新和新产品开发。智力即服务还强调了成本效益和安全性，帮助企业优化成本结构，同时确保用户数据的安全和隐私。随着大模型技术的不断进步，智力即服务正在成为推动各行各业数字化转型的重要力量。对

48、于个体而言，大模型技术迭代加速、衍生的AI原生产品层出不穷，并非单纯是AI对人的能力的替代。LLM的推理能力也为个人提供了巨大的便利。无论是学术研究、创意写作还是日常决策，人们都可以借助LLM获取深入的见解和建议。个体借助大模型应用、通过与AI进行协作，能够有效拓展能力边界，在生活和工作场景中成为一名擅长“人机协作”、充满创意和效率的超级生产者。随着大模型技术向多模态、端侧智能和Agents（智能体）等前沿方向演进，其在创作领域的应用潜力将持续赋能个体进行更高效、更具创造性的创作。未来，我们将迎来一批具备以下特质的超级生产者：熟练掌握与AI协作的方式；具备跨学科和跨领域融合的思维；擅长建立和拥

49、有个人品牌和网络：拥有强大的个人品牌和广泛的专业网络；具有创新动力和能力；拥有技术伦理意识。从这一视角出发，超级生产者也有潜力成为未来零工经济的主力。随着技术的不断进步，LLM的推理能力将变得更加强大和精细。我们可以预见，未来，iQaaS使人类的推理能力得以在云端实现，智力将有望变成像电力一样的公共服务获取。这不仅将极大地推动社会的整体智力水平，也将为个人和企业带来更多的发展机遇和创新可能。机器外脑助力个体成为“超级生产者”17趋势2推理分析趋势3在这个精神追求引领物质需求的时代，AI的进步与社会文化的演变紧密相连，专注音乐和视频生成的AI平台应运而生，为热爱创作的“斜杠青年”们提供了更低门槛

50、的工具，创建了自我表达和创意释放的新社区。大模型的崛起并非仅仅是人工智能对人类能力的替代，更开启了人与AI协作的全新篇章。创意生成：AIGC应用爆发，降低专业创作门槛作者：陈楚仪王鹏18趋势3创意生成图：个人制作的音乐可以在Suno上线得到用户围观、点评，推动AI音乐社区形成在内容创作与创意生产这一领域，大模型正以前所未有的方式重塑行业格局：（1）多模态内容：大模型可以生成涵盖文本、图像、视频等多种媒体形式的内容，提供更丰富的感官体验，提高信息的传达效率和吸引力。（2）个性定制：通过分析用户的行为、偏好和反馈，大模型可根据用户需求生成个性化、高度相关的内容,提高创作效率。（3）创意激发：AI

展开阅读全文

2024大模型十大趋势手册 走进“机器外脑”时代.pdf

2024大模型十大趋势手册走进“机器外脑”时代.pdf