DeepSeek大模型生态报告.docx

资源描述

deepseek 大模型生态报告赛迪研究院电子信息研究所 2025 年 2 月 I 目录一、DeepSeek 大模型背景 1 （一）深度求索公司情况 1 （二）模型迭代历程 2 （三）研发团队情况 3 1. 北京大学罗福莉 4 2. 北京大学高华佐 4 3. 北京邮电大学曾旺丁 5 4. 北京大学朱琪豪 5 5. 北京大学代达劢 6 6. 北京大学王炳宣 6 7. 浙江大学梁文锋 7 二、DeepSeek 大模型应用现状 8 （一）国内情况 8 （二）全球情况 10 三、DeepSeek 大模型技术特点 11 （一）技术创新 11 1. 压缩：从结构到量化 11 （1）多层注意力 MLA 12 （2） FP8 混合精度训练框架 13 2. 并行：对硬件的极限使用 16 （1） DualPipe 跨节点通信 16 （2）无辅助损失的负载均衡策略 18 （3）底层通信优化 20 3. 总结 20 （二）训练成本 21 四、DeepSeek 大模型产业生态 22 （一）企业 22 1. DeepSeek 系列新模型正式上线昇腾社区，华为小艺已接入 DeepSeek 22 2. 三大运营商全面接入 DeepSeek 23 3. 多家公司宣布接入 DeepSeek 23 4. 微软、英伟达、亚马逊全部接入 DeepSeek！ . 25 5. 燧原科技实现全国各地智算中心 DeepSeek 的全量推理服务部署 26 6. 多家券商也积极“拥抱”DeepSeek 26 （二）生态 27 1. Deepseek 应用 27 日登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜 27 2. DeepSeek 在开源社区 GitHub 上的Star 数首次超越 OpenAI 28 3. 国家超算互联网正式上线 DeepSeek 29 4. 传 DeepSeek 正准备适配中国国产 GPU 29 5. DeepSeek 的风，火速吹遍了终端企业 30 （三）应用 32 1. 文学 32 2. 编程 32 （四）基础设施 35 五、DeepSeek 大模型产业影响 35 （一）对人工智能技术的影响 35 1. 吴恩达谈 DeepSeek：中国 AI 迎头赶上，扩大算力并不是 AI 进步的唯一途径 35 2. 蒸馏技术将成为行业突破口 36 （二）对产业生态的影响 37 1. DeepSeek 开源对于企业战略价值 37 2. DeepSeek 是否真的绕开了 CUDA？ 39 3. DeepSeek 会导致对智算中心的需求大幅减少吗？ 39 （三）对国际竞争的影响 46 1. DeepSeek 的崛起，冲击了全球科技供应链的核心玩家 46 2. AI 低成本化，最大输家可能不是 Nvidia，而是依赖大模型收费的 AI 公司 46 3. AI 进入创业黄金时代 47 4. DeepSeek 的崛起引发了全球资本市场的剧烈震荡 47 六、国内相关表态 48 （一）国家层面 48 1. 中国常驻联合国代表傅聪回答记者提问 48 2. 外交部发言人郭嘉昆主持例行记者会 49 （二）地方层面 49 1. 广东 49 2. 郑州 49 3. 北京经济技术开发区 49 七、各国相关表态 50 （一）美国 50 1. 龙头企业单位 50 （1）英伟达 50 （2） OpenAI 51 （3）谷歌 52 （4）苹果 52 （5）微软 52 2. 美国联邦政府 52 （1）美议员推动立法促中美 AI 全面脱钩 . 53 （2）美国海军禁止官兵使用 DeepSeek 大模型 53 3. 美国地方政府 54 （1）得克萨斯州宣布禁止政府设备使用 DeepSeek 54 （二）英国及欧洲 54 1. 龙头企业单位 54 （1）英国阿兰·图灵研究所 54 （2）德国墨卡托中国研究中心 54 （3）英国利兹大学 55 （4）荷兰阿斯麦 55 2. 政府及公共机构 55 （1）意大利 55 （2）爱尔兰 55 （3）法国 55 （三）韩国 56 1. 龙头企业单位 56 （1）韩国 56 （2） LG 56 （3）三星 56 2. 政府及公共机构 56 （1）韩国代理总统崔相穆将 DeepSeek 称之为“新的冲击” 57 （2）韩国祥明大学 57 （四）其他国家 57 1. 政府及公共机构 57 （1）澳大利亚 58 （2）日本 58 （3）印度 58 八、DeepSeek 大模型的经验启示 58 （一）技术 58 1. 中科院为何难现 DeepSeek 式突破 58 （1）制度基因的先天性分野 58 （2）创新效率的量子级差距 60 （3）体制突围的艰难探索 62 （4）破局之道：构建科技创新共同体.63 （5）超越二元对立的创新哲学 64 2. 王凡、刘少山：中国如何引领全球具身智能？ DeepSeek 的战略启示｜AI 观察 64 （1） DeepSeek 的突破对具身智能的启示 . 65 （2） DeepSeek：推动中国 AGI 领域自主创新 66 （3）具身智能：人工智能从虚拟世界走向物理世界 67 （4）上下文强化学习：具身智能的发展方向 68 （5）具身智能的应用前景与行业变革.70 （6）政策建议：开源发展、标准化和产业化落地 71 （7）结论：把握技术机遇，领导未来的全球AI 竞争 72 （8）本文作者 72 3. 专家观点 | 鲁传颖：人工智能重塑国家安全的范式和逻辑 72 （1）人工智能赋能国家安全 73 （2）人工智能技术安全对国家安全的深层次影响 77 （3）人工智能时代的国家安全治理体系 . 82 4. 巴黎 AI 峰会，李飞飞教授开幕演讲：当前才是“首个真正的 AI 时代” 86 （1）人工智能的历史与起源 87 （2）现代 AI 三大关键要素 88 （3）2012 年之后的AI 突破 91 （4）大模型与近期 AI 进展 92 （5）空间与具身智能的兴起 94 （6）以人为本的 AI 与三大核心价值 94 （7） AI 治理：理性、务实与多方协作96 5. 人工智能驱动信息技术体系重构与再造— —兼评《中国至 2050 年信息科技发展路线图》.98 （1）《路线图》和《三元融合》的重要预判与近15 年发展的比较 99 （2）未来 10 年信息技术体系重构与再造的创新机遇与挑战 106 （3）发展对策 121 （二）企业 123 1. DeepSeek 的创新三重门 123 （1）小天才们的胜利 123 （2）华为式的军团平推 125 （3）原创（哲学性）思想 129 （4） DeepSeek 跨越第三重门了吗？.130 2. DeepSeek 颠覆了什么？——大模型“国产之光”破局的启示 131 （1）击穿三大定式 132 （2）实现三大跃升 134 （3）超越技术的启示 136 （三）地方 138 1. 为什么DeepSeek 没有出现在浦东张江 138 一、DeepSeek 大模型背景（一）深度求索公司情况 DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，简称“深度求索”，于 2023 年 7 月 17 日由幻方量化创立，位于杭州市拱墅区，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术，法定代表人、执行董事兼总经理为裴湉。 2024 年 1 月 5 日，该公司发布第一个大模型 DeepSeek LLM。之后，相继发布 DeepSeek-Coder、DeepSeek-VL、 DeepSeek V2、DeepSeek V3 等模型。其中，DeepSeek V2 模型因在中文综合能力评测中的出色表现，且以极低的推理成本引发行业关注，被称为“AI 界的拼多多”。2025 年 1 月 20日，该公司正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版，推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日，DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek 成为中国区第一。1 月 28 日，DeepSeek 发布开源多模态模型 Janus-Pro，其中 70 亿参数版本的 Janus- Pro-7B 模型在使用文本提示的图像生成排行榜中优于 OpenAI 的 DALL-E 3 和Stability AI 的 Stable Diffusion。 143 2025 年 2 月 8 日，QuestMobile 数据显示，DeepSeek 在 1 月 28 日的日活跃用户数首次超越豆包，随后在 2 月 1 日突破 3000 万大关，成为截至 2025 年 2 月史上最快达成这一里程碑的应用。（二）模型迭代历程中国初创企业深度求索（DeepSeek）研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架，为 DeepSeek 在未来适配中国国产晶片做好准备。 DeepSeek 通过优化算法架构，显著提升了算力利用效率，打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法，在提高了模型准确性的同时，也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意：更少的 GPU（或其他 AI 芯片）带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法，而不是说只能通过低成本来进行训练。 DeepSeek-R1 反而通过优化，DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU，模型推理能力可稳定提升，无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的Scaling Law，为 AI 芯片市场及 AI Infra市场提供了明确的增量需求逻辑。 DS 不仅在推理模型上实现了突破，在多模态方面也保持了进步，并于近日开源发布了 Janus-Pro 多模态模型。基于算法工程方面的优化，DS 能够实现性价比更高的模型推理能力（价格低、效率高、性能强、可部署在端侧平台），并有望以强大的推理能力和多模态感知能力，重塑机器人交互与决策，同时通过低成本、高效率的解决方案，加速具身智能的普及与应用。（三）研发团队情况 DeepSeek 团队最大的特点之一就是年轻。团队成员中，应届生和在读生占据了相当大的比例，他们活跃在公司的各个项目和研究领域中。这些年轻人思维敏捷、充满活力，对新技术和新方法有着敏锐的洞察力和强烈的探索欲望，为 DeepSeek 的发展注入了源源不断的动力和创新活力。在 DeepSeek 团队中，来自清华大学和北京大学的应届生尤为突出。他们不仅在学术上有着扎实的功底和丰富的研究成果，而且在实际工作中也展现出了卓越的能力和潜力。许多关键的技术创新和项目成果，都离不开这些清北应届生的贡献。他们将所学知识与实际问题相结合，不断突破技术瓶颈，推动 DeepSeek 在 AI 领域的持续进步。有些团队成员从 DeepSeekLLMv1 开始就加入了公司，并一直参与到了 DeepSeek-v3 的开发和研究中。他们见证了 DeepSeek 大模型从无到有、从弱到强的全过程，积累了丰富的经验和深刻的理解。这些全程参与的成员，对 DeepSeek 的技术发展和产品迭代起到了至关重要的作用，他们的经验和见解为公司未来的发展提供了宝贵的参考和指导。 1. 北京大学罗福莉罗福莉，女，95 后，出生于四川，本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。罗福莉 2019 年曾在国际顶级会议 ACL 上发表 8 篇论文，其中 2 篇为第一作者。罗福莉的职业生涯始于阿里巴巴达摩院，罗福莉主导开发了多语言预训练模型 VECO，并推动了 AliceMind 的开源工作。2022 年，罗福莉转战 DeepSeek，参与了 MoE 大模型 DeepSeek-V2 的研发。 2024 年 12 月，网传罗福莉被小米创始人雷军以千万年薪招募，担任小米 AI 实验室的大模型团队负责人。12 月 31 日，罗福莉的高中班主任告诉红星新闻记者，罗福莉还没决定去小米，还在考虑。 2. 北京大学高华佐高华佐是 MLA 架构的关键创新者之一，他非常低调，目前只知道是北大物理系毕业。在 DeepSeek 团队中，高华佐凭借其扎实的物理基础和对 AI 技术的深刻理解，为 MLA 架构的提出和发展做出了重要贡献。他的创新思维和严谨态度，为 DeepSeek 的技术进步提供了有力的支持。另外，在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到高华佐的名字，虽然暂不确定是否是同一人，但这也从一个侧面反映出他在 AI 领域的影响力和活跃度。 3. 北京邮电大学曾旺丁曾旺丁来自北邮，研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。在 DeepSeek 团队中，曾旺丁主导了 GRPO 算法的研究和开发工作。他深入分析了强化学习中的关键问题和难点，提出了 GRPO 这一创新的算法，为 DeepSeek-Math 项目和整个强化学习领域的发展做出了突出贡献。曾旺丁的研究成果不仅在学术界得到了认可，也在实际应用中展现出了强大的潜力和价值。 4. 清华大学邵智宏邵智宏是清华交互式人工智能（CoAI）课题组的博士生，师从黄民烈教授。他的研究领域包括自然语言处理、深度学习等，特别对如何构建一个稳健且可扩展的 AI 系统感兴趣。在 DeepSeek 团队中，邵智宏参与了 DeepSeekMath 、 DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1 等多个项目，为公司在自然语言处理和 AI 系统构建方面的发展做出了重要贡献。他之前还曾在微软研究院工作过，积累了丰富的研究和实践经验。 4. 北京大学朱琪豪在北京大学攻读博士期间，朱琪豪校友师从熊英飞副教授和张路教授，研究方向为深度代码学习技术，致力于探索程序语言定义与深度学习技术的深度融合。他的科研成果在 ICSE、IJCAI、AAAI、ESEC/FSE、ASE 等国际顶级会议上频频亮相，共发表 CCF-A 类论文 16 篇。凭借基于语法制导的程序修复技术，他荣获 ESEC/FSE 2021 杰出论文提名奖，并多次斩获ACM SIGSOFT 杰出论文奖。在博士阶段，朱琪豪校友不仅在学术上收获颇丰，还将研究成果成功应用于产业。他主导开发了国产开源代码大模型 DeepSeek-Coder-V1，达到国际领先水平，相关技术广泛应用于反编译、代码分析、代码修复等领域，受到全球学者和企业的高度关注。由此开发的修复工具 Recoder 在深度学习修复研究中首次超越传统方法，推动整个行业迈向深度学习的新时代。朱琪豪校友以其卓越表现，连续获得字节跳动奖学金、北京大学校长奖学金、国家奖学金及北京大学三好学生标兵等重量级荣誉。他的博士论文《语言定义感知的深度代码学习技术及应用》更是入选 2024 年 CCF 软件工程专业委员会博士学位论文激励计划，成为该领域具有里程碑意义的研究成果。 5. 北京大学代达劢除了 DeepSeek-V2 MLA 和 DeepSeekMath GRPO 这两项关键成果，值得一提的是，还有一些成员从 v1 就加入其中，一直到v3。代表人物之一是代达劢，2024 年博士毕业于北京大学计算机学院计算语言所，导师是穗志方教授。 6. 北京大学王炳宣北大元培学院的王炳宣，来自山东烟台，2017 年进入北大。硕士毕业后加入 DeepSeek，参与了从 DeepSeek LLM v1开始的一系列重要工作。 7. 浙江大学梁文锋梁文锋，1985 年出生于广东湛江吴川，父母都是小学语文老师，这也使得他从小就成绩优异。“湛江发布”提及他一段成长往事：梁文锋性格很文静，但不是书呆子，在学习上很有自己的“一套方法”，初中时就学完了高中数学，甚至开始学大学数学。 2002 年，梁文锋以吴川一中“高考状元”的成绩考上浙江大学，本科就读电子信息工程专业，之后又继续攻读浙江大学信息与通信工程专业研究生。大学期间，梁文锋就与同学一起开始积累市场行情数据和探索全自动量化交易。2015年，梁文锋硕士毕业后和几位浙大同学共同创立了量化对冲基金公司幻方量化，并于当年拿到第一张私募牌照，几年时间管理规模迅速超百亿。有意思的是，2016 年幻方量化便首次上线 AI 策略，并在之后实现投资策略全面 AI 化，同时也是国内唯一公开宣称拥有万张英伟达 A100 显卡的企业。大学时期梁文锋便坚信“AI 一定会改变世界”，这些都为后来投身 AI 埋下伏笔。转折点是 2023 年，全球 AI 大模型风起云涌，国内大佬纷纷宣布 AI 创业，梁文锋也是其中一员。那年 4 月，梁文锋宣布正式进军通用人工智能领域，“追寻一直以来的技术理想，超越投资去直面更大的课题”。很快， DeepSeek 在杭州应运而生同年 11 月，DeepSeek 发布了开源的代码大模型。二、DeepSeek 大模型应用现状（一）国内情况随着 DeepSeek 的爆火，国产大模型云服务平台 SiliconCloud（硅基流动）开始被大家关注。 2 月 1 日，硅基流动和华为云宣布联合⾸发并上线基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。基于自研推理加速引擎加持，硅基流动和华为云昇腾云服务支持部署的 DeepSeek 模型可获得持平全球⾼端 GPU 部署模型的效果。 DeepSeek 对中国最大的启示，还是“开放”二字。无论是心态上还是方法上，都要毫不动摇地坚持开放，继续开放。 DeepSeek 的胜利，就是开源打败闭源。OpenAI 以前是开源的，后来变成闭源的，这次 DeepSeek 爆火之后，OpenAI 的奥特曼也出来说话，承认闭源是一种战略错误。开源不仅可以用我们举国的力量，还可以用全世界的力量。世界的科学共同体要联合起来，遏制资本、遏制某些政客的力量，促进人类的技术进步。中国过去很多技术成果和产业成功都是在开放条件下取得的，今后也必须如此。长三角、珠三角还有很多有潜力成为独角兽的企业，很多人没有资源，但是有技术，需要来自国家的资源。所以，科技要取得长足进步，金融改革也要跟上。我们不要虚拟金融、泡沫金融，要遏制投机性的，但对新技术的投资，对真正创新的风投，我们一定要做好。在吴恩达看来，本周围绕 DeepSeek 的热议，让许多人清晰地看到了几个一直存在的重要趋势：美国在 GenAI 领域的领先地位正在被中国迎头赶上，AI 供应链格局将被重塑；开放权重模型正在推动基础模型层商品化，为应用开发者带来新机遇；扩大规模并非通往 AI 进步的唯一途径。尽管算力备受追捧，但算法创新正在快速降低训练成本。成立至今，DeepSeek 并未开放过外部融资，因此也并未引起创投圈的过多关注。直至 2024 年 5 月，DeepSeek 发布 DeepSeek-V2 开源MoE 模型，因极度降低推理成本，意外掀起一场大模型“价格战”，开始出圈。隐秘低调，却聚集了一群 AI 天才。据悉，DeepSeek 包括创始人梁文锋在内，仅有 130 多名工程师和研究人员。不同于其他明星创业公司， DeepSeek 鲜有海归，团队成员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，不少还是在读博士。去年底，雷军开出千万年薪挖角 DeepSeek 研究员罗福莉。这一次，DeepSeek 正式浮出水面。上个月，梁文锋和团队开发的大模型 DeepSeek-V3 正式发布。起初在 AI 发烧友圈内流传，由于表现出色，一时轰动硅谷。2025 年 1 月 20日，DeepSeek 正式发布 DeepSeek R1，开始席卷全球。（二）全球情况到今年 1 月 27 日，其最新发布的 R1 模型就已登顶苹果美国地区应用商店免费 APP 下载排行榜，超越了美国同类产品ChatGPT。 DeepSeek 的成就至少让美国三种人感到尴尬。一是硅谷的技术精英们，他们耗费巨资拿出的产品，其性能和中国公司用“小米加步枪”的装备做出来的差不多，甚至创新性上还棋差一招。另一类人则是华尔街的金融大佬们，近些年他们通过炒作人工智能概念，把资产泡沫吹得五彩斑斓，但就在 DeepSeek 下载量超越ChatGPT 之时，美国科技股遭受重创，英伟达股价一度重挫 17%。当然，最“愤怒”的还是美国的政客们，他们搞技术围堵已经好几年了，但中国的高科技产品一项接一项推出。围堵不但没能压制中国智造，反而加速了中国科技的突破，这昭示所谓的围堵其实已经破产。当 DeepSeek 登顶下载排行榜第二天，就遭遇了来自美国 IP 地址的持续网络攻击，并且在随后几天，攻击量暴增百倍。而一些西方政客以各种理由将DeepSeek 列入“实体清单”，或要求封锁该软件。同时他们还利用舆论，声称 DeepSeek“蒸馏”了美国技术。 DeepSeek 以更低的算力要求和更低的成本，达到了与美国顶级 AI 大模型相当的效果，展现出了强大的技术竞争力。它的出现，不仅打破了原有的市场格局，更是被认为对美国在 AI 领域的领导地位构成了实实在在的威胁。 “DeepSeek 可能会开辟一个全新的由中国引领的技术生态系统，这会让全球的开发者因 DeepSeek 开发的低成本、更高效的人工智能产品而受益。”一位 TMT 领域投资人如是说，“这种竞争从某种程度来说也将打破美国科技巨头的市场主导地位。” 三、DeepSeek 大模型技术特点（一）技术创新大模型训练降低成本主要靠两招：压缩、并行和提升硬件使用效率。DeepSeek-V3 这次所用的方法基本上就是猛挥这三板斧。 1. 压缩：从结构到量化压缩很容易理解，就是把大的东西压缩成小的。对于模型训练来讲，压缩之后，运算单元（GPU 和 CPU）需要进行的运算数据量就会减少，运算速率必然会提升。另一个重要影响是，内存占用和缓存会减少，这样训练同样大小的模型所需要的硬件规模也可以大幅减少。而在训练模型的过程中，内存占比最高的就是向量数据。DeepSeek-V3 这次一次用了两种方法去压缩向量数据，一是 MLA 多层注意力架构，另一个就是FP8 混合精度训练。（1）多层注意力 MLA 多层注意力（Multi-Layer Attention, MLA）架构设计的核心在于在 Transformer 架构中引入动态层聚合机制。传统 Transformer 中每一层都需要完整的计算和存储，其中的 Key和 Value 矩阵往往占用大量内存空间。而 MLA 通过动态合并相邻层的特征来减少计算量。 MLA 通过压缩和复用前序层的 K、V 来减少内存占用和计算量。具体来说，将连续几层的 K、V 进行合并压缩成一组共享表示。打个比方，如果把注意力机制比作图书检索系统，传统方法相当于为每本书都建立完整的索引卡片（Key）和内容摘要（Value），而 DeepSeek 的方法则像是建立了一个智能的分类系统，不记具体信息，而是记一个简单的"标签 "(压缩的 Key/Value)，需要时再从标签还原出详细信息。就像把"计算机技术，三楼右侧第二排"简化成"C2-3"这样的编码。在这个过程中，DeepSeek 使用了低秩压缩技术（可以理解为将高维矩阵压缩为若干个低维矩阵的乘积），将 KV 压缩到 512 维度，远小于原始维度。通过 Key/Value 的低秩压缩使得的训练内存占用减少了 20-30%。在 Query 端的优化对训练效率也非常有意义。Query 可以理解为用户的检索请求，传统方法会为每个请求都分配大量计算资源。DeepSeek 通过对 Query 的低秩压缩，减少了计算过程中的激活内存占用。虽然这种优化对推理阶段的影响相对较小，但在训练过程中发挥了重要作用，显著提升了训练效率。这就像是优化了图书检索系统的查询处理机制，使得系统能够更快速地处理大量并发的检索请求。而 DeepSeek-V3 巧妙的找到了一些平衡，让这些压缩技术几乎没有影响模型的性能。（2） FP8 混合精度训练框架 MLA 方法是从 DeepSeekV2 开始就采用的方法，本次只是进行了优化调整。而在 DeepSeek-V3 里引入了一种 FP8 混合精度训练框架，并首次在超大规模模型上验证了其有效性。 FP8 就是用 8 个二进制位来表示数字的格式，相比传统的 32 位（FP32）和 16 位（FP16）格式，精度低了很多，但是占用空间小，计算快。就像用"约 350 人"代替"准确的 358 人"，牺牲一些精度来换取效率。虽然不够精确，但在很多场景下已经够用了，而且能大大提升运算速度和节省内存。 DeepSeek 在采用 FP8 格式时，采用了"混合精度"的方案。在训练时，它的大部分核心计算内核均采用 FP8 精度实现。包括前向传播、激活反向传播和权重反向传播都用了 FP8 作为输入，并输出 BF16 或FP32 格式的结果。这一设计理论上使计算速度相较于原始的 BF16 方法提升了一倍。此外， DeepSeek 中的向量激活值以 FP8 格式存储，供反向传播使用，从而显著降低了内存消耗。针对某些对低精度计算敏感算子和一些低成本算子，比如嵌入模块、输出头、MoE 门控模块、归一化算子以及注意力算子保留了 FP16 乃至FP32 的精度。这样能保证数据的精确性。同时为了保证数值稳定性，DeepSeek 还将主权重、权重梯度和优化器状态以更高精度存储。就像一个精打细算的主厨：日常备菜用普通的厨具就够了，但到了关键的烹饪步骤，就会换上最好的刀具。在模型训练中，大部分的前向运算都使用 FP8 来处理，这样可以大大节省显存和计算资源，让整个训练过程跑得更快。但他们也很清楚哪些地方不能省：比如最后的调味、摆盘（对应嵌入模块、输出头等），就一定要用精密的工具（FP16或FP32 精度）。过去使用 FP8 模式的时候，最大的困难出现误差累计。就像普通计算器（Tensor Cores 的 FP8）只能显示到小数点后两位，而科学计算器（CUDA 核心的 FP32）能显示到小数点后六位。当你需要加很多个小数时，用普通计算器会逐渐累积误差，最后结果可能差异很大。 DeepSeek 发现了一个巧妙的解决方案：不等到最后再算总和，而是每加 128 个数就把当前结果转移到科学计算器上继续计算。为了让这个过程不影响速度，他们利用了 H800GPU 的特点：就像有两个收银员，当一个在结算购物篮的时候，另一个可以继续扫描新商品。这样在提高精度的同时，基本不影响处理速度。这一策略使得模型训练速度大幅提升，毕竟核心计算能提升 100%的速度，而显存使用减少也非常明显。并且模型最终的效果精度损失能做到小于 0.25%，几乎无损。 2. 并行：对硬件的极限使用要实现更快的训练速度，最有效的方法就是增加并行计算的规模，让更多的计算单元同时处理不同的数据或任务。而在并行中，需要解决的问题就是尽可能的有效利用计算资源，让它们都高负载的工作。在系统架构层面，DeepSeek 就使用了专家并行训练技术，通过将不同的专家模块分配到不同的计算设备上同时进行训练，提升了训练过程中的计算效率。但这种简单的并行还远不够。DeepSeek 这次对算力做的是极限压榨：如果把训练过程当成一个工厂的话，他们主要做的就是不让流水线上没有闲人，再加上尽可能优化工序，让工件（数据）进入流水线时直接就可以被操作（计算）。（1） DualPipe 跨节点通信优化流水线流程的主要模式是 DeepSeek 创新的 DualPipe 方法。在计算和通信重叠方面，DualPipe 采用了类似于"多任务并行处理"的思路。就像现代计算机能够在下载文件的同时处理文档一样， DualPipe 让模型在进行计算的同时，后台已经开始准备下一步需要的数据传输。这种设计确保了通信开销被很大程度地隐藏在计算过程中，极大提升了整体效率。传统的训练信息流水线并行就像一条产品装配线，每个工位按顺序处理任务。当数据包从一个阶段传递到下一个阶段时，往往会产生等待时间，这就是所谓的"流水线气泡"。这些气泡会导致计算资源的浪费，就像流水线上的工人不得不等待上游工序完成才能开始工作。此外，不同节点之间的数据传输时间也会成为性能瓶颈，就像工位之间传递零件的时间过长会影响整体生产效率。而DualPipe 引入了双重流水线的概念，就像在同一条生产线上同时处理两批产品。当一个计算阶段在等待数据传输时，可以立即切换到处理另一批数据，这样就能充分利用原本的空闲时间。这是让流水线上没有“闲人”。除此之外，还要尽量压缩取件到操作的过程。因为 DeepSeek 对流水线的特殊设计，使得通信和计算的过程可以重叠。当一个节点在进行当前批次数据的计算时，系统已经开始准备下一批次需要的专家参数传输。当前向计算完成时，下一步需要的数据已经就位，几乎不会产生等待时间。大部分数据传输时间被"隐藏"在了计算过程中，就像在无缝衔接的装配线上，零件的运送时间对整体生产效率几乎没有影响。 DualPipe 正是通过精确控制这种重叠过程，实现了在大规模分布式训练中接近零通信开销的理想状态。根据 DeepSeek 的技术报告，DualPipe 算法减少了 50%的计算气泡，有效隐藏了通信开销。跨节点通信优化则提升了带宽利用率，减少了 20%的通信开销。这就基本相对传统方式提高了一倍的算力使用效能。（2）无辅助损失的负载均衡策略无辅助损失的负载均衡策略是 DeepSeek—V3 一个让训练过程中工人各展所能的调整。负载均衡策略在 V2 时代已经被引入，但在这一代更进一步。在专家混合系统(MoE)中，负载均衡一直是个关键挑战。因为 MoE 有很多专家模型，怎么能让该上的专家不闲着，没人无事可做对训练和模型效率都很关键。传统方法通常需要引入额外的辅助损失项来平衡专家的使用，就像在工厂中人为设置配额来确保各条生产线的负载均衡。这种方法不仅增加了训练的复杂性，还可能影响模型的本地优化目标。 DeepSeek 的创新在于实现了无辅助损失的自然均衡。系统会根据专家的历史利用率动态调整其"接收容量"。当某个专家持续过载时，系统会自动降低其接收新任务的概率；反之，对于利用率低的专家，系统会提高其接收任务的机会。既考虑专业匹配度，也考虑当前的工作负荷。这种自适应机制确保了长期来看的负载平衡。这更像是市场经济，而非计划经济。这个改进让训练过程更稳定，大家都有机会训练，也提高了训练效率。（3）底层通信优化对于模型训练来讲，底层通讯也是个大问题，很多时候硬件间通讯不畅就会使得训练产线出现局部停工，无活儿可干的事儿。 DeepSeek 在这方面也做了相当的优化，专门开发了高效的跨节点全对全通信内核。这就像是在高速公路系统中建立了更智能的红绿灯调度系统，能够充分利用 InfiniBand 和 NVLink 这些高速通道的带宽。这些优化确保了数据在不同计算节点之间的传输始终保持在最高效率。 3. 总结以上这些还不是 DeepSeek 在训练上采用的所有提效手段，只是相对大胆创新的部分。目前其他训练在架构中常用的移除 LayerNorm 中的 bias 项、在 FFN 后引入 scale 因子、采用 RoPE 相对位置编码等方式，DeepSeek-V3 也都有所采用。而在训练策略上，DeepSeek 还采用了ALiBi 位置编码预训练、Flash Attention 2 实现、序列长度动态扩展等已有先进技术。 DeepSeek-V3 这回真的可以说是在训练工程上无所不用其极。总结下来，最重要的包括以下这么几个方面。不管是 MLA、FP8 和Daulpipe 算法，都是非常大胆的使用当下降低训练成本的前沿技术。这些基础技术方向都已经是主流认知的可能性，但 DeepSeek 做到了经过精心调教优化设计，使其可用，且发挥最大的能力。既然 GPU 少，那就卷工程，DeepSeek 这回确实是用东亚魔法打破西方垄断。（二）训练成本 DeepSeek-V3 的横空出世，用一组的数据完美诠释了没有 GPU Poor，只有卷得不够多。当 o1、Claude、Gemini 和 Llama 3 等模型还在为数亿美元的训练成本苦恼时， DeepSeek-V3 用 557.6 万美元的预算，在 2048 个H800 GPU 集群上仅花费 3.7 天/万亿tokens 的训练时间，就达到了足以与它们比肩的性能。这意味着每万亿 tokens 仅需 180K 个 H800 GPU 小时，总计 278 万 GPU 小时的训练成本。而 Llama 3.1 的训练使用了 16,384 块Nvidia H100 GPU，总计 2100 多万 GPU 小时，翻了十倍。通过 671B 的总参数量，在每个 token 激活 37B 参数的精准控制下，DeepSeek-V3 用 14.8 万亿高质量多样化 token，构建出了一个能够超越所有开源模型，直逼 GPT-4 和Claude-3.5 的 AI 巨人。四、DeepSeek 大模型产业生态（一）企业 1. DeepSeek 系列新模型正式上线昇腾社区，华为小艺已接入 DeepSeek 2025 年 2 月 4 日，DeepSeek-R1、DeepSeek-V3、DeepSeek- V2、Janus-Pro 正式上线昇腾社区，支持一键获取 DeepSeek 系列模型，支持昇腾硬件平台上开箱即用，推理快速部署，带来更快、更高效、更便捷的 AI 开发和应用体验，欢迎广大开发者体验使用。华为小艺已接入 DeepSeek。2 月 5 日，华为宣布，基于原生鸿蒙操作系统的小艺助手 App 已经接入 DeepSeek。目前，纯血鸿蒙小艺智能体已经支持 DeepSeek-R1，已升级至原生鸿蒙的华为用户可以通过“小艺助手 App-发现－智能体广场”与DeepSeek 进行对话，实现更加无缝的 AI 体验。为了体验这一全新功能，用户需要将小艺助手升级到 11.2.10.310 版本及以上。升级完成后，用户只需在底部导航栏中点击“发现”选项，即可轻松进入智能体广场，探索 DeepSeek-R1 Beta 版带来的丰富功能与全新体验。 2. 三大运营商全面接入 DeepSeek 2 月 8 日，工业和信息化部运行监测协调局发布 2025 年春节通信业务相关情况。2025 年春节期间，基础电信企业积极利用 AI 开展创新服务。其中，中国移动、中国电信、中国联通三家基础电信企业均全面接入 DeepSeek 开源大模型，实现在多场景、多产品中应用，针对热门的 DeepSeek-R1 模型提供专属算力方案和配套环境，助力国产大模型性能释放。 3. 多家公司宣布接入 DeepSeek 随着DeepSeek 热度飙升，其“朋友圈”也在快速扩容。 2 月 5

展开阅读全文