1、 人工智能开源生态研究报告 (2025 年) 云计算开源产业联盟 开源创新发展推进中心 2025年12月 编制说明 本报告由云计算开源产业联盟开源创新发展推进中心撰写,限于撰 写组时间、知识局限以及技术、社会发展迭代等因素, 内容恐有疏漏,烦 请各位读者不吝指正。 在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通 信研究院、中国平安人寿保险股份有限公司、东亚银行(中国)有限公司、 中
2、国电信股份有限公司研究院、麒麟软件有限公司、鼎道智联(北京)科 技有限公司等。感谢各位秉承开源精神, 协同共创,从多个视角提出了对 于人工智能开源的理解,最终完成本报告的撰写工作。 报告撰稿人:俊哲、郭雪、李万宁、张子钰、宋罗娜、贾金鹏、王锴、 周飞、陈亚阁、王悦、张方昌、周巍、任晓东、黄丽、陈慧、龙显军、江 洪、黄琴、陈泳、刘敏、康艳红、张天雄、柴丹、李晓丽。 前 言 当前,人工智能技术与开源模式的深度耦合,正引发全球科技创新范 式与产业价值链的系统性重构。开源已超越单纯的代码共享范畴,演变为 配置全球算力、数据与智力资源的核心机制。在算法框架、基座模型、工
3、具链及数据要素等关键环节,开源生态的规模化渗透不仅大幅压缩了技 术从实验室到产业界的转化周期,更有效消融了闭源技术垄断的壁垒。作 为驱动数字经济高质量发展与培育新质生产力的核心引擎,开源人工智 能为个人赋能、企业创新及国家技术自主体系的构建提供了不可或缺的 路径支撑。 与此同时,开源人工智能的商业逻辑正经历深刻演变。以核心技术开 放、生态资源共建与产业价值共创为特征的新型商业范式已趋于成熟,为 产业的可持续发展奠定了结构性基础。然而,随着应用场景向深水区拓展, 开源生态的系统复杂性与安全风险亦同步攀升。面对挑战,全球范围内的 政府、科研机构与产业界正加速构建协同治理体系, 推动开源发展
4、从“自 发式增长”向“制度化、体系化演进”转型,以确保技术红利的安全释放。 本报告基于开源创新发展推进中心的研究成果,立足 2025 年产业新 局,全景式解析人工智能开源生态的演进态势。报告紧扣五大核心环节与 三大驱动引擎,深入剖析技术、商业与治理的互动逻辑, 旨在为我国人工 智能开源生态建设、产业布局优化及政策制定提供科学化、前瞻性的决策 依据。 目录 一、人工智能驱动开源向多元化范式演进 1 (一)从软件到模型:开源范式的延续与创新性演进 1 (二)从垄断到开放:开源重塑人工智能产业生态 4 (三)从个人到国家:开源释放人工智能效能 7 二
5、五大环节构筑开源人工智能生态根基 8 (一)开源项目体系化发展,中国模型优势凸显 9 (二)开源社区分化鲜明,结构多元化演进 14 (三)开源协议范式转变,从自由开放到责任治理 17 (四)开源贡献规模持续扩大,模型衍生创新呈现集聚态势 21 (五)全球开源 AI 应用需求持续扩张,规模化落地进程加速 24 三、政策引擎:开源产业布局与生态治理协同推进 27 (一)美国:制度性扶持与安全治理双轨并行 27 (二)欧洲:监管先行与合规导向的发展路径 28 (三)中国:体系化部署与区域协同发展 30 四、商业引擎驱动:开源生态活力加速释放 33
6、一)开源人工智能主流商业模式趋于成熟 34 (二)商业资本向头部聚集,应用层成为投资热点 36 五、治理引擎驱动:各方协同联动构建生态锚点 39 (一)人工智能开源衍生多维度新型风险 39 (二)企业级开源治理体系与全生命周期管理 41 六、我国开源人工智能生态完善建议 45 图 目 录 图 1 人工智能开源形式 2 图 2 人工智能模型的开放访问等级 4 图 3 人工智能开源生态架构图 9 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 10 图 5 2023-2025 年 Hugging
7、Face 平台托管模型数量与增长率 11 图 6 2023-2025 年魔搭平台托管模型数量与增长率 11 图 7 中美欧开源模型应用采用率 12 图 8 主流人工智能开源数据集规模对比 13 图 9 开放人工智能透明度等级划分 17 图 10 Hugging Face 平台主要许可协议使用分布 18 图 11 全球开源贡献者分布与开发者数量变化趋势 22 图 12 2025 年第三季度典型开源大模型 Tokens 调用量对比 25 图 13 企业使用开源模型主要情况占比 25 图 14 人工智能开源应用的主要行业分布 26 图 15
8、 各地区包含开源内容的政策分布 32 图 16 人工智能开源商业模式结构示意图 34 图 17 开源人工智能的典型商业模式分类 34 图 18 全球商业开源软件企业融资领域 37 图 19 全生命周期分阶段防控策略 43 表 目 录 表 1 主流开源模型系列 15 表 2 国内外典型大模型许可协议类型表 19 表 3 企业入选“重要模型”数量 23 表 4 部分地区人工智能开源支持政策汇总表 32 表 5 2022-2024 年国内商业开源企业部分融资情况 38 表 6 典型模型主要风险类型及占比表 40
9、表 7 企业治理体系中角色与职责分工表 42 表 8 人工智能开源数据合规管理策略 43 表 9 人工智能开源项目物料清单 45 一、人工智能驱动开源向多元化范式演进 开源作为一种开放协作的范式,其应用边界已从传统软件领域系 统性拓展至开源硬件、开放数据及开源大模型等多元形态。这一演进 的本质在于突破技术壁垒,构建资源共享与协同创新的机制。相较于 闭源模式,开源不仅重构了人工智能的产业生态链,更在个人、企业 及国家层面拓展了技术自主与应用创新的纵深空间。 (一) 从软件到模型:开源范式的延续与创新性演进 开源思想兴起于软件开发领域,软件开源核心在
10、于源代码开放。 “开源”(Open Source)概念根植于上世纪五十年代以来自由开放的 计算机文化,并随着开源软件促进会( Open Source Initiative Association,OSI)经典开源定义的确立,逐渐形成共识。在传统软件 行业,源代码凝结了创作者的设计思想、实现方法和具体表达, 因此 软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发 展,开源已成为现代软件产业的主流开发模式。目前, 全球 96%的商 业代码库中包含开源软件,并且商业代码库中 77%的代码直接源自开 源软件1。 开源模式应用场景不断拓展,人工智能开源实现了技术资产维度 的突破性扩展
11、随着数字时代的到来和全球互联的加深,开源模式在 不同场景的应用过程中逐渐衍生出开放数据、开放模型等多种概念形 1 新思科技:《2024 年开源安全和风险分析报告》,网络地址: integrity/resources/analyst-reports/open-source-security-risk-analysis.html,最后访问日期:2025 年 10 月 11 日。 1 态,成为人工智能技术创新、开放共享、可持续发展的源头活水。传 统软件开源核心围绕代码仓库、开发工具等软件生命周期资源展开协 作;而人工智能开源不仅包含软件代码,更延伸至模型(如大
12、语言模 型、多模态模型等)、语料数据(行业数据、科学数据等)等多元技术 资产,形成“数据—模型—软件”的全链路开放生态,重塑了技术创 新的组织方式与资源流通机制(见图 1)。 图 1 人工智能开源形式 开源人工智能的定义正日趋明确,其核心始终围绕开放性与可复 现性两项基本原则。为促进开源思想在人工智能技术领域的贯彻和落 实,OSI 组织凝聚各方共识,探索开源 AI 定义,为用户和开发者提 供判定 AI模型是否开源的概念框架。根据当前定义2,开源人工智能 系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无 需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是
13、 2 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 2 允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出 于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定 义的基本原则一致,该定义延续了开源软件的基本精神,明确要求开 源模型在权重、代码及训练数据等关键组成部分具备开放性与可复现 性,从而为模型的持续迭代与社区协作奠定基础。 开放性构成了开源
14、人工智能吸纳广泛社区贡献的基本前提。具体 而言,开放性体现为将模型的开发方法、训练过程及关键成果向社会 全面公开,不设访问、复制与审查的限制3。典型可开放内容包括模型 结构、参数权重、源代码以及用于训练的数据集, 不同模型在实际开 放范围上存在差异。依据 OSI 组织的相关定义4,开源模型须在许可 协议或条款下向公众公开“适合修改的形式”,包括模型权重和参数, 训练和运行 AI 系统的全部源代码,以及有关训练数据的详细信息, 而不强制要求开源模型公开全部的原始训练数据。实践中, 不同模型 的开放程度存在较大差异,基于斯坦福大学基础模型研究中心发布的 AI 系统访问等级,完全封闭到完全开放之间
15、存在多个渐进的开放层 级(见图 2)。 3 M. A. Peters and P. Roberts, Virtues of openness: Education, science, and scholarship in the digital age. Routledge, 2015. 4 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 3
16、 4 开放 程度 例子 完全 封闭 托管 访问 开放模型 API 开放微调 API 开放权重 有使用限制的开放 权重、数据和代码 无使用限制的 开放权重、数 据和代码 Famingo Pi GPT-4 GPT-3.5 Lama 2 BLOOM 2 GPT-Neox (Googe) (Infection) (OpenAI) (OpenAI) (Meta) (Bigscience) (EeutherAI) 开放基础模型 来源:斯坦福大学,中国信息通信研究院 图 2 人
17、工智能模型的开放访问等级5 可复现性是支撑开源人工智能研究可信性与应用可靠性的关键 基石。可复现性确保使用者能够在相同或异构环境中独立运行模型, 重现其所报告的技术性能,为模型的科学验证、性能评估与二次创新 提供基础。在模型技术体系中, 实现可复现性要求开发者尽可能提供 完整的数据集、训练代码、超参数配置以及模型结构说明, 使社区能 够验证其性能指标、复现关键实验结果, 并进一步从数据、算法与架 构等维度对模型实施优化与创新。这一过程不仅增强了模型研究的透 明度和可信度,也构成了人工智能技术持续演进与跨代发展的重要机 制。 (二) 从垄断到开放:开源重塑人工智能产业生态 开源已成为打
18、破人工智能技术垄断格局的关键力量。在传统商业 模式下,企业通常依赖技术封闭构建竞争壁垒,以维持长期市场优势。 开源模式通过开放模型架构与核心技术,有效破解了由闭源体系所带 来的技术依赖问题,显著激发了市场创新活力。用户获取开源模型后, 可依据特定场景与个性化需求进行自适应优化,大幅降低对高成本商 5 Rishi Bommasani et al., “Considerations for Governing Open Foundation Models”, 网络地址: https://www.science.org/doi/10.1126/science.adp1848
19、 业方案或单一供应商的依附。典型例证是,Meta 公司推出的Llama 系 列开源大模型,成功打破了由 OpenAI 等少数厂商主导的大模型市场 格局。同时, 开源模型鼓励广泛的社区参与和协作共创,极大提升了 技术迭代效率,促进市场良性竞争与生态多元化发展。 开源是推动人工智能技术普及与产业应用的重要推动力。开源开 放显著降低了人工智能模型的部署与应用门槛,使人工智能技术得以 广泛应用于金融、医疗、教育、能源、法律等领域。基于开源模型的 行业应用生态正加速成熟。以DeepSeek 系列模型为例,其开源的V3 、 R1 及 V3.1 等版本,凭借在复杂推理、代码生成与工具调用等方
20、面的 先进能力,已被广泛集成于各类行业解决方案之中。此外, 大模型开 源也有助于促进人工智能技术在资源受限地区的普及,提升欠发达区 域与群体的数字化发展机会。例如, 基于 Qwen 训练开发的开源语言 模型 Sailor,专注于东南亚多语种环境,推动了 AI 技术在小语种地区 的本土化应用。 开源模式是人工智能科技创新的重要催化剂。围绕成熟的开源模 型项目,往往会形成活跃的开源社区,社区成员可以通过民主、开放 的形式共同进行项目的开发和维护工作,从而形成一个强大的知识网 络以优化大模型的产品体验6。开源社区不仅加速了技术经验的积累 与模型迭代进程,更为模型技术的发展提供了多元化技术路线,避免
21、 陷入“局部最优”的技术陷阱。当前,尽管 Transformer 架构在自然 6 参见陈光沛,魏江,李拓宇:《开源社区:研究脉络、知识框架和研究展望》,载《外国经济与管理》 2021 年第 2 期,第 84-102 页。 5 语言处理领域占据主导地位,但众多开源项目仍在持续探索替代架构 的优化路径,寻求新的技术突破,体现了开源生态对技术创新的持续 推动作用。 开源正在成为人工智能商业模式的重要孵化器。开源模式开放与 灵活的特性助力企业快速构建技术生态,推动人工智能从实验研究走 向规模化商业落地。目前,领先的 AI 企业普遍采用开源与闭源并行 的混合策略
22、其中, Meta、阿里巴巴等企业倾向于通过开源社区带动 衍生生态建设;而具备先发优势的厂商如 OpenAI,在推进核心闭源 产品的同时,也积极参与开源生态,陆续发布 GPT-oss-120b 等开源模 型。随着用户定制化需求日益增强, 开源模型企业正逐步从产品输出 转向服务赋能,协助用户构建领域专用模型并提供持续优化支持。通 过开源策略,企业能够吸引第三方开发者围绕其技术栈构建应用生态, 强化品牌影响力与行业话语权,并拓展硬件销售、计算服务、培训咨 询等多元化营收渠道。 开源在人工智能风险治理中发挥探照灯作用。闭源模型因缺乏透 明度,屡次引发安全与合规事件。相较之下,开源模型的
23、框架、参数、 算法与数据公开可查,便于研究人员与开发者审查代码、识别漏洞与 纠正偏差。在合规层面, 训练数据的公开性使第三方能够核查数据来 源与使用方式,促使开发者更好地遵守数据法规,保障数据主体权益。 在伦理层面,模型内部机制的可审查性增强了其可解释性,有助于识 别潜在的偏见与歧视问题。值得注意的是, 开源社区成员具有多元文 化背景,有助于确保模型在设计阶段充分考虑不同群体需求,增强技 6 术的包容性与公平性。 (三) 从个人到国家:开源释放人工智能效能 开源推动用户角色由技术“消费者”向“创造者”转变,为个体 提供了高度灵活的定制化路径。随着人工智能技术的
24、颠覆性演进,模 型不再仅是通用生产工具,更成为用户构建专属应用的关键平台。在 闭源模式下,终端用户与模型提供方构成典型的“消费—供给”关系, 用户难以洞察模型生成内容的内在逻辑与实现机制,仅能单向接收 “算法黑箱”的输出结果,难以获取贴合特定业务场景或个性化表达 需求的响应。而开源模型则赋予用户基于自有数据进行定向微调的能 力,例如个人可借助知识库,构建专属内容生成工具,实现真正意义 上的场景适配与功能自主。 开源显著降低人工智能技术的研发与应用门槛,为企业提供了低 成本、高效率的实践路径。 模型的技术效果高度依赖于海量数据与强 大算力支持,对中小企业而言,从零开展模型架构设计、数据采集
25、清 洗与基础模型预训练等工作面临巨大挑战。开源模型通过释放经过预 训练的基础模型,使应用企业能够深入理解其工作机制,并基于此开 展面向特定场景的深度优化与数据再训练。此外, 开源模式促进了跨 行业技术的交叉融合,各领域企业可对模型进行灵活修改与功能扩展, 催生更具创新性的应用形态与产品体系。 开源整合全球人工智能知识与资源,为国家层面推动前沿科技与 智能产业发展提供核心驱动力。作为一种新型协作机制,开源有效促 进了人才、技术、算力与产业链资源在全球范围内的优化配置。模型 7 开源社区构建了覆盖基础设施、软件环境、算法框架与预训练模型的 全栈技术体系,并依托强
26、大的算力支持与学习资源,为开发者和研究 者提供平等参与机会,持续激发创新活力。同时, 跨学科、跨领域的 知识融合为人工智能关键科学问题的突破提供了新思路与新方法,推 动技术实现持续迭代与系统创新。企业的深度参与进一步为开源模型 的研发与社区共创注入资金与技术动力,依托开源生态所形成的成熟 商业模式也反哺技术体系的纵深发展,促进创新链与产业链深度融合, 实现技术供给与市场需求的动态适配,全面增强国家在前沿科技与智 能产业领域的综合竞争力。 二、五大环节构筑开源人工智能生态根基 随着开源理念在人工智能领域的深度渗透,数据、模型与软件的 开放协作持续深化,人工智能开源生态逐步由技术探
27、索阶段迈向系统 化构建的新时期,已成为驱动全球智能技术创新与产业协同的关键力 量。当前, 该生态体系围绕五大核心环节稳步演进:开源项目构成系 统核心,开源社区提供组织保障,开源协议确立行为准则,开源贡献 者注入创新动力,开源使用者形成应用支撑。五大环节相互依存、协 同演进,共同构筑起全球人工智能开源生态的坚实基础(见图 3)。 8 来源:中国信息通信研究院 图 3 人工智能开源生态架构图 (一) 开源项目体系化发展,中国模型优势凸显 人工智能开源项目正步入体系化与规模化并重的发展阶段,呈现 出由分散式创新向系统性集群演进的重要趋势。开源模型逐步由单一 任务型
28、模型发展为系列化家族结构与多尺寸版本并行的完整体系,形 成覆盖多领域、全场景的技术栈。以 Qwen 与 DeepSeek 为代表的开 源模型体系持续迭代,已构建从轻量级推理到企业级应用的多层次产 品矩阵。 中国开源力量在全球人工智能格局中快速崛起,模型体系构建能 力显著增强。以通义千问(Qwen)为例,其于 2025 年发布的 Qwen3 系列涵盖 0.6B 至 32B 的稠密模型,以及 30B 、235B 的混合专家模 型,形成多层次、全场景的技术布局。同时,衍生的 Qwen3-VL 多模 态分支支持图文跨模态理解,Qwen-Image 模型专注于视觉生成与编 辑任务,实现从移动端轻量
29、化部署到企业级复杂语义分析的全场景覆 盖。截至 2025 年 10 月,Qwen 系列在开源托管平台的累计下载量突 9 破 6 亿次,展现出强大的生态吸引力与行业影响力。 全球人工智能开源项目增长率远超传统软件项目。传统软件创新 已进入成熟稳定期,2025 年 GitHub 平台仓库增长率仅为 22%(见图 4)。相比之下, 面向人工智能的开源平台保持爆发式增长态势。截至 2025 年 10 月,Hugging Face 平台托管模型数量已达 215 万个,同比 增长 115%,成为全球 AI 模型共享与分发的核心枢纽(见图 5)。 10 700 600
30、 500 400 300 200 100 0 23% 630.00 515.00 420.00 22% 2023年 2024年 2025年 仓库总数(百万) 增长率 22.65% 22.60% 22.55% 22.50% 22.45% 22.40% 22.35% 22.30% 22.25% 22.20% 22.15% 来源:GitHub,中国
31、信息通信研究院,2025 年 10 月 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 250.00 200.00 150.00 100.00 50.00 0.00 186% 215.00 115% 100.00 35.00 2023年10月 2024年10月 2025年10
32、月 模型数(万) 增长率 200.00% 180.00% 160.00% 140.00% 120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 中国开源模型正在成为全球开源生态中不可忽视的重要力量,在 部分指标上已具备显著竞争优势。在政策支持与产业需求的双重驱动 下,魔搭社区发展尤为突出。截至 2025 年,其托管模型数量突破
33、11 万个,同比增长 644%,成为全球增长最快的 AI 开源平台之一(见图 6)。平台汇聚开发者超过 1800 万,累计模型下载量超 1 亿次。与此 同时, 中国开源模型在全球应用中占据主导地位,《STATE OF AI REPORT》显示, 中国开源模型在全球采用率达 63%,显著高于美国 的 31%与欧盟的 6%(见图 7)。具体而言,截至 2025 年 9 月,Hugging Face 平台下载量前四的开源模型中,中国占据两席( Qwen 与 DeepSeek)。 11 14 12 10 8 6 4 2 0 644% 11.90
34、 596% 1.60 0.23 2023年10月 2024年10月 2025年10月 模型数(万) 增长率 650% 640% 630% 620% 610% 600% 590% 580% 570% 来源:魔搭社区,中国信息通信研究院,2025 年 10 月 图 6 2023-2025 年魔搭平台托管模型数量与增长率 12 70% 60% 50% 40% 30%
35、 20% 10% 0% 63% 31% 6% 中国 美国 欧盟 开源模型采用率 来源:STATE OF AI REPORT,中国信息通信研究院,2025 年 10 月 图 7 中美欧开源模型应用采用率 人工智能开源项目核心由模型、数据与工具链构成, 呈现多元化 发展路径与显著的飞轮效应。开源模型作为主要驱动力,在性能上持 续突破。斯坦
36、福大学《2025 年人工智能指数报告》指出, 开源与闭源 模型在语言、知识、推理等通用能力方面的平均得分差距已从 2024 年 的 8%缩小至 1.7%,表明开源模型正逼近甚至部分超越闭源水平。实 验研究进一步显示,开源模型在特定任务中展现出超越性表现。根据 Vercel 测试结果,中国开源模型 Kimi K2 在智能体应用场景中的准确 率显著优于 GPT-5 、Claude Sonnet4.5 等前沿闭源模型,超出幅度达 20%;上海 AI Lab 的 P1 模型在 2025 年国际物理奥赛中夺得金牌, 成为首个在此类顶级科学竞赛中超越闭源模型的开源模型。 开源数据集数量、规模与质量全面
37、提升,为模型能力的快速迭代 提供了坚实支撑。截至 2025 年 10 月,Hugging Face 平台托管数据集 超 53 万套,同比增长逾 80%;国内魔搭平台数据集数量突破 2 万套。 单个数据集规模亦显著扩大,标志着大规模多模态时代的到来。例如, 由华盛顿大学、Salesforce Research 与斯坦福大学等机构联合构建的 MINT-1T 数据集规模达万亿 token 级,为同类数据集的 10 倍(见图 8)。数据类型呈现多元化趋势,从早期文本与图像为主的单模态形态, 扩展至语音、视频及跨模态复合形态,视觉-语言、音频-文本等多模 态数据集快速增长。国内数
38、据集在中文语料覆盖度、标注质量与行业 知识密度方面具备突出优势,有力支撑长文本理解、跨模态推理与行 业知识问答等任务。 13 1200 1000 800 600 400 200 0 1000 400 400 210 130 40 MMC4 OBELICS CM3 MM1 Chameleon MINT-1
39、T 文本Token数量(10亿) 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 8 主流人工智能开源数据集规模对比 开源模型软件工具链逐步构建起涵盖训练、数据处理、推理部署、 评测监控的全流程技术体系。随着产业协同深化,跨机构共建格局加 速形成,开源工具链从分散探索迈向系统化发展阶段。截至 2024 年 底,数百家企业与科研机构深度参与开源人工智能工具研发,覆盖模 型训练、微调、部署与监测等关键环节。 在模型训练方面,DeepSeek 工具显著提升训练效率,其 DeepGEMM 计算库针对 NVIDIA GPU 深 度优化,性能较官方库提升
40、2.7 倍,使 MoE 模型训练周期缩短约58%。 在推理方面,vLLM 通过动态张量并行、高效内存管理和异步推理等 技术显著提升了推理速度与资源利用率。在通信协议方面,MCP 协 议实现了智能体与外部工具的统一接口标准,增强了模型生态的兼容 性与互操作性。多领域工具的开源共同完善了工具链技术布局, 在稳 定性、可扩展性与可信性方面持续提升, 为人工智能研发创新与产业 落地奠定坚实技术基础。 (二) 开源社区分化鲜明,结构多元化演进 作为人工智能开源生态的关键载体,开源社区已逐步形成平台型、 项目型与组织型三类主体并存的多元格局。各类社区在功能定位、发 展路径与协
41、作模式上呈现出显著差异,通过高效的资源整合与全球化 的协同创新,精准匹配开源生态的需求与供给,为技术持续演进与产 业落地注入核心动力。 平台型社区以集成模型、算力与工具链资源为核心特征,形成“一 超多强”的全球竞争格局,致力于构建以“模型即服务”为特色的产 业闭环。 国际层面,Hugging Face 作为核心枢纽,在模型汇聚、数据托管 与工具链建设方面处于领先地位。截至 2025 年 10 月,该平台已托管 开源模型超过 216 万个,累计获得近 4 亿美元融资,吸引包括 Meta 、 Google、微软、阿里巴巴在内的超 5000 家企业、科研机构及非营利 组织参与共建。其构建的训
42、练—评测—部署全流程工具链体系,已成 为全球开源人工智能研发的基础设施。 国内平台则以场景落地与产业融合为导向,形成差异化竞争优势。 14 以魔搭、魔乐、焕新等为代表的社区, 在中文语料支持、行业应用适 配与多模态能力建设方面取得显著进展。相比国际平台, 国内平台更 注重降低模型使用门槛,通过提供普惠算力与行业解决方案,推动开 源技术在金融、医疗、制造、政务等关键领域的规模化落地。例如, 魔搭社区已上 MCP 服务超 3000 项,并提供长期算力支持;由国务院 国资委统筹的焕新平台,联合 150 余家央企、民企及高校,构建起“算 力、模型、数据、国产化、场景、专区”六
43、位一体的服务体系。 项目型社区围绕具体开源模型、数据或工具链项目构建, 通过持 续迭代与生态衍生,形成开放、协同的技术创新体系。 模型类项目社区以 Qwen 、LIama 等为代表,强调全模态、多场 景的技术布局,推动基础模型、算法框架与应用生态的协同演进。截 至 2025 年 10 月,通义千问累计开源模型超 300 个,总下载量突破 6 亿次,展现出强大的技术辐射与生态扩展能力。 模型类别 语言模型 视觉模型 代码模型 数学模型 表 1 主流开源模型系列 Qwen 系列开源模型 Llama 系列开源模型 Qwen3 、Qwen2.5 等 Lla
44、ma4 、Llama3.1 等 Qwen3-VL 等 - Qwen2.5-Coder 等 CodeLlama 等 Qwen2.5-Math 等 - 15 图像生成模型 全模态模型 Qwen-Image - Qwen3-Omni - 来源:中国信息通信研究院,2025 年 10 月 工具类项目社区则致力于构建“算法—算力—数据”一体化的开 源工具链。Paddle 、FlagOpen 、TensorFlow 与 MindSpore 等平台,提 供从模型研发、训练到部署的全流程支持,在分布式训练、高
45、效推理、 参数复用与多模态适配等方面持续突破,显著降低开发门槛与研发成 本。 数据类项目社区通过众包与协作机制,推动高质量开放数据集的 共建共享。例如, Mozilla 发起的 Common Voice 项目已收录约 3 万小 时语音数据,覆盖 180 种语言;The Pile 项目整合 PubMed、ArXiv 等 多个高质量数据源,为 Bloom 、GPT-NeoX 等重要开源模型提供训练 基础。总体来看, 项目型社区通过聚焦核心模块,推动模型、工具与 数据的系统创新,构建了开放、多层的人工智能研发生态。 组织型社区主要承担标准制定与行业治理职能,在推动人工智能 开源生态健康与可持续发
46、展中发挥关键作用。 当前,人工智能模型在开放维度上存在显著差异,体现在权重公 开、训练数据可用性、推理过程透明度与优化能力开放程度等多个方 面,形成从“受限开放”到“全面开放”的开放层次。中国信息通信 研究院联合开源创新发展推进中心联合编写的《开放人工智能透明度 等级划分》将模型透明度划分为从 D 级至 A 级的四个等级,涵盖开 16 放部署、开放优化、开放理解与开放复现等维度(见图 9),为模型开 放实践提供了量化评估框架。 来源:中国信息通信研究院,2025 年 10 月 图 9 开放人工智能透明度等级划分 在国际层面,开源促进会发布的《开源 AI 定
47、义》明确提出“研 究自由、修改自由、分发自由”三项基本原则,为判定项目是否真正 开源提供核心依据。LFAI & Data 基金会提出的模型开放框架则重点 关注模型的透明度、可复现性与可用性, 推动开源模型在研发与应用 中的合规发展。在国际合作方面, 中国-金砖国家人工智能发展与合作 中心联合开放原子开源基金会等机构发布《国际人工智能开源合作倡 议》,提出“共商技术路线、共建开放社区、共促标准互认、共享发展 成果”四大方向,为全球开源生态治理提供了合作框架,推动人工智 能开源走向规范、协同与可持续发展。 (三) 开源协议范式转变,从自由开放到责任治理 人工智能模型的开放策略日趋多样化,许可体
48、系向责任化的方向 演进。随着开源理念在人工智能领域的深化,相关定义和标准不断完 善。2024 年,开放源代码促进会(OSI)正式发布《Open Source AI Definition(OSAID)1.0》,明确提出“研究自由、修改自由、分发自 由”等核心原则,为人工智能开源确立了基本框架。然而,伴随模型 17 能力提升与社会影响扩大,单纯的“完全开放”已难以平衡创新与风险 之间的关系。随着治理与合规要求不断提升,“负责任的 AI 许可证” (Responsible AI License, RAIL)体系迅速崛起,成为全球开源治理 的重要方向。截至 2025
49、年 10 月,OpenRAIL 系列许可证已成为 Hugging Face 平台第三大主流许可类别,覆盖项目数超过 3.7 万个, 仅次于 Apache-2.0 与 MIT(见图 10)。不同于传统宽松型许可, Open RAIL-M 在传统开源精神基础上引入行为约束,明确禁止模型被用于 违法行为、虚假信息传播、歧视性用途或监控场景, 标志着人工智能 开源从“自由使用”向“责任共享”的理念转变。 18 400000 350000 300000 250000 200000 150000 100000 50000 0 337332 123761 89025 37928 apache-2.0 mit other openrail 项目数量 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 10 Hugging Face 平台主要许可协






