资源描述
人工智能开源生态研究报告
(2025 年)
云计算开源产业联盟 开源创新发展推进中心
2025年12月
编制说明
本报告由云计算开源产业联盟开源创新发展推进中心撰写,限于撰 写组时间、知识局限以及技术、社会发展迭代等因素, 内容恐有疏漏,烦 请各位读者不吝指正。
在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通 信研究院、中国平安人寿保险股份有限公司、东亚银行(中国)有限公司、 中国电信股份有限公司研究院、麒麟软件有限公司、鼎道智联(北京)科 技有限公司等。感谢各位秉承开源精神, 协同共创,从多个视角提出了对 于人工智能开源的理解,最终完成本报告的撰写工作。
报告撰稿人:俊哲、郭雪、李万宁、张子钰、宋罗娜、贾金鹏、王锴、 周飞、陈亚阁、王悦、张方昌、周巍、任晓东、黄丽、陈慧、龙显军、江 洪、黄琴、陈泳、刘敏、康艳红、张天雄、柴丹、李晓丽。
前 言
当前,人工智能技术与开源模式的深度耦合,正引发全球科技创新范 式与产业价值链的系统性重构。开源已超越单纯的代码共享范畴,演变为 配置全球算力、数据与智力资源的核心机制。在算法框架、基座模型、工 具链及数据要素等关键环节,开源生态的规模化渗透不仅大幅压缩了技 术从实验室到产业界的转化周期,更有效消融了闭源技术垄断的壁垒。作 为驱动数字经济高质量发展与培育新质生产力的核心引擎,开源人工智 能为个人赋能、企业创新及国家技术自主体系的构建提供了不可或缺的 路径支撑。
与此同时,开源人工智能的商业逻辑正经历深刻演变。以核心技术开 放、生态资源共建与产业价值共创为特征的新型商业范式已趋于成熟,为 产业的可持续发展奠定了结构性基础。然而,随着应用场景向深水区拓展, 开源生态的系统复杂性与安全风险亦同步攀升。面对挑战,全球范围内的 政府、科研机构与产业界正加速构建协同治理体系, 推动开源发展从“自 发式增长”向“制度化、体系化演进”转型,以确保技术红利的安全释放。
本报告基于开源创新发展推进中心的研究成果,立足 2025 年产业新 局,全景式解析人工智能开源生态的演进态势。报告紧扣五大核心环节与 三大驱动引擎,深入剖析技术、商业与治理的互动逻辑, 旨在为我国人工 智能开源生态建设、产业布局优化及政策制定提供科学化、前瞻性的决策 依据。
目录
一、人工智能驱动开源向多元化范式演进 1
(一)从软件到模型:开源范式的延续与创新性演进 1
(二)从垄断到开放:开源重塑人工智能产业生态 4
(三)从个人到国家:开源释放人工智能效能 7
二、五大环节构筑开源人工智能生态根基 8
(一)开源项目体系化发展,中国模型优势凸显 9
(二)开源社区分化鲜明,结构多元化演进 14
(三)开源协议范式转变,从自由开放到责任治理 17
(四)开源贡献规模持续扩大,模型衍生创新呈现集聚态势 21
(五)全球开源 AI 应用需求持续扩张,规模化落地进程加速 24
三、政策引擎:开源产业布局与生态治理协同推进 27
(一)美国:制度性扶持与安全治理双轨并行 27
(二)欧洲:监管先行与合规导向的发展路径 28
(三)中国:体系化部署与区域协同发展 30
四、商业引擎驱动:开源生态活力加速释放 33
(一)开源人工智能主流商业模式趋于成熟 34
(二)商业资本向头部聚集,应用层成为投资热点 36
五、治理引擎驱动:各方协同联动构建生态锚点 39
(一)人工智能开源衍生多维度新型风险 39
(二)企业级开源治理体系与全生命周期管理 41
六、我国开源人工智能生态完善建议 45
图 目 录
图 1 人工智能开源形式 2
图 2 人工智能模型的开放访问等级 4
图 3 人工智能开源生态架构图 9
图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 10
图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 11
图 6 2023-2025 年魔搭平台托管模型数量与增长率 11
图 7 中美欧开源模型应用采用率 12
图 8 主流人工智能开源数据集规模对比 13
图 9 开放人工智能透明度等级划分 17
图 10 Hugging Face 平台主要许可协议使用分布 18
图 11 全球开源贡献者分布与开发者数量变化趋势 22
图 12 2025 年第三季度典型开源大模型 Tokens 调用量对比 25
图 13 企业使用开源模型主要情况占比 25
图 14 人工智能开源应用的主要行业分布 26
图 15 各地区包含开源内容的政策分布 32
图 16 人工智能开源商业模式结构示意图 34
图 17 开源人工智能的典型商业模式分类 34
图 18 全球商业开源软件企业融资领域 37
图 19 全生命周期分阶段防控策略 43
表 目 录
表 1 主流开源模型系列 15
表 2 国内外典型大模型许可协议类型表 19
表 3 企业入选“重要模型”数量 23
表 4 部分地区人工智能开源支持政策汇总表 32
表 5 2022-2024 年国内商业开源企业部分融资情况 38
表 6 典型模型主要风险类型及占比表 40
表 7 企业治理体系中角色与职责分工表 42
表 8 人工智能开源数据合规管理策略 43
表 9 人工智能开源项目物料清单 45
一、人工智能驱动开源向多元化范式演进
开源作为一种开放协作的范式,其应用边界已从传统软件领域系 统性拓展至开源硬件、开放数据及开源大模型等多元形态。这一演进 的本质在于突破技术壁垒,构建资源共享与协同创新的机制。相较于 闭源模式,开源不仅重构了人工智能的产业生态链,更在个人、企业 及国家层面拓展了技术自主与应用创新的纵深空间。
(一) 从软件到模型:开源范式的延续与创新性演进
开源思想兴起于软件开发领域,软件开源核心在于源代码开放。 “开源”(Open Source)概念根植于上世纪五十年代以来自由开放的 计算机文化,并随着开源软件促进会( Open Source Initiative Association,OSI)经典开源定义的确立,逐渐形成共识。在传统软件 行业,源代码凝结了创作者的设计思想、实现方法和具体表达, 因此 软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发 展,开源已成为现代软件产业的主流开发模式。目前, 全球 96%的商 业代码库中包含开源软件,并且商业代码库中 77%的代码直接源自开 源软件1。
开源模式应用场景不断拓展,人工智能开源实现了技术资产维度 的突破性扩展。随着数字时代的到来和全球互联的加深,开源模式在 不同场景的应用过程中逐渐衍生出开放数据、开放模型等多种概念形
1 新思科技:《2024 年开源安全和风险分析报告》,网络地址: integrity/resources/analyst-reports/open-source-security-risk-analysis.html,最后访问日期:2025 年 10 月 11 日。
1
态,成为人工智能技术创新、开放共享、可持续发展的源头活水。传 统软件开源核心围绕代码仓库、开发工具等软件生命周期资源展开协 作;而人工智能开源不仅包含软件代码,更延伸至模型(如大语言模 型、多模态模型等)、语料数据(行业数据、科学数据等)等多元技术 资产,形成“数据—模型—软件”的全链路开放生态,重塑了技术创 新的组织方式与资源流通机制(见图 1)。
图 1 人工智能开源形式
开源人工智能的定义正日趋明确,其核心始终围绕开放性与可复 现性两项基本原则。为促进开源思想在人工智能技术领域的贯彻和落 实,OSI 组织凝聚各方共识,探索开源 AI 定义,为用户和开发者提 供判定 AI模型是否开源的概念框架。根据当前定义2,开源人工智能 系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无 需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是
2 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。
2
允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出 于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定 义的基本原则一致,该定义延续了开源软件的基本精神,明确要求开 源模型在权重、代码及训练数据等关键组成部分具备开放性与可复现 性,从而为模型的持续迭代与社区协作奠定基础。
开放性构成了开源人工智能吸纳广泛社区贡献的基本前提。具体 而言,开放性体现为将模型的开发方法、训练过程及关键成果向社会 全面公开,不设访问、复制与审查的限制3。典型可开放内容包括模型 结构、参数权重、源代码以及用于训练的数据集, 不同模型在实际开 放范围上存在差异。依据 OSI 组织的相关定义4,开源模型须在许可 协议或条款下向公众公开“适合修改的形式”,包括模型权重和参数, 训练和运行 AI 系统的全部源代码,以及有关训练数据的详细信息, 而不强制要求开源模型公开全部的原始训练数据。实践中, 不同模型 的开放程度存在较大差异,基于斯坦福大学基础模型研究中心发布的 AI 系统访问等级,完全封闭到完全开放之间存在多个渐进的开放层 级(见图 2)。
3 M. A. Peters and P. Roberts, Virtues of openness: Education, science, and scholarship in the digital age. Routledge, 2015.
4 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。
3
4
开放
程度
例子
完全
封闭
托管
访问
开放模型 API
开放微调 API
开放权重
有使用限制的开放
权重、数据和代码
无使用限制的
开放权重、数 据和代码
Famingo
Pi
GPT-4
GPT-3.5
Lama 2
BLOOM 2
GPT-Neox
(Googe)
(Infection)
(OpenAI)
(OpenAI)
(Meta)
(Bigscience)
(EeutherAI)
开放基础模型
来源:斯坦福大学,中国信息通信研究院
图 2 人工智能模型的开放访问等级5
可复现性是支撑开源人工智能研究可信性与应用可靠性的关键 基石。可复现性确保使用者能够在相同或异构环境中独立运行模型, 重现其所报告的技术性能,为模型的科学验证、性能评估与二次创新 提供基础。在模型技术体系中, 实现可复现性要求开发者尽可能提供 完整的数据集、训练代码、超参数配置以及模型结构说明, 使社区能 够验证其性能指标、复现关键实验结果, 并进一步从数据、算法与架 构等维度对模型实施优化与创新。这一过程不仅增强了模型研究的透 明度和可信度,也构成了人工智能技术持续演进与跨代发展的重要机 制。
(二) 从垄断到开放:开源重塑人工智能产业生态
开源已成为打破人工智能技术垄断格局的关键力量。在传统商业 模式下,企业通常依赖技术封闭构建竞争壁垒,以维持长期市场优势。 开源模式通过开放模型架构与核心技术,有效破解了由闭源体系所带 来的技术依赖问题,显著激发了市场创新活力。用户获取开源模型后, 可依据特定场景与个性化需求进行自适应优化,大幅降低对高成本商
5 Rishi Bommasani et al., “Considerations for Governing Open Foundation Models”, 网络地址: https://www.science.org/doi/10.1126/science.adp1848
业方案或单一供应商的依附。典型例证是,Meta 公司推出的Llama 系 列开源大模型,成功打破了由 OpenAI 等少数厂商主导的大模型市场 格局。同时, 开源模型鼓励广泛的社区参与和协作共创,极大提升了 技术迭代效率,促进市场良性竞争与生态多元化发展。
开源是推动人工智能技术普及与产业应用的重要推动力。开源开 放显著降低了人工智能模型的部署与应用门槛,使人工智能技术得以 广泛应用于金融、医疗、教育、能源、法律等领域。基于开源模型的 行业应用生态正加速成熟。以DeepSeek 系列模型为例,其开源的V3 、 R1 及 V3.1 等版本,凭借在复杂推理、代码生成与工具调用等方面的 先进能力,已被广泛集成于各类行业解决方案之中。此外, 大模型开 源也有助于促进人工智能技术在资源受限地区的普及,提升欠发达区 域与群体的数字化发展机会。例如, 基于 Qwen 训练开发的开源语言 模型 Sailor,专注于东南亚多语种环境,推动了 AI 技术在小语种地区 的本土化应用。
开源模式是人工智能科技创新的重要催化剂。围绕成熟的开源模 型项目,往往会形成活跃的开源社区,社区成员可以通过民主、开放 的形式共同进行项目的开发和维护工作,从而形成一个强大的知识网 络以优化大模型的产品体验6。开源社区不仅加速了技术经验的积累 与模型迭代进程,更为模型技术的发展提供了多元化技术路线,避免 陷入“局部最优”的技术陷阱。当前,尽管 Transformer 架构在自然
6 参见陈光沛,魏江,李拓宇:《开源社区:研究脉络、知识框架和研究展望》,载《外国经济与管理》 2021 年第 2 期,第 84-102 页。
5
语言处理领域占据主导地位,但众多开源项目仍在持续探索替代架构 的优化路径,寻求新的技术突破,体现了开源生态对技术创新的持续 推动作用。
开源正在成为人工智能商业模式的重要孵化器。开源模式开放与 灵活的特性助力企业快速构建技术生态,推动人工智能从实验研究走 向规模化商业落地。目前,领先的 AI 企业普遍采用开源与闭源并行 的混合策略。其中, Meta、阿里巴巴等企业倾向于通过开源社区带动 衍生生态建设;而具备先发优势的厂商如 OpenAI,在推进核心闭源 产品的同时,也积极参与开源生态,陆续发布 GPT-oss-120b 等开源模 型。随着用户定制化需求日益增强, 开源模型企业正逐步从产品输出 转向服务赋能,协助用户构建领域专用模型并提供持续优化支持。通 过开源策略,企业能够吸引第三方开发者围绕其技术栈构建应用生态, 强化品牌影响力与行业话语权,并拓展硬件销售、计算服务、培训咨 询等多元化营收渠道。
开源在人工智能风险治理中发挥探照灯作用。闭源模型因缺乏透 明度,屡次引发安全与合规事件。相较之下,开源模型的框架、参数、 算法与数据公开可查,便于研究人员与开发者审查代码、识别漏洞与 纠正偏差。在合规层面, 训练数据的公开性使第三方能够核查数据来 源与使用方式,促使开发者更好地遵守数据法规,保障数据主体权益。 在伦理层面,模型内部机制的可审查性增强了其可解释性,有助于识 别潜在的偏见与歧视问题。值得注意的是, 开源社区成员具有多元文 化背景,有助于确保模型在设计阶段充分考虑不同群体需求,增强技
6
术的包容性与公平性。
(三) 从个人到国家:开源释放人工智能效能
开源推动用户角色由技术“消费者”向“创造者”转变,为个体 提供了高度灵活的定制化路径。随着人工智能技术的颠覆性演进,模 型不再仅是通用生产工具,更成为用户构建专属应用的关键平台。在 闭源模式下,终端用户与模型提供方构成典型的“消费—供给”关系, 用户难以洞察模型生成内容的内在逻辑与实现机制,仅能单向接收 “算法黑箱”的输出结果,难以获取贴合特定业务场景或个性化表达 需求的响应。而开源模型则赋予用户基于自有数据进行定向微调的能 力,例如个人可借助知识库,构建专属内容生成工具,实现真正意义 上的场景适配与功能自主。
开源显著降低人工智能技术的研发与应用门槛,为企业提供了低 成本、高效率的实践路径。 模型的技术效果高度依赖于海量数据与强 大算力支持,对中小企业而言,从零开展模型架构设计、数据采集清 洗与基础模型预训练等工作面临巨大挑战。开源模型通过释放经过预 训练的基础模型,使应用企业能够深入理解其工作机制,并基于此开 展面向特定场景的深度优化与数据再训练。此外, 开源模式促进了跨 行业技术的交叉融合,各领域企业可对模型进行灵活修改与功能扩展, 催生更具创新性的应用形态与产品体系。
开源整合全球人工智能知识与资源,为国家层面推动前沿科技与 智能产业发展提供核心驱动力。作为一种新型协作机制,开源有效促 进了人才、技术、算力与产业链资源在全球范围内的优化配置。模型
7
开源社区构建了覆盖基础设施、软件环境、算法框架与预训练模型的 全栈技术体系,并依托强大的算力支持与学习资源,为开发者和研究 者提供平等参与机会,持续激发创新活力。同时, 跨学科、跨领域的 知识融合为人工智能关键科学问题的突破提供了新思路与新方法,推 动技术实现持续迭代与系统创新。企业的深度参与进一步为开源模型 的研发与社区共创注入资金与技术动力,依托开源生态所形成的成熟 商业模式也反哺技术体系的纵深发展,促进创新链与产业链深度融合, 实现技术供给与市场需求的动态适配,全面增强国家在前沿科技与智 能产业领域的综合竞争力。
二、五大环节构筑开源人工智能生态根基
随着开源理念在人工智能领域的深度渗透,数据、模型与软件的 开放协作持续深化,人工智能开源生态逐步由技术探索阶段迈向系统 化构建的新时期,已成为驱动全球智能技术创新与产业协同的关键力 量。当前, 该生态体系围绕五大核心环节稳步演进:开源项目构成系 统核心,开源社区提供组织保障,开源协议确立行为准则,开源贡献 者注入创新动力,开源使用者形成应用支撑。五大环节相互依存、协 同演进,共同构筑起全球人工智能开源生态的坚实基础(见图 3)。
8
来源:中国信息通信研究院
图 3 人工智能开源生态架构图
(一) 开源项目体系化发展,中国模型优势凸显
人工智能开源项目正步入体系化与规模化并重的发展阶段,呈现 出由分散式创新向系统性集群演进的重要趋势。开源模型逐步由单一 任务型模型发展为系列化家族结构与多尺寸版本并行的完整体系,形 成覆盖多领域、全场景的技术栈。以 Qwen 与 DeepSeek 为代表的开 源模型体系持续迭代,已构建从轻量级推理到企业级应用的多层次产 品矩阵。
中国开源力量在全球人工智能格局中快速崛起,模型体系构建能 力显著增强。以通义千问(Qwen)为例,其于 2025 年发布的 Qwen3 系列涵盖 0.6B 至 32B 的稠密模型,以及 30B 、235B 的混合专家模 型,形成多层次、全场景的技术布局。同时,衍生的 Qwen3-VL 多模 态分支支持图文跨模态理解,Qwen-Image 模型专注于视觉生成与编 辑任务,实现从移动端轻量化部署到企业级复杂语义分析的全场景覆 盖。截至 2025 年 10 月,Qwen 系列在开源托管平台的累计下载量突
9
破 6 亿次,展现出强大的生态吸引力与行业影响力。
全球人工智能开源项目增长率远超传统软件项目。传统软件创新 已进入成熟稳定期,2025 年 GitHub 平台仓库增长率仅为 22%(见图 4)。相比之下, 面向人工智能的开源平台保持爆发式增长态势。截至 2025 年 10 月,Hugging Face 平台托管模型数量已达 215 万个,同比 增长 115%,成为全球 AI 模型共享与分发的核心枢纽(见图 5)。
10
700
600
500
400
300
200
100
0
23%
630.00
515.00
420.00
22%
2023年 2024年 2025年
仓库总数(百万) 增长率
22.65%
22.60%
22.55%
22.50%
22.45%
22.40%
22.35%
22.30%
22.25%
22.20%
22.15%
来源:GitHub,中国信息通信研究院,2025 年 10 月
图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率
250.00
200.00
150.00
100.00
50.00
0.00
186% 215.00
115%
100.00
35.00
2023年10月 2024年10月 2025年10月
模型数(万) 增长率
200.00%
180.00%
160.00%
140.00%
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
来源:Hugging Face,中国信息通信研究院,2025 年 10 月
图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率
中国开源模型正在成为全球开源生态中不可忽视的重要力量,在 部分指标上已具备显著竞争优势。在政策支持与产业需求的双重驱动 下,魔搭社区发展尤为突出。截至 2025 年,其托管模型数量突破 11 万个,同比增长 644%,成为全球增长最快的 AI 开源平台之一(见图 6)。平台汇聚开发者超过 1800 万,累计模型下载量超 1 亿次。与此 同时, 中国开源模型在全球应用中占据主导地位,《STATE OF AI REPORT》显示, 中国开源模型在全球采用率达 63%,显著高于美国 的 31%与欧盟的 6%(见图 7)。具体而言,截至 2025 年 9 月,Hugging Face 平台下载量前四的开源模型中,中国占据两席( Qwen 与 DeepSeek)。
11
14
12
10
8
6
4
2
0
644%
11.90
596%
1.60
0.23
2023年10月 2024年10月 2025年10月
模型数(万) 增长率
650%
640%
630%
620%
610%
600%
590%
580%
570%
来源:魔搭社区,中国信息通信研究院,2025 年 10 月
图 6 2023-2025 年魔搭平台托管模型数量与增长率
12
70%
60%
50%
40%
30%
20%
10%
0%
63%
31%
6%
中国 美国 欧盟
开源模型采用率
来源:STATE OF AI REPORT,中国信息通信研究院,2025 年 10 月
图 7 中美欧开源模型应用采用率
人工智能开源项目核心由模型、数据与工具链构成, 呈现多元化 发展路径与显著的飞轮效应。开源模型作为主要驱动力,在性能上持 续突破。斯坦福大学《2025 年人工智能指数报告》指出, 开源与闭源 模型在语言、知识、推理等通用能力方面的平均得分差距已从 2024 年 的 8%缩小至 1.7%,表明开源模型正逼近甚至部分超越闭源水平。实 验研究进一步显示,开源模型在特定任务中展现出超越性表现。根据 Vercel 测试结果,中国开源模型 Kimi K2 在智能体应用场景中的准确 率显著优于 GPT-5 、Claude Sonnet4.5 等前沿闭源模型,超出幅度达 20%;上海 AI Lab 的 P1 模型在 2025 年国际物理奥赛中夺得金牌, 成为首个在此类顶级科学竞赛中超越闭源模型的开源模型。
开源数据集数量、规模与质量全面提升,为模型能力的快速迭代 提供了坚实支撑。截至 2025 年 10 月,Hugging Face 平台托管数据集 超 53 万套,同比增长逾 80%;国内魔搭平台数据集数量突破 2 万套。 单个数据集规模亦显著扩大,标志着大规模多模态时代的到来。例如,
由华盛顿大学、Salesforce Research 与斯坦福大学等机构联合构建的 MINT-1T 数据集规模达万亿 token 级,为同类数据集的 10 倍(见图 8)。数据类型呈现多元化趋势,从早期文本与图像为主的单模态形态, 扩展至语音、视频及跨模态复合形态,视觉-语言、音频-文本等多模 态数据集快速增长。国内数据集在中文语料覆盖度、标注质量与行业 知识密度方面具备突出优势,有力支撑长文本理解、跨模态推理与行 业知识问答等任务。
13
1200
1000
800
600
400
200
0
1000
400 400
210
130
40
MMC4 OBELICS CM3 MM1 Chameleon MINT-1T
文本Token数量(10亿)
来源:Hugging Face,中国信息通信研究院,2025 年 10 月
图 8 主流人工智能开源数据集规模对比
开源模型软件工具链逐步构建起涵盖训练、数据处理、推理部署、 评测监控的全流程技术体系。随着产业协同深化,跨机构共建格局加 速形成,开源工具链从分散探索迈向系统化发展阶段。截至 2024 年 底,数百家企业与科研机构深度参与开源人工智能工具研发,覆盖模 型训练、微调、部署与监测等关键环节。 在模型训练方面,DeepSeek 工具显著提升训练效率,其 DeepGEMM 计算库针对 NVIDIA GPU 深 度优化,性能较官方库提升 2.7 倍,使 MoE 模型训练周期缩短约58%。
在推理方面,vLLM 通过动态张量并行、高效内存管理和异步推理等 技术显著提升了推理速度与资源利用率。在通信协议方面,MCP 协 议实现了智能体与外部工具的统一接口标准,增强了模型生态的兼容 性与互操作性。多领域工具的开源共同完善了工具链技术布局, 在稳 定性、可扩展性与可信性方面持续提升, 为人工智能研发创新与产业 落地奠定坚实技术基础。
(二) 开源社区分化鲜明,结构多元化演进
作为人工智能开源生态的关键载体,开源社区已逐步形成平台型、 项目型与组织型三类主体并存的多元格局。各类社区在功能定位、发 展路径与协作模式上呈现出显著差异,通过高效的资源整合与全球化 的协同创新,精准匹配开源生态的需求与供给,为技术持续演进与产 业落地注入核心动力。
平台型社区以集成模型、算力与工具链资源为核心特征,形成“一 超多强”的全球竞争格局,致力于构建以“模型即服务”为特色的产 业闭环。
国际层面,Hugging Face 作为核心枢纽,在模型汇聚、数据托管 与工具链建设方面处于领先地位。截至 2025 年 10 月,该平台已托管 开源模型超过 216 万个,累计获得近 4 亿美元融资,吸引包括 Meta 、 Google、微软、阿里巴巴在内的超 5000 家企业、科研机构及非营利 组织参与共建。其构建的训练—评测—部署全流程工具链体系,已成 为全球开源人工智能研发的基础设施。
国内平台则以场景落地与产业融合为导向,形成差异化竞争优势。
14
以魔搭、魔乐、焕新等为代表的社区, 在中文语料支持、行业应用适 配与多模态能力建设方面取得显著进展。相比国际平台, 国内平台更 注重降低模型使用门槛,通过提供普惠算力与行业解决方案,推动开 源技术在金融、医疗、制造、政务等关键领域的规模化落地。例如, 魔搭社区已上 MCP 服务超 3000 项,并提供长期算力支持;由国务院 国资委统筹的焕新平台,联合 150 余家央企、民企及高校,构建起“算 力、模型、数据、国产化、场景、专区”六位一体的服务体系。
项目型社区围绕具体开源模型、数据或工具链项目构建, 通过持 续迭代与生态衍生,形成开放、协同的技术创新体系。
模型类项目社区以 Qwen 、LIama 等为代表,强调全模态、多场 景的技术布局,推动基础模型、算法框架与应用生态的协同演进。截 至 2025 年 10 月,通义千问累计开源模型超 300 个,总下载量突破 6 亿次,展现出强大的技术辐射与生态扩展能力。
模型类别
语言模型
视觉模型
代码模型
数学模型
表 1 主流开源模型系列
Qwen 系列开源模型
Llama 系列开源模型
Qwen3 、Qwen2.5 等
Llama4 、Llama3.1 等
Qwen3-VL 等
-
Qwen2.5-Coder 等
CodeLlama 等
Qwen2.5-Math 等
-
15
图像生成模型
全模态模型
Qwen-Image
-
Qwen3-Omni
-
来源:中国信息通信研究院,2025 年 10 月
工具类项目社区则致力于构建“算法—算力—数据”一体化的开 源工具链。Paddle 、FlagOpen 、TensorFlow 与 MindSpore 等平台,提 供从模型研发、训练到部署的全流程支持,在分布式训练、高效推理、 参数复用与多模态适配等方面持续突破,显著降低开发门槛与研发成 本。
数据类项目社区通过众包与协作机制,推动高质量开放数据集的 共建共享。例如, Mozilla 发起的 Common Voice 项目已收录约 3 万小 时语音数据,覆盖 180 种语言;The Pile 项目整合 PubMed、ArXiv 等 多个高质量数据源,为 Bloom 、GPT-NeoX 等重要开源模型提供训练 基础。总体来看, 项目型社区通过聚焦核心模块,推动模型、工具与 数据的系统创新,构建了开放、多层的人工智能研发生态。
组织型社区主要承担标准制定与行业治理职能,在推动人工智能 开源生态健康与可持续发展中发挥关键作用。
当前,人工智能模型在开放维度上存在显著差异,体现在权重公 开、训练数据可用性、推理过程透明度与优化能力开放程度等多个方 面,形成从“受限开放”到“全面开放”的开放层次。中国信息通信 研究院联合开源创新发展推进中心联合编写的《开放人工智能透明度 等级划分》将模型透明度划分为从 D 级至 A 级的四个等级,涵盖开
16
放部署、开放优化、开放理解与开放复现等维度(见图 9),为模型开 放实践提供了量化评估框架。
来源:中国信息通信研究院,2025 年 10 月
图 9 开放人工智能透明度等级划分
在国际层面,开源促进会发布的《开源 AI 定义》明确提出“研 究自由、修改自由、分发自由”三项基本原则,为判定项目是否真正 开源提供核心依据。LFAI & Data 基金会提出的模型开放框架则重点 关注模型的透明度、可复现性与可用性, 推动开源模型在研发与应用 中的合规发展。在国际合作方面, 中国-金砖国家人工智能发展与合作 中心联合开放原子开源基金会等机构发布《国际人工智能开源合作倡 议》,提出“共商技术路线、共建开放社区、共促标准互认、共享发展 成果”四大方向,为全球开源生态治理提供了合作框架,推动人工智 能开源走向规范、协同与可持续发展。
(三) 开源协议范式转变,从自由开放到责任治理
人工智能模型的开放策略日趋多样化,许可体系向责任化的方向 演进。随着开源理念在人工智能领域的深化,相关定义和标准不断完 善。2024 年,开放源代码促进会(OSI)正式发布《Open Source AI Definition(OSAID)1.0》,明确提出“研究自由、修改自由、分发自 由”等核心原则,为人工智能开源确立了基本框架。然而,伴随模型
17
能力提升与社会影响扩大,单纯的“完全开放”已难以平衡创新与风险 之间的关系。随着治理与合规要求不断提升,“负责任的 AI 许可证” (Responsible AI License, RAIL)体系迅速崛起,成为全球开源治理 的重要方向。截至 2025 年 10 月,OpenRAIL 系列许可证已成为 Hugging Face 平台第三大主流许可类别,覆盖项目数超过 3.7 万个,
仅次于 Apache-2.0 与 MIT(见图 10)。不同于传统宽松型许可, Open RAIL-M 在传统开源精神基础上引入行为约束,明确禁止模型被用于 违法行为、虚假信息传播、歧视性用途或监控场景, 标志着人工智能 开源从“自由使用”向“责任共享”的理念转变。
18
400000
350000
300000
250000
200000
150000
100000
50000
0
337332
123761
89025
37928
apache-2.0 mit other openrail
项目数量
来源:Hugging Face,中国信息通信研究院,2025 年 10 月
图 10 Hugging Face 平台主要许可协
展开阅读全文