人工智能开源生态研究报告（2025年）.docx

资源描述

人工智能开源生态研究报告（2025 年）云计算开源产业联盟开源创新发展推进中心 2025年12月编制说明本报告由云计算开源产业联盟开源创新发展推进中心撰写，限于撰写组时间、知识局限以及技术、社会发展迭代等因素，内容恐有疏漏，烦请各位读者不吝指正。在编写过程中得到多家单位的大力支持，在此特别致谢中国信息通信研究院、中国平安人寿保险股份有限公司、东亚银行（中国）有限公司、中国电信股份有限公司研究院、麒麟软件有限公司、鼎道智联（北京）科技有限公司等。感谢各位秉承开源精神，协同共创，从多个视角提出了对于人工智能开源的理解，最终完成本报告的撰写工作。报告撰稿人：俊哲、郭雪、李万宁、张子钰、宋罗娜、贾金鹏、王锴、周飞、陈亚阁、王悦、张方昌、周巍、任晓东、黄丽、陈慧、龙显军、江洪、黄琴、陈泳、刘敏、康艳红、张天雄、柴丹、李晓丽。前言当前，人工智能技术与开源模式的深度耦合，正引发全球科技创新范式与产业价值链的系统性重构。开源已超越单纯的代码共享范畴，演变为配置全球算力、数据与智力资源的核心机制。在算法框架、基座模型、工具链及数据要素等关键环节，开源生态的规模化渗透不仅大幅压缩了技术从实验室到产业界的转化周期，更有效消融了闭源技术垄断的壁垒。作为驱动数字经济高质量发展与培育新质生产力的核心引擎，开源人工智能为个人赋能、企业创新及国家技术自主体系的构建提供了不可或缺的路径支撑。与此同时，开源人工智能的商业逻辑正经历深刻演变。以核心技术开放、生态资源共建与产业价值共创为特征的新型商业范式已趋于成熟，为产业的可持续发展奠定了结构性基础。然而，随着应用场景向深水区拓展，开源生态的系统复杂性与安全风险亦同步攀升。面对挑战，全球范围内的政府、科研机构与产业界正加速构建协同治理体系，推动开源发展从“自发式增长”向“制度化、体系化演进”转型，以确保技术红利的安全释放。本报告基于开源创新发展推进中心的研究成果，立足 2025 年产业新局，全景式解析人工智能开源生态的演进态势。报告紧扣五大核心环节与三大驱动引擎，深入剖析技术、商业与治理的互动逻辑，旨在为我国人工智能开源生态建设、产业布局优化及政策制定提供科学化、前瞻性的决策依据。目录一、人工智能驱动开源向多元化范式演进 1 (一)从软件到模型：开源范式的延续与创新性演进 1 (二)从垄断到开放：开源重塑人工智能产业生态 4 (三)从个人到国家：开源释放人工智能效能 7 二、五大环节构筑开源人工智能生态根基 8 (一)开源项目体系化发展，中国模型优势凸显 9 (二)开源社区分化鲜明，结构多元化演进 14 (三)开源协议范式转变，从自由开放到责任治理 17 (四)开源贡献规模持续扩大，模型衍生创新呈现集聚态势 21 (五)全球开源 AI 应用需求持续扩张，规模化落地进程加速 24 三、政策引擎：开源产业布局与生态治理协同推进 27 (一)美国：制度性扶持与安全治理双轨并行 27 (二)欧洲：监管先行与合规导向的发展路径 28 (三)中国：体系化部署与区域协同发展 30 四、商业引擎驱动：开源生态活力加速释放 33 (一)开源人工智能主流商业模式趋于成熟 34 (二)商业资本向头部聚集，应用层成为投资热点 36 五、治理引擎驱动：各方协同联动构建生态锚点 39 (一)人工智能开源衍生多维度新型风险 39 (二)企业级开源治理体系与全生命周期管理 41 六、我国开源人工智能生态完善建议 45 图目录图 1 人工智能开源形式 2 图 2 人工智能模型的开放访问等级 4 图 3 人工智能开源生态架构图 9 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 10 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 11 图 6 2023-2025 年魔搭平台托管模型数量与增长率 11 图 7 中美欧开源模型应用采用率 12 图 8 主流人工智能开源数据集规模对比 13 图 9 开放人工智能透明度等级划分 17 图 10 Hugging Face 平台主要许可协议使用分布 18 图 11 全球开源贡献者分布与开发者数量变化趋势 22 图 12 2025 年第三季度典型开源大模型 Tokens 调用量对比 25 图 13 企业使用开源模型主要情况占比 25 图 14 人工智能开源应用的主要行业分布 26 图 15 各地区包含开源内容的政策分布 32 图 16 人工智能开源商业模式结构示意图 34 图 17 开源人工智能的典型商业模式分类 34 图 18 全球商业开源软件企业融资领域 37 图 19 全生命周期分阶段防控策略 43 表目录表 1 主流开源模型系列 15 表 2 国内外典型大模型许可协议类型表 19 表 3 企业入选“重要模型”数量 23 表 4 部分地区人工智能开源支持政策汇总表 32 表 5 2022-2024 年国内商业开源企业部分融资情况 38 表 6 典型模型主要风险类型及占比表 40 表 7 企业治理体系中角色与职责分工表 42 表 8 人工智能开源数据合规管理策略 43 表 9 人工智能开源项目物料清单 45 一、人工智能驱动开源向多元化范式演进开源作为一种开放协作的范式，其应用边界已从传统软件领域系统性拓展至开源硬件、开放数据及开源大模型等多元形态。这一演进的本质在于突破技术壁垒，构建资源共享与协同创新的机制。相较于闭源模式，开源不仅重构了人工智能的产业生态链，更在个人、企业及国家层面拓展了技术自主与应用创新的纵深空间。 (一) 从软件到模型：开源范式的延续与创新性演进开源思想兴起于软件开发领域，软件开源核心在于源代码开放。 “开源”（Open Source）概念根植于上世纪五十年代以来自由开放的计算机文化，并随着开源软件促进会（ Open Source Initiative Association，OSI）经典开源定义的确立，逐渐形成共识。在传统软件行业，源代码凝结了创作者的设计思想、实现方法和具体表达，因此软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发展，开源已成为现代软件产业的主流开发模式。目前，全球 96%的商业代码库中包含开源软件，并且商业代码库中 77%的代码直接源自开源软件1。开源模式应用场景不断拓展，人工智能开源实现了技术资产维度的突破性扩展。随着数字时代的到来和全球互联的加深，开源模式在不同场景的应用过程中逐渐衍生出开放数据、开放模型等多种概念形 1 新思科技：《2024 年开源安全和风险分析报告》，网络地址： integrity/resources/analyst-reports/open-source-security-risk-analysis.html，最后访问日期：2025 年 10 月 11 日。 1 态，成为人工智能技术创新、开放共享、可持续发展的源头活水。传统软件开源核心围绕代码仓库、开发工具等软件生命周期资源展开协作；而人工智能开源不仅包含软件代码，更延伸至模型（如大语言模型、多模态模型等）、语料数据（行业数据、科学数据等）等多元技术资产，形成“数据—模型—软件”的全链路开放生态，重塑了技术创新的组织方式与资源流通机制（见图 1）。图 1 人工智能开源形式开源人工智能的定义正日趋明确，其核心始终围绕开放性与可复现性两项基本原则。为促进开源思想在人工智能技术领域的贯彻和落实，OSI 组织凝聚各方共识，探索开源 AI 定义，为用户和开发者提供判定 AI模型是否开源的概念框架。根据当前定义2，开源人工智能系统需满足以下四个条件：一是允许公众出于任何目的使用系统，无需征得许可；二是允许公众研究系统的工作原理并检查其组件；三是 2 The Open Source AI Definition -1.0-RC1，网络地址：https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 2 允许公众出于任何目的修改系统，包括更改其输出；四是允许公众出于任何目的共享系统供他人使用，无论是否经过修改。与开源软件定义的基本原则一致，该定义延续了开源软件的基本精神，明确要求开源模型在权重、代码及训练数据等关键组成部分具备开放性与可复现性，从而为模型的持续迭代与社区协作奠定基础。开放性构成了开源人工智能吸纳广泛社区贡献的基本前提。具体而言，开放性体现为将模型的开发方法、训练过程及关键成果向社会全面公开，不设访问、复制与审查的限制3。典型可开放内容包括模型结构、参数权重、源代码以及用于训练的数据集，不同模型在实际开放范围上存在差异。依据 OSI 组织的相关定义4，开源模型须在许可协议或条款下向公众公开“适合修改的形式”，包括模型权重和参数，训练和运行 AI 系统的全部源代码，以及有关训练数据的详细信息，而不强制要求开源模型公开全部的原始训练数据。实践中，不同模型的开放程度存在较大差异，基于斯坦福大学基础模型研究中心发布的 AI 系统访问等级，完全封闭到完全开放之间存在多个渐进的开放层级（见图 2）。 3 M. A. Peters and P. Roberts, Virtues of openness: Education, science, and scholarship in the digital age. Routledge, 2015. 4 The Open Source AI Definition -1.0-RC1，网络地址：https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 3 4 开放程度例子完全封闭托管访问开放模型 API 开放微调 API 开放权重有使用限制的开放权重、数据和代码无使用限制的开放权重、数据和代码 Famingo Pi GPT-4 GPT-3.5 Lama 2 BLOOM 2 GPT-Neox (Googe) (Infection) (OpenAI) (OpenAI) (Meta) (Bigscience) (EeutherAI) 开放基础模型来源：斯坦福大学，中国信息通信研究院图 2 人工智能模型的开放访问等级5 可复现性是支撑开源人工智能研究可信性与应用可靠性的关键基石。可复现性确保使用者能够在相同或异构环境中独立运行模型，重现其所报告的技术性能，为模型的科学验证、性能评估与二次创新提供基础。在模型技术体系中，实现可复现性要求开发者尽可能提供完整的数据集、训练代码、超参数配置以及模型结构说明，使社区能够验证其性能指标、复现关键实验结果，并进一步从数据、算法与架构等维度对模型实施优化与创新。这一过程不仅增强了模型研究的透明度和可信度，也构成了人工智能技术持续演进与跨代发展的重要机制。 (二) 从垄断到开放：开源重塑人工智能产业生态开源已成为打破人工智能技术垄断格局的关键力量。在传统商业模式下，企业通常依赖技术封闭构建竞争壁垒，以维持长期市场优势。开源模式通过开放模型架构与核心技术，有效破解了由闭源体系所带来的技术依赖问题，显著激发了市场创新活力。用户获取开源模型后，可依据特定场景与个性化需求进行自适应优化，大幅降低对高成本商 5 Rishi Bommasani et al., “Considerations for Governing Open Foundation Models”, 网络地址： https://www.science.org/doi/10.1126/science.adp1848 业方案或单一供应商的依附。典型例证是，Meta 公司推出的Llama 系列开源大模型，成功打破了由 OpenAI 等少数厂商主导的大模型市场格局。同时，开源模型鼓励广泛的社区参与和协作共创，极大提升了技术迭代效率，促进市场良性竞争与生态多元化发展。开源是推动人工智能技术普及与产业应用的重要推动力。开源开放显著降低了人工智能模型的部署与应用门槛，使人工智能技术得以广泛应用于金融、医疗、教育、能源、法律等领域。基于开源模型的行业应用生态正加速成熟。以DeepSeek 系列模型为例，其开源的V3 、 R1 及 V3.1 等版本，凭借在复杂推理、代码生成与工具调用等方面的先进能力，已被广泛集成于各类行业解决方案之中。此外，大模型开源也有助于促进人工智能技术在资源受限地区的普及，提升欠发达区域与群体的数字化发展机会。例如，基于 Qwen 训练开发的开源语言模型 Sailor，专注于东南亚多语种环境，推动了 AI 技术在小语种地区的本土化应用。开源模式是人工智能科技创新的重要催化剂。围绕成熟的开源模型项目，往往会形成活跃的开源社区，社区成员可以通过民主、开放的形式共同进行项目的开发和维护工作，从而形成一个强大的知识网络以优化大模型的产品体验6。开源社区不仅加速了技术经验的积累与模型迭代进程，更为模型技术的发展提供了多元化技术路线，避免陷入“局部最优”的技术陷阱。当前，尽管 Transformer 架构在自然 6 参见陈光沛，魏江，李拓宇：《开源社区：研究脉络、知识框架和研究展望》，载《外国经济与管理》 2021 年第 2 期，第 84-102 页。 5 语言处理领域占据主导地位，但众多开源项目仍在持续探索替代架构的优化路径，寻求新的技术突破，体现了开源生态对技术创新的持续推动作用。开源正在成为人工智能商业模式的重要孵化器。开源模式开放与灵活的特性助力企业快速构建技术生态，推动人工智能从实验研究走向规模化商业落地。目前，领先的 AI 企业普遍采用开源与闭源并行的混合策略。其中， Meta、阿里巴巴等企业倾向于通过开源社区带动衍生生态建设；而具备先发优势的厂商如 OpenAI，在推进核心闭源产品的同时，也积极参与开源生态，陆续发布 GPT-oss-120b 等开源模型。随着用户定制化需求日益增强，开源模型企业正逐步从产品输出转向服务赋能，协助用户构建领域专用模型并提供持续优化支持。通过开源策略，企业能够吸引第三方开发者围绕其技术栈构建应用生态，强化品牌影响力与行业话语权，并拓展硬件销售、计算服务、培训咨询等多元化营收渠道。开源在人工智能风险治理中发挥探照灯作用。闭源模型因缺乏透明度，屡次引发安全与合规事件。相较之下，开源模型的框架、参数、算法与数据公开可查，便于研究人员与开发者审查代码、识别漏洞与纠正偏差。在合规层面，训练数据的公开性使第三方能够核查数据来源与使用方式，促使开发者更好地遵守数据法规，保障数据主体权益。在伦理层面，模型内部机制的可审查性增强了其可解释性，有助于识别潜在的偏见与歧视问题。值得注意的是，开源社区成员具有多元文化背景，有助于确保模型在设计阶段充分考虑不同群体需求，增强技 6 术的包容性与公平性。 (三) 从个人到国家：开源释放人工智能效能开源推动用户角色由技术“消费者”向“创造者”转变，为个体提供了高度灵活的定制化路径。随着人工智能技术的颠覆性演进，模型不再仅是通用生产工具，更成为用户构建专属应用的关键平台。在闭源模式下，终端用户与模型提供方构成典型的“消费—供给”关系，用户难以洞察模型生成内容的内在逻辑与实现机制，仅能单向接收 “算法黑箱”的输出结果，难以获取贴合特定业务场景或个性化表达需求的响应。而开源模型则赋予用户基于自有数据进行定向微调的能力，例如个人可借助知识库，构建专属内容生成工具，实现真正意义上的场景适配与功能自主。开源显著降低人工智能技术的研发与应用门槛，为企业提供了低成本、高效率的实践路径。模型的技术效果高度依赖于海量数据与强大算力支持，对中小企业而言，从零开展模型架构设计、数据采集清洗与基础模型预训练等工作面临巨大挑战。开源模型通过释放经过预训练的基础模型，使应用企业能够深入理解其工作机制，并基于此开展面向特定场景的深度优化与数据再训练。此外，开源模式促进了跨行业技术的交叉融合，各领域企业可对模型进行灵活修改与功能扩展，催生更具创新性的应用形态与产品体系。开源整合全球人工智能知识与资源，为国家层面推动前沿科技与智能产业发展提供核心驱动力。作为一种新型协作机制，开源有效促进了人才、技术、算力与产业链资源在全球范围内的优化配置。模型 7 开源社区构建了覆盖基础设施、软件环境、算法框架与预训练模型的全栈技术体系，并依托强大的算力支持与学习资源，为开发者和研究者提供平等参与机会，持续激发创新活力。同时，跨学科、跨领域的知识融合为人工智能关键科学问题的突破提供了新思路与新方法，推动技术实现持续迭代与系统创新。企业的深度参与进一步为开源模型的研发与社区共创注入资金与技术动力，依托开源生态所形成的成熟商业模式也反哺技术体系的纵深发展，促进创新链与产业链深度融合，实现技术供给与市场需求的动态适配，全面增强国家在前沿科技与智能产业领域的综合竞争力。二、五大环节构筑开源人工智能生态根基随着开源理念在人工智能领域的深度渗透，数据、模型与软件的开放协作持续深化，人工智能开源生态逐步由技术探索阶段迈向系统化构建的新时期，已成为驱动全球智能技术创新与产业协同的关键力量。当前，该生态体系围绕五大核心环节稳步演进：开源项目构成系统核心，开源社区提供组织保障，开源协议确立行为准则，开源贡献者注入创新动力，开源使用者形成应用支撑。五大环节相互依存、协同演进，共同构筑起全球人工智能开源生态的坚实基础（见图 3）。 8 来源：中国信息通信研究院图 3 人工智能开源生态架构图 (一) 开源项目体系化发展，中国模型优势凸显人工智能开源项目正步入体系化与规模化并重的发展阶段，呈现出由分散式创新向系统性集群演进的重要趋势。开源模型逐步由单一任务型模型发展为系列化家族结构与多尺寸版本并行的完整体系，形成覆盖多领域、全场景的技术栈。以 Qwen 与 DeepSeek 为代表的开源模型体系持续迭代，已构建从轻量级推理到企业级应用的多层次产品矩阵。中国开源力量在全球人工智能格局中快速崛起，模型体系构建能力显著增强。以通义千问（Qwen）为例，其于 2025 年发布的 Qwen3 系列涵盖 0.6B 至 32B 的稠密模型，以及 30B 、235B 的混合专家模型，形成多层次、全场景的技术布局。同时，衍生的 Qwen3-VL 多模态分支支持图文跨模态理解，Qwen-Image 模型专注于视觉生成与编辑任务，实现从移动端轻量化部署到企业级复杂语义分析的全场景覆盖。截至 2025 年 10 月，Qwen 系列在开源托管平台的累计下载量突 9 破 6 亿次，展现出强大的生态吸引力与行业影响力。全球人工智能开源项目增长率远超传统软件项目。传统软件创新已进入成熟稳定期，2025 年 GitHub 平台仓库增长率仅为 22%（见图 4）。相比之下，面向人工智能的开源平台保持爆发式增长态势。截至 2025 年 10 月，Hugging Face 平台托管模型数量已达 215 万个，同比增长 115%，成为全球 AI 模型共享与分发的核心枢纽（见图 5）。 10 700 600 500 400 300 200 100 0 23% 630.00 515.00 420.00 22% 2023年 2024年 2025年仓库总数(百万）增长率 22.65% 22.60% 22.55% 22.50% 22.45% 22.40% 22.35% 22.30% 22.25% 22.20% 22.15% 来源：GitHub，中国信息通信研究院，2025 年 10 月图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 250.00 200.00 150.00 100.00 50.00 0.00 186% 215.00 115% 100.00 35.00 2023年10月 2024年10月 2025年10月模型数(万）增长率 200.00% 180.00% 160.00% 140.00% 120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 来源：Hugging Face，中国信息通信研究院，2025 年 10 月图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率中国开源模型正在成为全球开源生态中不可忽视的重要力量，在部分指标上已具备显著竞争优势。在政策支持与产业需求的双重驱动下，魔搭社区发展尤为突出。截至 2025 年，其托管模型数量突破 11 万个，同比增长 644%，成为全球增长最快的 AI 开源平台之一（见图 6）。平台汇聚开发者超过 1800 万，累计模型下载量超 1 亿次。与此同时，中国开源模型在全球应用中占据主导地位，《STATE OF AI REPORT》显示，中国开源模型在全球采用率达 63%，显著高于美国的 31%与欧盟的 6%（见图 7）。具体而言，截至 2025 年 9 月，Hugging Face 平台下载量前四的开源模型中，中国占据两席（ Qwen 与 DeepSeek）。 11 14 12 10 8 6 4 2 0 644% 11.90 596% 1.60 0.23 2023年10月 2024年10月 2025年10月模型数(万）增长率 650% 640% 630% 620% 610% 600% 590% 580% 570% 来源：魔搭社区，中国信息通信研究院，2025 年 10 月图 6 2023-2025 年魔搭平台托管模型数量与增长率 12 70% 60% 50% 40% 30% 20% 10% 0% 63% 31% 6% 中国美国欧盟开源模型采用率来源：STATE OF AI REPORT，中国信息通信研究院，2025 年 10 月图 7 中美欧开源模型应用采用率人工智能开源项目核心由模型、数据与工具链构成，呈现多元化发展路径与显著的飞轮效应。开源模型作为主要驱动力，在性能上持续突破。斯坦福大学《2025 年人工智能指数报告》指出，开源与闭源模型在语言、知识、推理等通用能力方面的平均得分差距已从 2024 年的 8%缩小至 1.7%，表明开源模型正逼近甚至部分超越闭源水平。实验研究进一步显示，开源模型在特定任务中展现出超越性表现。根据 Vercel 测试结果，中国开源模型 Kimi K2 在智能体应用场景中的准确率显著优于 GPT-5 、Claude Sonnet4.5 等前沿闭源模型，超出幅度达 20%；上海 AI Lab 的 P1 模型在 2025 年国际物理奥赛中夺得金牌，成为首个在此类顶级科学竞赛中超越闭源模型的开源模型。开源数据集数量、规模与质量全面提升，为模型能力的快速迭代提供了坚实支撑。截至 2025 年 10 月，Hugging Face 平台托管数据集超 53 万套，同比增长逾 80%；国内魔搭平台数据集数量突破 2 万套。单个数据集规模亦显著扩大，标志着大规模多模态时代的到来。例如，由华盛顿大学、Salesforce Research 与斯坦福大学等机构联合构建的 MINT-1T 数据集规模达万亿 token 级，为同类数据集的 10 倍（见图 8）。数据类型呈现多元化趋势，从早期文本与图像为主的单模态形态，扩展至语音、视频及跨模态复合形态，视觉-语言、音频-文本等多模态数据集快速增长。国内数据集在中文语料覆盖度、标注质量与行业知识密度方面具备突出优势，有力支撑长文本理解、跨模态推理与行业知识问答等任务。 13 1200 1000 800 600 400 200 0 1000 400 400 210 130 40 MMC4 OBELICS CM3 MM1 Chameleon MINT-1T 文本Token数量（10亿）来源：Hugging Face，中国信息通信研究院，2025 年 10 月图 8 主流人工智能开源数据集规模对比开源模型软件工具链逐步构建起涵盖训练、数据处理、推理部署、评测监控的全流程技术体系。随着产业协同深化，跨机构共建格局加速形成，开源工具链从分散探索迈向系统化发展阶段。截至 2024 年底，数百家企业与科研机构深度参与开源人工智能工具研发，覆盖模型训练、微调、部署与监测等关键环节。在模型训练方面，DeepSeek 工具显著提升训练效率，其 DeepGEMM 计算库针对 NVIDIA GPU 深度优化，性能较官方库提升 2.7 倍，使 MoE 模型训练周期缩短约58%。在推理方面，vLLM 通过动态张量并行、高效内存管理和异步推理等技术显著提升了推理速度与资源利用率。在通信协议方面，MCP 协议实现了智能体与外部工具的统一接口标准，增强了模型生态的兼容性与互操作性。多领域工具的开源共同完善了工具链技术布局，在稳定性、可扩展性与可信性方面持续提升，为人工智能研发创新与产业落地奠定坚实技术基础。 (二) 开源社区分化鲜明，结构多元化演进作为人工智能开源生态的关键载体，开源社区已逐步形成平台型、项目型与组织型三类主体并存的多元格局。各类社区在功能定位、发展路径与协作模式上呈现出显著差异，通过高效的资源整合与全球化的协同创新，精准匹配开源生态的需求与供给，为技术持续演进与产业落地注入核心动力。平台型社区以集成模型、算力与工具链资源为核心特征，形成“一超多强”的全球竞争格局，致力于构建以“模型即服务”为特色的产业闭环。国际层面，Hugging Face 作为核心枢纽，在模型汇聚、数据托管与工具链建设方面处于领先地位。截至 2025 年 10 月，该平台已托管开源模型超过 216 万个，累计获得近 4 亿美元融资，吸引包括 Meta 、 Google、微软、阿里巴巴在内的超 5000 家企业、科研机构及非营利组织参与共建。其构建的训练—评测—部署全流程工具链体系，已成为全球开源人工智能研发的基础设施。国内平台则以场景落地与产业融合为导向，形成差异化竞争优势。 14 以魔搭、魔乐、焕新等为代表的社区，在中文语料支持、行业应用适配与多模态能力建设方面取得显著进展。相比国际平台，国内平台更注重降低模型使用门槛，通过提供普惠算力与行业解决方案，推动开源技术在金融、医疗、制造、政务等关键领域的规模化落地。例如，魔搭社区已上 MCP 服务超 3000 项，并提供长期算力支持；由国务院国资委统筹的焕新平台，联合 150 余家央企、民企及高校，构建起“算力、模型、数据、国产化、场景、专区”六位一体的服务体系。项目型社区围绕具体开源模型、数据或工具链项目构建，通过持续迭代与生态衍生，形成开放、协同的技术创新体系。模型类项目社区以 Qwen 、LIama 等为代表，强调全模态、多场景的技术布局，推动基础模型、算法框架与应用生态的协同演进。截至 2025 年 10 月，通义千问累计开源模型超 300 个，总下载量突破 6 亿次，展现出强大的技术辐射与生态扩展能力。模型类别语言模型视觉模型代码模型数学模型表 1 主流开源模型系列 Qwen 系列开源模型 Llama 系列开源模型 Qwen3 、Qwen2.5 等 Llama4 、Llama3.1 等 Qwen3-VL 等 - Qwen2.5-Coder 等 CodeLlama 等 Qwen2.5-Math 等 - 15 图像生成模型全模态模型 Qwen-Image - Qwen3-Omni - 来源：中国信息通信研究院，2025 年 10 月工具类项目社区则致力于构建“算法—算力—数据”一体化的开源工具链。Paddle 、FlagOpen 、TensorFlow 与 MindSpore 等平台，提供从模型研发、训练到部署的全流程支持，在分布式训练、高效推理、参数复用与多模态适配等方面持续突破，显著降低开发门槛与研发成本。数据类项目社区通过众包与协作机制，推动高质量开放数据集的共建共享。例如， Mozilla 发起的 Common Voice 项目已收录约 3 万小时语音数据，覆盖 180 种语言；The Pile 项目整合 PubMed、ArXiv 等多个高质量数据源，为 Bloom 、GPT-NeoX 等重要开源模型提供训练基础。总体来看，项目型社区通过聚焦核心模块，推动模型、工具与数据的系统创新，构建了开放、多层的人工智能研发生态。组织型社区主要承担标准制定与行业治理职能，在推动人工智能开源生态健康与可持续发展中发挥关键作用。当前，人工智能模型在开放维度上存在显著差异，体现在权重公开、训练数据可用性、推理过程透明度与优化能力开放程度等多个方面，形成从“受限开放”到“全面开放”的开放层次。中国信息通信研究院联合开源创新发展推进中心联合编写的《开放人工智能透明度等级划分》将模型透明度划分为从 D 级至 A 级的四个等级，涵盖开 16 放部署、开放优化、开放理解与开放复现等维度（见图 9），为模型开放实践提供了量化评估框架。来源：中国信息通信研究院，2025 年 10 月图 9 开放人工智能透明度等级划分在国际层面，开源促进会发布的《开源 AI 定义》明确提出“研究自由、修改自由、分发自由”三项基本原则，为判定项目是否真正开源提供核心依据。LFAI & Data 基金会提出的模型开放框架则重点关注模型的透明度、可复现性与可用性，推动开源模型在研发与应用中的合规发展。在国际合作方面，中国-金砖国家人工智能发展与合作中心联合开放原子开源基金会等机构发布《国际人工智能开源合作倡议》，提出“共商技术路线、共建开放社区、共促标准互认、共享发展成果”四大方向，为全球开源生态治理提供了合作框架，推动人工智能开源走向规范、协同与可持续发展。 (三) 开源协议范式转变，从自由开放到责任治理人工智能模型的开放策略日趋多样化，许可体系向责任化的方向演进。随着开源理念在人工智能领域的深化，相关定义和标准不断完善。2024 年，开放源代码促进会（OSI）正式发布《Open Source AI Definition（OSAID）1.0》，明确提出“研究自由、修改自由、分发自由”等核心原则，为人工智能开源确立了基本框架。然而，伴随模型 17 能力提升与社会影响扩大，单纯的“完全开放”已难以平衡创新与风险之间的关系。随着治理与合规要求不断提升，“负责任的 AI 许可证” （Responsible AI License, RAIL）体系迅速崛起，成为全球开源治理的重要方向。截至 2025 年 10 月，OpenRAIL 系列许可证已成为 Hugging Face 平台第三大主流许可类别，覆盖项目数超过 3.7 万个，仅次于 Apache-2.0 与 MIT（见图 10）。不同于传统宽松型许可， Open RAIL-M 在传统开源精神基础上引入行为约束，明确禁止模型被用于违法行为、虚假信息传播、歧视性用途或监控场景，标志着人工智能开源从“自由使用”向“责任共享”的理念转变。 18 400000 350000 300000 250000 200000 150000 100000 50000 0 337332 123761 89025 37928 apache-2.0 mit other openrail 项目数量来源：Hugging Face，中国信息通信研究院，2025 年 10 月图 10 Hugging Face 平台主要许可协

展开阅读全文