收藏 分销(赏)

人工智能开源生态研究报告(2025年).docx

上传人:宇*** 文档编号:13165070 上传时间:2026-01-28 格式:DOCX 页数:97 大小:5.55MB 下载积分:20 金币
下载 相关 举报
人工智能开源生态研究报告(2025年).docx_第1页
第1页 / 共97页
人工智能开源生态研究报告(2025年).docx_第2页
第2页 / 共97页


点击查看更多>>
资源描述
人工智能开源生态研究报告 (2025 年) 云计算开源产业联盟 开源创新发展推进中心 2025年12月 编制说明 本报告由云计算开源产业联盟开源创新发展推进中心撰写,限于撰 写组时间、知识局限以及技术、社会发展迭代等因素, 内容恐有疏漏,烦 请各位读者不吝指正。 在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通 信研究院、中国平安人寿保险股份有限公司、东亚银行(中国)有限公司、 中国电信股份有限公司研究院、麒麟软件有限公司、鼎道智联(北京)科 技有限公司等。感谢各位秉承开源精神, 协同共创,从多个视角提出了对 于人工智能开源的理解,最终完成本报告的撰写工作。 报告撰稿人:俊哲、郭雪、李万宁、张子钰、宋罗娜、贾金鹏、王锴、 周飞、陈亚阁、王悦、张方昌、周巍、任晓东、黄丽、陈慧、龙显军、江 洪、黄琴、陈泳、刘敏、康艳红、张天雄、柴丹、李晓丽。 前 言 当前,人工智能技术与开源模式的深度耦合,正引发全球科技创新范 式与产业价值链的系统性重构。开源已超越单纯的代码共享范畴,演变为 配置全球算力、数据与智力资源的核心机制。在算法框架、基座模型、工 具链及数据要素等关键环节,开源生态的规模化渗透不仅大幅压缩了技 术从实验室到产业界的转化周期,更有效消融了闭源技术垄断的壁垒。作 为驱动数字经济高质量发展与培育新质生产力的核心引擎,开源人工智 能为个人赋能、企业创新及国家技术自主体系的构建提供了不可或缺的 路径支撑。 与此同时,开源人工智能的商业逻辑正经历深刻演变。以核心技术开 放、生态资源共建与产业价值共创为特征的新型商业范式已趋于成熟,为 产业的可持续发展奠定了结构性基础。然而,随着应用场景向深水区拓展, 开源生态的系统复杂性与安全风险亦同步攀升。面对挑战,全球范围内的 政府、科研机构与产业界正加速构建协同治理体系, 推动开源发展从“自 发式增长”向“制度化、体系化演进”转型,以确保技术红利的安全释放。 本报告基于开源创新发展推进中心的研究成果,立足 2025 年产业新 局,全景式解析人工智能开源生态的演进态势。报告紧扣五大核心环节与 三大驱动引擎,深入剖析技术、商业与治理的互动逻辑, 旨在为我国人工 智能开源生态建设、产业布局优化及政策制定提供科学化、前瞻性的决策 依据。 目录 一、人工智能驱动开源向多元化范式演进 1 (一)从软件到模型:开源范式的延续与创新性演进 1 (二)从垄断到开放:开源重塑人工智能产业生态 4 (三)从个人到国家:开源释放人工智能效能 7 二、五大环节构筑开源人工智能生态根基 8 (一)开源项目体系化发展,中国模型优势凸显 9 (二)开源社区分化鲜明,结构多元化演进 14 (三)开源协议范式转变,从自由开放到责任治理 17 (四)开源贡献规模持续扩大,模型衍生创新呈现集聚态势 21 (五)全球开源 AI 应用需求持续扩张,规模化落地进程加速 24 三、政策引擎:开源产业布局与生态治理协同推进 27 (一)美国:制度性扶持与安全治理双轨并行 27 (二)欧洲:监管先行与合规导向的发展路径 28 (三)中国:体系化部署与区域协同发展 30 四、商业引擎驱动:开源生态活力加速释放 33 (一)开源人工智能主流商业模式趋于成熟 34 (二)商业资本向头部聚集,应用层成为投资热点 36 五、治理引擎驱动:各方协同联动构建生态锚点 39 (一)人工智能开源衍生多维度新型风险 39 (二)企业级开源治理体系与全生命周期管理 41 六、我国开源人工智能生态完善建议 45 图 目 录 图 1 人工智能开源形式 2 图 2 人工智能模型的开放访问等级 4 图 3 人工智能开源生态架构图 9 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 10 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 11 图 6 2023-2025 年魔搭平台托管模型数量与增长率 11 图 7 中美欧开源模型应用采用率 12 图 8 主流人工智能开源数据集规模对比 13 图 9 开放人工智能透明度等级划分 17 图 10 Hugging Face 平台主要许可协议使用分布 18 图 11 全球开源贡献者分布与开发者数量变化趋势 22 图 12 2025 年第三季度典型开源大模型 Tokens 调用量对比 25 图 13 企业使用开源模型主要情况占比 25 图 14 人工智能开源应用的主要行业分布 26 图 15 各地区包含开源内容的政策分布 32 图 16 人工智能开源商业模式结构示意图 34 图 17 开源人工智能的典型商业模式分类 34 图 18 全球商业开源软件企业融资领域 37 图 19 全生命周期分阶段防控策略 43 表 目 录 表 1 主流开源模型系列 15 表 2 国内外典型大模型许可协议类型表 19 表 3 企业入选“重要模型”数量 23 表 4 部分地区人工智能开源支持政策汇总表 32 表 5 2022-2024 年国内商业开源企业部分融资情况 38 表 6 典型模型主要风险类型及占比表 40 表 7 企业治理体系中角色与职责分工表 42 表 8 人工智能开源数据合规管理策略 43 表 9 人工智能开源项目物料清单 45 一、人工智能驱动开源向多元化范式演进 开源作为一种开放协作的范式,其应用边界已从传统软件领域系 统性拓展至开源硬件、开放数据及开源大模型等多元形态。这一演进 的本质在于突破技术壁垒,构建资源共享与协同创新的机制。相较于 闭源模式,开源不仅重构了人工智能的产业生态链,更在个人、企业 及国家层面拓展了技术自主与应用创新的纵深空间。 (一) 从软件到模型:开源范式的延续与创新性演进 开源思想兴起于软件开发领域,软件开源核心在于源代码开放。 “开源”(Open Source)概念根植于上世纪五十年代以来自由开放的 计算机文化,并随着开源软件促进会( Open Source Initiative Association,OSI)经典开源定义的确立,逐渐形成共识。在传统软件 行业,源代码凝结了创作者的设计思想、实现方法和具体表达, 因此 软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发 展,开源已成为现代软件产业的主流开发模式。目前, 全球 96%的商 业代码库中包含开源软件,并且商业代码库中 77%的代码直接源自开 源软件1。 开源模式应用场景不断拓展,人工智能开源实现了技术资产维度 的突破性扩展。随着数字时代的到来和全球互联的加深,开源模式在 不同场景的应用过程中逐渐衍生出开放数据、开放模型等多种概念形 1 新思科技:《2024 年开源安全和风险分析报告》,网络地址: integrity/resources/analyst-reports/open-source-security-risk-analysis.html,最后访问日期:2025 年 10 月 11 日。 1 态,成为人工智能技术创新、开放共享、可持续发展的源头活水。传 统软件开源核心围绕代码仓库、开发工具等软件生命周期资源展开协 作;而人工智能开源不仅包含软件代码,更延伸至模型(如大语言模 型、多模态模型等)、语料数据(行业数据、科学数据等)等多元技术 资产,形成“数据—模型—软件”的全链路开放生态,重塑了技术创 新的组织方式与资源流通机制(见图 1)。 图 1 人工智能开源形式 开源人工智能的定义正日趋明确,其核心始终围绕开放性与可复 现性两项基本原则。为促进开源思想在人工智能技术领域的贯彻和落 实,OSI 组织凝聚各方共识,探索开源 AI 定义,为用户和开发者提 供判定 AI模型是否开源的概念框架。根据当前定义2,开源人工智能 系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无 需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是 2 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 2 允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出 于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定 义的基本原则一致,该定义延续了开源软件的基本精神,明确要求开 源模型在权重、代码及训练数据等关键组成部分具备开放性与可复现 性,从而为模型的持续迭代与社区协作奠定基础。 开放性构成了开源人工智能吸纳广泛社区贡献的基本前提。具体 而言,开放性体现为将模型的开发方法、训练过程及关键成果向社会 全面公开,不设访问、复制与审查的限制3。典型可开放内容包括模型 结构、参数权重、源代码以及用于训练的数据集, 不同模型在实际开 放范围上存在差异。依据 OSI 组织的相关定义4,开源模型须在许可 协议或条款下向公众公开“适合修改的形式”,包括模型权重和参数, 训练和运行 AI 系统的全部源代码,以及有关训练数据的详细信息, 而不强制要求开源模型公开全部的原始训练数据。实践中, 不同模型 的开放程度存在较大差异,基于斯坦福大学基础模型研究中心发布的 AI 系统访问等级,完全封闭到完全开放之间存在多个渐进的开放层 级(见图 2)。 3 M. A. Peters and P. Roberts, Virtues of openness: Education, science, and scholarship in the digital age. Routledge, 2015. 4 The Open Source AI Definition -1.0-RC1,网络地址:https://opensource.org/deepdive/drafts/the-open-source- ai-definition-1-0-rc1。 3 4 开放 程度 例子  完全 封闭 托管 访问 开放模型 API 开放微调 API 开放权重 有使用限制的开放 权重、数据和代码 无使用限制的 开放权重、数 据和代码 Famingo Pi GPT-4 GPT-3.5 Lama 2 BLOOM 2 GPT-Neox (Googe) (Infection) (OpenAI) (OpenAI) (Meta) (Bigscience) (EeutherAI) 开放基础模型 来源:斯坦福大学,中国信息通信研究院 图 2 人工智能模型的开放访问等级5 可复现性是支撑开源人工智能研究可信性与应用可靠性的关键 基石。可复现性确保使用者能够在相同或异构环境中独立运行模型, 重现其所报告的技术性能,为模型的科学验证、性能评估与二次创新 提供基础。在模型技术体系中, 实现可复现性要求开发者尽可能提供 完整的数据集、训练代码、超参数配置以及模型结构说明, 使社区能 够验证其性能指标、复现关键实验结果, 并进一步从数据、算法与架 构等维度对模型实施优化与创新。这一过程不仅增强了模型研究的透 明度和可信度,也构成了人工智能技术持续演进与跨代发展的重要机 制。 (二) 从垄断到开放:开源重塑人工智能产业生态 开源已成为打破人工智能技术垄断格局的关键力量。在传统商业 模式下,企业通常依赖技术封闭构建竞争壁垒,以维持长期市场优势。 开源模式通过开放模型架构与核心技术,有效破解了由闭源体系所带 来的技术依赖问题,显著激发了市场创新活力。用户获取开源模型后, 可依据特定场景与个性化需求进行自适应优化,大幅降低对高成本商 5 Rishi Bommasani et al., “Considerations for Governing Open Foundation Models”, 网络地址: https://www.science.org/doi/10.1126/science.adp1848 业方案或单一供应商的依附。典型例证是,Meta 公司推出的Llama 系 列开源大模型,成功打破了由 OpenAI 等少数厂商主导的大模型市场 格局。同时, 开源模型鼓励广泛的社区参与和协作共创,极大提升了 技术迭代效率,促进市场良性竞争与生态多元化发展。 开源是推动人工智能技术普及与产业应用的重要推动力。开源开 放显著降低了人工智能模型的部署与应用门槛,使人工智能技术得以 广泛应用于金融、医疗、教育、能源、法律等领域。基于开源模型的 行业应用生态正加速成熟。以DeepSeek 系列模型为例,其开源的V3 、 R1 及 V3.1 等版本,凭借在复杂推理、代码生成与工具调用等方面的 先进能力,已被广泛集成于各类行业解决方案之中。此外, 大模型开 源也有助于促进人工智能技术在资源受限地区的普及,提升欠发达区 域与群体的数字化发展机会。例如, 基于 Qwen 训练开发的开源语言 模型 Sailor,专注于东南亚多语种环境,推动了 AI 技术在小语种地区 的本土化应用。 开源模式是人工智能科技创新的重要催化剂。围绕成熟的开源模 型项目,往往会形成活跃的开源社区,社区成员可以通过民主、开放 的形式共同进行项目的开发和维护工作,从而形成一个强大的知识网 络以优化大模型的产品体验6。开源社区不仅加速了技术经验的积累 与模型迭代进程,更为模型技术的发展提供了多元化技术路线,避免 陷入“局部最优”的技术陷阱。当前,尽管 Transformer 架构在自然 6 参见陈光沛,魏江,李拓宇:《开源社区:研究脉络、知识框架和研究展望》,载《外国经济与管理》 2021 年第 2 期,第 84-102 页。 5 语言处理领域占据主导地位,但众多开源项目仍在持续探索替代架构 的优化路径,寻求新的技术突破,体现了开源生态对技术创新的持续 推动作用。 开源正在成为人工智能商业模式的重要孵化器。开源模式开放与 灵活的特性助力企业快速构建技术生态,推动人工智能从实验研究走 向规模化商业落地。目前,领先的 AI 企业普遍采用开源与闭源并行 的混合策略。其中, Meta、阿里巴巴等企业倾向于通过开源社区带动 衍生生态建设;而具备先发优势的厂商如 OpenAI,在推进核心闭源 产品的同时,也积极参与开源生态,陆续发布 GPT-oss-120b 等开源模 型。随着用户定制化需求日益增强, 开源模型企业正逐步从产品输出 转向服务赋能,协助用户构建领域专用模型并提供持续优化支持。通 过开源策略,企业能够吸引第三方开发者围绕其技术栈构建应用生态, 强化品牌影响力与行业话语权,并拓展硬件销售、计算服务、培训咨 询等多元化营收渠道。 开源在人工智能风险治理中发挥探照灯作用。闭源模型因缺乏透 明度,屡次引发安全与合规事件。相较之下,开源模型的框架、参数、 算法与数据公开可查,便于研究人员与开发者审查代码、识别漏洞与 纠正偏差。在合规层面, 训练数据的公开性使第三方能够核查数据来 源与使用方式,促使开发者更好地遵守数据法规,保障数据主体权益。 在伦理层面,模型内部机制的可审查性增强了其可解释性,有助于识 别潜在的偏见与歧视问题。值得注意的是, 开源社区成员具有多元文 化背景,有助于确保模型在设计阶段充分考虑不同群体需求,增强技 6 术的包容性与公平性。 (三) 从个人到国家:开源释放人工智能效能 开源推动用户角色由技术“消费者”向“创造者”转变,为个体 提供了高度灵活的定制化路径。随着人工智能技术的颠覆性演进,模 型不再仅是通用生产工具,更成为用户构建专属应用的关键平台。在 闭源模式下,终端用户与模型提供方构成典型的“消费—供给”关系, 用户难以洞察模型生成内容的内在逻辑与实现机制,仅能单向接收 “算法黑箱”的输出结果,难以获取贴合特定业务场景或个性化表达 需求的响应。而开源模型则赋予用户基于自有数据进行定向微调的能 力,例如个人可借助知识库,构建专属内容生成工具,实现真正意义 上的场景适配与功能自主。 开源显著降低人工智能技术的研发与应用门槛,为企业提供了低 成本、高效率的实践路径。 模型的技术效果高度依赖于海量数据与强 大算力支持,对中小企业而言,从零开展模型架构设计、数据采集清 洗与基础模型预训练等工作面临巨大挑战。开源模型通过释放经过预 训练的基础模型,使应用企业能够深入理解其工作机制,并基于此开 展面向特定场景的深度优化与数据再训练。此外, 开源模式促进了跨 行业技术的交叉融合,各领域企业可对模型进行灵活修改与功能扩展, 催生更具创新性的应用形态与产品体系。 开源整合全球人工智能知识与资源,为国家层面推动前沿科技与 智能产业发展提供核心驱动力。作为一种新型协作机制,开源有效促 进了人才、技术、算力与产业链资源在全球范围内的优化配置。模型 7 开源社区构建了覆盖基础设施、软件环境、算法框架与预训练模型的 全栈技术体系,并依托强大的算力支持与学习资源,为开发者和研究 者提供平等参与机会,持续激发创新活力。同时, 跨学科、跨领域的 知识融合为人工智能关键科学问题的突破提供了新思路与新方法,推 动技术实现持续迭代与系统创新。企业的深度参与进一步为开源模型 的研发与社区共创注入资金与技术动力,依托开源生态所形成的成熟 商业模式也反哺技术体系的纵深发展,促进创新链与产业链深度融合, 实现技术供给与市场需求的动态适配,全面增强国家在前沿科技与智 能产业领域的综合竞争力。 二、五大环节构筑开源人工智能生态根基 随着开源理念在人工智能领域的深度渗透,数据、模型与软件的 开放协作持续深化,人工智能开源生态逐步由技术探索阶段迈向系统 化构建的新时期,已成为驱动全球智能技术创新与产业协同的关键力 量。当前, 该生态体系围绕五大核心环节稳步演进:开源项目构成系 统核心,开源社区提供组织保障,开源协议确立行为准则,开源贡献 者注入创新动力,开源使用者形成应用支撑。五大环节相互依存、协 同演进,共同构筑起全球人工智能开源生态的坚实基础(见图 3)。 8 来源:中国信息通信研究院 图 3 人工智能开源生态架构图 (一) 开源项目体系化发展,中国模型优势凸显 人工智能开源项目正步入体系化与规模化并重的发展阶段,呈现 出由分散式创新向系统性集群演进的重要趋势。开源模型逐步由单一 任务型模型发展为系列化家族结构与多尺寸版本并行的完整体系,形 成覆盖多领域、全场景的技术栈。以 Qwen 与 DeepSeek 为代表的开 源模型体系持续迭代,已构建从轻量级推理到企业级应用的多层次产 品矩阵。 中国开源力量在全球人工智能格局中快速崛起,模型体系构建能 力显著增强。以通义千问(Qwen)为例,其于 2025 年发布的 Qwen3 系列涵盖 0.6B 至 32B 的稠密模型,以及 30B 、235B 的混合专家模 型,形成多层次、全场景的技术布局。同时,衍生的 Qwen3-VL 多模 态分支支持图文跨模态理解,Qwen-Image 模型专注于视觉生成与编 辑任务,实现从移动端轻量化部署到企业级复杂语义分析的全场景覆 盖。截至 2025 年 10 月,Qwen 系列在开源托管平台的累计下载量突 9 破 6 亿次,展现出强大的生态吸引力与行业影响力。 全球人工智能开源项目增长率远超传统软件项目。传统软件创新 已进入成熟稳定期,2025 年 GitHub 平台仓库增长率仅为 22%(见图 4)。相比之下, 面向人工智能的开源平台保持爆发式增长态势。截至 2025 年 10 月,Hugging Face 平台托管模型数量已达 215 万个,同比 增长 115%,成为全球 AI 模型共享与分发的核心枢纽(见图 5)。 10 700 600 500 400 300 200 100 0  23% 630.00 515.00 420.00 22% 2023年 2024年 2025年 仓库总数(百万) 增长率  22.65% 22.60% 22.55% 22.50% 22.45% 22.40% 22.35% 22.30% 22.25% 22.20% 22.15% 来源:GitHub,中国信息通信研究院,2025 年 10 月 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率 250.00 200.00 150.00 100.00 50.00 0.00  186% 215.00 115% 100.00 35.00 2023年10月 2024年10月 2025年10月 模型数(万) 增长率  200.00% 180.00% 160.00% 140.00% 120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 中国开源模型正在成为全球开源生态中不可忽视的重要力量,在 部分指标上已具备显著竞争优势。在政策支持与产业需求的双重驱动 下,魔搭社区发展尤为突出。截至 2025 年,其托管模型数量突破 11 万个,同比增长 644%,成为全球增长最快的 AI 开源平台之一(见图 6)。平台汇聚开发者超过 1800 万,累计模型下载量超 1 亿次。与此 同时, 中国开源模型在全球应用中占据主导地位,《STATE OF AI REPORT》显示, 中国开源模型在全球采用率达 63%,显著高于美国 的 31%与欧盟的 6%(见图 7)。具体而言,截至 2025 年 9 月,Hugging Face 平台下载量前四的开源模型中,中国占据两席( Qwen 与 DeepSeek)。 11 14 12 10 8 6 4 2 0  644% 11.90 596% 1.60 0.23 2023年10月 2024年10月 2025年10月 模型数(万) 增长率  650% 640% 630% 620% 610% 600% 590% 580% 570% 来源:魔搭社区,中国信息通信研究院,2025 年 10 月 图 6 2023-2025 年魔搭平台托管模型数量与增长率 12 70% 60% 50% 40% 30% 20% 10% 0%  63% 31% 6% 中国 美国 欧盟 开源模型采用率 来源:STATE OF AI REPORT,中国信息通信研究院,2025 年 10 月 图 7 中美欧开源模型应用采用率 人工智能开源项目核心由模型、数据与工具链构成, 呈现多元化 发展路径与显著的飞轮效应。开源模型作为主要驱动力,在性能上持 续突破。斯坦福大学《2025 年人工智能指数报告》指出, 开源与闭源 模型在语言、知识、推理等通用能力方面的平均得分差距已从 2024 年 的 8%缩小至 1.7%,表明开源模型正逼近甚至部分超越闭源水平。实 验研究进一步显示,开源模型在特定任务中展现出超越性表现。根据 Vercel 测试结果,中国开源模型 Kimi K2 在智能体应用场景中的准确 率显著优于 GPT-5 、Claude Sonnet4.5 等前沿闭源模型,超出幅度达 20%;上海 AI Lab 的 P1 模型在 2025 年国际物理奥赛中夺得金牌, 成为首个在此类顶级科学竞赛中超越闭源模型的开源模型。 开源数据集数量、规模与质量全面提升,为模型能力的快速迭代 提供了坚实支撑。截至 2025 年 10 月,Hugging Face 平台托管数据集 超 53 万套,同比增长逾 80%;国内魔搭平台数据集数量突破 2 万套。 单个数据集规模亦显著扩大,标志着大规模多模态时代的到来。例如, 由华盛顿大学、Salesforce Research 与斯坦福大学等机构联合构建的 MINT-1T 数据集规模达万亿 token 级,为同类数据集的 10 倍(见图 8)。数据类型呈现多元化趋势,从早期文本与图像为主的单模态形态, 扩展至语音、视频及跨模态复合形态,视觉-语言、音频-文本等多模 态数据集快速增长。国内数据集在中文语料覆盖度、标注质量与行业 知识密度方面具备突出优势,有力支撑长文本理解、跨模态推理与行 业知识问答等任务。 13 1200 1000 800 600 400 200 0  1000 400 400 210 130 40 MMC4 OBELICS CM3 MM1 Chameleon MINT-1T 文本Token数量(10亿) 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 8 主流人工智能开源数据集规模对比 开源模型软件工具链逐步构建起涵盖训练、数据处理、推理部署、 评测监控的全流程技术体系。随着产业协同深化,跨机构共建格局加 速形成,开源工具链从分散探索迈向系统化发展阶段。截至 2024 年 底,数百家企业与科研机构深度参与开源人工智能工具研发,覆盖模 型训练、微调、部署与监测等关键环节。 在模型训练方面,DeepSeek 工具显著提升训练效率,其 DeepGEMM 计算库针对 NVIDIA GPU 深 度优化,性能较官方库提升 2.7 倍,使 MoE 模型训练周期缩短约58%。 在推理方面,vLLM 通过动态张量并行、高效内存管理和异步推理等 技术显著提升了推理速度与资源利用率。在通信协议方面,MCP 协 议实现了智能体与外部工具的统一接口标准,增强了模型生态的兼容 性与互操作性。多领域工具的开源共同完善了工具链技术布局, 在稳 定性、可扩展性与可信性方面持续提升, 为人工智能研发创新与产业 落地奠定坚实技术基础。 (二) 开源社区分化鲜明,结构多元化演进 作为人工智能开源生态的关键载体,开源社区已逐步形成平台型、 项目型与组织型三类主体并存的多元格局。各类社区在功能定位、发 展路径与协作模式上呈现出显著差异,通过高效的资源整合与全球化 的协同创新,精准匹配开源生态的需求与供给,为技术持续演进与产 业落地注入核心动力。 平台型社区以集成模型、算力与工具链资源为核心特征,形成“一 超多强”的全球竞争格局,致力于构建以“模型即服务”为特色的产 业闭环。 国际层面,Hugging Face 作为核心枢纽,在模型汇聚、数据托管 与工具链建设方面处于领先地位。截至 2025 年 10 月,该平台已托管 开源模型超过 216 万个,累计获得近 4 亿美元融资,吸引包括 Meta 、 Google、微软、阿里巴巴在内的超 5000 家企业、科研机构及非营利 组织参与共建。其构建的训练—评测—部署全流程工具链体系,已成 为全球开源人工智能研发的基础设施。 国内平台则以场景落地与产业融合为导向,形成差异化竞争优势。 14 以魔搭、魔乐、焕新等为代表的社区, 在中文语料支持、行业应用适 配与多模态能力建设方面取得显著进展。相比国际平台, 国内平台更 注重降低模型使用门槛,通过提供普惠算力与行业解决方案,推动开 源技术在金融、医疗、制造、政务等关键领域的规模化落地。例如, 魔搭社区已上 MCP 服务超 3000 项,并提供长期算力支持;由国务院 国资委统筹的焕新平台,联合 150 余家央企、民企及高校,构建起“算 力、模型、数据、国产化、场景、专区”六位一体的服务体系。 项目型社区围绕具体开源模型、数据或工具链项目构建, 通过持 续迭代与生态衍生,形成开放、协同的技术创新体系。 模型类项目社区以 Qwen 、LIama 等为代表,强调全模态、多场 景的技术布局,推动基础模型、算法框架与应用生态的协同演进。截 至 2025 年 10 月,通义千问累计开源模型超 300 个,总下载量突破 6 亿次,展现出强大的技术辐射与生态扩展能力。 模型类别 语言模型 视觉模型 代码模型 数学模型 表 1 主流开源模型系列 Qwen 系列开源模型 Llama 系列开源模型 Qwen3 、Qwen2.5 等 Llama4 、Llama3.1 等 Qwen3-VL 等 - Qwen2.5-Coder 等 CodeLlama 等 Qwen2.5-Math 等 - 15 图像生成模型 全模态模型 Qwen-Image - Qwen3-Omni - 来源:中国信息通信研究院,2025 年 10 月 工具类项目社区则致力于构建“算法—算力—数据”一体化的开 源工具链。Paddle 、FlagOpen 、TensorFlow 与 MindSpore 等平台,提 供从模型研发、训练到部署的全流程支持,在分布式训练、高效推理、 参数复用与多模态适配等方面持续突破,显著降低开发门槛与研发成 本。 数据类项目社区通过众包与协作机制,推动高质量开放数据集的 共建共享。例如, Mozilla 发起的 Common Voice 项目已收录约 3 万小 时语音数据,覆盖 180 种语言;The Pile 项目整合 PubMed、ArXiv 等 多个高质量数据源,为 Bloom 、GPT-NeoX 等重要开源模型提供训练 基础。总体来看, 项目型社区通过聚焦核心模块,推动模型、工具与 数据的系统创新,构建了开放、多层的人工智能研发生态。 组织型社区主要承担标准制定与行业治理职能,在推动人工智能 开源生态健康与可持续发展中发挥关键作用。 当前,人工智能模型在开放维度上存在显著差异,体现在权重公 开、训练数据可用性、推理过程透明度与优化能力开放程度等多个方 面,形成从“受限开放”到“全面开放”的开放层次。中国信息通信 研究院联合开源创新发展推进中心联合编写的《开放人工智能透明度 等级划分》将模型透明度划分为从 D 级至 A 级的四个等级,涵盖开 16 放部署、开放优化、开放理解与开放复现等维度(见图 9),为模型开 放实践提供了量化评估框架。 来源:中国信息通信研究院,2025 年 10 月 图 9 开放人工智能透明度等级划分 在国际层面,开源促进会发布的《开源 AI 定义》明确提出“研 究自由、修改自由、分发自由”三项基本原则,为判定项目是否真正 开源提供核心依据。LFAI & Data 基金会提出的模型开放框架则重点 关注模型的透明度、可复现性与可用性, 推动开源模型在研发与应用 中的合规发展。在国际合作方面, 中国-金砖国家人工智能发展与合作 中心联合开放原子开源基金会等机构发布《国际人工智能开源合作倡 议》,提出“共商技术路线、共建开放社区、共促标准互认、共享发展 成果”四大方向,为全球开源生态治理提供了合作框架,推动人工智 能开源走向规范、协同与可持续发展。 (三) 开源协议范式转变,从自由开放到责任治理 人工智能模型的开放策略日趋多样化,许可体系向责任化的方向 演进。随着开源理念在人工智能领域的深化,相关定义和标准不断完 善。2024 年,开放源代码促进会(OSI)正式发布《Open Source AI Definition(OSAID)1.0》,明确提出“研究自由、修改自由、分发自 由”等核心原则,为人工智能开源确立了基本框架。然而,伴随模型 17 能力提升与社会影响扩大,单纯的“完全开放”已难以平衡创新与风险 之间的关系。随着治理与合规要求不断提升,“负责任的 AI 许可证” (Responsible AI License, RAIL)体系迅速崛起,成为全球开源治理 的重要方向。截至 2025 年 10 月,OpenRAIL 系列许可证已成为 Hugging Face 平台第三大主流许可类别,覆盖项目数超过 3.7 万个, 仅次于 Apache-2.0 与 MIT(见图 10)。不同于传统宽松型许可, Open RAIL-M 在传统开源精神基础上引入行为约束,明确禁止模型被用于 违法行为、虚假信息传播、歧视性用途或监控场景, 标志着人工智能 开源从“自由使用”向“责任共享”的理念转变。 18 400000 350000 300000 250000 200000 150000 100000 50000 0  337332 123761 89025 37928 apache-2.0 mit other openrail 项目数量 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 10 Hugging Face 平台主要许可协
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服