ImageVerifierCode 换一换
格式:PDF , 页数:54 ,大小:2.44MB ,
资源ID:13165080      下载积分:20 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13165080.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(人工智能开源生态研究报告(2025年).pdf)为本站上传会员【宇***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

人工智能开源生态研究报告(2025年).pdf

1、 人工智能开源生态研究报告人工智能开源生态研究报告 (20252025 年年)云计算开源产业联盟 开源创新发展推进中心 2025年12月 编制说明编制说明 本报告由云计算开源产业联盟开源创新发展推进中心撰写,限于撰写组时间、知识局限以及技术、社会发展迭代等因素,内容恐有疏漏,烦请各位读者不吝指正。在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通信研究院、中国平安人寿保险股份有限公司、东亚银行(中国)有限公司、中国电信股份有限公司研究院、麒麟软件有限公司、鼎道智联(北京)科技有限公司等。感谢各位秉承开源精神,协同共创,从多个视角提出了对于人工智能开源的理解,最终完成本报告的撰写工作。报

2、告撰稿人:俊哲、郭雪、李万宁、张子钰、宋罗娜、贾金鹏、王锴、周飞、陈亚阁、王悦、张方昌、周巍、任晓东、黄丽、陈慧、龙显军、江洪、黄琴、陈泳、刘敏、康艳红、张天雄、柴丹、李晓丽。前前 言言 当前,人工智能技术与开源模式的深度耦合,正引发全球科技创新范式与产业价值链的系统性重构。开源已超越单纯的代码共享范畴,演变为配置全球算力、数据与智力资源的核心机制。在算法框架、基座模型、工具链及数据要素等关键环节,开源生态的规模化渗透不仅大幅压缩了技术从实验室到产业界的转化周期,更有效消融了闭源技术垄断的壁垒。作为驱动数字经济高质量发展与培育新质生产力的核心引擎,开源人工智能为个人赋能、企业创新及国家技术自主

3、体系的构建提供了不可或缺的路径支撑。与此同时,开源人工智能的商业逻辑正经历深刻演变。以核心技术开放、生态资源共建与产业价值共创为特征的新型商业范式已趋于成熟,为产业的可持续发展奠定了结构性基础。然而,随着应用场景向深水区拓展,开源生态的系统复杂性与安全风险亦同步攀升。面对挑战,全球范围内的政府、科研机构与产业界正加速构建协同治理体系,推动开源发展从“自发式增长”向“制度化、体系化演进”转型,以确保技术红利的安全释放。本报告基于开源创新发展推进中心的研究成果,立足 2025 年产业新局,全景式解析人工智能开源生态的演进态势。报告紧扣五大核心环节与三大驱动引擎,深入剖析技术、商业与治理的互动逻辑,

4、旨在为我国人工智能开源生态建设、产业布局优化及政策制定提供科学化、前瞻性的决策依据。目录目录 一、人工智能驱动开源向多元化范式演进.1(一)从软件到模型:开源范式的延续与创新性演进.1(二)从垄断到开放:开源重塑人工智能产业生态.4(三)从个人到国家:开源释放人工智能效能.7 二、五大环节构筑开源人工智能生态根基.8(一)开源项目体系化发展,中国模型优势凸显.9(二)开源社区分化鲜明,结构多元化演进.14(三)开源协议范式转变,从自由开放到责任治理.17(四)开源贡献规模持续扩大,模型衍生创新呈现集聚态势.21(五)全球开源 AI 应用需求持续扩张,规模化落地进程加速.24 三、政策引擎:开源

5、产业布局与生态治理协同推进.27(一)美国:制度性扶持与安全治理双轨并行.27(二)欧洲:监管先行与合规导向的发展路径.28(三)中国:体系化部署与区域协同发展.30 四、商业引擎驱动:开源生态活力加速释放.33(一)开源人工智能主流商业模式趋于成熟.34(二)商业资本向头部聚集,应用层成为投资热点.36 五、治理引擎驱动:各方协同联动构建生态锚点.39(一)人工智能开源衍生多维度新型风险.39(二)企业级开源治理体系与全生命周期管理.41 六、我国开源人工智能生态完善建议.45 图图 目目 录录 图 1 人工智能开源形式.2 图 2 人工智能模型的开放访问等级.4 图 3 人工智能开源生态架

6、构图.9 图 4 2023-2025 年 GitHub 平台托管仓库数量与增长率.10 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率.11 图 6 2023-2025 年魔搭平台托管模型数量与增长率.11 图 7 中美欧开源模型应用采用率.12 图 8 主流人工智能开源数据集规模对比.13 图 9 开放人工智能透明度等级划分.17 图 10 Hugging Face 平台主要许可协议使用分布.18 图 11 全球开源贡献者分布与开发者数量变化趋势.22 图 12 2025 年第三季度典型开源大模型 Tokens 调用量对比.25 图 13 企业使用开源模型

7、主要情况占比.25 图 14 人工智能开源应用的主要行业分布.26 图 15 各地区包含开源内容的政策分布.32 图 16 人工智能开源商业模式结构示意图.34 图 17 开源人工智能的典型商业模式分类.34 图 18 全球商业开源软件企业融资领域.37 图 19 全生命周期分阶段防控策略.43 表表 目目 录录 表 1 主流开源模型系列.15 表 2 国内外典型大模型许可协议类型表.19 表 3 企业入选“重要模型”数量.23 表 4 部分地区人工智能开源支持政策汇总表.32 表 5 2022-2024 年国内商业开源企业部分融资情况.38 表 6 典型模型主要风险类型及占比表.40 表 7

8、 企业治理体系中角色与职责分工表.42 表 8 人工智能开源数据合规管理策略.43 表 9 人工智能开源项目物料清单.45 1 一、人工智能驱动开源向多元化范式演进 开源作为一种开放协作的范式,其应用边界已从传统软件领域系统性拓展至开源硬件、开放数据及开源大模型等多元形态。这一演进的本质在于突破技术壁垒,构建资源共享与协同创新的机制。相较于闭源模式,开源不仅重构了人工智能的产业生态链,更在个人、企业及国家层面拓展了技术自主与应用创新的纵深空间。(一一)从软件到模型:开源范式的延续与创新性演进从软件到模型:开源范式的延续与创新性演进 开源思想兴起于软件开发领域,软件开源核心在于源代码开放。“开源

9、Open Source)概念根植于上世纪五十年代以来自由开放的计算机文化,并随着开源软件促进会(Open Source Initiative Association,OSI)经典开源定义的确立,逐渐形成共识。在传统软件行业,源代码凝结了创作者的设计思想、实现方法和具体表达,因此软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发展,开源已成为现代软件产业的主流开发模式。目前,全球 96%的商业代码库中包含开源软件,并且商业代码库中 77%的代码直接源自开源软件1。开源模式应用场景不断拓展,人工智能开源实现了技术资产维度的突破性扩展。随着数字时代的到来和全球互联的加深,开源模式在不同

10、场景的应用过程中逐渐衍生出开放数据、开放模型等多种概念形 1 新思科技:2024 年开源安全和风险分析报告,网络地址:integrity/resources/analyst-reports/open-source-security-risk-analysis.html,最后访问日期:2025 年 10 月 11日。2 态,成为人工智能技术创新、开放共享、可持续发展的源头活水。传统软件开源核心围绕代码仓库、开发工具等软件生命周期资源展开协作;而人工智能开源不仅包含软件代码,更延伸至模型(如大语言模型、多模态模型等)、语料数据(行业数据、科学数据等)等多元技术资产,形成“数据模型软件”的全链路开放

11、生态,重塑了技术创新的组织方式与资源流通机制(见图 1)。图 1 人工智能开源形式 开源人工智能的定义正日趋明确,其核心始终围绕开放性与可复现性两项基本原则。为促进开源思想在人工智能技术领域的贯彻和落实,OSI 组织凝聚各方共识,探索开源 AI 定义,为用户和开发者提供判定 AI 模型是否开源的概念框架。根据当前定义2,开源人工智能系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是 2 The Open Source AI Definition-1.0-RC1,网络地址:https:/opensource.org/deepd

12、ive/drafts/the-open-source-ai-definition-1-0-rc1。3 允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定义的基本原则一致,该定义延续了开源软件的基本精神,明确要求开源模型在权重、代码及训练数据等关键组成部分具备开放性与可复现性,从而为模型的持续迭代与社区协作奠定基础。开放性构成了开源人工智能吸纳广泛社区贡献的基本前提。具体而言,开放性体现为将模型的开发方法、训练过程及关键成果向社会全面公开,不设访问、复制与审查的限制3。典型可开放内容包括模型结构、参数权重、源代码以及用于训练的

13、数据集,不同模型在实际开放范围上存在差异。依据 OSI 组织的相关定义4,开源模型须在许可协议或条款下向公众公开“适合修改的形式”,包括模型权重和参数,训练和运行 AI 系统的全部源代码,以及有关训练数据的详细信息,而不强制要求开源模型公开全部的原始训练数据。实践中,不同模型的开放程度存在较大差异,基于斯坦福大学基础模型研究中心发布的AI 系统访问等级,完全封闭到完全开放之间存在多个渐进的开放层级(见图 2)。3 M.A.Peters and P.Roberts,Virtues of openness:Education,science,and scholarship in the digit

14、al age.Routledge,2015.4 The Open Source AI Definition-1.0-RC1,网络地址:https:/opensource.org/deepdive/drafts/the-open-source-ai-definition-1-0-rc1。4 来源:斯坦福大学,中国信息通信研究院 图 2 人工智能模型的开放访问等级5 可复现性是支撑开源人工智能研究可信性与应用可靠性的关键基石。可复现性确保使用者能够在相同或异构环境中独立运行模型,重现其所报告的技术性能,为模型的科学验证、性能评估与二次创新提供基础。在模型技术体系中,实现可复现性要求开发者尽可能提供

15、完整的数据集、训练代码、超参数配置以及模型结构说明,使社区能够验证其性能指标、复现关键实验结果,并进一步从数据、算法与架构等维度对模型实施优化与创新。这一过程不仅增强了模型研究的透明度和可信度,也构成了人工智能技术持续演进与跨代发展的重要机制。(二二)从垄断到开放:开源重塑人工智能产业生态从垄断到开放:开源重塑人工智能产业生态 开源已成为打破人工智能技术垄断格局的关键力量。在传统商业模式下,企业通常依赖技术封闭构建竞争壁垒,以维持长期市场优势。开源模式通过开放模型架构与核心技术,有效破解了由闭源体系所带来的技术依赖问题,显著激发了市场创新活力。用户获取开源模型后,可依据特定场景与个性化需求进行

16、自适应优化,大幅降低对高成本商 5 Rishi Bommasani et al.,“Considerations for Governing Open Foundation Models”,网络地址:https:/www.science.org/doi/10.1126/science.adp1848 5 业方案或单一供应商的依附。典型例证是,Meta 公司推出的 Llama 系列开源大模型,成功打破了由 OpenAI 等少数厂商主导的大模型市场格局。同时,开源模型鼓励广泛的社区参与和协作共创,极大提升了技术迭代效率,促进市场良性竞争与生态多元化发展。开源是推动人工智能技术普及与产业应用的重要推

17、动力。开源开放显著降低了人工智能模型的部署与应用门槛,使人工智能技术得以广泛应用于金融、医疗、教育、能源、法律等领域。基于开源模型的行业应用生态正加速成熟。以DeepSeek系列模型为例,其开源的V3、R1 及 V3.1 等版本,凭借在复杂推理、代码生成与工具调用等方面的先进能力,已被广泛集成于各类行业解决方案之中。此外,大模型开源也有助于促进人工智能技术在资源受限地区的普及,提升欠发达区域与群体的数字化发展机会。例如,基于 Qwen 训练开发的开源语言模型 Sailor,专注于东南亚多语种环境,推动了 AI 技术在小语种地区的本土化应用。开源模式是人工智能科技创新的重要催化剂。围绕成熟的开源

18、模型项目,往往会形成活跃的开源社区,社区成员可以通过民主、开放的形式共同进行项目的开发和维护工作,从而形成一个强大的知识网络以优化大模型的产品体验6。开源社区不仅加速了技术经验的积累与模型迭代进程,更为模型技术的发展提供了多元化技术路线,避免陷入“局部最优”的技术陷阱。当前,尽管 Transformer 架构在自然 6 参见陈光沛,魏江,李拓宇:开源社区:研究脉络、知识框架和研究展望,载外国经济与管理2021 年第 2 期,第 84-102 页。6 语言处理领域占据主导地位,但众多开源项目仍在持续探索替代架构的优化路径,寻求新的技术突破,体现了开源生态对技术创新的持续推动作用。开源正在成为人工

19、智能商业模式的重要孵化器。开源模式开放与灵活的特性助力企业快速构建技术生态,推动人工智能从实验研究走向规模化商业落地。目前,领先的 AI 企业普遍采用开源与闭源并行的混合策略。其中,Meta、阿里巴巴等企业倾向于通过开源社区带动衍生生态建设;而具备先发优势的厂商如 OpenAI,在推进核心闭源产品的同时,也积极参与开源生态,陆续发布 GPT-oss-120b 等开源模型。随着用户定制化需求日益增强,开源模型企业正逐步从产品输出转向服务赋能,协助用户构建领域专用模型并提供持续优化支持。通过开源策略,企业能够吸引第三方开发者围绕其技术栈构建应用生态,强化品牌影响力与行业话语权,并拓展硬件销售、计算

20、服务、培训咨询等多元化营收渠道。开源在人工智能风险治理中发挥探照灯作用。闭源模型因缺乏透明度,屡次引发安全与合规事件。相较之下,开源模型的框架、参数、算法与数据公开可查,便于研究人员与开发者审查代码、识别漏洞与纠正偏差。在合规层面,训练数据的公开性使第三方能够核查数据来源与使用方式,促使开发者更好地遵守数据法规,保障数据主体权益。在伦理层面,模型内部机制的可审查性增强了其可解释性,有助于识别潜在的偏见与歧视问题。值得注意的是,开源社区成员具有多元文化背景,有助于确保模型在设计阶段充分考虑不同群体需求,增强技 7 术的包容性与公平性。(三三)从个人到国家:开源释放人工智能效能从个人到国家:开源释

21、放人工智能效能 开源推动用户角色由技术“消费者”向“创造者”转变,为个体提供了高度灵活的定制化路径。随着人工智能技术的颠覆性演进,模型不再仅是通用生产工具,更成为用户构建专属应用的关键平台。在闭源模式下,终端用户与模型提供方构成典型的“消费供给”关系,用户难以洞察模型生成内容的内在逻辑与实现机制,仅能单向接收“算法黑箱”的输出结果,难以获取贴合特定业务场景或个性化表达需求的响应。而开源模型则赋予用户基于自有数据进行定向微调的能力,例如个人可借助知识库,构建专属内容生成工具,实现真正意义上的场景适配与功能自主。开源显著降低人工智能技术的研发与应用门槛,为企业提供了低成本、高效率的实践路径。模型的

22、技术效果高度依赖于海量数据与强大算力支持,对中小企业而言,从零开展模型架构设计、数据采集清洗与基础模型预训练等工作面临巨大挑战。开源模型通过释放经过预训练的基础模型,使应用企业能够深入理解其工作机制,并基于此开展面向特定场景的深度优化与数据再训练。此外,开源模式促进了跨行业技术的交叉融合,各领域企业可对模型进行灵活修改与功能扩展,催生更具创新性的应用形态与产品体系。开源整合全球人工智能知识与资源,为国家层面推动前沿科技与智能产业发展提供核心驱动力。作为一种新型协作机制,开源有效促进了人才、技术、算力与产业链资源在全球范围内的优化配置。模型 8 开源社区构建了覆盖基础设施、软件环境、算法框架与预

23、训练模型的全栈技术体系,并依托强大的算力支持与学习资源,为开发者和研究者提供平等参与机会,持续激发创新活力。同时,跨学科、跨领域的知识融合为人工智能关键科学问题的突破提供了新思路与新方法,推动技术实现持续迭代与系统创新。企业的深度参与进一步为开源模型的研发与社区共创注入资金与技术动力,依托开源生态所形成的成熟商业模式也反哺技术体系的纵深发展,促进创新链与产业链深度融合,实现技术供给与市场需求的动态适配,全面增强国家在前沿科技与智能产业领域的综合竞争力。二、五大环节构筑开源人工智能生态根基 随着开源理念在人工智能领域的深度渗透,数据、模型与软件的开放协作持续深化,人工智能开源生态逐步由技术探索阶

24、段迈向系统化构建的新时期,已成为驱动全球智能技术创新与产业协同的关键力量。当前,该生态体系围绕五大核心环节稳步演进:开源项目构成系统核心,开源社区提供组织保障,开源协议确立行为准则,开源贡献者注入创新动力,开源使用者形成应用支撑。五大环节相互依存、协同演进,共同构筑起全球人工智能开源生态的坚实基础(见图 3)。9 来源:中国信息通信研究院 图 3 人工智能开源生态架构图(一一)开源项目体系化发展,中国模型优势凸显开源项目体系化发展,中国模型优势凸显 人工智能开源项目正步入体系化与规模化并重的发展阶段,呈现出由分散式创新向系统性集群演进的重要趋势。开源模型逐步由单一任务型模型发展为系列化家族结构

25、与多尺寸版本并行的完整体系,形成覆盖多领域、全场景的技术栈。以 Qwen 与 DeepSeek 为代表的开源模型体系持续迭代,已构建从轻量级推理到企业级应用的多层次产品矩阵。中国开源力量在全球人工智能格局中快速崛起,模型体系构建能力显著增强。以通义千问(Qwen)为例,其于 2025 年发布的 Qwen3系列涵盖 0.6B 至 32B 的稠密模型,以及 30B、235B 的混合专家模型,形成多层次、全场景的技术布局。同时,衍生的 Qwen3-VL 多模态分支支持图文跨模态理解,Qwen-Image 模型专注于视觉生成与编辑任务,实现从移动端轻量化部署到企业级复杂语义分析的全场景覆盖。截至 20

26、25 年 10 月,Qwen 系列在开源托管平台的累计下载量突 10 破 6 亿次,展现出强大的生态吸引力与行业影响力。全球人工智能开源项目增长率远超传统软件项目。传统软件创新已进入成熟稳定期,2025 年 GitHub 平台仓库增长率仅为 22%(见图4)。相比之下,面向人工智能的开源平台保持爆发式增长态势。截至2025 年 10 月,Hugging Face 平台托管模型数量已达 215 万个,同比增长 115%,成为全球 AI 模型共享与分发的核心枢纽(见图 5)。来源:GitHub,中国信息通信研究院,2025 年 10 月 图 4 2023-2025 年 GitHub 平台托管仓库数

27、量与增长率 420.00 515.00 630.00 23%22%22.15%22.20%22.25%22.30%22.35%22.40%22.45%22.50%22.55%22.60%22.65%01002003004005006007002023年2024年2025年仓库总数(百万)增长率35.00 100.00 215.00 186%115%0.00%20.00%40.00%60.00%80.00%100.00%120.00%140.00%160.00%180.00%200.00%0.0050.00100.00150.00200.00250.002023年10月2024年10月2025年

28、10月模型数(万)增长率 11 来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 5 2023-2025 年 Hugging Face 平台托管模型数量与增长率 中国开源模型正在成为全球开源生态中不可忽视的重要力量,在部分指标上已具备显著竞争优势。在政策支持与产业需求的双重驱动下,魔搭社区发展尤为突出。截至 2025 年,其托管模型数量突破 11万个,同比增长 644%,成为全球增长最快的 AI 开源平台之一(见图6)。平台汇聚开发者超过 1800 万,累计模型下载量超 1 亿次。与此同时,中国开源模型在全球应用中占据主导地位,STATE OF AI REPORT

29、显示,中国开源模型在全球采用率达 63%,显著高于美国的 31%与欧盟的 6%(见图 7)。具体而言,截至 2025 年 9 月,Hugging Face 平台下载量前四的开源模型中,中国占据两席(Qwen 与DeepSeek)。来源:魔搭社区,中国信息通信研究院,2025 年 10 月 图 6 2023-2025 年魔搭平台托管模型数量与增长率 0.23 1.60 11.90 596%644%570%580%590%600%610%620%630%640%650%024681012142023年10月2024年10月2025年10月模型数(万)增长率 12 来源:STATE OF AI RE

30、PORT,中国信息通信研究院,2025 年 10 月 图 7 中美欧开源模型应用采用率 人工智能开源项目核心由模型、数据与工具链构成,呈现多元化发展路径与显著的飞轮效应。开源模型作为主要驱动力,在性能上持续突破。斯坦福大学2025 年人工智能指数报告指出,开源与闭源模型在语言、知识、推理等通用能力方面的平均得分差距已从 2024 年的 8%缩小至 1.7%,表明开源模型正逼近甚至部分超越闭源水平。实验研究进一步显示,开源模型在特定任务中展现出超越性表现。根据Vercel 测试结果,中国开源模型 Kimi K2 在智能体应用场景中的准确率显著优于 GPT-5、Claude Sonnet4.5 等

31、前沿闭源模型,超出幅度达20%;上海 AI Lab 的 P1 模型在 2025 年国际物理奥赛中夺得金牌,成为首个在此类顶级科学竞赛中超越闭源模型的开源模型。开源数据集数量、规模与质量全面提升,为模型能力的快速迭代提供了坚实支撑。截至 2025 年 10 月,Hugging Face 平台托管数据集超 53 万套,同比增长逾 80%;国内魔搭平台数据集数量突破 2 万套。单个数据集规模亦显著扩大,标志着大规模多模态时代的到来。例如,63%31%6%0%10%20%30%40%50%60%70%中国美国欧盟开源模型采用率 13 由华盛顿大学、Salesforce Research 与斯坦福大学等

32、机构联合构建的MINT-1T 数据集规模达万亿 token 级,为同类数据集的 10 倍(见图8)。数据类型呈现多元化趋势,从早期文本与图像为主的单模态形态,扩展至语音、视频及跨模态复合形态,视觉-语言、音频-文本等多模态数据集快速增长。国内数据集在中文语料覆盖度、标注质量与行业知识密度方面具备突出优势,有力支撑长文本理解、跨模态推理与行业知识问答等任务。来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 8 主流人工智能开源数据集规模对比 开源模型软件工具链逐步构建起涵盖训练、数据处理、推理部署、评测监控的全流程技术体系。随着产业协同深化,跨机构共建格局加速形成,

33、开源工具链从分散探索迈向系统化发展阶段。截至 2024 年底,数百家企业与科研机构深度参与开源人工智能工具研发,覆盖模型训练、微调、部署与监测等关键环节。在模型训练方面,DeepSeek工具显著提升训练效率,其 DeepGEMM 计算库针对 NVIDIA GPU 深度优化,性能较官方库提升 2.7 倍,使 MoE 模型训练周期缩短约 58%。401302104004001000020040060080010001200MMC4OBELICSCM3MM1ChameleonMINT-1T文本Token数量(10亿)14 在推理方面,vLLM 通过动态张量并行、高效内存管理和异步推理等技术显著提升了

34、推理速度与资源利用率。在通信协议方面,MCP 协议实现了智能体与外部工具的统一接口标准,增强了模型生态的兼容性与互操作性。多领域工具的开源共同完善了工具链技术布局,在稳定性、可扩展性与可信性方面持续提升,为人工智能研发创新与产业落地奠定坚实技术基础。(二二)开源社区分化鲜明,结构多元化演进开源社区分化鲜明,结构多元化演进 作为人工智能开源生态的关键载体,开源社区已逐步形成平台型、项目型与组织型三类主体并存的多元格局。各类社区在功能定位、发展路径与协作模式上呈现出显著差异,通过高效的资源整合与全球化的协同创新,精准匹配开源生态的需求与供给,为技术持续演进与产业落地注入核心动力。平台型社区以集成模

35、型、算力与工具链资源为核心特征,形成“一超多强”的全球竞争格局,致力于构建以“模型即服务”为特色的产业闭环。国际层面,Hugging Face 作为核心枢纽,在模型汇聚、数据托管与工具链建设方面处于领先地位。截至 2025 年 10 月,该平台已托管开源模型超过 216 万个,累计获得近 4 亿美元融资,吸引包括 Meta、Google、微软、阿里巴巴在内的超 5000 家企业、科研机构及非营利组织参与共建。其构建的训练评测部署全流程工具链体系,已成为全球开源人工智能研发的基础设施。国内平台则以场景落地与产业融合为导向,形成差异化竞争优势。15 以魔搭、魔乐、焕新等为代表的社区,在中文语料支持

36、行业应用适配与多模态能力建设方面取得显著进展。相比国际平台,国内平台更注重降低模型使用门槛,通过提供普惠算力与行业解决方案,推动开源技术在金融、医疗、制造、政务等关键领域的规模化落地。例如,魔搭社区已上 MCP 服务超 3000 项,并提供长期算力支持;由国务院国资委统筹的焕新平台,联合 150 余家央企、民企及高校,构建起“算力、模型、数据、国产化、场景、专区”六位一体的服务体系。项目型社区围绕具体开源模型、数据或工具链项目构建,通过持续迭代与生态衍生,形成开放、协同的技术创新体系。模型类项目社区以 Qwen、LIama 等为代表,强调全模态、多场景的技术布局,推动基础模型、算法框架与应用

37、生态的协同演进。截至 2025 年 10 月,通义千问累计开源模型超 300 个,总下载量突破 6亿次,展现出强大的技术辐射与生态扩展能力。表 1 主流开源模型系列 模型类别 Qwen 系列开源模型 Llama 系列开源模型 语言模型 Qwen3、Qwen2.5 等 Llama4、Llama3.1 等 视觉模型 Qwen3-VL 等-代码模型 Qwen2.5-Coder 等 CodeLlama 等 数学模型 Qwen2.5-Math 等-16 图像生成模型 Qwen-Image-全模态模型 Qwen3-Omni-来源:中国信息通信研究院,2025 年 10 月 工具类项目社区则致力于构建“算法

38、算力数据”一体化的开源工具链。Paddle、FlagOpen、TensorFlow 与 MindSpore 等平台,提供从模型研发、训练到部署的全流程支持,在分布式训练、高效推理、参数复用与多模态适配等方面持续突破,显著降低开发门槛与研发成本。数据类项目社区通过众包与协作机制,推动高质量开放数据集的共建共享。例如,Mozilla 发起的 Common Voice 项目已收录约 3 万小时语音数据,覆盖 180 种语言;The Pile 项目整合 PubMed、ArXiv 等多个高质量数据源,为 Bloom、GPT-NeoX 等重要开源模型提供训练基础。总体来看,项目型社区通过聚焦核心模块,推动

39、模型、工具与数据的系统创新,构建了开放、多层的人工智能研发生态。组织型社区主要承担标准制定与行业治理职能,在推动人工智能开源生态健康与可持续发展中发挥关键作用。当前,人工智能模型在开放维度上存在显著差异,体现在权重公开、训练数据可用性、推理过程透明度与优化能力开放程度等多个方面,形成从“受限开放”到“全面开放”的开放层次。中国信息通信研究院联合开源创新发展推进中心联合编写的 开放人工智能透明度等级划分将模型透明度划分为从 D 级至 A 级的四个等级,涵盖开 17 放部署、开放优化、开放理解与开放复现等维度(见图 9),为模型开放实践提供了量化评估框架。来源:中国信息通信研究院,2025 年 1

40、0 月 图 9 开放人工智能透明度等级划分 在国际层面,开源促进会发布的开源 AI 定义明确提出“研究自由、修改自由、分发自由”三项基本原则,为判定项目是否真正开源提供核心依据。LF AI&Data 基金会提出的模型开放框架则重点关注模型的透明度、可复现性与可用性,推动开源模型在研发与应用中的合规发展。在国际合作方面,中国-金砖国家人工智能发展与合作中心联合开放原子开源基金会等机构发布 国际人工智能开源合作倡议,提出“共商技术路线、共建开放社区、共促标准互认、共享发展成果”四大方向,为全球开源生态治理提供了合作框架,推动人工智能开源走向规范、协同与可持续发展。(三)开源协议范式转变,从自由开放

41、到责任治理开源协议范式转变,从自由开放到责任治理 人工智能模型的开放策略日趋多样化,许可体系向责任化的方向演进。随着开源理念在人工智能领域的深化,相关定义和标准不断完善。2024 年,开放源代码促进会(OSI)正式发布Open Source AI Definition(OSAID)1.0,明确提出“研究自由、修改自由、分发自由”等核心原则,为人工智能开源确立了基本框架。然而,伴随模型 18 能力提升与社会影响扩大,单纯的“完全开放”已难以平衡创新与风险之间的关系。随着治理与合规要求不断提升,“负责任的 AI 许可证”(Responsible AI License,RAIL)体系迅速崛起,成为全

42、球开源治理的重要方向。截至 2025 年 10 月,OpenRAIL 系列许可证已成为Hugging Face 平台第三大主流许可类别,覆盖项目数超过 3.7 万个,仅次于 Apache-2.0 与 MIT(见图 10)。不同于传统宽松型许可,Open RAIL-M 在传统开源精神基础上引入行为约束,明确禁止模型被用于违法行为、虚假信息传播、歧视性用途或监控场景,标志着人工智能开源从“自由使用”向“责任共享”的理念转变。来源:Hugging Face,中国信息通信研究院,2025 年 10 月 图 10 Hugging Face 平台主要许可协议使用分布 中国在开源许可本土化创新方面取得显著进

43、展。面对单一许可难以覆盖复杂应用场景的挑战,国内机构与平台积极构建更具针对性的许可框架。中国信息通信研究院“纸鸢”协议则聚焦模型输出的伦理边界与使用规范,明确禁止其直接应用于司法裁判、行政决策等高风3373321237618902537928050000100000150000200000250000300000350000400000apache-2.0mitotheropenrail项目数量 19 险场景,并建立输出责任追溯机制,形成以“伦理约束+责任可追溯”为核心的许可体系。这些实践推动我国开源治理从国际规则的被动适配转向自主创新。开源许可协议种类多样,是开源大模型应用、发展的法律基石。

44、当前全球人工智能开源许可体系呈现多元化格局,主要包含三大类型:通用型开源软件许可协议、知识共享许可协议及新型人工智能专项许可协议(见表 2)。通用型许可(如 Apache-2.0、MIT)以条款宽松促进商业化应用,但对模型参数、训练数据等人工智能核心要素覆盖不足,存在潜在版权与合规风险;知识共享许可(CC 系列)主要解决版权问题,但未涉及专利授权,在专利密集的人工智能领域适用性有限;新型人工智能专项许可(如 RAIL、Meta LLaMA、Stability AI 自定义协议)虽超出传统“开源”定义范畴,却能更好地平衡技术开放与社会责任,正逐步成为行业主流。表 2 国内外典型大模型许可协议类型

45、表 序号 企业名称 代表性 大模型 许可协议 协议类型 备注 1 阿里巴巴 Qwen 3 Apache 2.0 通用型许可(宽松型)与 MIT 相比增加专利授权和商标保护条款,要求标注修改内容,避免专利诉讼风险 2 Mistral AI Mistral Large 3 Apache 2.0 3 深度求索 DeepSeek V3.2 MIT 宽松型开源协议,允许自由 20 4 智谱 AI GLM-4.6 MIT 使用、修改和分发,无商业限制,需保留版权声明 5 MiniMax MiniMax-M2 modified-mit 对大型公司或产品,有模型名称展示要求 6 Meta Llama-4-Sc

46、out LLAMA 4 COMMUNITY LICENSE AGREEMENT 新型人工智能专项许可 限制性许可协议,对商用有特定限制 7 BigScience BLOOM BigScience RAIL License v1.0 对使用场景有伦理限制 来源:中国信息通信研究院,2025 年 10 月 开源大模型许可协议在实践中面临多重合规挑战。首先,许可协议是使用者行使使用、修改、分发等权利的法律依据,任何违反协议条款的行为都将导致授权终止,后续所有基于该模型的利用行为均可能构成侵权。因此,使用者必须严格遵循归属声明、再分发要求等核心义务,确保操作全程合规。其次,与传统软件不同,大模型开发需

47、要巨额资源投入,其发布主体多为商业公司。这些主体基于商业考量或社会责任,常在许可协议中设置特殊条款。例如,LLaMA3.1 与通义千问 2 要求活跃用户达到特定规模后需申请商业许可;LLaMA2 禁止其模型用于训练其他大模型;LLaMA3.1 对衍生模型命名规则作出规范;RAIL 系列协议则在使用场景层面增设约束条件。此外,大模 21 型项目通常整合多个开源组件,当不同组件的许可协议存在兼容性问题时,使用者将难以同时满足所有许可要求,从而引发合规困境。开源协议的法律解释与执行存在地域差异。我国在“罗盒诉风灵案”中突破性地认可 GPL-3.0 开源协议具有合同属性,并将其作为侵权判定的逻辑起点,

48、体现了开源社区规范对司法实践的影响深化。因此,使用者除严格遵守协议条款外,还需确保其行为符合所在法域的法律要求。同时,鉴于许可协议可能随时间动态调整,使用者应建立持续的合规跟踪机制,及时更新使用策略以防范潜在风险。(四四)开源贡献规模持续扩大,模型衍生创新呈现集聚态开源贡献规模持续扩大,模型衍生创新呈现集聚态势势 全球开源贡献者规模持续扩大,中美两国在开源模型工具领域保持主导地位。根据蚂蚁集团对 170 余个开源项目的统计分析,美国开发者贡献占比达 37.4%,中国开发者占比 18.7%,两国合计贡献超过全球总量的 55%,显著高于位列第三的德国(6.5%)(见图 11)。从技术层级分布来看,

49、中国开发者的贡献主要集中于应用层(AI Agent),占比达 21.5%;中美在基础设施层(AI Infra)共同主导,合计贡献超过 60%;而美国在数据层(AI Data)保持领先优势,占比 35.8%。此外,法国、荷兰、挪威等欧洲国家在数据治理与标准化方向贡献突出,形成了独特的区域特色。22 来源:蚂蚁集团,中国信息通信研究院,2025 年 10 月 图 11 全球开源贡献者分布与开发者数量变化趋势 开源模型贡献呈现明显的集聚特征,创新活动主要围绕少数头部基座模型展开衍生与微调。尽管总体参与规模持续上升,但生态资源分布呈现典型的“长尾结构”,头部模型与核心开发者贡献占主导地位。根据 Cai

50、lean Osborne 基于 Hugging Face 平台的研究显示,70%的模型无下载记录,而排名前 1%的模型贡献占比高达 99%,反映出生态资源与技术影响力的高度集中。绝大多数开源创新都是围绕少数基座模型进行的微调与衍生。值得关注的是,中国开源模型正成为全球最具影响力的基座模型之一。截至 2025 年 9 月,仅 Qwen 系列模型就贡献了 Hugging Face 平台每月新增衍生模型的 40%以上。相比之下,Meta 的 Llama 系列份额从 2024 年底约 50%的高位下降至 15%。根据斯坦福大学 2025 年人工智能指数报告,全球共有 61 个模型被评为 2024 年度

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服