收藏 分销(赏)

2020全球人工智能基础设施战略与政策观察.pdf

上传人:宇*** 文档编号:4155947 上传时间:2024-08-05 格式:PDF 页数:39 大小:1.85MB 下载积分:10 金币
下载 相关 举报
2020全球人工智能基础设施战略与政策观察.pdf_第1页
第1页 / 共39页
2020全球人工智能基础设施战略与政策观察.pdf_第2页
第2页 / 共39页


点击查看更多>>
资源描述
CIC中国通信学会全球人工智能基础设施全球人工智能基础设施战略与政策战略与政策观察观察(20202020年年)中国通信学会中国通信学会 2020年年12月月 CIC中国通信学会 专家组和撰写组名单专家组和撰写组名单 专家组:专家组:陈金桥 中国通信学会经济与管理创新委员会副主任委员 辛勇飞 中国信通院政策与经济研究所所长 徐志发 中国信通院产业与规划研究所所长 王爱华 中国信通院副总工程师 朱小燕 清华大学教授、智能技术与系统国家重点实验室主任 马 源 国务院发展研究中心企业研究所研究室主任 蒋 洁 南京信息工程大学中意网络侵权研究所所长 张吉豫 中国人民大学法学院未来法治研究院执行院长 何 伟 中国信通院政策与经济研究所副所长 李 原 中国信通院产业与规划研究所副所长 负责人:负责人:刘铁志 中国信通院政策与经济研究所战略部主任 谢智刚 中国信通院产业与规划研究所大数据与数字经济部主任 胡昌军 中国信通院政策与经济研究所战略部副主任 协调人:协调人:韩凯峰 中国信通院政策与经济研究所战略部研究员 王 强 中国信通院产业与规划所人工智能与数据治理中心副主任 成成 员:员:赵 勇 中国信通院产业与规划所大数据与数字经济部主任工程师邱艳娟 中国信通院产业与规划所大数据与数字经济部主任工程师 金夏夏 中国信通院政策与经济研究所战略部研究员 詹远志 中国信通院政策与经济研究所战略部研究员 张芳纯 中国信通院政策与经济研究所战略部研究员 刘媛媛 中国信通院政策与经济研究所战略部研究员 苏 乐 中国信通院产业与规划研究所大数据与数字经济部研究员 黄馨艺 中国信通院产业与规划研究所大数据与数字经济部研究员 CIC中国通信学会 前前 言言 当前,新一轮科技革命和产业变革深入发展,人工智能作为新一代信息技术的重要发展方向,正在与 5G、云计算、大数据等数字技术交织并进、融合创新,共同构筑起赋能千行百业的新型基础设施。党中央、国务院高度重视人工智能等新型基础设施发展,习近平总书记多次作出指示批示,强调要“加快传统基础设施和 5G、人工智能等新型基础设施建设”。党的十九届五中全会指出“推动互联网、大数据、人工智能等同各产业深度融合,推动先进制造业集群发展,构建一批各具特色、优势互补、结构合理的战略性新兴产业增长引擎”。加快打造具备先进水平的人工智能基础设施,是推动科技跨越发展、产业优化升级、生产力整体跃升的重要抓手,对提升我国公共服务智能化水平,助力培育数字经济、构建智能社会意义重大。为更好地认识人工智能基础设施,推动其健康可持续发展,专委会组织中国信息通信研究院政策与经济研究所、产业与规划研究所研究团队,开展深入调查研究并形成本报告。主要包含以下内容:第一部分探究了人工智能基础设施的内涵及范围;第二部分梳理并总结全球主要国家及地区人工智能基础设施发展战略及特点;第三部分围绕数据资源、算法框架、算力资源、开放平台等人工智能基础设施核心内容进行了系统分析;第四部分对加快我国人工智能基础设施发展提出了一些思考。期待本报告能够为社会各界提供有价值的参考,不妥之处请不吝指正。中国通信学会经济与管理创新委员会 副主任委员:2020 年 12 月CIC中国通信学会 目目 录录 一、人工智能基础设施的内涵及范围一、人工智能基础设施的内涵及范围.1(一)何为“新型基础设施”.1(二)何为“人工智能基础设施”.3 二、人工智能基础设施全球战略布局二、人工智能基础设施全球战略布局.6(一)全球人工智能基础设施战略图景.7(二)我国积极推动人工智能基础设施发展.9 三、人工智能基础设施发展态势剖析三、人工智能基础设施发展态势剖析.11(一)数据资源逐步实现开放共享.11(二)算法框架有效集成 AI 核心能力.17(三)算力资源走向云边协同与定制化.20(四)开放平台呈现建设主体多元化.24 四、为人工智能基础设施发展营造良四、为人工智能基础设施发展营造良好环境好环境.29(一)人工智能基础设施发展面临的问题.29(二)加快构建人工智能基础设施的思考.30 CIC中国通信学会 1 一、人工智能基础设施的内涵及范围“新型基础设施新型基础设施”一一词词自自 2018 年底年底召开的召开的中央经济工作会议中央经济工作会议以以来备受关注来备受关注。习近平总书记强调,要“加强人工智能、工业互联网、物联网等新型基础设施建设”。此后,新型基础设施这一词被多次提及。例如,2019 年 12 月中央经济工作会议强调“加强战略性、网络型基础设施建设,稳步推进通信网络建设”;2020 年 2 月中央全面深化改革委员会第十二次会议强调“统筹存量和增量、传统和新型基础设施发展,打造集约高效、经济适用、智能绿色、安全可靠的现代化基础设施体系”;2020 年 4 月召开的国务院常务会议强调“加快推进信息网络等新型基础设施建设”。当前,以人工智能、当前,以人工智能、5G、云计算等为、云计算等为代表代表的新型基础设施受到社的新型基础设施受到社会各界高度关注,发展会各界高度关注,发展意义意义重大重大。尤其在当前国内外经济形势严峻复杂、不稳定性不确定性明显上升、风险挑战持续加大的背景下,发展新基建不仅成为我国稳投资、促消费、稳增长的有效手段,更是推动行业数字化转型的关键举措,已成为数字经济创新发展的关键支撑。总体而言,加快新型基础设施建设是助力我国实现经济高质量发展的重要途径之一,利当代、惠长远。(一)何(一)何为为“新型基础设施新型基础设施”纵观纵观人类人类历史发展进程,历史发展进程,每一次每一次重大重大科技科技变革和工业革命变革和工业革命之际之际,都出现了一些都出现了一些全新的全新的基础设施基础设施。“新型基础设施”是科技进步与经济社会发展演进相互作用的产物。在第一次工业革命时期,出现了铁路、运河等基础设施;在第二次工业革命时期,出现了高速公路、电网等CIC中国通信学会 2 基础设施;在第三次工业革命期间,发明了互联网、移动通信网等信息基础设施;当前正处于新一轮科技革命和产业变革发展浪潮中,正孕育着新型基础设施的出现。首先首先,“基础设施基础设施”是用于保证是用于保证特定区域内特定区域内经济经济社会社会活动正常活动正常运运转转的公共服务系统,是社会赖以生存发展的一般物质条件的公共服务系统,是社会赖以生存发展的一般物质条件。广义上看,广义上看,基础设施基础设施主要主要包含包含三大类三大类:一是经济性基础设施一是经济性基础设施,指直接参与、支持城市物资生产过程的基础设施部门,包括交通运输系统(市内交通、对外交通等)、能源系统、信息系统(通信、邮政、广电等)、水利工程、城市给排水系统、环境卫生设施等,旨在提供经济性公共服务;二是社会性基础设施二是社会性基础设施,指提高城市福利水平、间接影响城市物资生产过程的基础设施部门,包括文化教育、医疗卫生、社会福利以及基础研究等公共服务设施,旨在提供社会性公共服务;三是配套机构三是配套机构和和制制度机制度机制,包括法律法规、政策性文件、行政管理等。基础设施基础设施具备以具备以下下特征特征:一是基础性一是基础性,即对各行业的发展以及绝大多数经济活动的展开必不可少;二是先导性二是先导性,即需要适度超前建设,为经济发展奠定坚实基础;三是公共普惠性三是公共普惠性,即能够形成社会化的服务,受众广;四是四是强外部性强外部性,即能够为自身以及其他各行业发展赋能增效。其次其次,“新型新型”是基是基于于新一代新一代科学科学技术技术产生的基础设施新形态产生的基础设施新形态。“新型”是相对传统基础设施而言的,随着科学技术不断演进、创新,基础设施形态也在不断更新变化。如当前的新基建概念侧重于以数字化、网络化、智能化为核心特征,基于人工智能、5G、物联网、工业互联网、云计算等新一代信息技术发展而形成的基础设施。CIC中国通信学会 3 根据国家根据国家发展和改革发展和改革委界定委界定,“新型基础设施新型基础设施”是以新发是以新发展理念展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,要,提供数字转型、智能升级、融合创新等服务的基础设施体系提供数字转型、智能升级、融合创新等服务的基础设施体系。从分类看,新型基础设施分为信息基础设施、融合基础设施、创新基础设施三类。信息基础设施信息基础设施是整个新型基础设施的核心,包含通信网络基础设施、新技术基础设施、算力基础设施。融合基础设施融合基础设施是传统基础设施转型升级的重要支撑,是新一代信息基础设施在各行业深度融合的产物。创新基础设施创新基础设施是指支撑科学研究、技术开发、产品研制等具有公共属性的基础设施,如重大科技基础设施、科教基础设施、产业技术创新基础设施等。人工智能基础设施是以信息基础设施为主要形态,同时兼具融合基础设施以及创新基础设施部分特点的新型基础设施。(二)何为(二)何为“人工智能基础设施人工智能基础设施”未来十年是全球发展未来十年是全球发展数字数字经济、迈入智能社会的经济、迈入智能社会的黄金发展期黄金发展期。着着力发展人工智能基础设施,将为我国人工智能产业发展壮大、数字经力发展人工智能基础设施,将为我国人工智能产业发展壮大、数字经济蓬勃发展提供强大牵引力济蓬勃发展提供强大牵引力。从从推动推动人工智能产业发展看人工智能产业发展看,人工智能基础设施将推动人工智能与 5G、云计算、大数据等领域深度耦合,有效推动技术资源向创新领域集聚,加快转变发展方式、拓展发展空间、增强发展动力,助力实现智能产业化与产业智能化协同并进。从从推进推进国家战略转型看国家战略转型看,发展人工智能基础设施,将促进社会资源的高效利用,为我国构建“国内国际双循环”的新发展格局提供重要支撑,为全球经济可持续发展注入强大动能。CIC中国通信学会 4 报告认为,人工智能基础设施(报告认为,人工智能基础设施(AI 基础设施)是基础设施)是以以“高质量网高质量网络络”为为关键关键支撑支撑,“数据、算法、算力数据、算法、算力”为为核心核心能力能力要素,以要素,以“开放开放平台平台”为主为主要要赋能载体赋能载体,能够能够长期提供公共普惠的智能化服务长期提供公共普惠的智能化服务的基础的基础设施。设施。AI 基础设施将有力促进基础设施将有力促进 AI 产业发展产业发展,深入深入赋能行业应用,为赋能行业应用,为培育培育数字数字经济、构筑智能社会提供经济、构筑智能社会提供关键关键承载承载。从从主要特征主要特征看看,AI 基础设施既需要满足两大类(包括 8 小项)新型基础设施的基本属性,即“基础及公共性”(包括基础性、公共普惠性、强外部性)和“技术先进性”(包括技术迭代快、软硬兼备、数据驱动、协同融合、价值赋能),同时还需具备 2 项重要特征,即“赋能智能化行业应用”和“支撑人工智能产业高质量发展”,如图 1.1 所示。图 1.1 人工智能基础设施的主要特征 CIC中国通信学会 5 从从核心核心内容内容看看,人工智能基础设施主要包含两部分内容:一是以算力资源、数据资源、算法框架为核心的 AI 能力要素,二是以服务医疗、交通、制造等各垂直行业智能化应用的 AI 开放平台。图 1.2 为AI 基础设施体系视图。图 1.2 人工智能基础设施体系视图“数据、数据、算法、算力算法、算力、开放开放平台平台”是是构成构成 AI 新新基建的核心内容。基建的核心内容。一一是数据资源是数据资源,包括以政府、企业、高校、开源社区等为主体构建的开放数据集(包括行业专用的开放数据集),能够为 AI 算法提供数据供给,加速 AI 模型优化,提高 AI 平台的行业赋能水平。二二是算法框是算法框架架,既包括传统机器学习算法、知识图谱等,也包括开源算法框架、深度学习开发框架、AI 算法部署工具、开源代码库等,能够充分整合AI 算法及工具集资源,对外输出智能化技术能力。三三是是算力资源算力资源,包括 AI 芯片、AI 云、智能计算中心等产品及服务形态,其能够为 AI 算法及应用提供更高性能、更低成本的计算能力。四是四是 AI 开放平台开放平台,包括自动驾驶 AI 平台、城市大脑 AI 平台、医疗影像 AI 平台、智能CIC中国通信学会 6 语音 AI 平台等赋能各行业应用的 AI 开放平台,向下能够引导数据、算法、算力等能力要素的演进路径,向上可以面向各垂直行业提供开放、普惠的智能化服务,具有承上启下的重要作用。“网络连接、安全保障网络连接、安全保障”是支是支撑撑 AI 新基建新基建发展的基础承载发展的基础承载。网络连接包括 5G、物联网、车联网、光纤固网在内的网络设施,为 AI基础设施发展提供互联互通服务。安全保障则涵盖网络、数据、应用、终端等各方面安全能力。“战略战略布局布局、发展政策、监管治理、发展政策、监管治理”为为 AI 基基础设础设施施发展发展提供提供良良好的好的环境保障环境保障。战略布局包括发展目标制定、发展重点谋划等,为 AI新基建规划布局提供方向指引。发展政策包括创新政策、产业政策、人才政策、财税政策等,为 AI 新基建提供完善的政策保障。监管治理则包括伦理引导、标准制定、规范立法等,涵盖数据治理、算法治理、平台治理等多方面,为 AI 新基建营造健康有序的发展环境。AI 新基建新基建遵循着遵循着“从从通用技术工具到开放通用技术工具到开放赋能赋能平台平台”的的演进演进逻逻辑辑。当前,部分 AI 理论技术逐渐成熟,正在演进成为开放普惠的 AI赋能平台,AI 既能作为一项通用技术为企业信息化赋能,又能作为一类基础设施为社会提供智能化服务能力。总体而言,AI 应用赋能的深度、广度不断加强,呈现出深度融合、智能泛化的发展态势。二、人工智能基础设施全球战略布局 人工智能作为引领社会智能化变革的新型基础设施,正在对各国科技创新、经济发展、民生改善等产生重大而深远的影响,加快发展AI 基础设施已成全球主要国家的普遍共识。CIC中国通信学会 7(一)(一)全球全球人工智能基础设施战略图景人工智能基础设施战略图景 为更直观地了解全球主要国家及地区在 AI 基础设施方面的整体发展情况,报告重点梳理了 12 个国家及地区所发布的部分 AI 基础设施相关战略文件,利用词频统计法对各国在 AI 基础设施的 7 个细分领域布局情况做了统计分析(蓝色越深,表示该细分领域在文件中被提及的次数越多,如深蓝色表示被提及 5 次以上),如图 2.1 所示。图 2.1 全球主要国家及地区对 AI 基础设施的布局情况 从发展梯队看,从发展梯队看,被统计的国家及地区分为被统计的国家及地区分为两级两级发展梯队发展梯队,中国处,中国处于第一梯队于第一梯队。在被统计的 12 个国家及地区中,美国、欧盟、德国、英国、日本、韩国等出台的 AI 战略及政策文件较多,对 AI 基础设施各细分领域布局更加全面,同时这几个国家及地区的 AI 整体发展水平相对较高,处于全球发展第一梯队。法国、挪威、芬兰、丹麦、俄罗斯、印度等国家发布的 AI 战略文件较少,在 AI 基础设施各细分领域布局较为单一,与第一梯队国家存在一定差距,处于第二梯队。从布局重点看,从布局重点看,以以“数据、算法、数据、算法、算力、平台算力、平台”等等为核为核心的心的 AI设施资源备受重视设施资源备受重视。在被统计的 7 项 AI 基础设施主要细分领域中,CIC中国通信学会 8 公共数据集、计算平台、算法框架、开放平台、基础网络等 5 项被多次提及,且具备基础性、公共普惠性、强外部性等特点,是 AI 基础设施发展重点。从主要国家从主要国家及地区及地区发展思路看,发展思路看,美国美国、欧盟欧盟、英国英国等根据等根据本国发本国发展情况展情况进行精准化布局进行精准化布局。美国美国重点布局公共数据集,打造开放数据资源是美国政府长期发展重点。一方面建立服务于不同应用领域的数据集,另一方面研发数据处理相关工具,降低数据使用门槛,为 AI 技术研发及应用构建高质量、可共享的数据使用环境。如如美国在其国家人工智能研究和发展战略计划中,提出将“开发用于人工智能训练及测试的公共数据集和环境”。2019 年 2 月,特朗普签署行政命令,启动美国人工智能行动计划倡议,重点包括“加强人工智能研发投资、联邦政府数据和计算资源开放”等。在 AI 算法、算力方面,美国科技企业(如谷歌、微软、亚马逊、脸书等)在该领域具备极强的技术、产品、市场等优势,因此仅依靠市场力量即可引领全球发展,无需政府层面提供过多政策指导。欧盟欧盟围绕公共数据集、AI 算力、开放平台等基础设施进行较为全面的布局,旨在为欧洲所有用户提供一个开放的综合性 AI 平台,包括计算能力(云计算、高性能计算等)、公共数据集、算法资源等。原因在于,欧盟(及其他非欧盟欧洲国家)AI 整体发展水平落后于美国,在 AI 领域缺少行业领军企业。欧盟作为欧洲政治经济联盟以及统一战略主体,有义务为其成员国构建开放、普惠、高质量的 AI 基础设施及智能化服务,加快欧洲 AI 发展步伐。如如 2019 年 1 月,欧盟CIC中国通信学会 9 启动“AI FOR EU”项目,建立人工智能需求平台、开放协作平台,整合汇聚 21 个成员国 79 家研发机构、中小企业和大型企业的数据、算力、算法等人工智能资源,提供统一开放服务。欧盟通过“地平线2020”计划和欧洲战略投资基金等,建立基础研究及创新框架,打造世界级人工智能研究中心。此外,欧盟着力维护良好的数据使用环境,如欧委会在 2020 年 11 月通过了欧洲数据治理条例倡议,推动数据跨国、跨部门流通共享,为欧盟民众及企业带来数据红利。英国英国重点发展公共数据集、宽带网络等基础设施,着力“强长板与补短板”协同,全面提升国家数字连接能力。一方面,英国在政府公共数据集建设方面全球领先,需持续巩固优势,为 AI 基建发展奠定坚实的数据保障。另一方面,泛在高速的通信网络是发展 AI 的重要基础支撑,但英国宽带网络基建水平相对落后,因此选择优先升级其光纤固网、4G/5G 等网络基础设施,加紧补齐“基建短板”,为 AI长远发展打好基础。如如英国政府在 2017 年发布的产业战略:建设适应未来的英国 中,确立了人工智能发展的几个优先领域,包括“建设全球 AI 与数据创新中心,支持各行业利用 AI 和数据分析技术,在数据和人工智能安全等方面保持世界领先”等,同时强调将升级宽带网络等通信基础设施。此外,英国对构建基础设施体系有着长远和系统的规划布局,如发布智能基础设施愿景系列报告,详细制定了到 2055 年的分阶段目标任务。(二)我国(二)我国积极推动积极推动人工智能基础设施发展人工智能基础设施发展 党中央、国务院高度重视党中央、国务院高度重视 AI 基础设施基础设施发展发展,习近平总书记多次,习近平总书记多次CIC中国通信学会 10 作出重要指示批示,作出重要指示批示,强调强调要要“加快传统基础设施和“加快传统基础设施和 5G、人工智能等、人工智能等新型基础设施建设”新型基础设施建设”“深入把握新一代人工智能发展的特点,加强人深入把握新一代人工智能发展的特点,加强人工智能和产业发展融合,为高质量发展提供新动能工智能和产业发展融合,为高质量发展提供新动能”。目前,我国已形成国家、地方、企业三个层面协同推进的发展态势。一是国家层面一是国家层面统筹布局,给予方向指引统筹布局,给予方向指引。2017 年,国务院印发新一代人工智能发展规划,对包括网络、大数据、高效能计算等基础设施在内的智能化基础设施建设进行了全面部署,指明了发展方向。2017 年,工信部发布 促进新一代人工智能产业发展三年行动计划(20182020年),提出加快构筑智能化基础设施,搭建包括数据资源库、云服务平台、智能化网络基础设施在内的人工智能产业支撑体系。此外,工信部鼓励人工智能创新应用先导区建设,加速 AI 基础设施及相关产业高质量发展。二二是地方政府是地方政府积极布局,优化积极布局,优化发展环境发展环境。自 2017 年以来,超过 20 个省市结合国家发展规划和自身发展实际,相继出台了本省市人工智能相关政策,支持人工智能创新发展以及基础设施建设。如2020 年 4 月,上海市发布上海市推进新型基础设施建设行动方案(20202022 年),提出打造亚太一流的超大规模人工智能计算与赋能平台。2020 年 6 月,北京市发布北京市加快新型基础设施建设行动方案(20202022 年),面向数据智能、生态系统、智慧应用等六大基础设施建设领域,实施 30 个重点任务。2020 年 7 月,广州市发布广州市加快推进数字新基建发展三年行动计划(20202022年),提出开展人工智能跨界融合行动,构建全球顶尖的“创新型智慧城市”。三三是科技企业是科技企业纷纷纷纷响应,加快响应,加快创新创新技术探索技术探索。在科技部指CIC中国通信学会 11 导下,百度、阿里、腾讯、科大讯飞、商汤科技等 15 家科技企业发挥自身创新优势,聚焦重点细分领域,打造国家新一代人工智能开放创新平台,推动我国人工智能技术创新和产业发展。三、人工智能基础设施发展态势剖析 人工智能基础设施包括数据资源、算法框架、算力资源等 AI 能力要素,以及作为智能服务输出载体的 AI 开放平台。(一)数据资源(一)数据资源逐步逐步实现实现开放共享开放共享 1、开放数据集的概念及价值、开放数据集的概念及价值 开放数据集是驱动本轮开放数据集是驱动本轮 AI 浪潮兴起的三大基础要素之一浪潮兴起的三大基础要素之一。AI 模型和算法的训练优化需要以海量优质的数据集作为基础资源。数据集的数量、质量、安全直接影响 AI 算法的准确性、有效性和安全性。AI开放数据集是指能够满足AI研发需求、具有公共普惠性的数据集。从概念从概念定义定义看,开放数据集是看,开放数据集是指“指“免费获取、机器可读、使用目免费获取、机器可读、使用目的不限的不限”的数据集的数据集。“开放数据集”一词最初由科学家们用来指代未经处理的科学数据集。随后,一些国际组织和相关学者对其进行了概念界定,如开放知识基金会将其定义为“可以免费获得的数据集,任何人都可以获取,并且可以用于任何目的(科研、商业、公益事业等),意味着数据集需要在开放许可的条件下,以机器可读的格式在线提供”。因此,开放数据集主要具备四点特征:一是开放许可一是开放许可,即必须在公共领域下提供,没有版权、专利等其他机制限制;二是可获取二是可获取,即可以提供互联网免费下载的途径;三是机器可读三是机器可读,必须以机器可处理和修改的形式提供;四是开放格式四是开放格式,未对数据利用设限(如付费)。CIC中国通信学会 12 开放数据集具备公共开放数据集具备公共与与商业商业的的双重价值双重价值属性属性。从公共价值角度,开放数据集能够用于提供惠普性公共服务(如天气预测、医疗信息等),助力提升社会智能化水平。从商业价值角度,开放数据集能够降低企业 AI 开发成本,促进 AI 技术创新发展,带动传统企业智能化转型升级,催生基于 AI 开源的新业态新模式。2、开放数据集发布主体多元化、开放数据集发布主体多元化 图 3.1 AI 开放数据发布主体及特点 从发布主体看,从发布主体看,AI 开放数据集呈现出发布主体多元、开放数据集呈现出发布主体多元、各具各具优势优势特色特色的特点的特点。AI 开放数据集的发布主体包括各国政府、高校及研究机构、企业、开源社区等,如图 3.1 所示。整体看,政府开放数据集的覆盖范围较广,数据质量较高、安全性及增值性强,可用于商业、科研等目的,可间接服务于 AI 软件及产品开发(如美国 GPS 数据服务于谷歌地图,可间接应用于谷歌无人驾驶研究)。高校/科研院所以及企业开放数据集的覆盖范围基本涵盖 AI 大部分研究领域,质量较高、权威性较强(很多被作为学术会议及竞赛的数据基准集),但一CIC中国通信学会 13 般应用于学术研究而非商业开发,并且更新周期较长。开源社区数据集的范围主要集中在 AI 研究热点领域,其独特优点是公众可以自由地使用和分享,数据迭代更新较快,但其安全性以及质量相对较差,较适用于 AI 模型算法的初期训练。一是一是政府开放数据集政府开放数据集:全球全球多国多国高度重视,高度重视,美、英等起步早、发美、英等起步早、发展成熟,展成熟,我国政府数据开放程度我国政府数据开放程度有待进一步提升有待进一步提升。政府开放数据是由政府或政府控制的实体生成或委托的数据,任何人都可以自由、不受限地使用、重用、重新分配,能够激发社会创新活力,创造巨大公共价值。2009 年,时任美国总统奥巴马签署开放政府指令,建立起全球第一个国家级政府开放数据网站“Data.gov”,开启全球数据开放浪潮。2011 年 9 月,美、英、墨等 8 国发起成立“开放数据联盟”,目前成员国已超过 100 个。英国是政府数据开源建设模式的提出者和实践者英国是政府数据开源建设模式的提出者和实践者。从建设模式看从建设模式看,英国首创“社会开放协作、分布式治理”的开源建设模式,基于CKAN1开源系统,构建起全国数据互联、服务互通的统一数据门户。国家级中心平台不直接负责数据管理,而是制定标准并免费提供通用开发工具,帮助各地方及分支机构自建符合标准的开放数据平台。从从管理模式看管理模式看,由时任首相主持建设工作,由内阁办公厅直接负责具体事务,确保建设的权威与高效。美国是政府开放数据的开创者,对美国是政府开放数据的开创者,对充分充分释放释放数据价值数据价值潜力潜力有着丰有着丰富实践经验富实践经验。从建设模式看从建设模式看,相比英国“自上而下、由点及面”的建 1 Comprehensive Knowledge Archive Network CIC中国通信学会 14 设模式,美国则是联邦政府和地方政府同步探索构建,允许地方“先试先行”,呈现出各地“多点开花”的态势,并最终形成了“国家平台使用 CKAN,地方平台采用多种开源系统,每天自动完成数据汇集更新”的模式。从管理模式看从管理模式看,美国十分重视对数据权益的保护,制定多项与数据开放有关的技术标准以及法律法规,如 2014 年发布数字问责和透明法;2015 年发布开放政府数据法案;2019 年发布美国 AI 领导力:联邦参与制定技术标准和相关工具的计划等。从数据价值释放看从数据价值释放看,美国对如何释放开放数据公共价值以及商业价值有着丰富的实践经验,如美国交通部利用收集到的航空投诉数据,开发出对航空公司公众评价进行等级排名的程序,便于消费者选择更优质量的航空公司;The Climate 公司利用政府发布的气象大数据,为消费者提供智能化制定保险服务;iTriage 公司利用公共医疗健康大数据,迅速为患者制定出治疗解决方案。我国逐渐重视政府开放数据建我国逐渐重视政府开放数据建设,当前处于设,当前处于发展初期,仍需不断发展初期,仍需不断探索探索实践实践。我国按照“顶层设计规划、地方平台建设”的发展思路,协同布局、统筹推进政府开放数据建设。政府数据开放目前已纳入国家大数据战略,截至 2019 年底,全国已有超过 100 个地方政府开放数据平台上线,但还存在开放资源建设不足、数据利用不充分、数据获取不便捷等问题亟需解决。二是二是高校开放数据集高校开放数据集:其质量其质量与高校的研究与高校的研究实力实力及学科建设及学科建设水平水平高度相关高度相关。高校在开放数据集上的建设水平能够反映出其在 AI、计算机科学、大数据等相关学科的研究实力。根据 Python 开发者社区CIC中国通信学会 15 调查显示,在被统计的 39 个用户反映最好用的 AI 开放数据集中,高校开放数据集占比达 36%,这其中有近 90%被美国高校占据(如斯坦福大学、加州大学伯克利分校等名校)。我国高校数据集建设稳步推进,如清华大学发布的中文自然文本数据集 CTW、语音库 THCHS-30;香港中文大学发布的人脸数据集 CalebA;中科院自动化所发布的计算机视觉数据集 MALF dataset 等,在国内有一定知名度,但国际影响力较弱,这从一定程度上反映出我国在 AI 相关领域的研究实力仍有较大提升空间。三是三是企业开放数据集企业开放数据集:为为企业企业 AI 产品产品及服务及服务盈利盈利提供“入口”提供“入口”。相比政府、高校等开放数据集公益属性强的特点,企业建设开放数据集更多以商业利益为导向,为其开源生态建设以及 AI 全产品链盈利提供重要“入口”。一方面,科技企业通过建设开放数据集能够为其积累技术、人才等核心资源,助力培育 AI 开源生态体系。例如微软在 2018 年收购知名开源社区 GitHub 后,通过该平台陆续发布开源数据集,吸引并获得了一个拥有超过 3000 万开发者的社区,为其开源开发及研究积累了人才资源。另一方面,企业能够以开放数据集为基础构建起完整的 AI 产品链,形成用户垄断、提供高增值服务。如谷歌依托其丰富的数据集和强大的开源工具能力,不断在居家生活、办公、出行等各领域寻找应用场景,迅速扩张用户数量、提高用户粘性;亚马逊利用其数据集提升其 AI 产品智能化水平,巩固其产品生态优势;百度以 AI 开放数据集等开源服务为切入点,培养用户使用习惯,引导用户向其增值服务拓展消费,例如百度大脑能够提供部分免费的CIC中国通信学会 16 数据集、算法、算力等基础服务,但若需要其提供更强性能算力、解决方案定制等增值服务,则需要额外收费。目前,我国企业已逐渐重视并着手构建以开放数据集为基础的AI开放开源生态,但在数量、范围以及用户规模等方面与谷歌、亚马逊、微软等科技巨头仍存在差距。我国企业应利用好国内超大规模市场优势,持续做好技术积累,扩大国内外影响力。四是四是开源社区开放数据集开源社区开放数据集:具具备备“汇众智、聚众力汇众智、聚众力”等等突出突出特点特点。开源社区主要包括“协同开发社区”以及“知识分享社区”两类,开放数据集的主要贡献者是前者。开源社区开放数据集的优势明显:一是大众自由参与,公众能够较为自由地使用和贡献数据集;二是数据较为全面,自下而上的数据收集能够提升数据覆盖领域的全面性;三是时效性较强,能够紧跟当前热点研究领域进行更新补充。但开源社区数据集也存在数据质量参差不齐、数据重复严重、数据安全性较差等问题。从发展态势看,目前 AI 巨头企业正通过收购开源社区等方式,强化其 AI 生态垄断地位。如谷歌、微软等企业正在通过收购Kaggle、GitHub 等开源社区,强化其技术垄断地位,进一步集聚整合资源,积累 AI 生态优势,以引领全球 AI 技术创新。我国正逐渐重视开源社区建设,已推动建立如开源中国等开源社区,但在技术贡献度、用户规模、品牌影响力等方面与国际知名开源社区存在明显差距。应加强对开源技术的研发探索,着力培育形成企业、政府、公众等多方互动的健康、可持续的开源生态体系。CIC中国通信学会 17(二)算法框架(二)算法框架有效有效集成集成 AI 核心能力核心能力 1、AI 开源算法框架总况开源算法框架总况 AI 开源算法框架能够充分整合 AI 算法及工具集等资源,服务于便捷、高效、低成本的 AI 研究及应用开发,持续输出 AI 技术能力。开源基础算法框架是开源基础算法框架是 AI 开源算法开源算法框架及框架及工具的核心工具的核心。AI 开源算法框架主要分为开源基础算法框架和开源应用算法工具两类。开源基开源基础算法框架础算法框架能够提供通用型、全域型的机器学习及深度学习算法集成服务能力,为 AI 应用开发提供算法调用接口、集成软件工具包等基础性技术工具。开源应用算法工具开源应用算法工具是依托开源基础算法框架、面向计算机视觉、语音处理等特定领域的开源算法工具库,为 AI 应用开发提供专用性技术服务。开源深度学习算法框架正处于发展成熟稳定期开源深度学习算法框架正处于发展成熟稳定期。AI 开源算法框架经历了从闭源到开源的发展历程,走过了包括发展初期、成熟稳定期和热点期在内的几个发展阶段。在发展初期,主要提供 K-Means 聚类、支持向量机、贝叶斯分类、决策树等传统统计学习算法,极大降低了机器学习算法的应用门槛;在发展成熟稳定期,主要提供卷积神经网络、循环神经网络等深度学习算法,提高了算法智能水平;在发展热点期,主要提供强化学习、迁移学习等全新算法能力。科科技技企业企业与顶尖高校与顶尖高校对开源算法框架的发展成熟对开源算法框架的发展成熟贡献贡献最为活跃最为活跃。科技企业与顶尖高校是推动开源算法框架发展壮大的两大主体力量。科技企业依托自身 AI 业务场景以及庞大的数据资源,能够对算法框架进行有效试验验证及功能完善,缩短迭代升级周期,更好满足工业CIC中国通信学会 18 级应用需求。高校及科研院所拥有强大的人才资源,对开源算法框架开展基础性理论研究工作,更易实现革命性突破创新。2、企业主导的开源算法框架、企业主导的开源算法框架 全球看,全球看,国际主流开源算法框架由国际主流开源算法框架由谷歌、脸书等谷歌、脸书等美国美国科技科技巨头主巨头主导。导。谷歌 TensorFlow 是全球知名度高、技术领先的开源框架之一,有如下三方面特点。一是站在巨人肩膀上,获得海量资源投入。TensorFlow 脱胎于谷歌内部机器学习系统 DistBelief,之后调动了相当多的工程师和科学家投入到对 DistBelief 的优化升级,才形成了TensorFlow 0.1 版。二是对分布式友好,加快应用部署落地。TensorFlow基于 DataFlow 的计算模型能够分配到不同的计算设备上,便于开展分布式计算。三是支持多平台,兼容性强。TensorFlow 从设计之处就考虑将其运行在多个平台上,例如其接口可以运行在 iOS 和 Android设备上,训练则可以运行在其他不同的硬件设备上。另外一个知名开源框架是脸书(Facebook)推出的 PyTorch,有如下两方面特点。一是采用 Python+Torch 模式,受众广、接受度高。随着 Python 编程语言用户规模日益壮大,PyTorch 的受众也在迅速聚集。二是采用动态计算图,设计简单、操作灵活。用户无需等待编写完整的代码即可检查其是否正确,便于随时修改优化。国内看,国内看,百度百度 PaddlePaddle 开源算法框架开源算法框架影响力最大,影响力最大,其他其他企业企业正正加紧布局加紧布局。百度发布的 PaddlePaddle 开源算法框架呈现出与前述美国企业主导的开源框架不同的特点。一是深耕工业场景,逐步提高生态影响力。PaddlePaddle 融合了百度多年来积累的工业应用实践经验,CIC中国通信学会 19 为各行业企业提供 44 个经过工业场景验证的官方模型,成为官方支持模型最多的深度学习框架。二是依托业务实践,提升超大规模并行深度学习能力。基于百度海量规模的业务场景实践,PaddlePaddle 可同时支持稠密参数和稀疏参数场景的超大规模深度学习,支持千亿规模参数的高效并行训练。三是提供工业级服务,涵盖前期训练到后期部署全流程。从框架开发环境搭建到大规模并行训练、移动端 GPU 加速等,PaddlePaddle 能提供企业所需的全流程服务支撑。此外,国内AI 独角兽企业也正迎头赶上,如旷视天元 MegEngine 开源框架,架构先进、性能优异、移植性强,能够为工业级深度学习赋能。3、高校主导的开源算法框架、高校主导的开源算法框架 高校及科研院高校及科研院所所是最早是最早启动启动开源算法框架开源算法框架研发的主导力量之一研发的主导力量之一,并并持续持续发挥发挥着着积极作用。积极作用。高校最早推出的 Theano、Caffe 等开源框架能够满足学术研究需求,但在大规模分布式计算等场景下的性能不及企业推出的开源框架。随后,高校通过更换维护主体以持续释放作用价值。例如,MXNET 框架发起于卡内基梅隆大学,后捐赠给 Apache基金会,现成为 Amazon AWS 最主要的深度学习框架。我国高校日渐重视开源算法框架研发,如清华大学已陆续开发出开源计图 Jittor、贝叶斯深度学习算法框架“珠算”、深度强化学习算法框架“天授”等。图 3.2 部分高校在开源基础算法框架的贡献历程 CIC中国通信学会 20(三)算力资源(三)算力资源走向走向云边协同与云边协同与定制
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服