1、当前,全球大数据正进入加速发展时期,技术产业与应用创新不断迈向新高度。大数据通过数字化丰富要素供给,通过网络化扩大组织边界,通过智能化提升产出效能,不仅是推进网络强国建设的重要领域,更是新时代加快实体经济质量变革、效率变革、动力变革的战略依托。本白皮书是继大数据白皮书(2014 年)、大数据白皮书(2016 年)、大数据白皮书(2018 年)之后中国信通院第四次发布大数据白皮书。本白皮书在前三版的基础上,聚焦一年多来大数据各领域的进展和趋势,梳理主要问题并进行展望。在技术方面,重点探讨了近两年最新的大数据技术及其融合发展趋势;在产业方面,重点讨论了我国大数据产品的发展情况;在数据资产管理方面,
2、介绍了行业数据资产管理、数据资产管理工具的最新发展情况,并着重探讨了数据资产化的关键问题;在安全方面,从多种角度分析了大数据面临的安全问题和技术工具。希望本白皮书的分析可以对政府和行业提供参考。目目 录录 一、国际大数据发展概述.1(一)大数据战略持续拓展.1(二)大数据底层技术逐步成熟.2(三)大数据产业规模平稳增长.3(四)大数据企业加速整合.5(五)数据合规要求日益严格.6 二、融合成为大数据技术发展的重要特征.8(一)算力融合:多样性算力提升整体效率.8(二)流批融合:平衡计算性价比的最优解.9(三)TA 融合:混合事务/分析支撑即时决策.10(四)模块融合:一站式数据能力复用平台.1
3、1(五)云数融合:云化趋势降低技术使用门槛.11(六)数智融合:数据与智能多方位深度整合.12 三、大数据产业蓬勃发展.14(一)大数据产业发展政策环境日益完善.14(二)各地大数据主管机构陆续成立.17(三)大数据技术产品水平持续提升.20(四)大数据行业应用不断深化.22 四、数据资产化步伐稳步推进.25(一)数据:从资源到资产.25(二)数据资产管理理论体系仍在发展.26(三)各行业积极实践数据资产管理.27(四)数据资产管理工具百花齐放.29(五)数据资产化面临诸多挑战.31 五、数据安全合规要求不断提升.35(一)数据相关法律监管日趋严格规范.35(二)数据安全技术助力大数据合规要求
4、落地.36 (三)数据安全标准规范体系不断完善.39 六、大数据发展展望.41 图图 表表 目目 录录 图 1 全球每年产生数据量估算图.1 图 2 2016-2020 年全球大数据市场收入规模预测.4 图 3 2016-2020 年全球大数据细分市场收入规模预测.5 图 4 国家大数据战略的布局历程.14 表 1 全国 31 省级行政单位代表性大数据产业政策.16 表 2 省级大数据主管机构.18 表 3 数据管理框架对比.26 表 4 数据价值的影响因素.32 表 5 我国大数据相关立法.35 表 6 2019 年数据安全相关立法进程.36 表 7 主要隐私数据保护技术对比.38 大数据白
5、皮书(2019 年)1 一、国际大数据发展概述 近年来,全球大数据的发展仍处于活跃阶段。根据国际权威机构Statista 的统计和预测,全球数据量在 2019 年有望达到 41ZB1。数据来源:IDC、Seagate、Statista estimates 图 1 全球每年产生数据量估算图 2019 年以来,全球大数据技术、产业、应用等多方面的发展呈现了新的趋势,也正在进入新的阶段。本章将对国外大数据战略、技术、产业等领域的最新进展进行简要叙述。(一)(一)大数据战略持续拓展大数据战略持续拓展 相对于几年前,2019 年国外大数据发展在政策方面略显平淡,只有美国的联邦数据战略第一年度行动计划(F
6、ederal Data Strategy Year-1 Action Plan)草案比较受到关注。2019 年 6 月 5 日,美国发布了联邦数据战略第一年度行动计划草案,这个草案包含了每个机构开展工作的具体可交付成果,以 1 ZB,即十万亿亿字节,相当于 240GB 大数据白皮书(2019 年)2 及由多个机构共同协作推动的政府行动,旨在编纂联邦机构如何利用计划、统计和任务支持数据作为战略资产来发展经济、提高联邦政府的效率、促进监督和提高透明度2。相对于三年前颁布的联邦大数据研发战略计划,美国对于数据的重视程度继续提升,并出现了聚焦点从“技术”到“资产”的转变,其中更是着重提到了金融数据和地
7、理信息数据的标准统一问题。此外,配套文件中“共享行动:政府范围内的数据服务”成为亮点,针对数据跨机构协同与共享,从执行机构到时间节点都进行了战略部署。早些时候,欧洲议会通过了一项决议,敦促欧盟及其成员国创造一个“繁荣的数据驱动经济”。该决议预计,到 2020 年,欧盟国内生产总值将因更好的数据使用而增加 1.9%。但遗憾的是,据统计目前只有 1.7%的公司充分利用了先进的数字技术。拓宽和深入大数据技术应用是各国数据战略的共识之处。据了解,美国 2020 年人口普查有望采用差分隐私等大数据隐私保护技术来提高对个人信息的保护。英国政府统计部门正在探索利用交通数据,通过大数据分析及时跟踪英国经济走势
8、,提供预警服务,帮助政府进行精准决策。(二二)大数据)大数据底层技术底层技术逐步逐步成熟成熟 近年来,大数据底层技术发展呈现出逐步成熟的态势。在大数据发展的初期,技术方案主要聚焦于解决数据“大”的问题,Apache Hadoop 定义了最基础的分布式批处理架构,打破了传统数据库一体 2 可参考 https:/ 大数据白皮书(2019 年)3 化的模式,将计算与存储分离,聚焦于解决海量数据的低成本存储与规模化处理。Hadoop 凭借其友好的技术生态和扩展性优势,一度对传统大规模并行处理(massively parallel processor,MPP)数据库的市场造成影响。但当前 MPP 在扩展
9、性方面不断突破(2019 年中国信通院大数据产品能力评测中MPP大规模测试集群规模已突破512节点),使得 MPP 在海量数据处理领域又重新获得了一席之位。MapReduce 暴露的处理效率问题以及 Hadoop 体系庞大复杂的运维操作,推动计算框架不断进行着升级演进。随后出现的 Apache Spark 已逐步成为计算框架的事实标准。在解决了数据“大”的问题后,数据分析时效性的需求愈发突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年来备受关注的产品为流处理的基础框架打下了基础。在此基础上,大数据技术产品不断分层细化,在开源
10、社区形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方面。据统计,目前大数据相关开源项目已达上百个。(三三)大数据)大数据产业规模产业规模平稳增长平稳增长 国际权威机构 Statista 在 2019 年 8 月发布的报告显示,预计到2020 年,全球大数据市场的收入规模将达到 560 亿美元,较 2018 年的预期水平增长约 33.33%,较 2016 年的市场收入规模翻一倍。随着市场整体的日渐成熟和新兴技术的不断融合发展,未来大数据市场将呈现稳步发展的态势,增速维持在 14%左右。在 2018-2020 年的预测期内,大数据市场整体的收入规模将保持每年约 70 亿美元的增长
11、,大数据白皮书(2019 年)4 复合年均增长率约为 15.33%。数据来源:Wikibon、SiliconANGLE 图 2 2016-2020 年全球大数据市场收入规模预测 从细分市场来看,大数据硬件、软件和服务的市场规模均保持较稳定的增长,预计到 2020 年,三大细分市场的收入规模将分别达到150 亿美元(硬件)、200 亿美元(软件)、210 亿美元(服务)。具体来看,2016-2017 年,软件市场规模增速达到了 37.50%,在数值上超过了传统的硬件市场。随着机器学习、高级分析算法等技术的成熟与融合,更多的数据应用和场景正在落地,大数据软件市场将继续高速增长。预计在 2018-2
12、020 年间,每年约有 30 亿美元的增长规模,复合年均增长率约为 19.52%。大数据相关服务的规模始终最高,预计在 2018-2020 年间的复合年均增长率约为 14.56%。相比之下,硬件市场增速最低,但仍能保持约 11.80%的复合年均增长率。从整体占比来看,软件规模占比将逐渐增加,服务相关收益将保持平稳发展的趋势,软件与服务之间的差距将不断缩小,而硬件规模在整体的占比则逐渐减小。大数据白皮书(2019 年)5 数据来源:Wikibon、SiliconANGLE 图 3 2016-2020 年全球大数据细分市场收入规模预测(四四)大数据企业)大数据企业加速加速整合整合 近两年来,国际具
13、有影响力的大数据公司也遭遇了一些变化。2018 年 10 月,美国大数据技术巨头 Cloudera3和 Hortonworks4宣布合并。在 Hadoop 领域,两家公司的合并意味着“强强联手”,而在更加广义的大数据领域,则更像是“抱团取暖”。但毫无疑问,这至少可以帮助两家企业结束近十年的竞争,并且依靠垄断地位早日摆脱长期亏损的窘状。而从第三方的角度来看,这无疑会影响整个 Hadoop的生态。开源大数据目前已经成为互联网企业的基础设施,两家公司合并,意味着 Hadoop 的标准将更加统一,长期来看新公司的盈利能力也将大幅提升,并将更多的资源用于新技术的投入。从体量和级别上来看,新公司将基本代表
14、 Hadoop 社区,其他同类型企业将很难与 3 Cloudera 成立于 2008 年,发行了 Hadoop 集成版本 CDH。CDH 产品包括企业版和开源版,在企业版中,包含闭源管理组件 Cloudera Manager。4 Hortonworks 是从雅虎 Hadoop 团队剥离成立的创业公司,不同于 Cloudera,Hortonworks 的软件是完全开源的,通过技术支持来盈利。大数据白皮书(2019 年)6 之竞争。2019 年 8 月,惠普(HPE)收购著名大数据技术公司 MapR 的业务资产,包括 MapR 的技术、知识产权以及多个领域的业务资源等。MapR 创立于 2009
15、年,属于 Hadoop 全球软件发行版供应商之一。专家普遍认为,企业组织越来越多以云服务形式使用数据计算和分析产品是使得 MapR 需求减少的重要原因之一。用户需求正从采购以Hadoop 为代表的平台型产品,转向结合云化、智能计算后的服务型产品。这也意味着,全球企业级 IT 厂商的战争已经进入到了一个新阶段,即满足用户从平台产品到云化服务,再到智能解决方案的整体需求。(五五)数据合规要求日益严格)数据合规要求日益严格 近两年来,各国在数据合规性方面的重视程度越来越高,但数据合规的进程仍任重道远。2019 年 5 月 25 日,旨在保护欧盟公民的个人数据、对企业的数据处理提出了严格要求的通用数据
16、保护条例(GDPR)实施满一周年,数据保护相关的案例与公开事件数量攀升,同时也引起了诸多争议。牛津大学的一项研究发现,GDPR 实施满一年后,未经用户同意而设置的新闻网站上的 Cookies 数量下降了 225。欧盟 EDPB 的报告显示,GDPR 实施一年以来,欧盟当局收到了约 145000 份数据安全相关的投诉和问题举报;共判处 5500 万欧元行政罚款。苹果、微软、Twitter、WhatsApp、Instagram 等企业也都遭到调查或处罚。5 可参考 https:/ 大数据白皮书(2019 年)7 GDPR 的正式实施之后,带来了全球隐私保护立法的热潮,并成功提升了社会各领域对于数据
17、保护的重视。例如,2020 年 1 月起,美国加州的消费者隐私法案(CCPA)也将正式生效6。与 GDPR 类似,CCPA 将对所有和美国加州居民有业务的数据商业行为进行监管。CCPA 在适用监管的标准上比 GDPR 更宽松,但是一旦满足被监管的标准,违法企业受到的惩罚更大。2019 年 8 月份,IAPP/OneTrust对部分美国企业进行了 CCPA 准备度调查,结果显示,74的受访者认为他们的企业应该遵守 CCPA,但只有大约 2的受访者认为他们的企业已经完全做好了应对 CCPA 的准备。除加州 CCPA 外,更多的法案正在美国纽约州等多个州陆续生效。6 可参考 https:/ 大数据白
18、皮书(2019 年)8 二、融合成为大数据技术发展的重要特征 当前,大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。本章将针对当前大数据技术的几大融合趋势进行探讨。(一一)算力融合:多样性算力提升整体效率)算力融合:多样性算力提升整体效率 随着大数据应用的逐步深入,场景愈发丰富,数据平台开始承载人工智能、物联网、视频转码、复杂分析、高性能计算等多样性的任务负载。同时,数据复杂度不断提升,以高维矩阵运算为代表的新型计算范式具有粒度更细、并行更强、高内存占用、高带宽需求、低延迟高实时性等特
19、点,以 CPU 为底层硬件的传统大数据技术无法有效满足新业务需求,出现性能瓶颈。当前,以 CPU 为调度核心,协同 GPU、FPGA、ASIC 及各类用于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU为代表的计算加速单元能够极大提升新业务计算效率。今年 9 月,腾讯云发布了两款异构计算产品,包括搭载 Xilinx 数据中心加速卡Alveo U200 的 FPGA 实例 FX4,以及采用 NVIDIA T4 的 GPU 实例GN7。华为公司计划在今年年底推出 Fusion Insight B160 数据智能模型发布一体化解决方案,内置 Kunpeng920+Atlas300
20、C 芯片,为 AI模型发布提供强劲算力。不同硬件体系融合存在开发工具相互独立、编程语言及接口体系不同、软硬件协同缺失等工程问题。为此,产业界试图从统一软件开大数据白皮书(2019 年)9 发平台和开发工具的层面来实现对不同硬件底层的兼容,例如 Intel公司正在设计支持跨多架构(包括 CPU、GPU、FPGA 和其他加速器)开发的编程模型 oneAPI,它提供一套统一的编程语言和开发工具集,来实现对多样性算力的调用,从根本上简化开发模式,针对异构计算形成一套全新的开放标准。(二二)流批融合:平衡计算性价比的最优解)流批融合:平衡计算性价比的最优解 流处理能够有效处理即时变化的信息,从而反映出信
21、息热点的实时动态变化。而离线批处理则更能够体现历史数据的累加反馈。考虑到对于实时计算需求和计算资源之间的平衡,业界很早就有了 lambda架构的理论来支撑批处理和流处理共同存在的计算场景。随着技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。流计算的产生来源于对数据加工时效性的严苛要求。数据的价值随时间流逝而降低时,我们就必须在数据产生后尽可能快的对其进行处理,比如实时监控、风控预警等。早期流计算开源框架的典型工具是 Storm,虽然它是逐条处理的典型流计算模式,但并不能满足“有且仅有一次(Exactly-once)”的处理机制。之后的
22、Heron 在 Storm上做了很多改进,但相应的社区并不活跃。同期的 Spark 在流计算方面先后推出了 Spark Streaming 和 Structured Streaming,以微批处理的思想实现流式计算。而近年来出现的 Apache Flink,则使用了流处理的思想来实现批处理,很好地实现了流批融合的计算,国内包括阿里、腾讯、百度、字节跳动,国外包括 Uber、Lyft、Netflix 等公司都是大数据白皮书(2019 年)10 Flink 的使用者。2017 年由伯克利大学 AMPLab 开源的 Ray 框架也有相类似的思想,由一套引擎来融合多种计算模式,蚂蚁金服基于此框架正在进
23、行金融级在线机器学习的实践。(三三)TA 融合:混合事务融合:混合事务/分析支撑即时决策分析支撑即时决策 TA 融合是指事务(Transaction)与分析(Analysis)的融合机制。传统的业务应用在做技术选型时,会根据使用场景的不同选择对应的数据库技术,当应用需要对高并发的用户操作做快速响应时,一般会选择面向事务的 OLTP 数据库;当应用需要对大量数据进行多维分析时,一般会选择面向分析的 OLAP 数据库。在数据驱动精细化运营的今天,海量实时的数据分析需求无法避免。分析和业务是强关联的,但由于这两类数据库在数据模型、行列存储模式和响应效率等方面的区别,通常会造成数据的重复存储。事务系统
24、中的业务数据库只能通过定时任务同步导入分析系统,这导致了数据时效性不足,无法实时地进行决策分析。混合事务/分析处理(HTAP)是 Gartner 提出的一个架构,它的设计理念是为了打破事务和分析之间的那堵“墙”,实现在单一的数据源上不加区分的处理事务和分析任务。这种融合的架构具有明显的优势,可以避免频繁的数据搬运操作给系统带来的额外负担,减少数据重复存储带来的成本,从而及时高效地对最新业务操作产生的数据进行分析。现阶段主流的实现方案主要有三种:一是基于传统的行存关系型数据库(类似 MySQL)实现事务特性,并在此基础上通过引入计算大数据白皮书(2019 年)11 引擎来增加复杂查询的能力;二是
25、在行存数据库(如 Postgres-XC 版本)的基础上增加列存的功能,来实现分析类业务的需求;三是基于列存为主的分析型数据库(如 Greenplum),增加行存等功能优化,提供事务的支持。但由于没有从根本上改变数据的存储模式,三种方案都会在事务或分析功能上有所侧重,无法完美的在一套系统里互不干扰地处理事务和分析型任务,无法避免对数据的转换和复制,只能在一定程度上缩短分析型业务的时延。(四四)模块融合:一站式数据能力复用平台)模块融合:一站式数据能力复用平台 大数据的工具和技术栈已经相对成熟,大公司在实战经验中围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过这一概念来统一
26、数据资产的视图和标准,提供通用数据的加工、管理和分析能力。数据能力集成的趋势打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。主要针对性地解决三个问题:一是提高数据获取的效率;二是打通数据共享的通道;三是提供统一的数据开发能力。这样的“企业级数据能力复用平台”是一个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂,来连接下层的数据和上层的数据应用团队,从而形成敏捷的数据驱动精细化运营的模式。阿里巴巴提出的“中台”概念和华为公司提出的“数据基础设施”概念都是模块融合趋势的印证。(五五)云数融合:云化趋势降低技术使用门槛)云数融合:云化趋势降低技术使用门槛
27、大数据白皮书(2019 年)12 大数据基础设施向云上迁移是一个重要的趋势。各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。比如 Amazon Web Service(AWS)和 Google Cloud Platform(GCP)很早就开始提供受管理的 MapReduce 或 Spark 服务,以及国内阿里云的 MaxCompute、腾讯云的弹性 MapReduce 等,大规模可扩展的数据库服务也纷纷上云,比如 Google Big Query、AWS Redshift、阿里云的 PolarDB、腾讯云的 Sparkling 等,来为 PB 级的数据集提供分布式
28、数据库服务。早期的云化产品大部分是对已有大数据产品的云化改造,现在,越来越多的大数据产品从设计之初就遵循了云原生的概念进行开发,生于云长于云,更适合云上生态。向云化解决方案演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。(六六)数智融合:数据与智能多方位深度整合)数智融合:数据与智能多方位深度整合 大数据与人工智能的融合则成为大数据领域当前最受关注的趋势之一。这种融合主要体现在大数据平台的智能化与数据治理的智能化。智能的平台:用智能化的手段来分析数据是释放数据价值高阶之路,但用户往往不希望在两个平台间不断的搬
29、运数据,这促成了大数据平台和机器学习平台深度整合的趋势,大数据平台在支持机器学习算法之外,还将支持更多的 AI 类应用。Databricks 为数据科学家提供一站式的分析平台 Data Science Workspace,Cloudera 也推出了相应大数据白皮书(2019 年)13 的分析平台 Cloudera Data Science Workbench。2019 年底,阿里巴巴基于 Flink 开源了机器学习算法平台 Alink,并已在阿里巴巴搜索、推荐、广告等核心实时在线业务中有广泛实践。智能的数据治理:数据治理的输出是人工智能的输入,即经过治理后的大数据。数据治理与人工智能的发展存在
30、相辅相成的关系:一方面,数据治理为人工智能的应用提供高质量的合规数据;另一方面,人工智能对数据治理存在诸多优化作用。AI 使能数据治理,是通过智能化的数据治理使数据变得智能:通过智能元数据感知和敏感数据自动识别,对数据自动分级分类,形成全局统一的数据视图。通过智能化的数据清洗和关联分析,把关数据质量,建立数据血缘关系。数据能够自动具备类型、级别、血缘等标签,在降低数据治理复杂性和成本的同时,得到智能的数据。大数据白皮书(2019 年)14 三、大数据产业蓬勃发展 近年来,我国大数据产业蓬勃发展,融合应用不断深化,数字经济量质提升,对经济社会的创新驱动、融合带动作用显著增强。本章将从政策环境、主
31、管机构、产品生态、行业应用等方面对我国大数据产业发展的态势进行简要分析。(一)(一)大数据大数据产业产业发展政策环境日益完善发展政策环境日益完善 产业发展离不开政策支撑。我国政府高度重视大数据的发展。自2014年以来,我国国家大数据战略的谋篇布局经历了四个不同阶段。来源:中国信息通信研究院 图 4 国家大数据战略的布局历程 预热阶段:2014 年 3 月,“大数据”一词首次写入政府工作报告,为我国大数据发展的政策环境搭建开始预热。从这一年起,“大数据”逐渐成为各级政府和社会各界的关注热点,中央政府开始提供积极的支持政策与适度宽松的发展环境,为大数据发展创造机遇。大数据白皮书(2019 年)15
32、 起步阶段:2015 年 8 月 31 日,国务院正式印发了促进大数据发展行动纲要(国发201550 号),成为我国发展大数据的首部战略性指导文件,对包括大数据产业在内的大数据整体发展作出了部署,体现出国家层面对大数据发展的顶层设计和统筹布局。落地阶段:十三五规划纲要的公布标志着国家大数据战略的正式提出,彰显了中央对于大数据战略的重视。2016 年12 月,工信部发布 大数据产业发展规划(2016-2020 年),为大数据产业发展奠定了重要的基础。深化阶段:随着国内大数据迎来全面良好的发展态势,国家大数据战略也开始走向深化阶段。2017 年 10 月,党的十九大报告中提出推动大数据与实体经济深
33、度融合,为大数据产业的未来发展指明方向。12 月,中央政治局就实施国家大数据战略进行了集体学习。2019 年 3 月,政府工作报告第六次提到“大数据”,并且有多项任务与大数据密切相关。自 2015 年国务院发布促进大数据发展行动纲要系统性部署大数据发展工作以来,各地陆续出台促进大数据产业发展的规划、行动计划和指导意见等文件。截至目前,除港澳台外全国 31 个省级单位均已发布了推进大数据产业发展的相关文件。可以说,我国各地推进大数据产业发展的设计已经基本完成,陆续进入了落实阶段。以下我们将 31 个省级行政单位的典型大数据产业政策进行总结。大数据白皮书(2019 年)16 表 1 全国 31 省
34、级行政单位代表性大数据产业政策 省级单位省级单位 政策政策 发布时间发布时间 北京北京 北京市大数据和云计算发展行动计划 2016 年 8 月 3 日 上海上海 上海市大数据发展实施意见 2016 年 9 月 15 日 天津天津 天津市促进大数据发展应用条例 2018 年 12 月 14 日 重庆重庆 重庆市以大数据智能化为引领的创新驱动发展战略行动计划(2018-2020 年)2018 年 8 月 23 日 广东广东 广东省促进大数据发展行动计划(2016-2020年)2016 年 4 月 22 日 福建福建 福建省促进大数据发展实施方案(2016-2020年)2016 年 6 月 18 日
35、 浙江浙江 浙江省促进大数据发展实施计划 2016 年 2 月 18 日 江苏江苏 江苏省大数据发展行动计划 2016 年 8 月 19 日 山东山东 关于促进大数据发展的实施意见 2017 年 5 月 23 日 河北河北 河北省大数据产业创新发展三年行动计划(2018-2020 年)2018 年 3 月 22 日 辽宁辽宁 辽宁省运用大数据加强对市场主体服务和监管实施方案 2015 年 10 月 19 日 吉林吉林 关于运用大数据加强对市场主体服务和监管的实施意见 2016 年 5 月 25 日 黑龙江黑龙江 黑龙江省促进大数据发展三年行动计划 2017 年 12 月 11 日 内蒙古内蒙古
36、 内蒙古自治区大数据发展总体规划(2017-2020年)2017 年 12 月 28 日 甘肃甘肃 甘肃省数据信息产业发展专项行动计划 2018 年 6 月 3 日 新疆新疆 新疆维吾尔自治区云计算与大数据产业“十三五”发展规划 2016 年 12 月 8 日 云南云南 关于重点行业和领域大数据开放开发工作的指导意见 2017 年 6 月 23 日 广西广西 促进大数据发展行动方案 2017 年 5 月 22 日 贵州贵州 关于促进大数据云计算人工智能创新发展加快建设数字贵州的意见 2018 年 6 月 21 日 四川四川 四川省促进大数据发展工作方案 2018 年 1 月 4 日 青海青海
37、关于印发促进云计算发展培育大数据产业实施意见的通知 2015 年 8 月 10 日 宁夏宁夏 宁夏回族自治区大数据产业发展条例(征求意见稿)2017 年 5 月 5 日 山西山西 山西省大数据发展规划(2017-2020 年)2017 年 3 月 13 日 河南河南 河南省大数据产业发展三年行动计划(2018-2020 年)2018 年 5 月 9 日 安徽安徽 安徽省运用大数据加强对市场主体服务和监管实施方案 2015 年 10 月 30 日 江西江西 江西省大数据发展行动计划 2017 年 7 月 5 日 湖南湖南 湖南省大数据产业发展三年行动计划(2019-2021 年)2019 年 1
38、 月 24 日 湖北湖北 湖北省大数据发展行动计划(2016-2020 年)2016 年 9 月 14 日 大数据白皮书(2019 年)17 陕西陕西 大数据与云计算产业示范工程实施方案 2016 年 6 月 17 日 海南海南 海南省促进大数据发展实施方案 2016 年 11 月 25 日 西藏西藏 西藏自治区人民政府关于推动云计算应用大数据发展培育经济发展新动力的意见 2017 年 7 月 10 日 来源:中国信息通信研究院 需要说明的是,大部分省(区、市)都发布了不止一项大数据相关政策,以上所列的只是其中最主要的一项。可以看出,大部分省(区、市)的大数据政策集中发布于 2016 年至 2
39、017 年。而在近两年发布的政策中,更多的地方将新一代信息技术整体作为考量,并加入了人工智能、数字经济等内容,进一步地拓展了大数据的外延。同时,各地在颁布大数据政策时,除注重大数据产业的推进外,也在更多地关注产业数字化和政务服务等方面,这也体现出了大数据与行业应用结合及政务数据共享开放近年来取得的进展。(二二)各地各地大数据主管机构大数据主管机构陆续成立陆续成立 近年来,部分省市陆续成立了大数据局等相关机构,对包括大数据产业在内的大数据发展进行统一管理。以省级大数据主管机构为例,从 2014 年广东省设立第一个省级大数据局开始,截至 2019 年 5 月,共有 14 个省级地方成立了专门的大数
40、据主管机构。省级大数据主管机构的设立过程可以分为两个阶段。第一个阶段从 2014 年 2 月至 2018 年上半年。2014 年 2 月,广东省在全国率先成立了广东省大数据管理局,成为第一个省级大数据管理局。2015年,贵州省和浙江省先后成立了贵州省大数据发展管理局和浙江省数据管理中心。其中,贵州省大数据发展管理局是首个省政府直属的大数据治理机构。2017 年,省级大数据治理机构又增加了 4 个,分别大数据白皮书(2019 年)18 是内蒙古自治区大数据发展管理局、重庆市大数据发展局、江西省大数据中心、陕西省政务数据服务局。2018 年 6 月,上海、天津两个直辖市分别成立了上海市大数据中心和
41、天津市大数据管理中心。第二阶段开始于 2018 年下半年。按照中央部署,新一轮省级机构改革方案陆续发布,各地纷纷以不同的方式组建或调整政府数据治理机构。其中,一部分省(市、自治区)陆续成立了专门的大数据管理机构。另一部分省(市、自治区)则是对原有机构进行了调整组合。表 2 省级大数据主管机构7 行政区行政区 设立时间设立时间 机构名称机构名称 隶属机构隶属机构 机构性质机构性质 广东广东 2018 年 广东省政务服务数据管理局8 广东省人民政府办公厅 政府部门的管理机构 贵州贵州 2015 年 贵州省大数据发展管理局 贵州省人民政府 政府直属机构 浙江浙江 2018 年 浙江省大数据发展管理局
42、 浙江省人民政府办公厅 政府部门的管理机构 内蒙古内蒙古 2017 年 内蒙古自治区大数据发展管理局 内蒙古自治区人民政府 政府直属机构 重庆重庆 2018 年 重庆市大数据应用发展管理局9 重庆市人民政府 政府直属机构 陕西陕西 2017 年 陕西省政务数据服务局10 陕西省人民政府 政府直属机构 福建福建 2018 年 数字福建建设领导小组办公室(福建省大数据管理局)福建省发展和改革委员会 政府部门的管理机构 广西广西 2018 年 广西壮族自治区大数据发展局 广西壮族自治区人民政府 政府直属机构 山东山东 2018 年 山东省大数据局 山东省人民政府 政府直属机构 北京北京 2018 年
43、 北京市经济和信息化局(北京市大数据管理局)北京市人民政府 政府组成部门 安徽安徽 2018 年 安徽省数据资源管理局(安徽省政务服务管理局)安徽省人民政府 政府直属机构 河南河南 2018 年 河南省大数据管理局 河南省人民政府办公厅 政府部门的管理机构 7 黄璜,孙学智.中国地方政府数据治理机构的初步研究:现状与模式J.中国行政管理,2018(12):31-36.8 广东省最初于 2014 年设立了广东省大数据管理局,隶属于广东省经济和信息化委员会。9 重庆市最初于 2017 年设立了重庆市大数据发展管理局,隶属于重庆市经济和信息化委员会。10 陕西省工业和信息化厅加挂陕西省政务数据服务局
44、牌子,相关职能主要由陕西省大数据管理与服务中心承担。大数据白皮书(2019 年)19 吉林吉林 2018 年 吉林省政务服务和数字化建设管理局 吉林省人民政府 政府直属机构 海南海南 2019 年 海南省大数据管理局 海南省人民政府 政府组成部门11 来源:中国信息通信研究院 除此之外,上海、天津、江西等省市组建了上海市大数据中心、天津市大数据管理中心、江西省信息中心(江西省大数据中心),承担了一部分大数据主管机构的职能。部分省级以下的地方政府也相应组建了专门的大数据管理机构。根据黄璜等人的统计12,截至 2018 年 10 月已有 79 个副省级和地级城市组建了专门的大数据管理机构。根据机构
45、隶属关系,地方政府大数据主管机构可以大致分为三类。一是作为政府组成部门。例如,北京市大数据管理局由北京市经济和信息化局加挂牌子,隶属于北京市人民政府,是政府的组成部门。这种情况下,大数据局的行政职能相对较强,级别和权责水平也相对较高。二是作为政府直属机构。例如,内蒙古自治区大数据发展管理局虽隶属于自治区人民政府,但其作为政府的直属机构,更多承担事业单位的相关职能。三是作为政府部门的管理机构。例如,广东省政务服务数据管理局隶属于广东省人民政府办公厅,是政府部门的下属机构。根据组建模式,地方政府大数据主管机构可以大致分为五类。一是以地方发改委为基础进行组建。这种类型的大数据主管机构较多,其优势在于
46、可以更好地承担地方大数据宏观管理和相关项目审批职 11 海南省大数据管理局由海南省政府依法设立,但不列入行政机构序列,不从事法定职责外事务,是具有独立法人地位的法定机构。12 黄璜,孙学智.中国地方政府数据治理机构的初步研究:现状与模式J.中国行政管理,2018(12):31-36.大数据白皮书(2019 年)20 能。二是对政府办公室(厅)相关职能进行重组。这种类型的大数据主管机构的优势在于政府系统信息化建设经验丰富,对于推动电子政务建设优势突出。三是对原有信息中心进行重组。这种类型的大数据主管机构的优势在于直接接触数据资源较多,便于开展区域内大数据资源的统筹管理工作。四是以地方经信委/工信
47、厅为基础进行组建。这种类型的大数据主管机构在推动大数据产业发展方面具有得天独厚的优势。五是对原有机构增加相关职能,即原有机构基础上加挂牌子,但可能会专门设立几个承担大数据管理职能的处室。这种类型的大数据主管机构其核心职能仍然是原有机构的主要职能,便于与原有工作的衔接。由于地方大数据主管机构在隶属机构和组建模式上的不同,其机构职责也不尽相同。大多数机构都包含制订地方大数据战略规划的职能,但在产业发展政策制订、数据资源整合、数据资源开放共享、电子政务系统建设、信息安全、政府网站建设等方面的职能则并非所有大数据主管机构都具备。(三三)大数据技术产品水平持续提升)大数据技术产品水平持续提升 从产品角度
48、来看,目前大数据技术产品主要包括大数据基础类技术产品(承担数据存储和基本处理功能,包括分布式批处理平台、分布式流处理平台、分布式数据库、数据集成工具等)、分析类技术产品(承担对于数据的分析挖掘功能,包括数据挖掘工具、BI 工具、可视化工具等)、管理类技术产品(承担数据在集成、加工、流转过程中的管理功能,包括数据管理平台、数据流通平台等)等。我国在大数据白皮书(2019 年)21 这些方面都取得了一定的进展。我国大数据基础类技术产品市场成熟度相对较高。一是供应商越来越多,从最早只有几家大型互联网公司发展到目前的近 60 家公司可以提供相应产品,覆盖了互联网、金融、电信、电力、铁路、石化、军工等不
49、同行业;二是产品功能日益完善,根据中国信通院的测试,分布式批处理平台、分布式流处理平台类的参评产品功能项通过率均在 95%以上;三是大规模部署能力有很大突破,例如阿里云MaxCompute 通过了 10000 节点批处理平台基础能力测试,华为GuassDB 通过了 512 台物理节点的分析型数据库基础能力测试;四是自主研发意识不断提高,目前有很多基础类产品源自对于开源产品进行的二次开发,特别是分布式批处理平台、流处理平台等产品九成以上基于已有开源产品开发。我国大数据分析类技术产品发展迅速,个性化与实用性趋势明显。一是满足跨行业需求的通用数据分析工具类产品逐渐应运而生,如百度的机器学习平台 Jarvis、阿里云的机器学习平台 PAI 等;二是随着深度学习技术的相应发展,数据挖掘平台从以往只支持传统机器学习算法转变为额外支持深度学习算法以及 GPU 计算加速能力;三是数据分析类产品易用性进一步提升,大部分产品都拥有直观的可视化界面以及简洁便利的交互操作方式。我国大数据管理类技术产品还处于市场形成的初期。目前,国内常见的大数据管理类软件有 20 多款。数据管理类产品虽然涉及的内容庞杂,但技术实现难度相对较低,一些开源软件如 Kettle、S