收藏 分销(赏)

中国数据要素市场发展报告(2020-2021).pdf

上传人:宇*** 文档编号:3838667 上传时间:2024-07-22 格式:PDF 页数:62 大小:1.65MB
下载 相关 举报
中国数据要素市场发展报告(2020-2021).pdf_第1页
第1页 / 共62页
中国数据要素市场发展报告(2020-2021).pdf_第2页
第2页 / 共62页
中国数据要素市场发展报告(2020-2021).pdf_第3页
第3页 / 共62页
中国数据要素市场发展报告(2020-2021).pdf_第4页
第4页 / 共62页
中国数据要素市场发展报告(2020-2021).pdf_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、数据要素研究系列编号:DE-2021-01中国数据要素市场发展报告(中国数据要素市场发展报告(20202021)国家工业信息安全发展研究中心2021 年 4 月前言“十三五”时期是我国大数据产业蓬勃发展的阶段,根据国家工业信息安全发展研究中心产值测算数据,截至 2020年底,我国大数据产业规模已达万亿元。随着我国大数据产业与实体经济深度融合、产业发展不断壮大,数据作为生产要素的属性不断凸显。如何实现数据要素市场化配置,激活数据要素潜在价值,推动与实体经济继续深度融合,是“十四五”期间我国需要面临的重要课题之一。本报告提出了数据要素及数据要素市场的边界,梳理了国内外数据要素市场发展现状,重点从市

2、场概况、政策脉络、产业图谱及市场运行机制等角度,并结合相应的产值规模、技术水平、产品和服务、商业模式等情况,阐释了我国数据要素市场的发展现状,分析了现阶段我国数据要素市场存在的问题及未来发展趋势,提出了对策与建议。在本报告撰写过程中,国家工业信息安全发展研究中心(以下简称“国家工信安全中心”)通过专家访谈、企业调研、案头研究等方式开展数据要素市场相关研究,并结合自有的逾 5000 家企业大数据案例库对报告界定的产值规模进行了测算和分析。由于编者水平有限,本报告难免存在疏漏与不足,恳请各界同仁阅后批评指正,加强合作交流。报告编写组二二一年四月I目录一、数据要素市场相关概念界定.1(一)数据.1(

3、二)数据资源和数据资产.2(三)数据要素和数据要素市场.2二、国外数据要素市场发展概况.6(一)美国:数据交易模式多样,数据市场政策开放.6(二)欧盟:数据立法顶层设计,加强数据主权建设.7(三)德国:率先打造数据空间,建立可信流通体系.8(四)英国:金融行业先行先试,促进数据市场交易.8(五)日本:创新设立数据银行,释放个人数据价值.9三、我国数据要素市场发展现状.10(一)发展概况.10(二)政策脉络.11(三)产业图谱.121.数据采集.132.数据存储.153.数据加工.174.数据流通.195.数据分析.296.生态保障.31(四)运行机制.34II1.定价机制.352.收益分配机制

4、.383.政企合作机制.40四、我国数据要素市场发展面临的问题与挑战.43(一)数据权属界定问题尚不明晰.43(二)数据要素市场存在安全风险.44(三)数据流通交易机制有待完善.44(四)数据监管法律法规存在空缺.45五、我国数据要素市场未来的发展趋势.47(一)数据要素市场主体趋于多元化.47(二)“数据可用不可见”成为技术趋势.48(三)数据要素市场行业应用不断拓展.50(四)数据要素市场生态体系日趋完善.51六、对策与建议.53(一)重塑数据价值流动规则.53(二)扩大公共数据开放程度.54(三)促进数据要素交易流通.55(四)提升数据安全保障能力.56I图 目 录图 1数据要素理论图.

5、3图 2数据要素市场构成关系图.4图 3数据流通金字塔模型.5图 42016-2025 年中国数据要素市场规模.10图 5数据要素市场政策梳理.12图 6数据要素市场产业图谱.12图 7API 技术服务模式图.22图 8隐私计算原理.23图 9安全多方计算架构图.24图 10联邦学习医疗行业应用.25图 11数据沙箱技术图.26图 12个人数据出境安全监督.29图 13数据要素市场机制一览.35图 14数据要素市场收益分配机制.401一、数据要素市场相关概念界定数据要素是一个经济学概念,对数据要素市场相对准确、清晰的认识和界定,是探索和培育数据要素市场模式和方向的重要前提,也是值得各界商榷的难

6、点所在。本节探索对数据、数据资源、数据资产、数据要素以及数据要素市场的含义进行界定和分析。(一)数据(一)数据数字经济的背后实际上是数据经济,甚至可以说“无数据,不经济”1,数据是整个数据要素市场最基本的构成元素。计算机科学将数据定义为“对所有输入计算机并被计算机程序处理的符号的总称”2。国际数据管理协会(DAMA)也给出了相似的定义:“数据是以文字、数字、图形、图像、声音和视频等格式对事实进行表现”3,而国际标准化组织(ISO)对以上两种定义进行了进一步概括,认为“数据是对事实、概念或指令的一种形式化表示”。以上定义各有侧重,一方面,数据若想为人所用,必须能够被计算机以数字化、可视化的形式呈

7、现出来,这是数据必备的外在形态;另一方面,数据之所以有价值,是因为其承载着着某些客观事实,这是数据的内在实质。因此我们认为,数据是指所有能够输入计算机程序处理、反应一定事实、具有一定意义的符号介质的总称。1赵刚.数据要素M.人民邮电出版社,2021 年.2严蔚敏,吴伟民.数据结构M.清华大学出版社,2002 年.3DAMAInternational.DAMA 数据管理知识体系指南M.清华大学出版社,2016 年.2(二)数据资源和数据资产(二)数据资源和数据资产数据资源和数据资产都是数据汇聚产生的结果,数据资源是数据的自然维度,数据资产是数据的经济维度,两个概念相互融合,且不冲突。数据资源,是

8、载荷或记录信息的按一定规则排列组合的物理符号的集合。可以是数字、文字、图像,也可以是计算机代码的集合。数据是一种宝贵的资源,但是数据的法律权属界定仍然是一个世界性难题,传统的法学确权理论还无法移植到数据这种易复制的无形资源上。数据资产,从本质上来讲是产权的概念,是指由个人或企业拥有或者控制的,能够为个人或企业带来经济利益的,以物理或电子的方式记录的数据资源。从会计学角度看,数据资产也不完全符合会计准则中对资产及无形资产的定义,很难将数据计入财务报表。因此,数据目前还不能被视为传统意义上的资产。但数据资产化是世界经济发展的必由之路,也是数据成为一种生产要素的必然要求。(三)数据要素和数据要素市场

9、(三)数据要素和数据要素市场进入信息时代后,最重要的生产资料是用“比特”来描述的数字化信息,人类的生产活动正逐渐由物理世界深度转向比特世界,越来越多的生产环节需要在赛博空间中独立完成。数据对生产的贡献越来越突出,同时也显著提升了其他生产要素在生产中的利用效率,因此,数据已成为当今经济活动中不可或缺的生产资料。数据作为生产要素参与生产,需要进行市场化配置,形成生产要素价格及其体系。数据要3素价格体系的建立,又是建立在数据所有制基础上的。因此谁掌握数据资产,在一定程度上就可以影响体系建立。生产要素主要包含土地、资本、技术、劳动力和数据。数据作为新型生产要素,具有劳动工具和劳动对象的双重属性。首先数

10、据作为劳动对象,通过采集、加工、存储、流通、分析环节,具备了价值和使用价值;其次,数据作为劳动工具,通过融合应用能够提升生产效能,促进生产力发展。图 1数据要素理论图来源:国家工业信息安全发展研究中心数据要素市场就是将尚未完全由市场配置的数据要素转向由市场配置的动态过程,其目的是形成以市场为根本调配机制,实现数据流动的价值或者数据在流动中产生价值。数据要素市场化配置是一种结果,而不是手段。数据要素市场化配置是建立在明确的数据产权、交易机制、定价机制、分配机制、监管机制、法律范围等保障制度的基础上。未来数据要素市场的发展,需要不断动态调整以上保障制度,最终形成数据要素的市场化配置。本报告从产业链

11、的角度出发,将我国数据要素市场归结4为数据采集、数据存储、数据加工、数据流通、数据分析、数据应用、生态保障七大模块,覆盖数据要素从产生到发生要素作用的全过程。其中数据采集、数据存储、数据加工、数据流通、数据分析、生态保障六大模块,主要是数据作为劳动对象,被挖掘出价值和使用价值的阶段;而数据应用模块,主要是指数据作为劳动工具,发挥带动作用的阶段。本报告当前关注数据作为劳动对象,挖掘数据价值的阶段,聚焦于数据采集、数据存储、数据加工、数据流通、数据分析、生态保障六大模块。图 2数据要素市场构成关系图来源:国家工业信息安全发展研究中心保障数据要素市场化配置这一结果,不同产业链环节均被赋予了独特使命。

12、数据采集环节,关注数据采集的准确度、全面性;数据储存环节,关注数据储存安全性,调用实时性;数据加工环节,关注数据加工精度;数据流通环节是数据要素市场的核心环节,关注在保障所有者权利的前提下,进行5合理合规流通;数据分析环节,关注数据深度分析挖掘;数据应用环节,关注数据作为要素在合理、充分应用中产生价值,降低生产要素获取成本及提升其赋能水平。其中,数据流通作为数据要素市场的核心环节,需要针对不同类型数据,提出不同的解决方案。国家工信安全中心认为,需要针对不同数据分级分类进行数据要素市场化配置,并提出了“数据流通金字塔模型”。该模型将数据分为公开数据、低敏感度数据、中敏感度数据、高度机密数据四种,

13、提出针对不同数据类型,应用不同的数据流通技术和服务模式。图 3 数据流通金字塔模型来源:国家工业信息安全发展研究中心6二、国外数据要素市场发展概况(一)美国:数据交易模式多样,数据市场政策开放(一)美国:数据交易模式多样,数据市场政策开放美国发达的信息产业提供了强大的数据供给和需求驱动力,促进其数据交易流通市场的形成和发展。美国在数据交易流通市场构建过程中,通过数据交易产业推动政策和法律制定,开放的政策和法律又进一步规范了数据交易产业的发展。首先,建立了政务开放机制。首先,建立了政务开放机制。美国联邦政府自 2009 年发布开放政府指令之后,便通过建立“一站式”的政府数据服务平台 Data.g

14、ov 加快开放数据进程。联邦政府、州政府、部门机构和民间组织将数据集统一上传到该平台,政府通过此平台将经济、医疗、教育、环境与地理等方面的数据以各种可访问的方式发布,并将分散的数据整合,开发商还可通过平台对数据进行加工和二次开发。其次,发展多元数据交易模式。其次,发展多元数据交易模式。美国现阶段主要采用C2B 分销、B2B 集中销售和 B2B2C 分销集销混合三种数据交易模式,其中 B2B2C 模式发展迅速,占据美国数据交易产业主流。所谓数据平台 C2B 分销模式,即个人用户将自己的数据贡献给数据平台以换取一定数额的商品、货币、服务、积分等对价利益,如 、Car and Driver 等;数据

15、平台 B2B 集中销售模式,即以美国微软(Azure)为首的数据平台以中间代理人身份为数据的提供方和购买方提供数据交易撮合服务;数据平台 B2B2C 分销集销混合模式,即以数据平台安客诚(Acxiom)为首的数据经纪商(Databroker)7收集用户个人数据并将其转让、共享给他人。最后,平衡数据安全与产业利益。最后,平衡数据安全与产业利益。在涉及到数据保护等方面,目前美国尚没有联邦层面的数据保护统一立法,数据保护立法多按照行业领域分类。虽然脸书(Facebook)、雅虎(Yahoo)、优步(Uber)等公司近些年来均有信息失窃案件发生,但由于硅谷巨头的游说使得美国联邦在个人数据保护上进展较为

16、缓慢。(二)欧盟:数据立法顶层设计,加强数据主权建设(二)欧盟:数据立法顶层设计,加强数据主权建设欧盟委员会希望通过政策和法律手段促进数据流通,解决数据市场分裂问题,将 27 个成员国打造成统一的数字交易流通市场;同时,通过发挥数据的规模优势建立起单一数字市场,摆脱美国“数据霸权”,回收欧盟自身“数据主权”,以繁荣数字经济发展。首先,建立数据流通法律基础首先,建立数据流通法律基础。2018 年 5 月,通用数据保护条例(GDPR)在欧盟正式生效,特别注重“数据权利保护”与“数据自由流通”之间的平衡4,这种标杆性的立法理念对中国、美国等全球各国的后续数据立法产生了深远而重大的影响。但由于 GDP

17、R 的条款较为苛刻,使得推出后,欧盟科技企业筹集到的风险投资大幅减少,每笔交易的平均融资规模比推行前的 12 个月减少了 33%。其次,积极推动数据开放共享。其次,积极推动数据开放共享。2018 年,欧盟提出构建专有领域数字空间战略,涉及制造业、环保、交通、医疗、财政、能源、农业、公共服务和教育等多个行业和领域,以4何渊.数据法学M.北京大学出版社,2020 年.8此推动公共部门数据开放共享、科研数据共享、私营企业数据分享。最后,完善顶层设计。最后,完善顶层设计。欧盟基于 GDPR 发布了欧盟数据战略,提出在保证个人和非个人数据(包括敏感的业务数据)安全的情况下,有“数据利他主义”(Data

18、altruism)意愿的个人可以更方便地将产生的数据用于公共平台建设,打造欧洲公共数据空间。(三)德国:率先打造数据空间,建立可信流通体系(三)德国:率先打造数据空间,建立可信流通体系德国提供了一个“实践先行”的思路,通过打造数据空间构建行业内安全可信的数据交换途径,排除企业对数据交换不安全性的种种担忧,引领行业数字化转型,实现各行各业数据的互联互通,形成相对完整的数据流通共享生态。数据空间是一个基于标准化通信接口并用于确保数据共享安全的虚拟架构,其关键特征是数据权属。它允许用户决定谁拥有访问他们专有数据的权利并提供访问目的,从而实现对其数据的监控和持续控制。目前,德国数据空间已经得到包括中国

19、、日本、美国在内的 20 个多个国家及 118 家企业和机构的支持。(四)英国:金融行业先行先试,促进数据市场交易(四)英国:金融行业先行先试,促进数据市场交易作为高度重视数据价值的国家,英国采用开放银行战略对金融数据进行开发和利用,促进数据的交易和流通。该战略通过在金融市场开放安全的应用程序接口(API)将数据提供给授权的第三方使用,使金融市场中的中小企业与金融服务商更加安全、便捷地共享数据,从而激发市场活力,促9进金融创新。开放银行战略为具有合适能力和地位的市场参与者提供了六种可能的商业模式:前段提供商、生态系统/引用程序商店、特许经销商模型、流量巨头、产品专家以及行业专家。其中,金融科技

20、公司、数字银行等前端提供商通过为中小企业提供降本增效服务来换取数据,而流量巨头作为开放银行业链的最终支柱掌握着银行业参与者所有的资产和负债表,控制着行业内的资本流动性5。目前,英国已有100 家金融服务商参与了开放银行计划并提供了创新服务,数据交易流通市场初具规模。(五)日本:创新设立数据银行,释放个人数据价值(五)日本:创新设立数据银行,释放个人数据价值日本从自身国情出发,创新“数据银行”交易模式,最大化释放个人数据价值,提升数据交易流通市场活力。数据银行在与个人签订契约之后,通过个人数据商店(PersonalData Store,PDS)对个人数据进行管理,在获得个人明确授意的前提下,将数

21、据作为资产提供给数据交易市场进行开发和利用。从数据分类来看,数据银行内所交易的数据大致分为行为数据、金融数据、医疗健康数据以及行为嗜好数据等;从业务内容来看,数据银行从事包括数据保管、贩卖、流通在内的基本业务以及个人信用评分业务。数据银行管理个人数据以日本个人信息保护法(APPI)为基础,对数据权属界定以自由流通为原则,但医疗健康数据等高度敏感信息除外。日本通过数据银行搭建起个人数据交易和流通的桥梁,促进了数据交易流通市场的发展。5毕马威.从开放银行到业务开放英国企业家对开放银行服务的展望,2018 年.10三、我国数据要素市场发展现状(一)发展概况(一)发展概况当前,我国数据要素市场处于高速

22、发展阶段。“十三五”期间,我国各要素市场规模实现不同程度的增长,以数据采集、数据储存、数据加工、数据流通等环节为核心的数据要素市场增长尤为迅速。据国家工信安全中心测算数据,2020年我国数据要素市场规模达到 545 亿元6,“十三五”期间市场规模复合增速超过 30%;“十四五”期间,这一数值将突破 1749 亿元,整体上进入高速发展阶段。图 42016-2025 年中国数据要素市场规模来源:国家工业信息安全发展研究中心在技术融合层面,以联邦学习、安全多方计算、数据沙箱为主的新技术不断助力我国数据要素市场发展。在区域发展层面,数据要素市场区域分工协作格局逐渐形成,北、上、广、深等城市依托自身人才

23、与技术优势大力发展数据流通交6如前文所述,本报告当前关注数据作为劳动对象,挖掘数据价值的阶段,聚焦于数据采集、数据存储、数据加工、数据流通、数据分析、生态保障六大模块,因此测算数据中未包含数据应用的部分。以下研究和阐述皆遵循这六个模块或环节。11易与数据技术研发等高精尖业务,而围绕中心经济带的欠发达地区则利用人力密集特点开展数据标注、清洗等传统数据服务。通过技术创新及统筹发展,我国数据要素市场相对完善的产业生态初见雏形。(二)政策脉络(二)政策脉络充分发挥数据要素市场化配置是我国数字经济发展水平达到一定程度后的必然结果,也是数据供需双方在数据资源和需求积累到一定阶段后产生的必然现象。2014

24、年,“大数据”第一次写入政府工作报告,标志着我国对大数据产业顶层设计的开始。在“十三五”期间,大数据相关的政策文件密集出台,为数据作为生产要素在市场中进行配置,提供了政策土壤,也推动了我国大数据产业不断发展,技术不断进步,基础设施不断完善,融合应用不断深入。各个地方积极先行先试,探索出了一条适合我国大数据产业发展的路径。2020 年是我国“十三五”规划收官之年,根据国家工信安全中心测算数据,我国大数据市场规模已经达到 1 万亿元。数据在国民经济中的地位不断突出,要素属性逐渐凸显。2020 年 4 月,中共中央、国务院印发关于构建更加完善的要素市场化配置体制机制的意见,将数据列为生产要素,明确指

25、出了市场化改革的内容和方向。数据要素市场的培育将消除信息鸿沟、信任鸿沟,促进数据资源要素化体现,推进各方对数据资源的合作开发和综合利用,实现数据价值最大化,以新动能、新方向、新特征开启数据生态体系培育新12征程。图 5 数据要素市场政策梳理来源:国家工业信息安全发展研究中心(三)产业图谱(三)产业图谱数据要素市场产业图谱,主要是指对我国数据要素市场产业链各环节市场主体的梳理情况,包含对政府、企业等不同主体提供从数据产生到数据产生价值服务的过程。图 6 数据要素市场产业图谱来源:国家工业信息安全发展研究中心131.数据采集数据采集数据采集是数据要素市场的基石。企业在经营过程中,需要针对不同的数据

26、类型进行采集,并进行分析处理训练。企业数据采集主要包括内部数据采集、外部数据采集和定制化数据采集等三种类型。(1)企业内部数据一是企业在日常经营活动中产生的数据一是企业在日常经营活动中产生的数据。通过 Excel、数据仓库、数据库、ETL 等技术进行储存和调取;政府部门和企业经营数据的采集主要与主体的信息化水平、数据治理能力提升有直接联系,因此从上到下的整体设计,才能保证数据的一致性、可用性。该部分数据是现阶段大数据、人工智能分析与训练的主要数据来源。现阶段,提供该部分数据采集的公司主要是企业基础软件公司,如用友、SAP 等。二是生产环节的数据采集。二是生产环节的数据采集。该环节主要通过物联网

27、设备,如温度传感器、PLC 传感器、MES 等。但该环节数据采集主要受到两个方面的制约,一是部分机器没有数据接口,二是存在大量异构的通信规范。未来需要对现有机器设备进行信息化改造升级,以及完善定义通信标准。现阶段,该部分数据采集主要集成在相关领域解决方案中进行整体落地。在工业领域,相关企业有树根互联、航天云网等,互联网领域,相关企业有诸葛、神策等。(2)外部数据采集企业对于外部数据的采集主要是用于网络舆情分析、广告投放检测,以调整自身的产品和营销策略。在外部数据采14集方面,主要通过爬虫技术、埋点检测技术、用户调研等方法,综合给出外部数据的检测结果。在该方面,主要公司有AdMaster 和秒针

28、等。其中,AdMaster 主要定位在社交媒体舆情监控方向;秒针主要定位在曝光监测方向,其在国内市场占有较大份额。企业在进行外部数据采集时,需要保证数据采集不侵犯个人隐私和国家利益,需要保证采集数据在数据需要的最小范围。另外,现阶段国家在数据采集方面,也缺少相关的法律法规以及行业标准。未来需要加强该方面的法规、标准研制,增强数据采集的复用性,更好的保护社会信息安全。(3)定制化数据采集定制化数据采集,主要是用于非结构化数据采集。定制化数据采集广泛应用在各个领域。比如摄像头、麦克风、激光雷达都是数据采集工具,采集的数据类型也包含文本、语音、图像、云点图等。现阶段定制化数据采集主要采用人工采集的方

29、式,但也出现了利用人工智能手段进行智能数据采集的技术。一是人工数据采集一是人工数据采集。即根据方案设计,对目标领域、场景的特定数据进行采集,多以人像、车辆周遭环境、声音片段等内容为主,采集需要满足数据量大、数据精度高、数据丰富度高的要求。现阶段提供相关服务的公司有海天瑞声、倍赛数据等。二是智能化数据采集二是智能化数据采集。人工智能(AI)合成图像和视频,即利用生成对抗网络(GAN)合成图像、视频,所生成的图15片,可以为 AI 提供模拟的训练数据,但该技术现阶段仍处于探索阶段,生成数据的质量仍处于较低水平。2.数据存储数据存储企业在完成数据采集环节后,需对有价值的数据进行有效存储,以便进一步对

30、数据进行加工和处理。在进行数据存储过程中,企业主要会从数据敏感度、数据时效性、企业硬件水平等维度考虑,选择不同的数据存储服务。现阶段,我国数据存储主要包括公有云、私有云以及混合云等方式。(1)公有云数据存储现阶段,公有云是我国数据存储最大的平台。根据工信部全国数据中心应用发展指引(2020)数据,截至 2019年底,我国在数用数据中心机架总规模达到 314.5 万架,同比增长 39%。从技术角度看,我国的数据存储和处理市场成熟度相对较高,已经成长出 Oceanbase 等分布式数据库,数据存储能力有了大规模上升。同时,公有云提供商已经从早期的阿里云、腾讯云等几家互联网公司,发展成为超过 60家

31、企业的供应商群体。虽然我国公有云规模有了较大上升,但公有云建设仍存在一定的盲目性,需统筹规划公有云平台建设。例如,现阶段我国数据中心平均上架率仅为 53.2%,使用情况较差。(2)私有云数据存储对数据安全性要求较高的企业可构建属于该企业的数据中心并设立防火墙,将数据存储在私有云。对于某些企业如科技研发企业,程序、数据等无形资产是最关键的核心资16产,为防止数据泄露会采取网络隔离的方式,使数据存储在本地。同时,对于某些时序性要求较高的数据,云端访问在流量峰值期间容易出现性能问题(如网络拥堵),在局域网访问数据的本地化部署可以有效避免外部流量峰值的冲击。由于局域网带宽更大,数据传输也会更快,下载大

32、文件时更有优势。根据 Gartner 预计,我国私有云市场将在 2023 年升至全球第一位,占据全球市场 25%的份额。由于企业私有云搭建和维护成本较高,且部署在私有云上的数据较难通过远程访问,因此私有云的广泛部署仍存在限制。未来,我国数据要素市场私有云存储仍主要集中在政府部门、大型企业及高新科技企业等主体。(3)混合云数据存储混合云是公有云和私有云两种数据存储方式的结合。一方面,部分企业依数据分类分级选择混合云存储方式。企业可将自己核心业务及重要数据资源存放在私有云上,而将次要及需要外部访问的数据存放在公有云上,可提高数据资源的整体安全性能;另一方面,部分企业依时序需求选择混合云存储方式,例

33、如,旅游服务企业或零售企业的数据存储需求会随业务淡季或旺季而产生周期性变化,当数据存储需求量较大时可由私有云切换为公有云存储方式。此外,公有云也可作为私有云的存储备份,当发生灾难性事件时将私有云数据转移至公有云,提高了数据存储的抗风险能力。混合云数据存储方式兼具公有云和私有云的优势,提高了数据存储的安全性和灵活性,降低了存储成本。然而,混17合云存储也提高了数据维护的复杂性。未来,混合云数据存储将探索更加灵活合理的结合方式,规避可能出现的兼容性问题,从而使混合云数据存储被更多企业所采用。3.数据加工数据加工数据加工是指对企业采集和存储的数据进行筛选和处理,提高数据可用性,为数据资源的挖掘和分析

34、奠定基础,主要包括数据清洗、数据标注、数据审核以及数据融合处理等方式。(1)数据清洗数据清洗是指对数据进行校验的过程,目的在于删除重复信息、纠正存在的错误,提升数据质量。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。录入后的数据一般是由数据分析师设置某些筛选条件通过程序而非人工完成。现阶段数据治理工具、大多数大数据平台都提供自动化的数据清洗功能,简化数据加工过程。例如,百度的 EasyData 智能数据服务平台可提供图片去模糊、图片去重、图片批量裁剪、图片旋转等功能,利用机器和人工双重检验,保证数据质量。(2)数据标注数据标注是指借助特定软件标注工具以人工的方式将图片、语

35、音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注质量主要关系到三方面:一是是数据标注人员的素质问题,二是标注工具的效率,三是企18业的管理能力。数据标注行业主要有两种服务模式:一是数据外包形式,由数据标注公司完成人工智能项目的数据采集、数据标注;二是部署标注平台,由企业内部人员利用本地化的数据标注平台标注完成企业内部数据。例如,倍赛数据利用自身研制的数据标注工具,汇集标注团队,为人工智能企业提供数据标注服务。现阶段,我国数据标注产业快速发展,已经吸纳就业超过 10 万人,成为欠发达地区发展人工智能、大数据产业的选择。(3

36、)数据审核数据审核主要是指对非结构化数据进行涉及色情、反动、欺诈之类的非法内容审核。一般是机器和人工审核的双重过滤。根据不同业务需求、信息量及风险权衡,人机审核比例会有所不同。对于机器审核,主要利用自然语言处理(NLP)、计算机视觉等技术。现阶段,各企业在敏感性数据审核上主要通过购买成熟的审核产品来实现,例如图普科技、百度、腾讯、依图等公司可提供通过算法模型进行数据敏感性审查的技术。对于人工审核,数据公司主要通过自建团队或选择第三方审核团队,进行内容审核。例如,人民网就利用自身第三方身份,为今日头条、梨视频等平台提供第三方内容审核。(4)数据融合处理数据融合处理是指将多源、多模态数据互相融合、

37、形成可以被挖掘分析的数据集的技术过程。企业在信息化建设过程中由于受各业务系统建设和实施数据管理系统的阶段性、19技术性以及其它经济和人为因素的影响,导致企业在发展过程中积累了大量采用不同存储方式以及不同模态的业务数据。多源、多模态数据采用的数据管理系统有所不同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。数据融合处理将多源异构数据进行融合,对多模态数据进行知识融合与挖掘。目前,不同数据管理平台均开始在平台中集成相关多源异构数据融合和多模态数据挖掘的功能,使企业数据可以被分析和利用,充分释放数据价值。4.数据流通数据流通数据流通在提升公共决策效率、扩展商业应用场景等方面有着

38、显著的作用。数据流通根据技术方式的不同,可以分为数据开放共享、数据交易、API 技术服务、“数据可用不可见”模式、“数据可算不可识”模式、数据跨境流动等形式。(1)数据开放共享根据数据所有权的不同,可将流通数据分为政府数据和企业数据。政府数据开放共享主要有两层内涵,一是各级政府以及政府部门之间的数据共享,二是政府数据对外开放;企业数据开放共享是指企业之间的数据共享与开放。1)政府数据开放共享在政府数据开放共享方面,现阶段已经形成了以“国家电子政务网站”为平台,促进各部委、省市政务数据共享的内部共享体系和以部委、地方政府为主体,对社会进行数据开放的外部数据开放体系。20内部共享体系方面。内部共享

39、体系方面。国家电子政务网站接入中央部门和相关单位共计 162 家,接入全国政务部门共计约 25.2 万家,形成了国家共享平台。31 个国务院部门在国家共享平台注册发布实时数据共享接口 1153 个,约 1.1 万个数据项,涵盖个人身份、出生、教育、婚姻、社保等自然人相关信息,企业基本信息、信用信息、资质信息等法人相关信息。国家共享平台累计为生态环境部、商务部、税务总局等 27 个国务院部门、31 个省(区、市)和新疆兵团提供查询核验服务 9.12亿次,有力支持网上身份核验、不动产登记、人才引进、企业开办等业务。对外数据开放方面。对外数据开放方面。随着国家政策的引导以及各地数据开放体制机制的完善

40、,我国地方政府数据开放平台数量和开放的有效数据集数量呈现爆发式增长。其中,数据开放平台达到 142 个,在四年内增长近 7 倍;有效数据集达到 98558个,在四年内增长超过 10 倍。各地也不断通过举办开放数据的活动,推动数据开放应用的发展,挖掘政府开放数据价值。2020 年,全国已经有 12 个省市及地级政府举办了开放数据利用互动7。2)企业数据开放共享现阶段数据开放的主体是政府。与政府数据开放共享相比,企业数据开放共享仍处于较低水平。企业数据开放共享对提升供应链协同效应、提升产业竞争力有明显的带动作用。我国政府正在推出相关政策,鼓励支持企业数据开放共7复旦大学,国家信息中心数字中国研究院

41、.2020 中国地方政府数据开放报告,2020 年.21享。例如,工业和信息化部关于工业大数据发展的指导意见提出支持优势产业上下游企业开放数据,加强合作,共建安全可信的工业数据空间,建立互利共赢的共享机制。对于企业数据的开放共享,一方面需要政府出台政策进行鼓励引导,另一方面需要形成良好的市场机制,使数据要素可以进行合理合规流通。(2)数据交易数据交易是指数据买卖双方就数据所有权进行交易。其典型模式为数据交易平台模式,该模式通过构建数据交易平台,吸收第三方数据,撮合数据供给者和数据需求者发生数据所有权交易,并获取交易的服务费。数据交易模式是早期的数据流通模式,但由于我国数据确权相关法律法规不明晰

42、,该模式有较高的数据安全风险,较难保护数据所有者利益,因此近些年来该模式增长开始逐渐放缓。(3)API 技术服务API 技术服务主要利用 API 接口技术,通过程序对元数据进行隔离,在用户发出数据使用请求后,由程序从元数据中抽取、调用数据反馈给用户。目前,API 技术服务模式的供应商主要有聚合数据、京东万象等。例如,API 技术服务头部企业聚合数据已经沉淀了超过 500 个分类的 API 接口,日调用次数已经达到 3 亿次,目前已合作客户逾 120 万家,涵盖智能制造、人工智能、5G 应用等领域。API 技术服务模式具有安全性、便利性等优势。一是保证数据流通安全性。API 技术服务公司提供 A

43、PI 接口,数据22依然存储在客户的数据中心,用户发出的数据验证请求通过API 接口传递给供应商,并将供应商的验证结果反馈通过API 接口反馈给用户。二是 API 技术成熟、使用门槛低。API技术基于互联网的应用正变得越来越普及,数据 API 具有很好的可控性,数据 API 是按需消费,无需购买全量数据,同时很大程度地减少数据质量的争议。三是在技术上易监管。因为用户在进行数据调用时,并不能获取全部元数据,只能调用业务相关数据,因此可以对相关数据调用进行记录,并可以形成一套国家自主可控的标准化、安全可信的技术来实现 API 的网络管控。图 7 API 技术服务模式图来源:聚合数据(4)“数据可用

44、不可见”模式“数据可用不可见”模式是指通过隐私计算技术,实现数据在加密状态下被用户使用和分析。隐私计算,广义上是指带有隐私机密保护的计算系统与技术,能够在不泄露原始数据的前提下对数据进行采集、加工、分析、处理与验证,23涉及数据的生产、存储、计算、应用等数据处理过程。隐私计算能够在保证数据所有者权益、保护用户隐私和商业秘密的同时,充分挖掘发挥数据价值。隐私计算重点强调同时处理隐私和商业机密以及处理复杂数据的算法能力,类似的概念有隐私计算、隐私安全计算、机密计算等。在具体的商业场景中,隐私计算具有在保护数据安全的情况下处理海量数据的基本能力。其技术方案主要有安全多方计算、联邦学习、可信执行环境等

45、。图 8 隐私计算原理来源:国家工业信息安全发展研究中心1)安全多方计算安全多方计算(MPC)是指在无可信第三方的情况下安全地进行多方协同计算。在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,要求每个参与实体除计算结果外,均不能得到其他参与实体的任何输入信息。安全多方计算包含的基础技术有很多,比如同态加密、秘密分享、不经意传输、混淆电路等。基于混淆电路的协议更适用于两方逻辑运算,通讯轮数固定,但是拓展性稍差。在另一类基于秘密分享的安全多方24计算中,数据输入和计算中间值都会以“密文分片”的方式存在。秘密分享技术可以把隐私数据切割为 2 份或更多份,并将随机分片

46、分发给计算参与方,这个过程保护了数据隐私又允许多方联合对数据进行计算。之后,就可以利用分片间存在的同态计算性质来实现在分片上计算并重建得到隐私数据计算结果的目的。安全多方计算技术主要可应用于联合风控、联合营销、联合商业智能等业务应用场景。当前探索安全多方计算技术的厂商主要有蚂蚁集团、阿里云等。图9安全多方计算架构图来源:蚂蚁科技集团2)联邦学习联邦学习(Federated Learning)是指基于多方数据进行联合建模。各自原始数据不对外输出、由中心方进行协调的建模,都可成为联邦学习。联邦学习更多地用于解决联合建模的业务问题,比如信贷风控中的常用的逻辑回归建模评25分、精准营销中的常用的 XG

47、BOOST 分类等建模。比较有代表性的企业和平台包括蚂蚁集团、锘崴科技、富数科技(Avatar)、平安科技(蜂巢)、数牍科技等。联邦学习的技术原理在于参与学习的各方机器上部署的客户端从服务器端下载现有模型以及参数,而后根据各自所有的数据对模型的参数进行更新,并把结果传回客户端并更新模型。使用该方法不会与服务器交互原始数据,因此保证了原始数据不会出库。另外,原始数据或者梯度在使用前都可以使用某种方式进行加密或加噪,来增强安全性。目前,联邦学习已经开始用于医疗、基因分析等领域。需要注意的是,无论是安全多方计算还是联邦学习,在涉及个人隐私信息的事情,都需要得到法律法规所规定的使用场景授权。图10联邦

48、学习医疗行业应用来源:蚂蚁科技集团263)可信计算环境即 TEE,是指主处理器的安全区域,它保证装载在内部的代码和数据在保密性和完整性方面受到保护。TEE 作为一个独立的执行环境,提供了完整的安全特性,如执行的独立性、使用 TEE 执行的应用程序的完整性以及其数据的机密性。为了满足对隐私的紧迫需求,越来越多的云提供商正在转向采用 TEE 技术方案。Gartner 在其报告中将 TEE 列为 30多种“关键安全技术”之一。2019 年,百度、阿里巴巴及腾讯等公司联合国外大型科技企业启动了“机密计算联盟”项目,联盟成员共享 TEE 开源工具,实现 TEE 标准互认。4)数据沙箱技术数据沙箱技术是将

49、调试环境和运行环境分离,数据分析师在调试环境中使用样本数据调试代码,然后将代码发送到运行环境中运行全量数据,从始至终数据分析师无法接触全量数据,从而达到保护数据隐私的目的。数据沙箱技术实现了“数据不动程序动,数据可用不可见”,既确保原始数据不泄露,促进合法合规的数据开放,又充分发挥了数据的最大价值。图 11 数据沙箱技术图来源:倍赛科技27实际数据应用场景中,对安全性和计算性能有不同要求,以上的数据技术并不是独立的,所以在实际应用中需要将以上的数据安全技术进行有机的融合方能形成有效的技术解决方案。(5)“数据可算不可识”模式即数据可证去标识。在数据规模较大(比如大于百万条记录)或者对计算性能要

50、求较高时,基于安全多方计算或联邦学习的技术可能难以满足性能或者实时性需求。在大规模或实时性要求较强的数据分析场景下,可证去标识是目前唯一能同时满足隐私合规要求和计算性能要求的新技术。这种技术确保数据去标识后,数据接收方无法重新识别或者关联个人信息主体。可证去标识首先对参与计算的多方数据可信去标识管控,确保所有计算基于去标识化数据展开;其次构建集中式的可信计算环境,通过对试图关联或还原个体身份的高危行为进行拦截,实现挖掘过程中个人数据“可算不可识”;最后在结果输出阶段对输出数据进行原始数据拥有主体及用户的双重确权,实现了价值输出时各方权益可保障。该方案可与现有大数据技术栈无缝集成,且采用集中式计

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服