1、BIG DATA RESEARCH 大数据1722023013-1PARIS原则:开放协作环境下科学数据的可用性摘要科学数据利用的需求日益迫切,且在“第四范式”“融合科学”等新型科研范式带来的开放协作环境下,呈现出跨边界、端到端、动态性和协作化的特征。作为“数据仓储时代”的产物,FAIR、TRUST原则已无法为开放协作环境下科学数据的高效利用提供深入的指导。详细分析了科学数据利用的典型场景,提出开放协作环境下促进科学数据利用的PARIS原则:可处理(processable)、可问答(askable)、可信赖(reliable)、可联合(incorporable)与可供给(suppliable)
2、,并重点分析了PARIS原则对科学数据可用性的促进作用。最后,探讨了实现PARIS原则可参考的技术路径。作为FAIR、TRUST原则的有益扩展,期望PARIS原则能有效提升科学数据的可用性。关键词FAIR原则;TRUST原则;PARIS原则;数据利用;数据可用性中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.2096-0271.2023013PARIS principle:improving the usability of scientific data in the open collaborative environmentAbstractThe dema
3、nd for scientific data utilization is increasingly urgent,and in the open environment brought by the new scientific research paradigms such as“Fourth Paradigm”and“Convergence Science”,the data utilization shows the characteristics of cross-the-boundary,end-to-end,dynamic and collaborative.As product
4、s of the“era of data repository”,the FAIR and TRUST principles can no longer provide in-depth guidance for the efficient use of scientific data in the open environment.This paper analyzed the typical scenarios of scientific data utilization in detail.Then,it presented the SHEN Hongzhi1,ZHANG Xiaolin
5、2,ZHENG Xiaohuan31.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China2.National Science Library,Chinese Academy of Sciences,Beijing 100190,China3.Bureau of Science Communication,Chinese Academy of Sciences,Beijing 100864,China沈志宏1,张晓林2,郑晓欢31.中国科学院计算机网络信息中心,北京 100083
6、;2.中国科学院文献情报中心,北京 100190;3.中国科学院科学传播局,北京 100864173FORUM 论坛2023013-2PARIS principles to promote scientific data utilization:processable,askable,reliable,incorporable,and suppliable.Finally,this paper given a technical practice path that the PARIS principles can refer to.As beneficial extensions of th
7、e FAIR and TRUST principles,it is expected that the PARIS principles can effectively improve the usability of scientific data.Key wordsFAIR principle,TRUST principle,PARIS principle,data utilization,data usability0 引言(1)科学数据与科学数据中心科 学数 据管 理办法指出,科 学数据(scientific data,又称科研数据,research data)主要包括在自然科学、工程
8、技术科学等领域,通过基础研究、应用研究、试验开发等取得的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。国际上,美欧等发达国家和地区已经将科学数据的持续积累和开放利用提高到了国家和地区战略的高度,并将国家科学数据中心建设作为科学数据管理的重要手段1-2。近年来,为促进科学数据的汇交整合和开放共享,我国加强了科学数据中心的建设。2019年6月,科技部、财政部在原有科学数据类国家平台的基础上进一步优化调整,形成了20个国家科学数据中心,涉及地球系统、人口健康、农业、林业、气象、海洋等多个领域 3。同年,中国科学院启动了科学数据中心体系建设,初步建成了由
9、总中心、18个学科中心和13个所级中心组成的院科学数据中心体系 4。多元化科学数据中心生态正在迅速形成 ,包括:大中型科学数据中心,如国家科学数据中心、学科数据中心 、省部级科学数据中心 等 ;小型科学数据中心,如研究所数据中心 、高校数据中心 、企业数据中心、实验室数据中心等;微型科学数据中心,如 团队科学数据中心、个人科学数据中心等。此外,大型科学数据中心往往还按照学科或者区域下设分中心(分部)。这些科学数据中心势必形成复杂的生态,共同推动科学数据的共享,为科技创新发挥更大作用。(2)FAIR、TRUST原则与科学数据共享随 着 数 据 开放 运 动的 不 断 深 入,科 学 数 据的共享
10、 取得了较 大的发 展。2 016 年,FA I R原 则被 正 式 确定 为 科学数 据管 理的指导方针5。FAIR原则规 定了数 据的开放 共 享需要 满足可发现(findable)、可访问(accessible)、可 互 操作(interoperable)、可重用(reusable)4个方面的要求。类似地,TRUST原则从透明性(transparency)、负责任(responsibility)、用户导向(user focus)、可持续性(sustainability)、技术(technology)5个方面定义了数据仓储(data repository)的可信任能力6。欧 盟、荷兰、澳大
11、 利亚等非常 重 视FAIR原则在数据密集型科学数据管理中的作用,在人文社科、环境科学、生命科学等领域开展了应用实践7-8。越来越多的科学数据中心遵循FAIR原则进行数据开放共享,并在TRUST原则的指导下构建可信的数据仓储。比如,国家青藏高原科学数据中心收集并发布了4 600多个青藏高原及周边地区的科学数据集,不断研发新技术实践FAIR原则,采用国际标准提供数BIG DATA RESEARCH 大数据174据引用方式和数据关联文献引用方式,支持数据出版,开发在线大数据分析、模型应用等功能9。截至2022年3月,该中心页面访问量累计超过1.5亿次,月均下载量达到50 TB。同时,国家青藏高原科
12、学数据中心也成为国内首个通过Nature数据期刊Scientific Data认证的数据仓储中心,大大提高了数据中心的影响力和权威性。(3)科学数据从共享到利用数据只有动起来、用起来才能产生价值。咨询公司Frost&Sullivan在2019年发布的2025年世界顶级全球大趋势及其对商业、社会和文化的影响一文中提到,数据支撑着未来,90%的变革性转变严重依赖数据的流通和使用10。在大数据时代,科学发现越来越依赖于对海量数据的集成和分析,科学研究水平不仅取决于科研人员的水平,也越来越多地取决于对数据的积累以及将数据转换为信息和知识的能力2。如,北京正负电子对撞机北京谱仪国际合作组利用国家高能物理
13、科学数据中心存储的北京谱仪(BES)数据完成世界上最精确的正反科西超子衰变不对称性测量。该结果证实了一种新方法,它为研究物质和反物质之间的差异提供了极其灵敏的探针11。再如,国家生态科学数据中心兰州大学分中心利用长期定位土壤呼吸观测数据,在土壤呼吸与土壤温度间滞后性的研究方面取得重要成果12。对科学数据进行处理、分析、挖掘与可视化等操作,将数据转换为信息和知识的过程,就是数据利用(data utilization)的过程。图1所示为科学数据生命周期的核心阶段,包括:数据产生数据处理数据分析数据共享数据保藏数据重用。其中,数据利用分别发生在数据产生之后、数据保藏之前,以及数据重用的阶段。为深入了
14、解科学数据共享与利用的现状,本文选取了20个国家科学数据中心的微信公众号以及科技部主办的微信公众号“锐共享”,对其中的文章内容进行分析,分别统计了2021年7月至2022年12月期间“数据发布”“数据利用”两类文章的发表情况。图2所示为21个公众号发布两类文章的数量对比,图3所示为“锐共享”公众号文章发表数量趋势。统计发现,现有科学数据中心在科学数据的发布共享与数据利用方面都呈现出较好的发展势头。但相比而言,目前各科学数据中心在落实FAIR原则方面,其工作更侧重于数据发布与共享(即F、A和I方面),数据利用方面(即R方面)稍显不足。科学数据中心的数据服务仍然以“数据仓储”服务为核心,以“数据汇
15、聚/汇交”为主要的数据共享模式,发布出来的数据集往往不能满足分析可用(analysis ready)、在线分析可用(online analysis ready)的需求,科学数据的利用环境与仓储环境还图 1科学数据生命周期2023013-3175FORUM 论坛存在着较大脱节,科学数据的利用能力和水平存在亟须改进的地方。(4)开放协作环境下的科学数据利用“第四范式”“融合科学”“关联科学”等新型科研范式对科学数据的共享和利用提出了要求。“第四范式”强调从数据中心保存的海量的、由各种设备收集到的图 221 个公众号发布两类文章的数量统计图 3“锐共享”公众号文章发表数量趋势2023013-4数据中
16、查找所需数据并进行分析研究13;“融合科学”强调所有学科之间的数据开放和共享、科研全流程的数据开放和共享,并强调对与解决重大经济社会问题相关的全景式数据的开放和共享14;“关联科学”则强调科学数据之间的关联性,提出一种实现科学资产互联的方法,以支持BIG DATA RESEARCH 大数据1762023013-5透明的、可重复的和跨学科的研究15。可以看出,随着各种新型科研范式的开展,科学数据的利用被置于一个“多主体、多要素、全景式”的开放协作环境。多主体:多元化科学数据中心已形成日益繁荣的生态,彼此竞争和合作。多要素:除了传统的科学数据资源要素,科学数据软件及服务、科技文献、科学数据团队等要
17、素也参与了科学数据的利用。全景式:科学数据的利用不再局限于独立的视角,而以最终任务为目标,有效整合交叉学科机构各类数据资源与服务。比如,国家天文科学数据中心牛晨辉等16在处理FAST数据的过程中,发现2019年5月20日的数据存在重复的高色散脉冲。基于这一发现,团队通过与美国甚大阵列望远镜合作,在2020年7月完成亚角秒量级的精确定位,并探测到了一颗与之对应的致密的持续射电源(PRS)。随后,通过美国帕洛玛200英寸望远镜和凯克望远镜、加拿大-法国-夏威夷望远镜和日本斯巴鲁近红外光学望远镜,团队进一步确定了FRB20190520B的宿主星系和红移,推导出其宿主星系贡献了总色散值的80%,并结合
18、散射特征提出宿主星系的色散主要来自邻近FRB爆发源的区域。这个例子综合利用了FAST数据、美国甚大阵列望远镜、美国帕洛玛200英寸望远镜和凯克望远镜,以及加拿大-法国-夏威夷望远镜和日本斯巴鲁近红外光学望远镜的数据。为有力应对新型科研范式的应用场景,科学数据中心逐渐形成相互联合的态势。比如,2021年7月,国家高能物理科学数据中心、国家空间科学数据中心、国家天文科学数据中心签订战略合作协议,并发布“高能物理-空间科学-天文学”首批联合主题数据目录,从而满足多信使天文学使用探测电磁波、引力波、中微子、宇宙线等多种技术手段对天体进行观测的需求17。再如,2021年8月,国家农业科学数据中心联合国家
19、地球系统科学数据中心、国家林业和草原科学数据中心、国家气象科学数据中心,建立黄河流域生态保护与高质量发展专题库,为促进黄河流域生态保护与高质量发展国家战略实施、保障黄河长治久安提供全方位科技支撑。不仅如此,科学数据中心内部也存在各分中心“联合”的态势,如国家天文科学数据中心根据中国“虚拟天文台”的思路整合了国家天文台、紫金山天文台、上海天文台、云南天文台、新疆天文台等天文科学数据及其他类型的天文数据,形成了物理上分散、逻辑上统一的覆盖天文科学数据全生命周期的管理与开放共享平台18-19。在“多主体、多要素、全景式”的开放协作环境下,科学数据的利用不再是传统手工的、单点作坊的方式,逐渐呈现出“跨
20、边界、端到端、动态性和协作化”的特征。跨边界:科学数据的利用不再发生在单一数据中心、单一团队内,往往是跨系统、跨中心、跨领域的。端到端:科学数据的利用往往是“端到端”的无人工交互、弱人工交互的自动化、智能化的方式,科学数据需要技术协议层面的高度无缝衔接。动态性:科学数据的利用、流向不再是静态的、预设完好的,而是针对复杂利用场景,在线、按需的、动态执行。协作化:科学数据的利用不再是针对某个单一的数据源、数据中心进行的,而是通过综合调度多个数据中心的资源,完成一个复杂场景的任务。FAIR原则在科学数据的共享和利用过程中起到了较大的指导作用。但应注意到,FAIR、TRUST等原则更多关注的是科学数据
21、的开放与共享,实现了科学数据的“不可见可见可用”,但仍无法有效解决科学数据及其服务目前普遍存在着的分177FORUM 论坛图 4“下载 解释 使用”模式2023013-6布式、孤岛化、差异化、权益约束等问题,无法实现科学数据的“可用可协作”,无法有效满足“第四范式”“融合科学”等新型科研范式提出的“跨边界、端到端、动态性和协作化”的科学数据利用需求。科学数据面临的主要矛盾已转化为分布式孤岛化异构科学数据资源与新型范式对科学数据高质量供给(按需、高效、可信供给)需求之间的矛盾。1 科学数据利用场景跨边界、端到端、动态性和协作化的科学数据利用需求广泛存在,本节梳理出不同环境下几类典型的科学数据利用
22、场景:离线与在线消费、数据即服务、算法找数据/数据找算法、数据管道、数据协同分析。1.1 离线与在线消费在传统的科学数据共享方案中,数据利用通常采用的是“下载解释使用”(download-interpret-load,DIL)的离线方式(如图4所示),即:用户通过浏览数据网站,获取数据集地址,通过HTTP或者FTP等方式下载该数据集,获得一份复制数据;用户结合数据集的描述信息,对下载的数据集结构、内容进行理解和确认;用户启动一个消费程序,如Excel,加载数据并进行进一步分析应用。这种模式的缺点是需要人工干预,效率较低,在复杂动态任务的场景下无法做到及时有效。另外一种模式是在线消费(onlin
23、e consumption,OC)模式,如图5所示。在这种模式下,消费程序按照固定的协议和格式直接接收数据并生成消费结果,消费过程中无须人工干预。近年来,数据出版成为一种新型的科学数据共享方式,数据出版可使数据达到可引用和追溯的状态,核心内容是为数据引用提供标准的数据引用格式和永久访问地址20。数据仓储是一种常见的数据出版方式,它往往以数据文件包的方式提供数据下载服务。这种情况下的数据利用就是DIL模式。1.2 数据即服务图4展现的是一种传 统的“移动 数据”的消费模式,即消费程序不动,将数据从发布端迁移到消费端,其特点可概括为“给程序喂数据”“程序不动数据动”。对于海量规模的科学数据集,由于
24、数据迁移和传输的成本较高,往往需要采用一种数据即服务(data as aservice,DAAS)的形式提供数据服务。在这种形图 5在线消费模式BIG DATA RESEARCH 大数据178图 6在线数据集模式图 7“数据找算法”模式2023013-7式下,“科学数据集”和“数据服务”统一,可被称作在线数据集。在线数据集需要配套程序执行引擎或者容器,接受用户设定或提交消费程序或逻辑,并输出消费结果,这种方式为“移动计算”,特点是“给数据喂程序”“数据不动程序动”,如图6所示。数据即服务的一个典型例子是Google BigQuery21。BigQuery为用户提供了一个在线分析的环境,允许用户
25、选择数据集,提交一个SQL查询语句,从而获取到关心的查询结果。在这里,程序逻辑是SQL结构化查询。另外一种常见的程序逻辑是类似于Map-Reduce的大数据操作,如提交一段脚本,要求返回符合条件的数据的某列的总和,在这种情况下,“移动计算”要比“移动数据”要经济很多。1.3 算法找数据/数据找算法在数据丰富、算法贫乏的时代,数据消费过程中主动权在于消费程序,因此需要根据消费程序(算法)的输入输出格式要求来准备数据,即“算法找数据”,这个过程中数据的预处理往往是一项重要的准备工作。随着机器学习、深度学习、神经网络,以及容器技术、微服务技术的发展,根据数据以及任务来找算法已经成为可能。如针对一幅在
26、植物园拍摄的植物照片(格式为JPEG),需要识别其中的植物物种,甚至识别其中的生态场景。这种模式即“数据找算法”,该模式如图7所示。这种场景需要数据提供详细的信息(如JPEG格式、植物照片)、任务的定义(如识别植物物种),同时需要有“算法市场”。“算法市场”中每个算法都有更详细的描述(如用途、输入数据的约束、编程语言、执行环境等)。1.4 数据管道数据的消费过程经常是复杂的、多轮迭代的,这种情况需要多个消费程序形成数据管道,这样消费程序就可以按需串接起来,即消费程序A的输出可以作为消费程序B的输入,从而满足复杂的、个性化的数据使用需求。这种模式即数据管道,如图8所示。数据管道广泛应用于科学数据
27、的分析利用中。以GWAC(中法合作的伽玛射线暴探测天文卫星SVOM的关键地面设备)为例,一个GWAC相机每15 s产生一个大小为32 MB的天区图,图像的点源提取和接下来的光变曲线处理流程应该在一帧的15 s内快速处理完成22。这个实时处理过程实际上就是一个典型的数据管道:天区图采集图像处理点源提取交叉认证光变曲线处理。179FORUM 论坛图 8数据管道模式图 9数据协同分析模式2023013-81.5 数据协同分析在面向复杂任务时,由于数据天然的分布性,往往需要多个数据资源、数据服务协同完成,例如对一个区域的机构与企业数据、人口数据、市场数据、治安数据等的融汇处理。这种模式即数据协同分析,
28、如图9所示。前文提到的利用FAST数据发现快速射电暴事件31就是一个典型的数据协同分析的例子。其中的数据服务涉及FAST、美国甚大阵列望远镜、美国帕洛玛 200 英寸望远镜和凯克望远镜、加拿大-法国-夏威夷望远镜和日本斯巴鲁望远镜。2 PARIS原则为了有效提升开放协作环境下科学数据的可用性,促进科学数据的“可用可协作”,本文提出一套针对科学数据的PARIS原则,即:可处理(processable)、可问答(askable)、可信赖(reliable)、可 联 合(i n c o r p o r a b l e)与 可 供 给(suppliable)。2.1 可处理可处理原则(或者称为可计算原
29、则)指的是科学数据的内容可以被计算机进行处理和分析。具体如下。数值可计算。如针对数值、日期等类型的数据值,建议采用数值类型(整数、浮点数、日期类型等),方便算术运算;对于数值类型的属性,宜在元数据中标注其单位(如m、kg等)。语义可计算。如针对物种分类、地区机构、关系等属性的值,尽量采用公认的语义词汇。此 外,建议采用公认的语义词汇作为数据(元数据)的属性名。采用通用的数据格式。如图片采用BIG DATA RESEARCH 大数据1802023013-9JPEG/PNG等格式。具有适用的处理程序。科学数据建议使用某个公认的处理程序(如Excel、Matlab、Python等)进行处理。可处理程
30、度越高越好。数据的格式和结构不同,其可处理的程度也具有差别。例如,针对一张图片进行人脸识别,将识别的结果输出到一个包含人脸坐标的CSV文件,这比直接输出一张包含画框标注的图片更容易被计算机处理。2.2 可问答可问答原则要求科学数据不是一种仅供下载和在线浏览的静态资源,而是以一种“活的”服务的形式存在,可以接受用户提出的问题并给出答案。具体如下。可在线问答。大规模的数据集建议包装成“在线数据集”形式,且采用某种共识的访问和调用协议,在线数据服务具备明确的调用协议、接口说明,以及其接受的消费逻辑、产出结果的格式描述。支持静默问答方式。在线数据集的服务尽量采用静默方式,即无人工交互或弱人工交互方式。
31、可持续问答。支持会话和状态保持。2.3 可信赖可信赖原则要求科学数据在获取和消费过程中得到信赖保证。具体如下。数据使用许可。发布明确的数据使用许可协议,帮助用户全面、快速地了解数据的使用方式及限制,规范用户使用行为,保障数据作者合法权益。数据安全可靠。根据相关法律法规及规范性文件的要求,对数据进行分级分类管理,遵守法律法规和科研伦理,确保数据安全可控。数据拥有可信赖。在开放数据使用的同时,限制对数据的全量和大量获取请求,最大限度保障数据不流失。服务输入可信赖。在线数据集场景中,针对用户提交的消费逻辑,采用必要的手段(如沙箱技术、代码审查等)进行限制,以保证数据和服务系统不被侵害。数据访问可信赖
32、。针对用户身份、数据访问频次等信息,实现对数据访问的限制。2.4 可联合可联合原则指的是科学数据彼此可以合作,并非孤立的。FAIR提出的可互操作原则重在强调机器对数据的理解,可联合原则更强调机器与机器之间的联合、合作。具体如下。数据可关联。在发布数据的同时,发布数据的内部关联和外部链接,如针对关系型数据,可描述其外键关联;针对图数据,可采用边(edge)描述数据之间的关联等。数据可溯源。对科学数据的溯源信息进行描述,如记录数据集的创建过程、创建者、数据生成设备、数据处理流程等信息。准确且丰富的机器可读溯源信息可为研究人员或代理计算机评估数据集提供凭证和支撑。数据可互补。科学数据的描述有利于便捷
33、的水平方向、垂直方向的数据联合。如数据集的描述可提供互补属性,包括不同的学科分布、不同的时空分布等。服务可联动。科学数据服务具备可联合的能力,如科学数据服务提供机器可理解的服务调用协议、输入输出描述等。2.5 可供给可供给原则指的是科学数据可以作为181FORUM 论坛2023013-10一种资源对外供给,同时可以提供给后续数据服务进一步使用,满足“算法找数据、数据找算法”以及“数据管道”场景的使用需求。具体如下。提供数据目录。提供面向供给的元数据:包括数据的覆盖面、产生频率、数据精度、数据加工级别等信息。面向数据消费的供给:提供开放的数据消费协议、接口说明。提供版本化供给:针对数据资源的不同
34、版本产品,应描述其批次和版本信息。提供流式供给:数据资源的传输尽量满足供给链的要求,如科学数据与服务的输出格式应尽量适合流式传输,这与传统的基于“完整文件包”的利用形式不同。提供可靠供给:提供合理的镜像、副本,从而满足动态供给的需求。提供针对供给的计费体系:针对科学数据的使用进行统计和计费。2.6 PARIS原则与科学数据可用性PARIS原则可实现科学数据的“可用可协作”,从协作方面丰富了科学数据的可用性的内涵。Bloland等23针对免疫数据,将数据可用性定义为关联性、高效性、全面性、及时性、完整性与一致性;Prins等24结合医疗数据,从数据源的收集、用于记录的管理规程、选择数据记录的初衷
35、以及与论文数据的比较几个方面来衡量可用性;空间数据可用性研讨会认为,数据可用性涉及5个要素,分别为推广、质量、软件与工具、人类理解与认知,以及应用25;李建中等26从数据的一致性、完整性、精确性、时效性、实体统一性5个方面定义大数据的可用性。本文将数据可用性分解成4个层次:数据可获取、政策可容许、来源可信赖、技术可处理(如图10所示)。数据可获取:包括数据源的可发现、可访问、可理解,主要通过访问协议以及关于数据文件的元数据描述来判断。政策可容许:这不仅指数据文件本身是否授权使用(数据文件许可),还包括数据采集、记录、处理、传播等是否符合相关法律,尤其是对个人信息以及敏感数据的保护。使用者需要检
36、验数据是否符合法律要求,还要考虑后续对这些数据的使用本身是否符合法律要求。来源可信赖:包括数据仓储的可信赖与数据内容的可靠性。前者指一个机构或领域的数据中心提供的数据服务能否有效地支持人们的使用;后者涉及数据内容本身针对具体研究问题的有效性和可靠性的判断,包括但不限于数据处理是否符合标准、准确、精确要求等。多数情况下,需要通过对数据采集、处理、计算等的方法、参数、工具等的描述来判断,可能需要数据格式、数据溯源信息等来确定。技术可处理:即使用者能否有效调用、配置合适的工具和方法来进行所需的数据处理。FAIR、TRUST及PARIS原则从不同的方面促进了科学数据的可用性,满足矩阵见表1。其中,FA
37、IR原则为数据可获取方面提供了有力保障,同时为政策可容许、来源可信赖、技术可处理方面提供了部分保图 10数据可用性的 4 个层次BIG DATA RESEARCH 大数据182表 1PARIS 原则与科学数据可用性项FAIR原则TRUST原则PARIS原则FAIRPARIS数据可获取政策可容许来源可信赖技术可处理表 2PARIS 原则相关实现技术PARIS原则相关实现技术可处理数据格式协议、元数据等可问答函数式编程、在线Notebook等可信赖访问控制、安全多方计算、可信计算等可联合关联数据、联邦学习27、数据网格、数据经纬等可供给科学工作流28、大数据流水线等2023013-11障;TRUS
38、T原则为来源可信赖方面提供了针对数据仓储的可信赖保障;PARIS原则是对FAIR、TRUST原则的有益补充,主要针对开放协作环境提出,可实现科学数据的“可用可协作”。3 PARIS实现技术探讨本节针对PARIS的实现技术进行探讨,结合已有的相关实现技术分析,提出PARIS核心服务设想,并进一步结合该设想给出PARIS节点、PARIS网络的技术实现路径。3.1 相关实现技术参考在基于PARIS原则实现数据利用技术框架时,有一些成熟的机制与技术可供参考和使用,见表2。基于联邦学习,可以实现科学数据的“可问答”和“可联合”。联邦学习自推出以来,已在工业、医疗、金融等场景中得到广泛使用。但联邦学习目前
39、仅适用于机器学习,其模型相对固定,各节点之间交换的是模型的参数而非分析结果,因此尚不支持大规模数据的跨中心联动。数据网格的发展比较早,它实现了异构科学数据的一体化访问,可以有效提升科学数据中心的跨域数据“可联合”和“可供给”能力。数据网格概念来自网格,网格技术的研究目标是实现网络虚拟环境下高性能资源的共享和协同工作,以实现一致使用各种分散资源的目的29。数据网格以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个分布海量数据的一体化网格数据访问、存储、传输、管理与服务架构和环境。目前已有地球系统网格30-32等多个数据网格。另外 一 个相关 的 技 术是 数 据 经 纬(d
40、ata fabric,又被称为数据编织)。数据经纬概念在2000年首先由Forrester公司提出,2016 年Forrester Wave中增加了Big Data Fabric类别;从2019 年开始,数据经纬每年都入选Gartner各年度的技术趋势。数据经纬在数据发现、语义互操作、智能访问协同方面可以较大程度地提升数据的利用水平。3.2 PARIS核心服务设想PARIS原则有利于促进科学数据中心彼此协作,从而实现一些面向应用的“协作式”创新性服务,如数据关联网络、大文件系统、大数据库、大数据流、联邦分析等。数据关联网络:通过采用关联数据规范,将分布的数据记录发布成统一的格式,同时提供统一的
41、访问协议,数据之间183FORUM 论坛2023013-12彼此关联,该服务为应用提供一张完整的语义网络。大文件系统:面向分布于多个科学数据中心的文件(或者对象),为应用提供一张逻辑上完整的文件系统视图。客户端可采用类似于连接分布式文件系统(HDFS)的方式进行数据消费,区别在于HDFS是局域的,而大文件系统是跨域的。大数据库:面向分布于多个科学数据中心的结构化数据(关系数据库、图数据库、文档数据库、KV数据库等),为应用提供一张逻辑上完整的数据库视图,可以采用统一的、智能的查询语句实现跨库数据检索和分析。客户端可采用类似于MongoDB分布式数据库的方式进行数据处理,区别在于MongoDB是
42、局域的,而大数据库是跨域的。广义的大数据库可涵盖结构化数据以及半结构化、非结构化数据,采用一种统一的数据模型实现数据资源封装。大数据流:涉及数据从产生到处理、转换、分析的全过程。大数据流可能跨越多个科学数据中心节点,涵盖传感器数据采集、数据校验、网络传输、分中心汇聚、大数据处理转换、模型计算分析等多个流程,面向应用形成一个虚拟的数据供应链路。联邦分析:该服务为应用提供一张透明的、相对完整的分析能力调度网络,根据应用的需求,对输入的分析任务进行智能拆解、路径编排和执行。3.3 PARIS节点设计可以将满足PARIS原则的数据中心节点理解成一个PARIS节点,它具备如下能力:维护一套本地的数据目录
43、;维护一套本地的服务目录;开放标准化的访问接口,满足数据关联网络、大文件系统、大数据库的调用请求;开放标准化的服务接口,满足大数据流、联邦分析的调用请求。针对以上设想,本文给出一个节点设计参考方案,如图11所示。从图11可以看出,在该设计方案中,PARIS节点中包含几个关键组件:数据资源发布中间件、可调度数据分析中间件和安全控制系统。其中,作为可调度数据分析中间件的核心,数据流水线以算子和流水线的方式实现了对数据分析服务的抽象,实现了多元异构数据和计算的统一33。如图12所示,一条流水线由多个节点组成,图 11PARIS 节点设计参考方案图 12数据流水线的抽象模型BIG DATA RESEA
44、RCH 大数据184图 13PARIS 网络架构2023013-13每个节点被称为处理器(processor),处理器之间进行数据的传输。其中,具有一个输入和一个输出的处理器被称为转换器(transformer),具有多个输入的处理器形成了合流(merge)的操作,具有多个输出的处理器形成了分流(fork)的操作。3.4 PARIS网络设计多个分布式的PARIS节点形成网络,该网络可有效连接数据“孤岛”、服务“孤岛”,发挥科学数据中心体系的优势,形成完整视角的数据资源服务及协同分析能力。PARIS网络具备如下特征。开放性:任何新的节点按照约定的协议都可加入和离开网络。去中心化:元数据、数据信息
45、分布存在于各节点,网络中不存中心节点,网络会自动选择一个节点作为Leader节点,该节点仅负责总体调度。联邦式:即各节点遵循一套合作协议,提供相对完整的目录视图,实现联邦服务。透明性:即对外屏蔽了数据的异构性、位置差异性、计算服务的差异性。可靠性。节点会同时暴露数据目录和服务目录,因此PARIS网络具有两个平面:数据平面和分析平面,如图13所示。其中,数据平面的核心功能是数据资源的融合,可以基于此平面构建数据关联网络、大文件系统、大数据库等服务;分析平面的核心功能是分析能力的融合,可以基于此平面构建大数据流、联邦分析等服务。作为例子,图14给出了基于跨域数据流水线调度的联邦分析流程。4 结束语
46、随着FAIR、TRUST原则的推出,科学数据的开放共享得到了较大的进展,作为科学数据汇聚、存储、服务的主体,科学数据中心日益发挥出更重要的作用。然而,目前科学数据的共享还是以科学数据的可发现、可访问为主,科学数据中心的数据服185FORUM 论坛2023013-14务仍然以“数据仓储服务”为核心,以“数据汇聚/汇交”为主要的数据共享模式,科学数据的利用与目前的仓储环境还存在较大脱节,科学数据的利用能力和水平存在亟须改进的地方。随着“第四范式”“融合科学”等数据驱动型的新型科研范式的发展,以及各级科学数据中心的成立和蓬勃发展,科学数据的利用在开放协作环境下呈现出跨边界、端到端、动态性和协作化特征
47、,如何有效提高科学数据的协同服务能力,成为下一步的研究焦点。本文详细地分析了开放协作环境下科学数据利用的场景,提出促进科学数据利用的PARIS原则,并给出了可参考的技术实践路径。传统的FAIR、TRUST原则在开放协作环境下对科学数据利用工作的指导存在诸多限制,无法深入指导科学数据跨边界、端到端、动态性和协作化的利用,希望PARIS原则能在未来的科学数据共享工作中发挥更大的作用。图 14基于跨域数据流水线调度的联邦分析流程参考文献:1 王卷乐,王明明,石蕾,等.科学数据管理态势及其对我国地球科学领域的启示J.地球科学进展,2019,34(3):306-315.WANG J L,WANG M M
48、,SHI L,et al.The situation of scientific data management and its enlightenment to earth sciences of ChinaJ.Advances in Earth Science,2019,34(3):306-315.2 徐波,王瑞丹,陈祖刚,等.科学数据中心综合运行评价体系赋权研究J.中国科技资源导刊,2021,53(4):96-103.XU B,WANG R D,CHEN Z G,et al.Research on empowerment of scientific data center compreh
49、ensive operation evaluation systemJ.China Science&Technology Resources Review,2021,53(4):96-103.3 王瑞丹,高孟绪,石蕾,等.对大数据背景下科学数据开放共享的研究与思考J.中国科BIG DATA RESEARCH 大数据1862023013-15技资源导刊,2020,52(1):1-5,26.WANG R D,GAO M X,SHI L,et al.Research and thoughts on the opening and sharing of scientific data under ba
50、ckground of big dataJ.China Science&Technology Resources Review,2020,52(1):1-5,26.4 高雅丽.在科技管理中,让科学数据“开放共享”N.中国科学报,2022-06-08(1).GAO Y L.Making scientific data“open and shared”in science and technology managementN.China Science Daily,2022-06-08(1).5 WILKINSON M D,DUMONTIER M,AALBERSBERG I J,et al.The