收藏 分销(赏)

基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf

上传人:自信****多点 文档编号:1980719 上传时间:2024-05-13 格式:PDF 页数:5 大小:3.92MB
下载 相关 举报
基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf_第1页
第1页 / 共5页
基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf_第2页
第2页 / 共5页
基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、56Sep.2023InformationResearchNo.9(Serial No.311)2023年9 月第9 期(总31 1 期)情报探索基于5W模式的生命科学数据库联盟服务研究以INSDC为例任巧(上海大学文化遗产与信息管理学院上海200444)摘要:目的/意义 通过探究国外生命科学数据库联盟管理和服务模式,为我国生命科学领域的科学数据管理提供参考。【方法/过程 通过网络调研,以INSDC为例,利用5W传播模式分析生命科学数据库联盟的管理及服务现状,从服务主体、服务对象、服务内容等方面进行了深人剖析。【结果/结论】国外生命科学数据库联盟具有完善的数据管理和服务政策,以及完善的数据管理

2、和服务流程,同时注重联盟成员之间的互动,由此为用户提供可靠的数据支持与服务。关键词:5W模式;科学数据管理;INSDC中图分类号:G258.6文献标识码:Adoi:10.3969/j.issn.1005-8095.2023.09.008Research on Life Science Database Alliance Service Based on 5W mode:Case Study of INSDCRen Qiao(College of Cultural Heritage and Information Management,Shanghai University,Shanghai 2

3、00444)Abstract:Purpose/significance Through exploring the management and service models of foreign life science database alli-ances,the paper provides reference for scientific data management in the field of life sciences in China.Method/process Through on-line survey,taking INSDC as an example,it u

4、ses the the 5W communication model to analyze management and service status of the lifescience database alliance,and conducts a deep analysis from the aspects of service subjects,service objects,service content and so on.Result/conclusion The foreign life science database alliance has comprehensive

5、data management and service policies,as well ascomprehensive data management and service processes.At the same time,it emphasizes the interaction between alliance members,so asto provide reliable data support and services for users.Keywords:5W mode;scientific data management;INSDC0引言在大数据时代,数据成为重要的科研

6、资产,成为驱动创新的重要资源 。科学研究范式在经历了第一范式实验科学、第二范式理论科学和第三范式模拟科学后,正式进人到了以科学数据为核心的数据密集型科学研究范式 2 。生命科学第四研究范式也推动了生物学研究进人到信息生物学的阶段,由此推动基因序列分析的进步,基因大数据已日益成为推动生命科学研究的战略性资源,核酸序列数据的管理及数据库的建设也逐渐成为各个国家关注的重点。面对生命科学领域的海量基因序列数据,如何对其进行有效管理,提供精准的数据服务,实现序列数据高效共享和利用,促进信息生物学的发展尤为重要。当前,国际上存在较为成熟的核酸序列数据库,本文利用传播学中的5W模式,调研和分析国际核酸序列数

7、据库联盟(International Nucleotide Se-quence Database Collaboration,简称 INSDC)的建设和管理模式,旨在为我国核酸序列数据建设及管理提供参考。15W模式美国政治学家、传播学四大奠基人之一的哈罗德拉斯韦尔于2 0 世纪首次提出“5W传播理论框收稿日期:2 0 2 3-0 5-1 8作者简介:任巧(1 9 9 7 一),女,2 0 2 0 级硕士研究生,主要研究方向为科学数据管理。57任巧:基于5W模式的生命科学数据库联盟服务研究2023年9 月第9 期(总311期)架”明确了构成传播过程的关键五要素。5W分别代表英文中以“W”开头的四

8、个疑问词,即Who(谁)、Say What(说了什么)、In Which Channel(通过何种渠道)、ToWhom(面向谁)、With What Effect(产生何种效果)3。5W模式构建了传播框架,在一定程度上揭示了信息与用户之间的主动传播、接受的互动关系。本文在5W模式的基础上,从联盟协作系统的主体、客体、内容、手段、效果等五个方面要素进行分析。根据联盟的实际情况,将上述五个方面的要素细化:主体对应INSDC联盟本身,包括其特点、服务宗旨等;客体则对应的是服务对象一INSDC联盟的用户;内容对应的是联盟的管理和服务内容;手段对应于联盟的关键成功要素;效果对应于联盟的影响、成果等。在I

9、NSDC数据库的联盟服务中,其协同效应体现联盟各个成员在上述要素中的互动性和融合性,当机构成员与要素之间形成良性互动与循环时,联盟的运转和服务可以认为处于一个良好的水平。2基于5W模式的INSDC数据管理和服务2.1INSDC联盟简介INSDC由日本国家遗传学研究所的DDBJ数据库、欧洲分子生物学实验室(EMBL)的ENA数据库和美国国家生物技术信息中心(NCBI)的Genbank数据库组成,共同合作维护基因序列数据。INSDC的三个成员分别隶属生命科学领域的专业机构,主要提供基金项目资助和专业的数据管理,通过联盟协作的方式,实现了三者的互通互联,为生命科学数据管理提供了可靠思路和对策。INS

10、DC是管理和共享生命科学核酸序列数据(NSD)及其附属信息的核心基础设施,通过其三个成员的日常数据交换,维护相同的数据信息,已经成立并运行了三十余年,是科学界公认的唯一可以公开获取NSD的平台 4。三十多年来,INSDC一直致力于收集、保存和提供全面的公共领域核酸序列及相关数据的访问,旨在促进生物医学、生命科学以及生物多样性的发现2.2管理和服务内容分析2.2.1数据来源联盟三大数据库的核酸序列数据来源丰富,同时又相互实行数据交换,极大地丰富了联盟的数据量。Genbank的数据来源主要有两种途径:一是,测序中心、以及从事科学研究的测序工作者所提交的基因表达序列标签(express sequen

11、ce tag,EST)、基因组勘测序列(genome survey sequences,GSS)、高通量数据等;二是,与其他两个联盟成员之间的交换数据。ENA收集和保存了欧洲大部分的核酸序列数据信息,其中既有原始测序数据,也包含了功能注释等信息。测序数据主要来自于基因组测序中心、各地有关的研究人员。不仅如此,ENA的数据还涉及与测序流程相关的信息,包括测序仪器数据、生物信息分析流程中所产生的数据等。DDBJ的数据主要来源于日本基因序列研究者所提供的数据,并且提交的数据均会被赋予唯一标识号,同时该数据库也接受来自其他国家研究者提供的数据。截止2 0 2 1年6月,INSDC中包含了2 8 30

12、32 118 8 个序列和150 9 3100107909个碱基对,DDBJ为其贡献了3.39%的序列和2.2 3%的碱基对 52.2.2数据管理在数据管理方面,INSDC实行严格的数据分类组织方式,旨在为用户提供更好的数据服务。NCBI的分类数据库为INSDC的许多资源提供了一个分类组织标准,该数据库是公共序列数据库中所有生物的精选分类和命名法的集合。INSDC所有的成员数据库都按照分类数据库中的名称对提交的数据进行组织,如果分类数据库中不包含提交的序列名称,那么会根据现有的序列名称更新分类数据库。提交的数据经过质量把控和审核后,按照分类数据库所包含的名称信息匹配完成后,INSDC的成员数据

13、库为每条数据记录分配一个独特的标识符,称为索引号,三者具有相同的索引号格式,并且随着生命科学序列数据的快速增长,INSDC也在不断扩大索引号的范围,以适应数据量的增加。同时,为了便于管理,INSDC的成员数据库采取分级分部门管理的方式,其中GenBank根据源分类法,将数据分配给不同的部门进行管理,包括12 个分类区(BCT、E NV、I NV、MAM、PH G、PL N、PR I、R O D、SY N、U NA、VR L、VR T)和五个高通量区(EST、G SS、H T C、H T G、ST S)6 2.2.3数据利用在数据利用服务方面,INSDC的数据可以供用户免费访问。Genbank、

14、E NA 和DDBJ都为用户提供了检索和分析系列数据的端口,用于数据访问、下载和使用。Genbank为用户提供在线资源检索器(En-trez),用户可以通过该检索器获取所需的核酸序列数据,用户可以通过EntrezHelp详细了解该检索系统,掌握快速检索或获取序列数据的方法;获取和使用ENA的序列数据,用户需要创建一个webin账户582023年9 月情报探索第9 期(总311期)创建账户便于对用户访问和使用数据的情况进行记录,进而更好地追踪数据使用状态 7 ;DDBJ中心提供了不同序列比对(WebBLAST)、多序列比对(C l u s t a l W)、载体序列筛选(VecScreen)和分

15、类学浏览(TXSearch)服务,用以接收来自网络界面的请求 8 ,从多方面满足用户的数据获取和使用需求。尽管联盟每个成员都有其服务端口,但由于三者之间存在数据交换,因而每个站点显示的数据都是相同的。因此,用户无论从哪个端口访问数据,都能获得联盟的数据,进而达到获取所需序列数据的目的。2.3关键成功要素分析2.3.1统一数据开放共享政策INSDC的三个成员都是发展完善且成熟的生命科学组织所管理的数据库,均有相应的管理和服务准则,如何保证独立运行的同时又能服务于联盟就成为一个重要的问题。因此,在联盟合作之中,制定统一的联盟政策就成为影响联盟能否长远发展的关键因素之一。数据开放共享以联盟为基础,由

16、联盟委员会决定数据共享发展方向,委员会成员分别来自日本、美国、欧洲三方,代表了各方的立场,可以通过国际合作会议解决数据共享中存在问题,进而确保数据共享机制的长期平稳运行 9(1)数据使用INSDC的成员每年会定时召开会议,探索、讨论建立和维护序列档案的有关问题,会议中达成的数据库标准和有关政策会发布在INSDC的官方网站上。INSDC有一个统一的政策,即用户可以免费和无限制地访问他们数据库中的所有数据记录。INS-DC不会在记录上附加限制访问数据的声明,限制使用这些记录中的信息,具体来说,任何序列数据记录中都不会包括使用限制或许可要求,也不会对任何利用数据的一方施加使用数据库限制或收取费用等,

17、世界各地的科学家可以访问这些记录来支撑自已的研究,或发表任意分析和评论。此外,为鼓励数据分享,联盟还根据科学家已发表的科学文献的情况,对引用数据的行为给予适当奖励。(2)数据保护数据保护一方面是注重保密数据的开放共享,另一方面是涉及隐私的数据保护。联盟数据库针对部分提交的数据,会要求间隔一段时间以后再将数据公开,但联盟并不会无限期持有数据而不公开;此外,联盟数据库提出要求,研究人员所提交的数据应当保证不涉及任何个人隐私信息,如美国基因数据共享政策(Genomic Data SharingPolicy,GDS)就明确提出了在基因序列数据等开放共享过程中要尊重相关的隐私和专利,充分发挥各个机构审查

18、委员会的审查作用 10 2.3.2尊重数据用户自主权此外,INSDC另一个关键成功要素在于数据提交者享有大部分的自主权。所有提交给INSDC的数据,将作为科学记录的一部分保持永久访问性,数据提交者对他们提交的数据负有主要责任。联盟仅对数据进行有限的编辑控制和一些内部的完整性检查(如核查NSD数据格式的正确性),记录的质量和准确性是提交者的责任。INSDC鼓励提交者随时更正错误和更新记录,错误的记录可能会在下一次数据库更新时被删除,但所有记录仍可通过加人号永久访问 1。此外,数据提交者可以自主决定数据公开时间,即在文章发表后多久公开数据,或者直接指定数据公开日期。通过这些方式,联盟旨在提高数据提

19、交者共享数据的意愿和积极性,以实现尽可能高质量的数据资源利用。2.4服务对象分析INSDC面向的用户以研究人员和研究机构为主,其他还包括一些科学研究项目资助者、科学期刊出版商、学会、专业团体以及一些外部平台等。依据康奈尔大学的科学数据管理体系,司莉等人围绕研究人员,将联盟角色主体划分为核心层、中间层、外围层(松散层)三个基本层次 12 。本文在对INSDC的服务对象进行分析时,仿照这种划分方式,将服务对象划分为核心用户和外围用户(1)核心用户核心用户包括生命科学研究人员和研究机构,在INSDC的服务对象中占主体地位。核心用户是INSDC直接面向的用户、是整个科学数据生命周期中最直接的利益相关者

20、,与INSDC联系紧密,信息交往频繁。研究机构通过签订协议、条款等方式,与INSDC在数据采集方式、元数据标准、提交规范、联盟管理与运营规范等方面达成一致 13,遵守条约,以机构或组织团体的名义向INSDC提交数据资源。研究者是INSDC资源的个体提供者,也是联盟最主要的服务对象,其参与联盟资源提供的积极性在很大程度上影响着联盟的建设和管理。研究人员既能以个人的名义向INSDC提交数据,使用数据,也能依托团体592023年9 月任巧:基于5W模式的生学数据库联盟服务研究第9 期(总311期)接受来自INSDC的服务。研究人员与研究机构之间存在着如下关系:一是二者互为决策基础,研究机构对INSD

21、C进行宣传,影响和改变研究人员通过INSDC进行数据共享的意愿;二是代表与被代表,研究机构代表研究人员,维护研究人员数据共享过程中的相关利益;三是领导与被领导,研究机构与研究人员向INSDC递交科学数据时,对于部分出于个人利益目的而拒绝呈递数据的研究人员,研究机构有权强制采集其所拥有的部分高价值、易损毁的科研数据,以保障科研数据的共享共用和联盟的健康运行。(2)外围用户外围用户是指除了核心用户以外的其余用户,科研项目资助者在推动数据共享方面逐渐扮演着越来越重要的角色,如 NIH 的 SPARC 计划,主要资助生命科学研究项目,该计划对数据管理计划做出了明确规定,要求研究人员详细地创建数据管理计

22、划,撰写数据管理计划,针对生命科学数据的产出、收集、组织、保存和利用进行详细说明 14,资助机构的推动对数据管理和共享意义重大。期刊出版商同时服务于作者和读者,对于INSDC的数据管理和共享也有推动作用,INSDC和期刊合作,要求文章中提到的数据应当提交给INSDC,在数据提交后期刊则会公开发表文章。此外,其他学会、专业团队以及外部平台也能向INSDC提交数据、获取公开数据等。INSDC面向的用户根据与联盟的直接关联程度,可以分为核心用户和非核心用户,核心用户会直接影响到联盟的存续和发展,而联盟的发展又能反过来为用户提供核酸序列数据服务,二者实则存在相互依存的关系。2.5影响效果分析由于NIH

23、、E BL M、D D BJ在生命科学领域有着举足轻重的地位,由其组成的INSDC也受到国际上越来越多的研究人员、研究机构、出版机构等的认可。INSDC接收的数据量也在逐年攀升,甚至呈现出指数级的增长趋势。截至2 0 2 0 年,由INSDC维护的核酸序列数据总量已经超过9 PB,在过去的四到五年之间,数据量大概增长了10 倍,并且预计在未来的几年中,数据量会保持相同的增长,其中,增长最快的为下一代序列数据 15。INSDC接收的数据不仅体量大,而且其所接收的数据紧跟研究热点。INS-DC持续关注生命科学研究最新进展,席卷全球的新冠疫情爆发以后,美国国家医学图书馆及其在INS-DC中的合作伙伴

24、共同发表声明,鼓励科学界向INS-DC联盟提交SARS-CoV-2序列,旨在共同对抗新冠肺炎。不仅如此,INSDC还得到世界上一些权威期刊的认可,Nature、Sc i e n c e 都与其有所合作。Nature杂志明确表示杂志上公开发表的有关基因序列的文章,其序列数据需要提交到 INSDC中。此外,2 0 2 1年Nature在其最新的声明中盛赞INSDC是世界上收集和共享科学数据最成功的举措之一 17 。INSDC与大多数期刊杂志合作提出要求,要求文章中描述的任何新序列数据都应提交给INSDC,以便读者可以获得论文中描述的基础数据。INSDC在生命科学领域的影响力愈加明显,地位也愈加重要

25、,这对促进生命科学数据共享是一大利好,也能极大地推动生命科学研究。可以说,INS-DC在数据驱动生命科学研究方面起到了显著的作用。3INSDC管理和服务启示3.1完善管理和服务政策对于生命科学数据管理和服务机构而言,完善的政策支持是其运转良好的有力支撑,这一点对由组织机构组成的联盟更加重要。INSDC作为一个成立已有三十年的生命科学数据库联盟,当前已经形成一套相对完善的管理机制,陆续颁布出台了一系列数据管理、共享、提交政策,这对其管理和服务都有重要的作用。在我国,当前虽已经陆续出台科学数据管理办法等规范性文件,但是针对基因组学数据的管理仍然没有明确的条例,数据管理规范方面存在一定不足。例如,国

26、家基因组科学数据中心(NG D C)目前虽实行数据开放获取的政策,但是一些数据仍然需要用户申请得到审批后才能获取,在客观上存在一定的数据获取困难。因此,有关机构或平台可以借鉴INSDC的管理和服务政策,根据自身实际,制定适用于切实管理的政策。3.2注重成员之间的互动INSDC作为一个联盟组织,其成员机构之间的互动是其稳定发展的关键因素。一方面,ENA、G e n-bank以及DDBJ之间存在着数据交换,既能丰富核酸序列联盟的数据量,并且通过任意一个数据库的数据提交或者检索系统,都能达到访问和利用数据的目的;另一方面,INSDC的成员机构每年会定时召开会议,探索并讨论建立和维护序列档案的有关问题

27、,达成数据库管理和服务的基本一致。NGDC作602023年9 月情报探索第9 期(总311期)为对标INSDC的国内一大基因序列科学数据中心,近年来国际影响力日益增加,INSDC主动提出希望与NGDC成为合作伙伴,并且依托于“一带一路”国际科学组织联盟(ANSO)的支持,NGDC目前已经建立了以我国为主的国际生物多样性和健康大数据共享联盟 17 ,但是作为后来者,与INSDC尚存在一定差距,联盟体系还不够成熟。因此,一方面既要积极融人世界科学数据中心的建设,另一方面也要加强国内联盟的建设,在国际与国内的互动中促进我国生命科学数据中心的发展。3.3完善数据管理和服务流程INSDC作为三大权威生命

28、科学组织形成的联盟,有着一套完善的数据管理和服务流程,包括数据提交、数据管理、数据利用等环节。INSDC有严格的分类组织标准,同时提供多种检索和分析工具,不仅如此,联盟还为研究人员提供相应的培训服务,以使其充分利用数据资源。而在我国,对于NGDC而言,由于经费来源以研究所为主,相对单一,使得各项基础设施建设不足,数据整合能力和大数据分析技术等呕待加强。由此,对我国生命科学数据中心而言,需加强自身软件硬件等基础设施的建设,在数据管理和服务过程中,建立完善的数据管理和服务流程,针对数据的提交、组织管理、共享利用等服务,依托基础设施制定统一有效的服务框架,建设精品数据库,为用户提供便捷的“一站式”数

29、据服务,促进科学数据的共享和利用。同时,可以提供专业的持续性的数据培训服务,增强与用户的互动。4结语生命科学领域作为数据密集型研究的典型代表,其数据库的管理和服务方式对其他数据密集型研究领域起着重要的启示作用。INSDC联盟在生命科学数据的管理和服务方面协同开展,是相互联系的内在整体,通过制定统一的政策,实现海量数据的有序组织和管理,为用户提供可靠的数据支持和服务。INSDC对生命科学领域核酸序列数据的共享和利用起到了积极的作用,我国生命科学有关组织机构可以借鉴其相关经验,结合生命科学数据管理的实际,打造数据联盟服务模式。参考文献1SHEN L,BAI J,WANG J,et al.The f

30、ourth scientificdiscovery paradigm for precision medicine and healthcare:Chal-lenges aheadJ.Precision Clinical Medicine,2021(2):4.2黄鑫,邓仲华.数据密集型科学交流研究与发展趋势 J.数字图书馆论坛,2 0 16(5):8-13.3万文娟,崔博雅.基于5W模式的高校图书馆数据素养教育体系构建分析 J.图书馆,2 0 2 2(7):10-14,2 8.4 YASUKAZU N,GUY C.The International NucleotideSequence Dat

31、abase Collaboration J.Nucleic Acids Research,2013(1):33-37.5 SAYERS E W,CAVANAUGH M,CLARK K,et al.GenBankJ.Nucleic Acids Research,2022,50:161-164.6MIZRACHI I.GenBank:The Nucleotide SequenceDatabase-The NCBI Handbook-NCBI Bookshelf MJ.Margland:National Center for Biotechnology Information,2007.7CARLA

32、 C,ALISHA A,RAHEELA A,et al.The Eu-ropean Nucleotide Archive in 2021 J.Nucleic Acids Research,2021(1):106-110.8 OSAMU O,YUICHI K,JUN M,et al.DDBJ Databaseupdates and computational infrastructure enhancement J.NuclcAcids Research,2019,48:45-50.9 BENSON D A,KARSCH-MIZRACHI I,LIPMAN DJ,et al.GenBankJ.N

33、ucleic Acids Research,2005,33:34-38.10 NIH.Submission for OMB review;comment request:National Institutes of Health information collection forms to sup-port genomic data sharing for research purposes J.FederalRegister,2013,78(19):6119-6120.11LEINONEN R,SUGAWARA H,SHUMWAY M.In-ternational nucleotide s

34、equence database collaboration J.Nu-cleic Acids Research,2011,39:48-51.12司莉,陈玄凝.科研数据机构库联盟组织结构的角色主体定位 J.图书馆论坛,2 0 17,37(5:8 1-8 8.13司莉,曾粤亮.机构科研数据知识库联盟数据治理框架研究 J.图书馆论坛,2 0 18,38(8):6 1-6 7.14 National Institutes of Health,Stimulating PeripheralActivity to Relieve Conditions EB/OL.2023-04-02.ht-tps:/co

35、mmonfund.nih.gov/SPARC.15RAMOS-LORENTE S,ROMERO-LoPEZ C,BERZAL-HERRANZ A.Information Encoded by the FlavivirusGenomes beyond the Nucleotide Sequence J.Int J Mol Sci,2021(7):3738.16 RROBERTS R J.Sequence data:expand comprehen-sive accessJ.Nature,2021,591(7849):202.17冯丽妃.生物信息“数据孤岛”是如何打破的N.中国科学报,2 0 2 2-0 3-17(1).

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服