收藏 分销(赏)

DNA存储文件系统研究进展.pdf

上传人:自信****多点 文档编号:325333 上传时间:2023-08-15 格式:PDF 页数:10 大小:2.78MB
下载 相关 举报
DNA存储文件系统研究进展.pdf_第1页
第1页 / 共10页
DNA存储文件系统研究进展.pdf_第2页
第2页 / 共10页
DNA存储文件系统研究进展.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、DNA存储文件系统研究进展昝乡镇姚翔宇许鹏鲍振申李先彬李晓焱刘文斌*(广州大学计算科技研究院广州510006)(榆林学院数学与统计学院榆林719000)摘要:DNA存储因具有密度大、保存时间长及维护成本低等优点,为解决海量数据的存储和应用难题提供了“破局”可能。面对大规模数据应用场景,DNA存储必须要解决如何组织、访问和操作数据文件等问题即文件系统设计问题。该文首先结合计算机文件系统模型,给出了未来DNA存储文件系统模型及具备的特点;然后,系统性综述了DNA存储文件系统研究进展;最后,对未来DNA存储文件系统研究进行了展望。关键词:DNA存储;文件系统;随机访问;纠错中图分类号:TN911文献

2、标识码:A文章编号:1009-5896(2023)06-1911-10DOI:10.11999/JEIT220561A Survey on File Architecture in DNA StorageZANXiangzhenYAOXiangyuXUPengBAOZhenshenLIXianbinLIXiaoyanLIUWenbin(Institution of Computational Science and Technology,Guangzhou University,Guangzhou 510006,China)(School of Mathematics and Statisti

3、cs,Yulin University,Yulin 719000,China)Abstract:DNAstoragetechnologyprovidesanewwaytotackletheproblemsofmassivedatastorageandapplication,duetoitshighdensity,longdurability,andlowmaintenancecost.Tofacemassivedatastoragedemand,DNAstoragehastoovercometheproblemonhowtoorganize,accessandmanipulatedatafil

4、es,thatis,thedesignoffilesystem.Inthispaper,futureDNAstoragefilesystemmodelanditscharacteristicsarestudiedaccordingtocomputerfilesystemmodel.Then,theresearchprogressoffilesystemofDNAstorageissystematicallyreviewed.Finally,theperspectivesonresearchdirectionoffutureDNAstoragefilesystemarediscussed.Key

5、 words:DNAStorage;Filesystem;Randomaccess;Errorcorrections1 引言随着云计算、物联网、大数据等技术的飞速发展,全球数据总量保持指数甚至超指数增长1。预计到2040年,全球数据总量将达到31024bit2。目前以云存储为核心应用的传统存储介质(如磁性存储器、光学存储器、固态存储存储器等),在功耗、体积、可靠性、有效存储时间等方面都面临技术瓶颈3。探索新型存储介质及相应读写技术,已经成为信息技术可持续发展的一个关键基础问题。与传统存储介质相比,DNA分子在数据存储方面有着巨大的优势4:(1)超高的存储密度。DNA分子的存储密度可达到1019

6、bit/cm3,比传统存储介质提高了6个数量级。(2)超长的使用寿命。DNA存储的数据在没有特别人工干预的情况下能保存千年之久。(3)超低的维护成本。DNA存储所需的占地、资源和能源均远远小于传统存储介质,维护成本极低。此外,DNA分子的生化反应及操作本身具有巨大的并行性。尽管目前DNA分子还存在读写成本高、读写速度慢等缺点,但其依然被认为是存储占全球数据总量60%以上冷数据的最佳选择,可以作为目前云存储应用的潜在存储介质5。DNA存储主要分为体内存储(细胞内存储)和体外存储(细胞外寡核苷酸池存储)。2012年哈佛医学院的Church等人6首次在体外存储了0.65MB数据,开启了DNA存储研究

7、的热潮。2018年,微软和华盛顿大学7实现了200MB存储数据的随机访问。2019年,上海交通大学Zhang等人8提出了一种基收稿日期:2022-05-07;改回日期:2022-08-23;网络出版:2022-08-29*通信作者:刘文斌基金项目:国家自然科学基金(62072128,62002079,62102104),榆林市科技局项目(CXY-2020-007)FoundationItems:TheNationalNaturalScienceFoundationofChina(62072128,62002079,62102104),YulinScienceandTechnologyBurea

8、uProject(CXY-2020-007)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.2023于DNA折纸的信息加解密方案,实现了文本信息的加密传输。2022年,苏黎世联邦理工学院开发了一个数字微流控平台,支持DNA存储数据的自动化随机读取。DNA存储已成为前沿交叉学科领域的热点研究方向。美欧发达国家已经将DNA存储列入国家发展战略。我国两会公布的第十四个五年规划和2035年远景目标纲要明确指出,要加快布局DNA存储等前沿技术。2020年11月,微软与DNA合成公司(TwistBio

9、science)、DNA测序公司(Illumina)、数据存储公司(WesternDigital)结成DNA数据存储联盟,用于推进DNA存储的发展。DNA存储研究已经引起政府、学术以及企业的高度重视,如图1。与此同时,如何利用DNA分子独特结构,研究一种解决数组织、管理、容错和安全等问题的专用DNA存储文件系统,是一个不可忽视的重要科学问题。相关研究成果陆续发表在各种学术期刊上。本文结合计算机文件系统模型的特点,研究了未来DNA存储文件系统模型及其应该重点解决的问题,并对每一问题相关研究进展做了总结,最后对DNA存储文件系统模型的发展做了展望。2 DNA存储文件系统模型及其特点计算机文件系统模

10、型分为3层(图2):最底层是对象(文件和目录)及其属性层;中间层为对对象进行操纵和管理层,涉及对文件和目录进行存储管理和修改管理等操作;最顶层为文件系统接口层,涉及向终端用户提供操纵第2层和第3层的接口,方便用户对文件进行快速高效的管理。该模型具有如下5个特点:(1)文件访问便捷。系统通过目录对象、磁盘文件分配表以及逻辑地址与物理地址映射机制,为用户提供快捷的文件管理和随机访问方式。(2)文件维护简单易扩展。系统利用目录对象,图1DNA存储政府战略规划与重要研究进展图2计算机文件系统与DNA存储文件系统模型1912电子与信息学报第45卷方便对文件元信息进行维护,以及对文件对象进行增、删、改等操

11、作。(3)存储容量高。云计算、大数据等技术的快速发展涌现出了众多不同类型的网络存储系统,极大地提升了数据存储空间和规模。(4)数据存储可靠。当因自然或系统因素导致磁盘上的数据损坏时,磁盘容错技术及备份技术可以对损坏的数据进行修复,确保数据可靠存储。(5)数据存储安全。系统通过数据备份和磁盘加密等技术确保存储数据满足机密性、完整性和可用性。DNA存储的实质是二进制信息经编码合成DNA分子后的独特呈现,体现的是数字信息与生命信息的融合。生命系统本身独特的信息组织形式(冗余和串扰),注定了其与电子信息系统信息组织形式的不同。而电子信息系统数据组织的特点则为未来DNA存储文件系统的发展指明了方向。未来

12、DNA存储文件系统模型可能如图2(b)所示,也分3个层次:最底层为文件对象层,表现为体内或体外游离DNA分子;中间层为文件操作层,表现为对存储信息的DNA分子进行修改、删除、检索、复制、保护、容错等操作技术的集合;最上层为文件系统接口层数字信息与DNA分子连接的桥梁,表现为负责数字信息与DNA分子相互转换的DNA合成技术和DNA测序技术的集合。3 DNA存储文件系统研究进展本文从存储容量、文件操作、数据纠错及数据保护4个方面总结DNA存储文件系统研究进展。3.1 存储容量存储容量主要与地址序列个数有关。地址序列既包括标识DNA链顺序的索引序列,也包括用于标识文件的引物序列(或分子探针序列)。为

13、了描述方便,本文将用于标识文件的引物序列统称为地址n序列。假定地址序列可标识文件的数量为,存储容量有如下两种定义方式。ifipC定义19假定存储第 个文件DNA链的个数为,每个DNA链携带有效数据 Byte,则存储容量定义为C=ni=1fi p(1)fC定义210假定每个文件的大小均为 Byte,则存储容量定义为C=n f(2)其中,定义1是合成池存储容量的标准计算方法;定义2是合成池存储容量的近似估计,是式(1)的简化计算方式。在DNA存储研究中常用式(2)估计存储容量。地址序列表示文件的方法主要有5种,且这些方法主要应用在特异性PCR(聚合酶链反应)访问目标文件的用途中(图3(a)。第1种

14、7,1113是在DNA链两端添加1个正向引物和1个反向引物。第2种14是在DNA链两端添加1个前向引物和1个通用引物,其中前向引物唯一标识1个文件。由于必须精心设计大量正交引物保证检索效率,这2种方法代表的寻址机制是不可扩展的。后3种方法主要通过减少正交引物数量来提升存储容量。第3种11是在DNA链的两端分别添加1个正向引物和1个反向引物,通过正向引物和反向引物的组合标识不同的文件。第4种方法10在DNA链两端添加2(或3)个正向引物和1个通用引物,通过正向引物的组合标识不同的文件。第5种方法9是在DNA链两端添加2个正向引物和2个反向引物,通过正反引物的组合来标识不同的文件。第4和第5两种方

15、法获取目标文件需要借助巢氏PCR或半巢氏PCR技术。上述5种方法在给定引物序列数量的情况下,可表示的文件数量依次递增(注:图3(b)根据表1中所列公式绘制)。图3引物数量与文件数量的关系第6期昝乡镇等:DNA存储文件系统研究进展1913基于28 000个可用引物(长度为20nt)的当前最佳估计7,假定每个文件的大小为3GB,上述5种方法可表示的最大存储容量依次为41TB,84TB,588TB,65.84ZB以及2.4YB。然而,这仅是理论上的最大存储容量,实际存储中还达不到这些容量。这是因为高存储容量意味着DNA数据库变得越来越多样化、拥挤和无序,无法以几乎同样高的保真度检索目标链(表1,注:

16、表中“N/A”表示不适用或论文未提供)。因此,实际存储需要在存储容量与文件访问效率之间折中。此外,尽管后2种方法可以存储海量文件,但是这两种方法均存在2个缺点:(1)获取目标文件需要进行2次PCR反应,检索方法复杂,需要额外的检索时间和试剂,读取成本高;(2)由于每个DNA链需要3个以上的地址序列,寡核苷酸链上有效载荷的长度将会缩短,降低了DNA存储池的总体编码密度,并带来额外的写入成本。鉴于地址序列数量与文件访问效率的关系,有些研究者尝试用“物理支架”排列DNA分子,类似于传统磁带机处理数据的方式,在保障文件访问效率的同时,提升DNA存储容量,如表2所示。Newman等人15借助DNA脱水技

17、术和数字微流控设备,实现了脱水DNA斑点物理分割但共享地址系统(同一套引物序列集合)的文件随机读取操作(图4),理论容量为1TB/斑点,但该方法的目标文件检索率较低。Antkowiak等人16将脱水DNA斑点存储在二氧化硅颗粒中,在实现常温持久保存的同时,理论容量提升到23.5TB/斑点。天津大学陈为刚等人14借助PCR特异性扩增技术,将数据文件物理分割成相同大小的数据块并存储在不同的合成池中,实现了小文本文件以及跨引物池大文件的读取。Banal等人17将文件DNA数据封装在表面用单链DNA条形码标记的不透水硅胶胶囊中,支持文件跨硅胶胶囊存储,但是该方法的目标文件检索率不稳定,介于60%到95

18、%之间。需要指出的是,采用“物理支架”分割DNA分子的方式,会在一定程度上降低DNA存储的密度。3.2 文件操作文件操作包括文件访问、文件修改、文件复制和文件删除等4个操作。在DNA存储中,文件操作是指对存储数据的DNA分子进行查找、修改、复制和删除等操作。3.2.1 文件访问DNA存储中的文件访问(检索),是指通过技术手段获取目标文件DNA链。目前DNA存储研究中,目标文件读取技术主要有特异性聚合酶链扩增(PolymeraseChainReaction,PCR)技术和分子杂交技术。在特异性PCR读取目标文件的研究中,引物设计一般遵循如下原则:(1)GC均匀分布;(2)引物序列无均聚物;(3)

19、引物序列不含有二级结构;表 1 5种特异性PCR扩增引物设计方法性能比较引物设计方法方法记号文件数量(m个引物)扩增技术目标文件检索率(%)1正向,1反向7,11-13M1m/2传统PCR991正向,1通用14M2m 1传统PCR991正向,1反向(组合)11M3(m/2)2传统PCR992正向,1通用10M4-1m2 3m+2巢氏PCR813正向,1通用10M4-2m3 6m2+11m 6巢氏PCR,磁珠分离,生物素972正向,2反向9M5(m/4)4巢氏PCRN/A表 2 物理排列DNA分子存储方法比较参考文献技术特点存储容量目标文件检索率(%)Newman等人15脱水斑点+数字微流控1T

20、B/斑点66Antkowiak等人16二氧化硅包裹脱水斑点+数字微流控23.5TB/斑点99陈为刚等人14基于数据块的多个合成池存储3MB99Banal等人17单链DNA条形码标记的硅胶胶囊0.1kB/胶囊6095图4脱水DNA斑点共享地址系统1914电子与信息学报第45卷(4)引物序列间保持一定汉明距离;(5)引物序列与目标文件序列不存在相似性子序列;(6)引物序列自身不存在相似性子序列。大部分研究者7,12,13在目标文件DNA链两端添加1对引物序列,读取时只需要往合成池添加目标文件对应的引物即可。也有研究者9,10,18在目标文件序列两端添加多对引物序列,扩增目标文件时借助巢氏PCR或半

21、巢氏PCR技术,读取方式更灵活。随着数据库存储文件数量增多,基于特异性PCR扩增目标文件方法的弊端也逐渐显现,主要表现在2个方面:(1)目标文件扩增效率(文件保真度)会下降;(2)并行读取时扩增效率不均衡。Tomek等人10在引物序列端添加生物素等化学材料,特异性读取时通过磁珠分离提取目标文件DNA链,保障了目标文件扩增效率。但该方法价格高昂,目前难以大规模应用。Winston等人11提出了一种组合PCR引物特异性扩增方法,即通过更加严格筛选条件生成指定长度引物集合,目标文件DNA链两端添加两个特定引物组合。该方法提高了目标文件扩增效率(文件保真率大于99%),降低了文件读取成本。特异性PCR

22、检索目标文件方法的扩增效率如表1所示。在分子杂交读取目标文件的研究中,分子探针设计一般遵循如下原则:(1)长度介于10nt(单核苷酸)和50nt(单核苷酸);(2)GC含量介于40%到60%;(3)避免互补子序列;(4)无均聚物;(5)避免使用与非靶序列有70%以上同源或连续8个以上碱基序列相同的探针序列。如表3所示,Lin等人19开发了一个由T7启动子和单链悬垂结构组成的DNA存储读写体系。其中,单链悬垂结构用于访问目标DNA链,实现目标文件的特异性读取;T7启动子可实现文件重复访问。Banal等人17通过将存储文件数据的DNA链封装在表面用单链DNA条形码标记的不透水硅胶胶囊中,开发了一个

23、基于封装的DNA存储随机读取系统。Bee等人20通过深度学习模型对图像特征进行DNA编码,然后将要查询图片特征对应在模型中的DNA序列作为探针,实现了相似性内容图片搜索。上述基于PCR特异反应和分子杂交实现文件随机读取,均存在一个显著问题:相似文件具有相似文件元信息,文件精准访问困难。Tomek等人21通过切换不同的环境条件(DNA引物浓度和温度),提出了一种低分辨率图像(文件预览)和完整数据选择性访问的方法,提高了文件检索速度,降低了文件读取成本。3.2.2 文件复制DNA存储文件的复制是指文件DNA分子的扩增。与传统存储不同,DNA存储文件的复制支持并行复制且成本较低,不占据网络带宽。体内

24、存储通过借助细菌的增殖过程实现数据的拷贝2225,而体外存储通过对DNA链进行PCR扩增反应实现数据的拷贝。由于PCR反应本身具有偏置性26,27,不同DNA链的扩增效率不均衡。近年来有研究者使用乳液PCR技术(emulsionPCR,ePCR)7和恒温PCR技术28来实现数据DNA链的拷贝存储。与体外存储相比,体内存储依靠活细胞的基因组维持机制确保DNA分子高保真复制,具有更高的稳定性和DNA复制率,更适合长期存储,且复制成本更为低廉。2020年,Hao等人22提出了一种使用细菌装载寡核苷酸池DNA链并进行混合培养的数据存储方法。该方法培养的寡核苷酸库在连续5次传代中保持稳定(数据恢复率达到

25、98%以上)。同年,Chen等人29合成了一条长度达254kB(存储数据占比95.27%)人工染色体,支持数据在酵母体内稳定复制,实现了“酵母光盘存储”。然而,与体外存储相比,体内存储的存储密度偏低,且体内存储的数据信息稳定性依然缺乏明确的文献报道30。3.2.3 文件修改DNA存储中文件的修改是指对存储文件元信息或文件内容的DNA链部分片段进行的删除、替换等操作。DNA分子片段修改技术主要有DNA编辑技术,也有少量研究使用核酸分子杂交技术。目前用于DNA存储的主流DNA编辑技术有CRISPR-cas9基因组编辑技术31和重叠延伸PCR技术32,如图5所示。前者效率较高但价格昂贵,而后者价格则

26、较为低廉,可用于长片段的顺序重写12。2015年,Yazdi等人12借助不相关引物序列集的前缀编码寻址技术,成功将CRISPR-cas9基因组编辑技术和重叠延伸PCR技术用于DNA存储文件内容的修改。2020年,Lee等人24使用重叠延伸PCR技术,修改了合成后DNA链出现的碱基错误,表 3 分子特异性杂交方法性能比较参考文献技术特点目标文件检索率(%)Lin等人19T7启动子和单链悬垂构成的DNA分子99Banal等人17单链DNA条形码标记的硅胶胶囊6095Bee等人20基于图片特征向量的分子杂交搜索96第6期昝乡镇等:DNA存储文件系统研究进展1915节约了合成成本。Lin等人19开发的

27、由T7启动子和单链悬垂构成的分子结构,可通过分子杂交技术实现文件的锁定、解锁、重命名以及删除等操作。目前用于DNA存储文件修改的基因编辑技术还存在2个缺点:(1)修改成本较高,且做不到即时修改;(2)修改的通量较低,只适合少量分子数据的修改。因此,目前DNA存储只适合存储不需要频繁访问修改的冷数据。3.2.4 文件删除DNA存储中文件的删除在DNA水平上对DNA链的影响包括2个方面:(1)存储数据的DNA链本身发生了严重损伤,如DNA链碱基发生突变、DNA链断裂等。这种损伤造成用户读出的数据包含了大量的错误,用户无法使用纠错手段对这些错误进行纠正。造成DNA链损伤的因素3335包括物理因素(如

28、电离辐射、紫外线照射等)、化学因素和生物因素。然而,目前该方法无法做到“定向删除”,存在“误删”的风险。该方法的有效性尚缺乏有效数据支撑。(2)通过实验手段使用户无法通过PCR扩增等生化反应读出正确的DNA链,或者即使读出但正确DNA链淹没在大量干扰DNA链中。Lin等人19通过阻断其开发的存储数据DNA链的单链悬垂,可以阻止用户通过PCR扩增已删除文件数据的DNA链。Kim等人36将存储文件真实信息的DNA链(真实DNA链)与噪声信息的DNA链(虚假DNA链)混合存储,同时真实DNA链绑定了真实标记,虚假DNA链绑定了虚假标记。当将存储真实DNA链和虚假DNA链的混合池95下加热5min左右

29、时,真实标记的DNA链大部分链绑定了虚假信息。当用户进行PCR延伸反应时,提取的信息包含了一小部分真实信息和大部分虚假信息,最终导致用户无法正确读出已删除文件的具体信息。3.3 数据纠错DNA存储中的错误主要指存储数据的DNA链发生部分丢失或者DNA链中存在碱基错误(替换、插入或删除)37,38。在DNA存储数据纠错研究中,错误的纠正主要是通过添加冗余完成的,并常用测序深度、信息逻辑密度、最大容忍错误率等指标评估算法性能的优劣。其中,信息逻辑密度是冗余度的间接体现,冗余度越大信息逻辑密度越低,DNA写入(合成)成本越高;测序深度是指在最大容忍错误率下数据恢复率大于99%的最小测序深度,测序深度

30、越低,DNA存储读出(测序)成本越低。DNA存储中的序列丢失主要通过添加冗余序列完成纠错。冗余序列的添加主要通过2种方式进行:(1)使用异或思想,即将两个或多个序列进行异或,如连续两序列异或生成冗余序列39、DNA喷泉码27、DNA累积码40;(2)使用纠错码(例如Reed-Solomon码,简称RS码)产生冗余序列41,42。序列碱基错误的纠正方法,目前大体上可以分为3类,如表4所示。第1类使用简单的多序列比对思想进行纠正13,43,44。该类算法具有较高的时间复杂度,且纠错的结果很大程度上取决于聚类的精度。第2类使用通信领域里的纠错码技术,如RS码41,42,45,46、BCH码47,48

31、、LDPC码29,49和Levenshiten码50。该类纠错算法不擅长纠正DNA存储中的插入和缺失错误,纠错能力有限(最大容忍错误率低于5%)。第3类通过启发式纠错算法来完成纠错,如HEDGES51、德布莱茵图(deBrujinGraph)52、基于隐马尔可夫模(HMM)的级联编码纠错47,53,54、层次纠错55、调制编码纠错56等。与前面两类纠错算法相比,该类算法的纠错能力比较高(最大容忍错误率可达40%)。3.4 数据保护DNA存储中的数据保护包括数据备份和数据机密性保护两个方面。数据备份主要是从物理层面保障数据存储的安全,确保存储的数据不会因人为、自然或系统的因素导致大量丢失(参见3

32、.2.2节)。DNA存储数据机密性保护的研究,目前侧重于利用生物学难题作为DNA加密的安全依据,如基于图5用于DNA存储的主流DNA编辑技术1916电子与信息学报第45卷DNA自组装8、链置换57、DNA杂交58、DNA测序59等技术的加密方法。目前DNA存储数据机密性保护的研究偏少,且大部分文献都是通过分析密钥空间作为加密数据安全性的理论依据。2014年,Yang等人57使用DNA链置换技术模拟二进制异或操作,实现了32bit比特数据的一次一密传递。由于该方法用一个DNA自组装结构体表示1bit数据,且不同自组装结构体要分试管单独存放,加密存储的数据规模和效率较低。2016年,Zakeri等

33、人58将十几个文本字符长度的密文及密钥隐藏在多个DNA分子中间,接收者通过测序色谱模式技术获取密文。由于该方法使用数据隐藏和一代测序等技术,读写成本较高,且对测序数据中的碱基错误容忍力较差。2019年,Zhang等人8将明文每个字母用M13病毒支架折叠成纳米级的自组装盲文模式,提出了一个基于折纸的文本信息加密方法。该方法由于接收端通过原子力显微镜观察点阵图像恢复明文,不适合大规模数据的加密传输。2020年,Grass等人60将个体识别信息(短串联重复序列(ShortTandemRepeat,STR)编码为用于AES(AdvancedEncryptionStandard)加密的密钥,借助DNA合

34、成和二代测序技术,成功实现了文本信息的DNA加密存储。考虑到DNA存储过程中可能引入的错误,该方法使用Reed-Solomon码等纠错技术确保了密文的可靠传输。2021年,Peng等人59提出了一种基于混淆映射和DNA存储技术的一次一密算法,实现了传统信息加密和生物加密技术的融合。然而,该方法未考虑DNA存储过程引入碱基错误对密文可靠性传输带来的影响。此外,该方法尚缺乏生物实验数据进一步论证。表5列出了上述DNA存储加密方法的性能比较(注:加密数据规模中,“小”指小于1kB,“中”是大于1kB但小于1MB,“大”表示大于1MB)。4 研究展望与传统存储相比,DNA存储在存储成本、存储寿命、存储

35、密度等方面具有极大的优势。在如今数据指数增长和倡导低碳的时代背景下,DNA存储具有前所未有的潜能和生命力。未来DNA存储走向实际大规模应用,拥有一个融合信息技术和生命技术的DNA存储文件系统模型至关重要。未来DNA存储文件系统模型的研究可能会在以下几个方面寻求突破。首先,研究适用于DNA存储环境的稳定寻址系统。DNA存储寻址系统主要依靠地址序列的设计。目前地址序列的研究还存在2个短板:(1)地址序列的嵌套设计尽管获得了海量级别的存储规模,但是却大大缩短了DNA链中有效载荷的长度,增加了文件读写的成本;(2)地址序列的扩增效率不均匀,不能适应未来大规模并行访问文件的需求。因此,如何兼顾存储容量、

36、读写成本以及文件访问效率,可能是未来DNA存储寻址系统研究中需要表 4 代表性数据纠错方法性能比较参考文献纠错方法总体逻辑密度(包含引物或载体骨架)(bit/nt)最大容忍错误率(%)测序深度Bornholt等人39连续两序列异或生成冗余序列0.570.140Erlich等人27DNA喷泉码1.180.1510.5Grass等人42RS码0.832372Antkowiak等人44多序列比对+RS码0.815120Lenz等人53级联码+LDPC码0.51820Press等人51哈希+RS码0.533Song等人52图路径搜索1.510100Zan等人56调制序列相似性纠错1.040100表 5

37、 DNA存储数据加密方法性能比较参考文献技术特点生物困难鲁棒性加密数据规模密钥空间Yang等人57一次一密+DNA链置换异或操纵DNA链置换异或操纵无小C20004251000Zakeri等人58一代测序、色谱分析、数据隐藏DNA分子数据隐藏无小9.11061Zhang等人8DNA折纸DNA分子自组装无小2702Grass等人60AES加密+STR密钥编码个体识别STR密钥是中2132Peng等人59混沌序列+DNA动态编码+DNA分子接头设计DNA分子接头设计无中335642247第6期昝乡镇等:DNA存储文件系统研究进展1917长期考虑的问题。另外,借鉴计算机寻址系统的特点,研究物理上分组

38、DNA分子并共享引物序列的寻址系统也可能是未来的一个发展方向。尽管这种方法在一定程度上会降低DNA存储的密度,但是却将电子计算的最佳功能与分子密度和稳定性的优势结合起来,便于实现自动化,在保障文件访问效率、缩短读写时间的同时,提升了存储容量。其次,研究快捷高效的文件内容修改技术。尽管目前通过基因编辑技术和重叠延伸PCR技术可以实现少量DNA片段的修改,但是这些技术在修改的规模、实时性等方面,与传统计算机相差甚远。因此,目前DNA存储只适合存储不频繁访问的文件数据。未来研究快捷高效的基因片段修改技术,进而快速实现DNA存储文件内容的修改,对未来DNA存储文件系统的发展具有重要的意义。再次,研究适

39、用于海量规模的数据加密技术。未来面向海量规模DNA存储数据加密方案应具有如下特点:(1)充分利用DNA分子并行反应及其他生化特性(串扰、扩散、丢失、碱基错误等)开发生物层面的加密技术;(2)融合信息技术领域成熟的加解密方案;(3)加密、解密快速高效。目前DNA存储数据加密研究尚未充分考虑到生化技术的特点,且加密存储的数据通量偏低。最后,研究适用于高错误率环境的DNA存储纠错技术。未来DNA存储大规模应用将会推动合成和测序技术朝着更高通量、更低成本的方向发展。这意味着未来的合成和测序技术会有比当前状态更高的碱基错误率。此外,存储数据也会不可避免地遭受一些不可预测或恶意的损坏。随着时间的推移,DN

40、A分子也可能会发生某种降解和断裂。这些因素相互叠加,将会极大地恶化未来DNA存储的可靠性环境。因此,开发更高错误率的DNA存储纠错技术,对未来DNA存储大规模应用尤为迫切和必要。参 考 文 献ZHIRNOVV,ZADEGANRM,SANDHUGS,et al.NucleicacidmemoryJ.Nature Materials,2016,15(4):366370.doi:10.1038/nmat4594.1沈鹏,李颢,孙清江,等.DNA存储技术J.生命科学仪器,2020,18(2):313,39.doi:10.11967/2020180401.SHENPeng,LIHao,SUNQingji

41、ang,et al.AdvanceofdatastorageusingDNAJ.Life Science Instruments,2020,18(2):313,39.doi:10.11967/2020180401.2PANDAD,MOLLAKA,BAIGMJ,et al.DNAasadigitalinformationstoragedevice:Hopeorhype?J.3Biotech,2018,8(5):239.doi:10.1007/s13205-018-1246-7.3许鹏,方刚,石晓龙,等.DNA存储及其研究进展J.电子与信4息学报,2020,42(6):13261331.doi:1

42、0.11999/JEIT190863.XUPeng,FANGGang,SHIXiaolong,et al.DNAstorageanditsresearchprogressJ.Journal of Electronics&Information Technology,2020,42(6):13261331.doi:10.11999/JEIT190863.CEZEL,NIVALAJ,andSTRAUSSK.MoleculardigitaldatastorageusingDNAJ.Nature Reviews Genetics,2019,20(8):456466.doi:10.1038/s41576

43、-019-0125-3.5CHURCH G M,GAO Yuan,and KOSURI S.Next-generationdigitalinformationstorageinDNAJ.Science,2012,337(6102):1628.doi:10.1126/science.1226355.6ORGANICKL,ANGSD,CHENYJ,et al.Randomaccess in large-scale DNA data storageJ.NatureBiotechnology,2018,36(3):242248.doi:10.1038/nbt.4079.7ZHANGYinan,WANG

44、Fei,CHAOJie,et al.DNAorigamicryptography for secure communicationJ.NatureCommunications,2019,10(1):5469.doi:10.1038/s41467-019-13517-3.8SONGXin,SHAHS,andREIFJ.Multidimensionaldataorganizationandrandomaccessinlarge-scaleDNAstoragesystemsJ.Theoretical Computer Science,2021,894:190202.doi:10.1016/j.tcs

45、.2021.09.021.9TOMEKKJ,VOLKELK,SIMPSONA,et al.DrivingthescalabilityofDNA-basedinformationstoragesystemsJ.ACS Synthetic Biology,2019,8(6):12411248.doi:10.1021/acssynbio.9b00100.10WINSTON C,ORGANICK L,WARD D,et al.CombinatorialPCRmethodforefficient,selectiveoligoretrievalfromcomplexoligopoolsJ.ACS Synt

46、heticBiology,2022,11(5):17271734.doi:10.1021/acssynbio.1c00482.11YAZDISMHT,YUANYongbo,MAJian,et al.Arewritable,random-accessDNA-basedstoragesystemJ.Scientific Reports,2015,5(1):14138.doi:10.1038/srep14138.12YAZDISMHT,GABRYSR,andMILENKOVICO.Portable and error-free DNA-based data storageJ.Scientific R

47、eports,2017,7(1):5011.doi:10.1038/s41598-017-05188-1.13陈为刚,黄刚,李炳志,等.音视频文件的DNA信息存储J.中国科学:生命科学,2020,50(1):8185.doi:10.1360/ssv-2019-0211.CHENWeigang,HUANGGang,LIBingzhi,et al.DNAinformationstorageforaudioandvideofilesJ.ScientiaSinica Vitae,2020,50(1):8185.doi:10.1360/ssv-2019-0211.14NEWMANS,STEPHENSON

48、AP,WILLSEYM,et al.HighdensityDNAdatastoragelibraryviadehydrationwith digital microfluidic retrievalJ.NatureCommunications,2019,10(1):1706.doi:10.1038/s41467-019-09517-y.151918电子与信息学报第45卷ANTKOWIAK P L,KOCH J,NGUYEN B H,et al.IntegratingDNAencapsulatesanddigitalmicrofluidicsforautomateddatastorageinDN

49、AJ.Small,2022,18(15):2107381.doi:10.1002/smll.202107381.16BANALJL,SHEPHERDTR,BERLEANTJ,et al.RandomaccessDNAmemoryusingBooleansearchinanarchivalfilestoragesystemJ.Nature Materials,2021,20(9):12721280.doi:10.1038/s41563-021-01021-3.17YAMAMOTOM,KASHIWAMURAS,OHUCHIA,et al.Large-scaleDNAmemorybasedonthe

50、nestedPCRJ.Natural Computing,2008,7(3):335346.doi:10.1007/s11047-008-9076-x.18LINKN,VOLKELK,TUCKJM,et al.Dynamicandscalable DNA-based information storageJ.NatureCommunications,2020,11(1):2981.doi:10.1038/s41467-020-16797-2.19BEEC,CHENYJ,QUEENM,et al.Molecular-levelsimilaritysearchbringscomputingtoDN

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服