1、基因慧 5版权所有侵权必究DNA 存储蓝皮书目录CONTENTS一、需求:数据存储现状及 DNA 存储优势151.1 大数据时代下数据存储现状及局限 161.2 DNA 存储的原理及优势 211.3 DNA 政策支持与重点研发计划 301.4 国内外研发进展 331.5 市场容量和投融资 38二、技术:DNA 存储的技术流程与进展432.1 DNA 存储系统简介 442.2 信息编码(比特信息转换为 DNA 序列)462.3 DNA 合成(存储信息写入)562.4 DNA 封装(存储信息保存)772.5 DNA 测序(存储信息读出)86三、应用:DNA 存储应用场景963.1 概述 973.2
2、 大数据存储 983.3 新型数据加密 1033.4 分子追踪系统 1053.5 基于 DNA 计算的分子诊断 1073.6 其他 108四、展望:产业发展机遇及关键点1104.1 DNA 存储产业发展的机遇 1114.2 未满足需求与关键问题 1144.3 发展方向 119基因慧 6版权所有侵权必究DNA 存储蓝皮书主创团队主编简介沈玥,博士,研究员,深圳华大生命科学研究院合成生物学首席科学家,“广东特支计划”科技创新青年拔尖人才,2022 年深圳优秀青年科学基金项目获得者,国家重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项项目首席科学家,“深圳青年五四奖章”和“2021 年
3、深圳市科学技术青年科技奖”获得者,ISO/IEC 生物数字融合工作组专家。长期从事合成生物学技术以及生物与信息技术融合技术的应用研究。主持/参加国家省市基金项目 12 项。发表论文 36 篇,其中以第一作者或通讯作者发表文章 16 篇。申请发明专利 35 项,软件著作权 14 项,编制国家标准、地方及企业标准 9 项。成果获得“2017 年中国科学十大进展”与“2019 年度天津市自然科学特等奖”、“2021 年深圳市科学技术奖自然科学类一等奖”荣誉。汪亮,基因慧创始人&主编,专注基因及生命健康产业研究,参与国家发改委战略性新兴产业发展展望 白皮书执笔,受聘中国遗传学会产业促进会委员、广东省精
4、准医学应用学会政策研究应用分会常委、哈尔滨工业大学(深圳)特聘教师等;毕业于哈尔滨医科大学生物信息专业,先后服务于国家人类基因组南方中心、华大和药明康德等;带领基因慧建立首个数字生命健康产业信息平台 YourMap,连续五年发布年度基因行业蓝皮书以及单细胞、大数据、肿瘤精准医疗、DNA 存储等行研报告,组织多家行业机构发布多项行业共识和团体标准。陈芳,副研究员,深圳华大智造科技股份有限公司研发体系副总裁,从事高通量测序相关应用及产品研发多年,专注母婴健康领域、测序仪研发等,参与撰写国内首个高通量基因测序仪行业标准、研制多个国家标准品,参与首例高通量测序技术应用于临床产品的 NMPA 资质;持续
5、拓展测序技术在司法、海关、疾控、DNA 存储等领域的应用示范。近 5 年发表文章 22 篇、授权专利 7 项,参与完成国家及省级课题 6 项。策划机构简介基因慧专注数字生命健康产业知识服务,创立于 2016 年,创始团队深耕行业一线十余年,秉持“使连接产生价值,用数据看见未来”的理念,基于产业智库和专业内容,提供产业规划、行研咨询、科技推广等服务。连续五年发布行业蓝皮书,被国家及省市级产业报告收录,组织多家单位发布行业共识和团体标准,推动生命科技普惠和产业融合发展。基因慧是国家发改委战略性新兴产业发展展望白皮书执笔单位、中国遗传学会产业促进会委员、全国卫生产业企业管理协会精准医疗分会理事、广东
6、省精准医学应用学会遗传病分会常委。基因慧 7版权所有侵权必究DNA 存储蓝皮书序言纳米尺度的 DNA 是人与自然和谐共处的分子桥梁欧阳颀中国科学院院士、北京大学定量生物学中心副主任为了在复杂多变的环境中谋求生机,人类的祖先以木头、石器和骨骼制造工具,同时也用这些媒介记录信息。这是人类历史的开端。随着信息储存与传播的方式方法不断更替,人类文明也发生了翻天覆地的变化。进入现代社会,计算机科学的飞速发展带来了信息技术革命;而信息时代的到来颠覆了地球村的图景。在磁、光、电等介质中存储、并在互联网中飞驰的海量数字信息在短短几十年内触发了科学、技术和文化的爆炸式进展。信息是随机序列中涌现的秩序。信息技术的
7、飞速增长,背后是人类对物理世界和对内心情感的好奇心和不懈探索。文明以语言和文字为载体代代相传,在不断的碰撞、冲击、融合中孕育了伟大的科技、艺术以及信息自身形式的更迭。在 21 世纪的今天,信息把握着全球政治经济的脉搏。信息世界的进化复杂性,不亚于生命进化的广博浩瀚。我们现在很难说,DNA 存储究竟是生物技术对信息技术的革新,还是信息技术对生物技术的开拓。我们把数字信息写在 DNA 中,把人类的知识、文化和艺术瑰宝镌刻在生命的鬼斧神工之中,使思想不朽。而我们利用 DNA 制造的分子信息系统也将成为一扇窗户。透过它,我们得以更精确、更即时的窥探生命的底层逻辑,甚至操控微观生物世界。纳米尺度的 DN
8、A 是人类与自然和谐共处的一道分子桥梁,DNA 存储领域的研究者正在为它垒起一块块稳固的基石。基因慧 8版权所有侵权必究DNA 存储蓝皮书DNA 存储是生物技术与信息技术融合的典范元英进中国科学院院士、天津大学副校长信息存储是人类文明发展的必然需求。周易系辞有云:“上古结绳而治,后世圣人易以书契”。从结绳记事,到录于文书,社会的发展离不开信息记录。小到个人感怀、生活收支,大到国书布告、历史决议,这些信息都是宝贵的财富,承载着人类文明发展的历史和未来。信息存储就成为了不同时期人类的共同需求。数据存储方式的变化史,是人类文明发展史的缩影。从龟甲石刻、竹简纸张,到如今的磁光电存储,人类物质和精神文明
9、得到了极大发展,人均拥有了超过 1014 比特的信息量。在这个拥抱大数据的时代,数据规模爆炸增长,现有存储介质逼近密度极限,人类不断开发新的数据存储方式,DNA 存储就是其中最具潜力的技术之一。DNA 存储核心优势是存储密度高、存储时间长且维护成本低。美国半导体合成生物学路线图中提到,DNA 存储的密度潜力是硬盘、磁带等传统介质的 1 千万倍。考古学家也已经证明,DNA 作为天然的生物遗传信息载体,在特定的自然状态下可以保存几百万到几亿年。这些特质使得 DNA存储具备了海量数据长期保存的颠覆性优势。DNA 存储的发展将促进 DNA 合成和测序技术的迭代升级。诚然,当前 DNA 存储的读写成本依
10、然高昂,但是随着 DNA 合成新技术持续进步,测序走向 Pb 级规模,其读写成本正持续下降。在数据存储需求的驱动下,DNA 合成和测序新技术将快速成熟和发展,带动产业升级,为低成本 DNA存储赋能,为生命科学研究助力。总而言之,DNA 存储是生物技术与信息技术融合的典范。DNA 作为从古至今承载生命信息的介质,在生物技术与信息技术之间架起了一座桥梁。DNA 存储将是人类师法自然,造福社会的又一典型。我希望更多不同学科的青年人,响应时代的召唤,进入这个充满潜力的交叉融合领域,为人类文明的发展贡献力量。基因慧 9版权所有侵权必究DNA 存储蓝皮书DNA 存储有望突破大数据存储的瓶颈杨焕明中国科学院
11、院士、华大集团理事长再过一年,就是人类基因组计划完成图发布 20 周年、DNA 双螺旋结构发现 70 周年。在这个阶段,测序技术成熟服务数以千万孕妇产前筛查、数以亿级的核酸检测后,连同 DNA 合成技术,推动 DNA 存储研发和应用。它是 BT(生物技术)和 IT(信息技术)的完美融合,将基因科技从医学拓展到工业以及更广泛的应用市场,造福大众。从这个角度上,基因慧策划的DNA 存储蓝皮书非常有意义。多年前我参与香山科学会议,和众多同仁探讨 DNA 存储技术。近十年来 DNA 存储技术发展迅速。一方面,DNA 测序技术快速普惠,DNA 合成的成本下降了三个数量级及以上;另一方面,微米级芯片对合成
12、的控制达到高通量的目的,包括 George Church、Goldman 和深圳华大生命科学研究院团队都开发出不同策略的 DNA 存储编码算法。未来如果进一步降低成本,提高编码的适配性和鲁棒性,有望突破目前大数据存储的瓶颈,赋能人工智能和产业数字化等。同志们,我们正进入生物技术大放异彩的时代。生命是数字的,DNA 测序和合成正以前所未有的速度和深度拓展或改变我们对生命的认知,服务医学、农学、工业和大数据等,这是时代赋予我们的使命,我们生于斯,应加强研产学资连接和协作,不辜负时代,勇立潮头。基因慧 10版权所有侵权必究DNA 存储蓝皮书探寻变革性的存储材料抱有“功成必定有我”的历史担当樊春海中国
13、科学院院士、上海交通大学转化医学研究院执行院长自从诞生以来,人类从未停止过对生命奥秘的探寻。1953 年,沃森、克里克等人共同发现了DNA 双螺旋结构这被认为是 20 世纪生命科学领域最重大的发现之一。这一简洁而又优美的结构的发现,为我们从分子层面揭示了生命遗传过程的本质,引领了诸如中心法则、核酶、基因编辑等一系列从核酸结构、功能到信息调控的诺贝尔奖成果和重大科学发现,并带动了整个生物技术领域的发展。当前,随着互联网、人工智能、5G 通讯等技术的发展和普及,人类已经大步迈进信息和大数据时代。一方面,高效、快速的信息交互使得人类的生活发生了天翻地覆的变化,由此产生了海量的数据;另一方面,数据的价
14、值日益凸显,已经上升到了生产要素的高度。如何在未来存储海量的数据量将是人类所共同面临的重大问题,也代表了国家重大需求。DNA 分子作为一种亿万年进化产生的超高密度、超稳定的数据存储介质,ATGC 这四个碱基的不同排列组合构成了多姿多彩的生物学世界背后的规则。经过几代科学家的不懈努力,特别是人类基因组计划等大科学计划的推动,现在人类已经从认识 DNA 发展到了人为设计、合成和读取DNA。曾经的遗传密码已经逐渐成为我们手中可以操控和应用的纳米尺度分子材料。在这个意义上,我们撷取自然进化的智慧,将 DNA 从记录生命遗传信息的分子转化为记录人类文明信息的介质,已经成为可能,然而挑战巨大。人类社会正处
15、在一个高度变革的转折时期,我们正在逐步从真实世界转变为真实与虚拟世界(如元宇宙)共存的二元世界。探寻变革性的存储材料,突破海量数据存储瓶颈,已成为时代的需求和国家战略所在。我们应心存“功成不必在我”的精神,抱有“功成必定有我”的历史担当,聚集智慧与心力,努力将人类带向 IT-BT(信息技术-生物技术)交融的应许之地!基因慧 11版权所有侵权必究DNA 存储蓝皮书专家寄语DNA 存储看起来既遥远又现实。随着研究的不断突破,从原理验证到编码优化,我们已经看到 DNA 用于数据存储的远大前景。但合成成本、信息失真、兼容性等问题让应用显得不切实际。但是就在不久之前,当人类基因组刚开始的时候,我们还对着
16、高达三十亿的测序成本望洋兴叹,可今天成本降低了数千万倍,变得人人可及,精度也不断完善。所以我们有理由相信,DNA 数据存储,在不太遥远的未来,必然进入各行各业、千家万户。徐讯深圳华大生命科学研究院院长我是从 90 年代以科学家身份下海创业的。从创业之初,我就确定了 DNA 化学合成作为公司的主营业务。因为我知道,DNA 合成所产生的引物是大部分生命科学实验应用的食粮。在当时的大环境下,连普通的引物和测序都要依赖进口高价产品。而我本人和公司对整个行业最大的贡献我认为就是让中国的科研工作者都能“吃得起”,“吃得饱”,但我们现在要进入一个新的阶段,就是还要让大家“吃得好”,要建立核心技术实力,拿出更
17、高质量、具有自主知识产权的好产品。王启松生工生物董事长当今世界正处于前所未有的信息爆炸时代,人工智能、5G、无人驾驶汽车等应用无时无刻地产生海量数据,预计到 2025 年,全球数据量将达到 175ZB。数据爆发式的指数增长速度,已经超过了当前 IT 存储技术的承载力。DNA 存储作为一项着眼于未来的具有划时代意义存储技术,正在揭开神秘的面纱,从实验室走向大众视野。国家基因库愿与业界一起致力于 DNA 存储研发和应用工作,共同推进生命科学和 IT 科技的融合,期待新的突破,共创美好未来!曾文君深圳国家基因库生物信息数据库主任基因慧 12版权所有侵权必究DNA 存储蓝皮书DNA 存储是通过合成生物
18、学的方式把 0、1 转换成碱基,再通过测序解码进行读取;具有容量大、保存时间长等显著优势。中国、美国和欧洲已经把 DNA 存储列入战略研究方向。2020年 Twist Bioscience、Illumina、Western Digital、微软研究院等公司和机构联合成立 DNA 数据存储联盟。由此可见,国家和产业头部公司的重视和着力都将推动技术发展。联川致力于探索基因技术在各类场景的应用并最终实现产业化,希望与行业内众多优秀企业携手推进 DNA 存储的发展!郎秋蕾联川生物CEO数字信息时代的到来促使大家开始寻找空间更大、运行更稳定、读取更便捷的存储方式。随着人工 DNA 合成技术的不断发展,D
19、NA 存储凭借存储密度高、存储时间长、占地面积小、维护成本低等优点,成为解决未来数据存储危机的潜力介质之一,更有望彻底颠覆现今数据存储模式。擎科生物始终致力基因合成领域的技术开发与落地,公司将充分发挥自身科技创新优势,与行业内众多优秀企业共同开创 DNA 存储新时代。马石金擎科生物董事长海量分布式存储业务需要极低的存储成本来应对快速增长的数据规模,DNA 存储技术具有存储密度高、电磁干扰少、数据跳变概率低等优势,具有成为极低成本的存储介质的潜力。林楠腾讯云存储高级产品经理基因慧 13版权所有侵权必究DNA 存储蓝皮书报告说明报告宗旨本报告为基因慧联合基因科技和大数据存储专家、代表机构及一线人士
20、撰写而成,面向专业人士免费传播,推动基因科技和大数据存储的科学普及、技术推广、转化应用及创新创业。面向对象对基因科技和大数据存储有一定基础和兴趣的政策制定者、科研学者、创业者、投资者、教育工作者、产业从业者等专业人士。内容范围内容上,本报告围绕基因科技和大数据存储的宏观环境、技术工艺、应用场景和产业发展来展开;时间上,本报告归纳近年的技术及产业动态信息、专家观点和研究思考,以 2020-2022 年为主,展望未来;地理维度上,本报告以全球环境为背景和参考,重点着墨中国大陆地区的市场,旨在传播和启发先进技术的产业化。更多需求基于“使连接产生价值,用数据看见未来”的理念,我们尽可能严谨、客观收集信
21、息和归纳分析;信息源于基因慧旗下 GeneMail 资讯、大咖论健、产业信息大数据平台YourMap、专家咨询、市场调研及联合撰写团队提供的信息等合规素材。但由于行业特殊性和信息披露的时效性等因素,内容难免存在不足,信息颗粒度可能无法满足所有场景。如有错漏,欢迎反馈指正;如需更大范围或更细颗粒度的信息,欢迎联络我们定制行研报告。基因慧 14版权所有侵权必究DNA 存储蓝皮书法律声明本报告为深圳基因界科技咨询有限公司(以下简称“基因慧”)联合合作方的学术研究成果,旨在推动相关的科技普及、技术推广、转化应用和创新创业。本报告版权归基因慧及合作机构所有。未经基因慧及合作机构的书面授权,任何机构和个人
22、不得以任何形式使用、复制和传播本报告的任何部分用于商业目的。学术研究引用时请注明来自基因慧;侵权必究。基因慧未受聘于任何企业从事此报告研究。本报告不得解释为基因慧专业的医疗决策、产业咨询及投融资等意见,亦不得解释为基因慧对个别产品、机构评价的观点。读者接收本报告即视为同意以下声明:任何机构或个人在引用本报告信息时,须对本报告的数据和结果进行独立调查和判断;由于信息时效性,基因慧对本报告所含信息的准确性或完整性不作任何担保或保证,且明确声明对任何机构和个人不承担基于本报告决策而产生的任何责任。一、需求:数据存储现状及 DNA 存储优势DNA 存储蓝皮书161.1 大数据时代下数据存储现状及局限医
23、疗大健康、生物工程、“工业 4.0”等领域的发展带来大数据的繁荣。一方面,互联网、物联网、医疗健康、生物工程等加速生产大规模数据,5G 数字技术大幅加快数据传输,人工智能赋能数据挖掘;另一方面,目前的存储介质远远无法满足大数据存储的需求。图 1:全球数据供需量(ZB)消耗量 有效存储量050100150200250300350400450500550600650700750800850900950100010502015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 2031 2032 20
24、33 2034 2035信息来源:IDC 白皮书:世界的数字化从边缘到核心,基因慧制图据 2021 年 IDC 预测,全球数据量 2020 年至 2025 年的复合增长率为 23%,到 2025 年将达到180 泽字节(1 泽字节=1024 艾字节,1 艾字节相当于一部 36000 年才能播完的高清视频),预计2035 年数据量将突破 1000 泽字节。根据全球最大的硬盘制造商希捷(Seagate)的观点:2025 年预计有 98.29%的数据由于存储技术和存储规模而无法保存。总体来说,大数据存储的供应赶不上大数据的生产,主要包括以下几个方面的需求未得到满足:基因慧 一、需求:数据存储现状及
25、DNA 存储优势17版权所有侵权必究图 2:数据存储的未满足需求缺乏信息密度更高的存储介质数据存储能源利用率低,消耗能源偏高存储介质的使用年限较短,抗干扰弱大容量存储设备的便携性不足加剧土地资源、能耗的使用增加数据的迁移和维护成本数据安全隐患加剧未满足需求引发的问题信息来源:基因慧整理&制图如上图所示,市场缺乏密度更高的存储介质加剧了土地资源的过度使用与能耗过大;存储介质较短的使用年限增加了数据迁移和维护成本;大型存储设备迁移性不足增添了数据安全隐患。低成本、高密度、长久保留、低能耗,将是未来数据存储的发展方向。这是大数据时代下数据存储的需求,同时也是 DNA 存储技术的核心价值。在探讨 DN
26、A 存储技术之前,我们先来了解数据存储的发展历程、当前现状和具体的局限性。1.1.1 数据存储的发展历程回顾数据存储的发展历程,从最早的结绳记事、甲骨文、纸到硬盘、闪存,其核心特点,如存储密度、容量、使用年限在不断提升,也更加便携、稳定和安全。DNA 存储蓝皮书18图 3:数据存储的发展历程文字发明前东汉时期1846 年1928 年1932 年1952 年1956 年1965 年1971 年1984 年2003 年约公元前17世纪-公元前 11 世纪结绳记事纸穿孔纸带录音磁带磁鼓存储器磁带硬盘CD/DVD软盘闪存DNA 存储甲骨文信息来源:基因慧整理&制图在数据存储发展的长河中,1846 年的
27、穿孔纸带第一次把数据转变成二进制信息,奠定了早期计算机的输入系统;1952 年研发的磁带成功延续至今,因其极高的存储密度成为数据冷存储的主要媒介之一;而 1984 年的闪存第一次将非易失性的特点带入存储,增强了数据的安全性。但自闪存媒介研发至今,近 30 年未有新型存储研发。直至 2019 年,微软和华盛顿大学发表了 DNA 存储的原型实验室装置,预计需要 5-10 年才能投入大规模使用。1.1.2 存储介质的现状尽管数据存储介质多种多样,但市面上主流的存储介质可以根据存储原理分为三大类,分别是光盘、磁性存储(硬盘、磁带等)和半导体存储(闪存等)。本蓝皮书讨论的 DNA 存储归类为新兴存储。存
28、储介质的核心指标包括读写速度、数据保存年限、消耗电量(能耗)、数据密度等。作为新兴存储的 DNA 存储读写速度小于 100 比特/微秒,数据保存年限可长达 100 年,消耗的电量小于 10-10瓦特/吉字节,细菌体内数据密度约 1019比特/立方厘米。基因慧 一、需求:数据存储现状及 DNA 存储优势19版权所有侵权必究图 4:数据存储的分类100年30年0.02-0.05瓦特/吉字节1014 比特/立方厘米磁带5000-28000比特/微秒10年0.01-0.04瓦特/吉字节1016 比特/立方厘米闪存半导体存储 1600比特/微秒10年0.04瓦特/吉字节1013 比特/立方厘米硬盘磁性存
29、储读写速度消耗电量数据密度保存年限信息来源:Extance,A.How DNA could store all the world s data.2016,基因慧制图目前市场上常见的存储介质包括磁带、硬盘、闪存等,其中硬盘和闪存占据消费级和企业级产品,而磁带存储多应用于数据冷存储;读写速度最快的是闪存,最高可达 28000 比特/微秒;保存年限最长的是磁带,可超过 30 年;能耗最低的是闪存,最低可达 0.01 瓦特/吉字节;与现有介质相比,DNA 存储技术的优势是使用寿命最长,可达百年,数据密度最大,可达 1019比特/立方厘米,但也存在一定劣势需要不断研发和优化,包括信息读写速度慢、合成和
30、测序成本高。表 1:存储介质对比磁带硬盘闪存DNA 存储优点读写便捷、成本低、使用寿命长、能耗低、安全性高、稳定、价格低、可支持断电存储存储容量大、价格低、存储成本低读写便捷、耗电量低、温度影响小、耐用性高存储密度高、耐用性高、使用寿命长、能源消耗低缺点访问速度低耗电高、运行温度高、噪声偏大价格偏高、容量偏低合成和测序成本高、信息读写慢、无法高效对接现有信息系统应用场景数据冷存储消费级和企业级产品消费级产品为主大数据存储、新型数据加密、分子追踪系统、分子诊断生产厂商IBM、惠普等希捷、西部数据、东芝等三星、东芝、海力士等Twist Bioscience、微软、华大等信息来源:基因慧整理DNA
31、存储蓝皮书201.1.3 数据存储的局限基于磁带、硬盘、闪存等存储介质与 DNA 存储的对比,现有存储介质在存储密度、使用寿命、能源消耗上仍存在着一定的局限。现有存储介质的存储密度偏低。以磁带存储为例,目前存储密度能达到 1014比特/立方厘米,而 HDD硬盘和闪存不及磁带存储,例如 1 泽字节的数据量,即使是磁带存储,也需要 1011立方毫米。存储密度的不足将导致高运营成本和建设成本。在能源消耗上,1 泽字节数据量需要约 1000 个艾字节级数据中心,而每个艾字节级数据中心需要约 7 万平方米的占地面积,200 兆瓦/年的功耗,总存储成本高达 10 亿美元。不仅占地面积、存储体积面临巨大的挑
32、战,能耗、维护成本将是更严峻的挑战。使用寿命也是局限数据存储发展的关键因素。在现有存储介质中,光盘的使用寿命为10-15年,HDD 存储和闪存的使用寿命为 5-10 年,磁带存储的使用寿命为 15-30 年;数据存储系统需要定期清除损坏的数据,并更换故障单元,低使用寿命会导致泽字节数据量的存储需要极高的维护成本,因此市场需要更加稳定的存储介质来支撑快速增长的数据量。在能源消耗方面,磁带存储的能源消耗相比 HDD 存储和闪存要小。磁带存储可以通过离线存储数据,但磁带主要依赖于稀土金属。尽管全球稀土储量丰富,但因为过度开采和跨国进出口贸易,稀土资源储量正快速下降,磁带存储的解决方案并不能长久。综上
33、所述,为了满足海量数据的存储的新兴需求,市场亟需变革式的新兴存储介质。特别是在存储密度、使用寿命、能源消耗、数据安全等因素上进行大幅优化和提升。DNA 存储作为未来数据存储介质的解决方案之一。一方面,其存储密度是已知存储介质最高,理论可以实现达到的存储密度为 455 艾字节/克。另一方面,由于 DNA 的稳定性,来自 70 万年前的古代 DNA 仍然可以被测序,存储的时效性可见一斑。基因慧 一、需求:数据存储现状及 DNA 存储优势21版权所有侵权必究1.2 DNA 存储的原理及优势目前主流的 DNA 存储是基于 DNA 的四种碱基(A、G、C、T)来映射 0 和 1,通过信息编码来进行存储,
34、这是一个数字信号到化学信号的过程。相对传统介质,DNA 存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此 DNA 存储极其稳定且存储密度高。图 5:DNA 数据存储整体框架数据编码数据写入DNA 合成数据储存数据读取数据解码体外测序体内信息来源:滕越等,DNA 数据存储技术原理及其研究进展,生物化学与生物物理进展,2021DNA 存储的概念最早可追溯到 20 世纪 60 年代,美国著名科学家、控制论的创始人诺伯特维纳(Norbert Wiener)和苏联科学家米哈伊尔内曼(Mikhail Neiman)几乎同时独立提出利用 DNA可以存储数据的概念。表 2:DNA 存
35、储的历史时间研发团队存储容量(MB)研发成果20 世纪 60 年代Wiener、Neiman遗传存储器的概念推出1988Joe Davis、哈佛大学0.000004将数字 0 和 1 映射到 DNA 的四个碱基1999奥地利电子音乐节0.00009编码来自 Genesis 的文本2003太平洋西北国家实验室0.0001“这是一个小世界”的部分内容DNA 存储蓝皮书22时间研发团队存储容量(MB)研发成果2005ATUM0.0001诗歌“Tomten”2009多伦多大学0.0002文本、音乐、图片2010J.Craig Venter 研究所0.0009合成基因组水印2012哈佛大学0.66书籍和
36、 JavaScript2013欧洲生物信息学研究所0.74诗歌、演讲、论文2016哈佛大学、Technicolor22MPEG 格式压缩电影2017微软、华盛顿大学200世界人权宣言、音乐视频、种子数据库2018微软、华盛顿大学400未知2019 Catalog 公司16000存储 16GB 的维基百科数据信息来源:基因慧整理1.1.4 DNA 存储的步骤现有技术框架下,DNA存储主要由6个步骤构成,包括:编码、合成、保存、获取、测序、解码(部分 DNA 存储技术不涉及获取步骤)。1)二进制比特-DNA 碱基编码DNA 编码的方法众多。算法上包括固定规则的简单映射编码、Goldman 编码、G
37、rass 编码、Blawat 编码、DNA 喷泉(DNA Fountain)编码、水印叠加编码等。其中还包括集成多种规则的华大 YYC 阴阳双编码系统与 Spider-Web 系统、中科碳元的“悟空”编码系统、联川生物研发的 DNA存储编码系统等。此外,针对 DNA 的生化-数字特性,可预计编码方法上还有较大的研究空间。此处,我们以 Goldman 编码为例说明 DNA 存储编码的基础原理,更多编码算法详可见第二章。基因慧 一、需求:数据存储现状及 DNA 存储优势23版权所有侵权必究图 6:DNA 存储的基础原理A T G A T C T C G T A ADNAmRNA00=A,01=T,
38、10=G,11=CSynthesizeDefine a mapping:DATA:00 00 10 01 11AAGTCPolypeptideSerlleT A C T A G A G C A T TA U G A U C U C G U A AMetSTOP信息来源:Digitaltrend,基因慧整理2012 年,George Church 教授首次展示通过 DNA 来存储非遗传数据,使用经典的简单映射编码直接将 A、T、C、G 4 种碱基映射二进制数据,例如:将 00 映射给 A,将 01 映射给 T,将 10 映射给 G,将 11 映射给 C,基于以上编码,碱基序列“TGCAG”可编码
39、数字串“0110110010”。上述映射规则是较为简单的一种,可以在确保编码的规则和效率下作多种变形,例如霍夫曼编码、DNA 喷泉编码。后续的编码算法引入了纠错算法,这对于 DNA 存储信息的准确性起到了关键作用。图 7:DNA 编码 ACCCCCCCCCAAAAAAGGTTTTTTTGGGGGGGTTA00121000110111 4 4701011101 1011111010 01 1110ACDBSimple TranscodingExample01011101TAGTC02210Previous NucleotideTernary DigitorBinaryGF FieldRule 1
40、Rule 2RecombineResult Options:First three not sameLast two not sameOption 1Option 2Option 3Option 4DNABasesor One to two Two to one Sixteen to nineNot identicalNucleotide TripletMappingHuffman code(Eight to five/six)Forward error correction(Eight to five)0101010101ATCGATCG0123447.X Y ZGGGCGATTC信息来源:
41、Ping et.al.,Gigascience,2018DNA 存储蓝皮书24除了以上映射的编码方法,另一种方法是使每个短寡核苷酸代表一个编码数据单元或符号。通过碱基合成技术预先合成短寡核苷酸元件库,基于碱基互补配对原则,连接短寡核苷酸以产生长寡核苷酸或形成长DNA双链,更长的DNA序列意味着通过更大的数据有效载荷来分摊组装的成本,从而在面对较大数据量时降低成本。2)DNA 合成作为存储介质,DNA 的合成长度决定存储信息碱基利用率。目前,主流的 DNA 合成方法包括化学合成和生物合成两大类。其中,化学合成技术相对成熟,以上世纪八十年代发展的固相亚磷酰胺三酯法为代表。目前基于化学合成 DNA
42、的新兴技术和工具还在陆续面世,例如电化学芯片合成法、微流体系统、数字光刻技术和基于分选原理的高通量合成技术等,特别是微阵列(芯片)DNA 合成可实现高通量。基于微软和华盛顿大学的研究成果,目前合成密度能达到 2500 万/每平方厘米,并且有两个数量级的增长潜力。以酶促合成为代表的生物合成技术开始于 2010 年中期,目前相关技术尚未成熟,未进入商业市场,未来的发展前景较大。酶促合成技术可只使用水性试剂,产生更少的副产品,因此更具有可持续性;其次,酶促合成反应可以通过加速合成实现更高的通量并增加聚合物的长度,从而提高数据密度,降低存储成本。3)DNA 保存表 3:DNA 介质的储存方法方法液状干
43、粉封装DNA 与碱性盐混合干燥非天然核酸体内存储保存时间33 年36 年527 年109 年-处理难度简单简单困难简单简单简单温度-20/-80/液氮保存-15常温常温-80信息来源:参考郜艳敏等,DNA 信息存储中关键生化方法的研究.合成生物学,2021,基因慧整理基因慧 一、需求:数据存储现状及 DNA 存储优势25版权所有侵权必究DNA 介质的长期稳定储存是实现冷数据长期存储的关键,将直接影响基于 DNA 的海量数据存储硬件设备系统的实现。现有 DNA 保存包括三种方式:宏观级保存 分子级保存 体内保存其中,宏观级保存可以包括将DNA介质以液状、干粉、封装、DNA与碱性盐混合干燥等方式保
44、存。DNA 分子的物理保存需要考虑容器的成本、容器存储的数据量、封装成本和检索的自动化等因素。考虑到 DNA 的衰变机制,DNA 会受到紫外线照射、水、微生物、氧气等作用降解,而水分子是最主要的因素,因此,DNA 介质的长期储存尤其要隔绝水和氧气。DNA的分子保存,是将单个DNA分子嵌入基质材料中,旨在防止水和氧气接触到单个 DNA 分子,玻璃等无机材料是目前最适合的材料,但具有较大的加工难度,并且会增加后期的 DNA 分子读取难度。相比之下,DNA 体内储存具有较大优势,如低成本精准复制和长久稳定保存,是目前信息存储的最具潜力的方式。此外,细胞内精密的基因组修复等分子机制可以实现 DNA 介
45、质的耐久性和稳定性。但体内存储也存在一定的不足,由于细胞接受外源 DNA 物质效率等问题,造成体内存储密度低于体外存储,且体内储存更加适合长 DNA 片段,具有较高的制造成本。此外大量的人工核酸序列在细胞内保存的生物风险也是一个需要考虑的关键因素。4)DNA 测序DNA 测序是对存储在 DNA 中的数据进行读取的步骤,主要是测定编码数据的 DNA 分子中碱基(AGCT)的排列顺序。DNA 存储蓝皮书26图 8:测序技术的发展历史Sanger 发明 DNA 双脱氧链终止法测序1977第一次测定得到人类线粒体基因组序列1981人类基因组计划启动1990第一次得到完整的细菌基因组:嗜血流感菌1995
46、第一次得到完整的真核生物基因组:酿酒酵母 1996人类基因组计划完成 2001Roche 发布高通量测序仪 454 GS202005Illumina 发布高通量测序仪 Genetic Analyzer 22007MetaHIT计划启动研究人类微生物组计划2008PacBio 发布单分子测序仪 PacBio RS2011ONT 发布纳米孔测序平台:MiniON2014华大发布了新一代桌面型测序系统 BGISEQ-5002015华大智造发布全球最高日通量的测序系统 DNBSEQ-T72018华大智造发布入门级测序系统 DNBSEQ-E520212019人类微生物组计划第二阶段(HMP)完成信息来源
47、:基因慧整理&制图自 1977 年 Sanger 发明双脱氧链终止法,测序技术开始了高速的发展。随后在 1998 年,随着毛细管电泳仪的出现,科学家们实现了测序技术的通量化和自动化。这标志着一代测序技术的成熟和基因组学时代的到来。新一代测序(NGS,Next Generation Sequencing)于 2005 年出现,这一技术实现了从几十万条到几百万条的核酸分子的大规模并行测序。2011 年,基于长片段和直接测序的单分子测序技术开始商业化。目前,DNA 存储相关研究的测序工作大多在 Illumina 平台、MGI 平台以及单分子纳米孔 ONT 平台实现。基因慧 一、需求:数据存储现状及
48、DNA 存储优势27版权所有侵权必究表 4:不同测序技术的比较分类代表企业测序原理优点缺点Sanger测序仪Thermo FisherSanger 测序法准确率高且读长较长,能很好地处理重复序列和多聚序列通量小且成本较高高通量测序仪Illumina可逆末端终止法通量很高机器造价昂贵Thermo Fisher连接测序法通量高,实际成本低测序时间长,读长短,成本高,碱基组拼接困难Roche焦磷酸测序法二代测序中读长最长难以处理重复和多聚区域MGI联合探针锚定聚合测序法高通量、高准确性、低重复序列率(低 Dup)上机文库为环状文库,如采用其他商业试剂盒构建了线性文库,则需采用通用文库转换试剂转换成兼
49、容华大测序平台的单链环状DNA 文库单分子测序仪PacBio单分子荧光测序超长读长准确率低、仪器昂贵ONT单分子纳米孔测序长读长准确率低信息来源:基因慧整理5)DNA 碱基-二进制比特解码DNA 测序完成后,通过 DNA 解码获得 DNA 存储的原始信息。基础原理如下:通过检索选择目标 DNA 再使用映射到编码过程中所生成特定数据项的引物和 PCR 扩增,获得目标 DNA,再通过测序仪获取 DNA 对应的序列。通过映射规则将序列转码成原始的 0 和 1 字节信息。关于 DNA 存储原理的更多详细内容,请参考本蓝皮书的第二章。DNA 存储蓝皮书281.1.5 DNA 存储的优势图 9:DNA 数
50、据存储和解读的流程编码原理模型技术流程应用模式解码测序合成101101.AGT.硬盘模式光盘模式磁带模式其他模式位点 1位点 2位点 3位点 4信息编码数据写入介质保存可靠读出信息写入信息读取DNA 片段AGTACT.10110110.信息来源:韩明哲等,DNA 信息存储,生命系统与信息系统的桥梁,合成生物学,2021作为未来数字存储变革性材料,相较其他介质,DNA 存储的优点包括:存储密度更高(可达 1019比特/立方厘米)使用寿命更长(最长可达百年)维护更加简单(维护成本几乎为零)能源消耗更少(消耗电量低于 10-10瓦特/吉字节)与市场常用的存储介质相比,DNA存储的密度最高;如果在IB