你身体里的 DNA,能存下整个宇宙的数据

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

恐龙灭绝 6000 多万年后,科学家们获得了一块有史前蚊子的琥珀,从蚊子血中获得了恐龙的基因,从而让遥远的生物复活。讲这个故事的《侏罗纪公园》,至今仍位列全球电影票房前十。这个系列故事的原理很简单: DNA 存储了恐龙的生物信息,科技让它重新表达。

现在,用 DNA 想象另一个故事:在宇宙长河中,「人类世纪」也寂灭了。另外一种智慧生物出现,TA 们去探究远古的「人类文明」。有什么会承载人类文明的记忆?气温异变,地球上的庞大数据中心徒留遗迹。

而冻土中有一份 DNA,它很轻,只有 1 公斤,看起来是一些被封装在胶囊里的白色粉末。读取后,里面却记载了地球上曾有的巨量信息。视频、文字、代码展现了人类历史进程中的无数发明和文艺作品。于是那个遥远文明的痕迹在宇宙间再次展开。

你身体里的 DNA,能存下整个宇宙的数据

这是另一个科幻设定了。背后的技术正是目前被关注的一个前沿方向:DNA 存储信息。在大自然里,DNA 负责存储遗传信息。单个人体细胞的平均直径是 5 到 200 微米,这其中的 DNA 可以包含一个人全部的遗传信息:30 亿对碱基。

那为什么不能用碱基存储别的信息? 这个科幻般的设想,正在走出实验室,被当作信息存储的未来方案。

 

01 基因组数据太多了,怎么办?

 

本来是生物学家想解决生物学发展的问题。

11 年前,一群生物信息学家在德国的一家酒店里讨论「数据存储问题」。Nick Goldman 也在其中,那是他在欧洲生物信息所(EBI)担任高级科学家的第二年。

大规模的基因组测序正在进行,随之产生的数据规模快速增长。存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。据估计:人类基因组需要高达 2-40EB 的存储容量。这可能超过一个世界级科技公司的云存储量——全世界苹果用户存储在谷歌云上的数据总量大约是 8 EB。这 8EB 数据,每月存储费需要 2.18 亿美元。(1EB= 102^3GB)

生物学家们陷入了沮丧。

 

你身体里的 DNA,能存下整个宇宙的数据 Nick Goldman 拿着存储了莎士比亚所有十四行诗、一张照片和「我有一个梦想」演讲片段的 DNA| 来源:EBI

 

有人灵光乍现:是什么东西阻止了我们用 DNA 来储数据呢?

看起来是一句玩笑话,但是生物学家们意识到了这不仅仅是个玩笑,他们拿起手边的餐巾纸,用圆珠笔认真计算起可行性。

DNA 存储遗传信息的原理并不复杂,它由四种核苷酸 A、T、G、C 组成,彼此两两对应,组成双螺旋结构。核苷酸的序列,记录了遗传信息。

在数字世界,所有的信息本质上是 0 和 1 组成的数据串。想要 DNA 存储数字信息,简单理解,原就是将 0 和 1 的编码序列转换成核苷酸的序列。 DNA 存储的优势在于密度大,大约在你眼前逗号这么大小,1 立方毫米的 DNA,就可以容纳 9TB(1TB=1024GB)的信息。

用 DNA 存储数据,也并不是完全新的想法,之前就有科学家尝试过。不过属于科学和艺术的先锋跨界实验。

1988 年,艺术家 Joe Davis 和哈佛大学的研究员,将一副名为「小维纳斯」(Micro Venus)的图案存储到 DNA 短链中。

你身体里的 DNA,能存下整个宇宙的数据 存储进 DNA 的小维纳斯(microvenus)图片 来源:相关论文

 

这个图案编码简易,白色的地方标记为 0、黑色的线条部分标记为 1,文件大小只有 35bits,用了 28 个核苷酸长度的 DNA 链条来存储。

在那次酒店讨论的 2 年之后,2013 年,Goldman 团队发表了研究成果。这次,他们存储了 5 种不同格式的文件,一共有 0.75MB。为了确保信息读取不出错,科学家存储的时候,每份信息按照四倍冗余的量来存储。

五个文件分别是:

•154 首莎士比亚的 14 行诗(ASCII 编码格式)

• 提出 DNA 双螺旋结构的论文(PDF 版)

•一张照片(JPEG 格式)

•马丁· 路德金「我有一个梦想」演讲其中 26 秒片段(MP3 格式)

•一串霍夫曼密码

这些年,DNA 存储容量的上线不断被突破。 2019 年,美国一家创业公司 Catalog 在 DNA 中存储了 16GB 的维基百科。 这个公司表示自己正在建设世界上第一个基于 DNA 的大规模数字数据存储和计算平台。

 

02 编码和解码,要处理的事情很多

 

在一些生物学家看来,用 DNA 来存储是一件非常「顺滑」的事。「大自然的编码语言非常类似于我们在计算机领域使用的二进制语言。在硬盘上我们使用 0 和 1 来代表数据,而 DNA 中,我们拥有 4 种形式的核苷酸,A、C、T 和 G」。在瑞士联邦理工学院的生物学家 Robert Grass 说。

DNA 存储的关键之一是用四个核苷酸去映射 0 和 1 两个数字。 方案可以很简单。比如:A 对应 00,C 对应 01,G 对应 10,T 对应 11。然后再按照所需要的核苷酸序列,像串珠子一样,把核苷酸们串成一串。(这就是 DNA 合成)需要读取信息的时候,再运用基因测序技术,把这一串核苷酸序列读取出来,再翻译成 0 和 1 的字符串。 这个流程就是编码—DNA 合成—测序—解码。

这个听起来像是「把大象装进冰箱」的流程,操作起来需要考虑的问题还有很多。不然科学家就不必一直研究新的编码方案了。

在自然界存在的 DNA 中,A 和 T,C 与 G 两两配对,在一条 DNA 中,CG 与 AT 的存在比例基本均匀,为 50% 左右。如果 C 和 G 的含量过高,可能会让 DNA 链产生一些复杂的物理结构。这就会让 DNA 测序(解码)变得复杂。

 

DNA 存储的步骤| 来源:DNA Data Storage Alliance

 

而且在「串珠子」(也就是合成 DNA 链条)的过程中,错误率不可避免。目前大约每合成 100 个碱基就会出现一个错误。这是由目前的化学合成技术带来的瓶颈,每合成一个碱基,有 99.9% 以上的正确率。但是当碱基串变长,0.01% 的概率相乘,错误就难以避免。目前人工合成 DNA 的单链的长度一般不超过 100 个碱基,极限在 300 个碱基左右。而在自然界的 DNA 动辄有几千个碱基对。

也就是说,虽然 DNA 的存储能力很强,但它们不得不以很多条短链的方式存在。如果存储的信息量比较大,这些 DNA 短链就像一本散装的书。它可以存储很多信息,存在形式却是一张张标着页码的纸。当然,可以将一条条 DNA 短链拼接成长链。这就意味着增加了一道工序。在测序的过程中,又需要把长链打断成短链。这是因为目前技术还不能一次性读取长链。

在测序的过程中,也存在错误率。尽管目前的错误率已经低至 10^-3 数量级,比起商业硬盘的读写错误率,仍相差至少 9 个数量级。

正确率受到合成和测序这两项技术的影响,科学家想到设计编码方案来避免:在编码中增加纠错机制。 这样,哪怕碱基合成和测序中出现了错误,依旧能够保证被存储进 DNA 的内容能够被正确读取出来。

 

03 走出实验室,还要考虑速度和成本

 

DNA 存储也正在尝试走出实验室。

2020 年 10 月,微软、西部数据和基因测序巨头 Illumina、DNA 合成初创公司 Twist Bioscience 等联合成立了 DNA 数据存储联盟。

这是世界上第一个该领域的学术和产业链联盟。 这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。

微软研究院在 2015 年就成立 DNA 存储的项目,并聘请了华盛顿大学的计算机科学与工程学院的副教授 Karin Strauss 担任高级首席研究经理(Senior Principal Research Manager)。

2013 年,她和同事去英国 EBI 访问,了解到 Goldman 和同事们关于 DNA 存储的研究,就对这个方向产生了很大的兴趣。Strauss 说,「DNA 的密度、稳定性和成熟度让我们兴奋。」

在他们的研究中,想开发的是另一个功能:随机读取。 常见的 DNA 测序技术中,必须要将所有的碱基串一次性读取完,才能够获得信息。要么不读取,要么全读。如果只想要数据中的某一个小片段,就会非常麻烦。

2016 年,他们发表了一项研究,可以在 DNA 已经存储的信息中搜索到指定的图像,定位后,用酶来复制所需的 DNA 片段,然后只需读取这一小段即可。

Karin Strauss(右)和两位研究合作者|来源:csenews

 

要让 DNA 存储离商用更进一步,还需要解决合成速度和成本。现在合成速度是每秒存储上千个字节(KB),成熟的云存储方案已经有每秒千兆字节(GB)以上。

这意味着,编写 DNA 的速度还需要提升 6 个数量级。如何让提升数据处理量? 就像并行计算能够提升数据处理速度,科学家希望 DNA 在合成时也可以并行多条,同时处理。

2021 年,微软开发出首个纳米级 DNA 存储器,能够在每个平方厘米的区域上,同时合成 25X106(2650)条碱基序列。这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让 DNA 合成速度变成了每秒兆字节(MB)。

新的方法让 DNA 合成的阵列数量大大增加|来源:微软研究院

 

更大的吞吐量,也就意味着更低的成本。现在 DNA 存储的成本是每万亿字节(TB)8 亿美元。而磁带存储成本已经降到了每万亿字节 16 美元以下。这样比起来似乎毫无竞争力。但现实生活中的大型数据中心的维护成本极高,还要定期更新硬件;DNA 存储密度大、体积小、可以长时间不变质的优势就变成了降维打击。

所以量大、读取频率低的「冷数据」,被认为是 DNA 存储最近的应用场景。 Twist Bioscience 最近在一份市场报告中强调,这种技术能够帮助科技企业在「大规模、低功耗」情况下更有效地部署。

另外一些乐观的科学家,更相信技术的进步。

自 2003 年人类基因组计划完成以来,测序成本降低了 200 万倍。2016 年时,面对每秒千字节的速度,Goldman 说,「(读写的速度提升)6 个数量级对基因组学来说没什么大不了的。你只需要再等一会儿。」

那这「一会儿」是多久呢?这个领域似乎到了临门一脚,仍在等待突破。

随意打赏

提交建议
微信扫一扫,分享给好友吧。