能存下整个互联网的DNA“硬盘”
文 / 陈荣 微信号:chenrong671170
基因测序技术的飞速发展忙坏了数据存储公司,在他们发愁如何存储爆炸式增长的基因数据时,生物学家却另辟蹊径,他们发现,基因本身,就是最好的存储设备。
今年2月,瑞士联邦理工学院的项目团队对外公布了一项最新研究成果:他们成功将一段DNA片段塞进了石英玻璃材质的球形胶囊中。
看起来不是什么重大成果,此前人们早已能够把DNA片段塞进各式各样的材料中。但关键是,4周后,瑞士科学家从那段DNA中,完整取出了之前存入的83KB数据。
这就算是DNA存储技术的历史性突破了。它意味着,利用DNA存储和读取数据,不再是一个不错的想法,而是一个可行的办法。
不过,虽然实验已证明了其可行性,但要真正干掉如今的硬盘和服务器,DNA存储还有很长的路要走。
【1克=700TB】
在分析所有困难前,先来看一个基本的问题,为什么要用DNA来存储数据?
答案不是为了好玩,也不是某些技术先锋的创新之举,而是我们现有的存储工具,已经跟不上数据存储的需求。
市场研究公司IDC和数据存储公司EMC在2014年做了一项调研,他们发现,2013年全世界的数据总量达到了4.4ZB(1ZB=10.74亿TB),按照如今的数据增长速度,即使保守估计,2020年,数据总量也将超过44ZB。
而随着摩尔定律的升级,人类已经逐步接近传统电子制造技术的极限,即便摩尔定律一直生效,现有电子存储设备的性能和容量提升速度,也无法跟上人类产出数据的速度。
在数据大爆炸灾难发生前,人类需要找到不受摩尔定律限制的存储设备。DNA存储的设想,由此而生。
关于DNA存储,流传最广的说法是2010年诞生于酒吧中。当时,欧洲生物信息研究所副所长尤安?伯尼和同事尼克?古德曼在德国汉堡市一间酒吧中发愁,用什么可以替代昂贵的存储硬盘,以处理日益繁多的基因数据。
两人开玩笑说,要是有存储设备能像DNA一样存储遗传基因信息多好,你看一只猛犸象的基因就能让我们了解数万年前的许多信息。
话音刚落,两人立马有了同样的想法,为什么不用DNA存储信息呢?它本身就是一个很好的存储设备。于是,两位科学家找了一张餐巾纸,在上面写下了这个伟大的构想。
在两人的构想中,所谓DNA存储,就是利用DNA的4个碱基——A、T、C、G为基本符号,通过独特的排列组合,形成一套编码存储和读取数据。
这与如今的二进制电子存储有异曲同工之妙,只不过,二进制电子存储是以1和0为基本符号进行排列组合,形成不同的序列,进而组合成信息和数据。
而DNA有4个碱基,在编码上也就多了许多可能,众多的优势也将从中显现。
最明显的优势,就是容量。DNA本身就是携带海量遗传信息的“数据库”,在人类的基因序列中,1克重量的DNA就包含数十亿GB的遗传数据,而根据2012年美国科学家乔治?丘奇在1沙克(亿万分之一克)DNA中存入的数据量换算,1克DNA能存储的数据,多达700TB,相当于1.4万张蓝光光盘,或233个3TB的硬盘。
丘奇说,以这个存储容量,今后,一个拇指大小的DNA存储设备,就能存下整个互联网的信息。
【最佳存储选择?】
除了容量巨大,DNA存储的优势还包括无须依赖电源和不需要维护等,不过以此就断言DNA是未来最佳存储设备,还为时尚早。
2013年,经过3年努力,尤安?伯尼和尼克?古德曼完成了他们首次的DNA存储实验,将154首莎士比亚的诗歌、一张欧洲生物信息研究所的JPG格式图片、一份关于DNA分子结构的PDF学术论文、马丁?路德?金“我有一个梦想”的26秒演讲片段以及一个编码系统文档统统存进了微量的DNA里。
但完成这一存储过程,着实费了不少功夫。
最基本的难题是如何将这些数字化形式存在的文字、图片和视频,转化成DNA碱基的编码语言。科学家们时至今日使用的方法,都是发明一段中间代码,让这段代码充当中介,实现二进制电子语言与DNA碱基语言的转化。
比如,将莎士比亚的诗歌翻译成中间代码,再利用DNA合成技术,将碱基按序排列,合成一段符合诗歌代码的DNA片段,并加上一段索引代码,保证每一个位置的碱基与相应的诗歌字母相匹配。
读取阶段,则是利用基因测序仪和计算机,按照DNA片段的序列索引,将DNA中存储的信息排列好,并通过中间代码转化成计算机能够读取的二进制数字语言。
理论上看这是一个接近完美的存储和读取方法,但实际上,除去中间代码的编写难度之高,DNA本身的存储和数据保护,也是一个大麻烦。
以往众多科学家的测试结果表明,合成存入数据的DNA并不困难,但要读取数据时,DNA会对周围环境作出反应,很难保持稳定,这很容易导致读取的DNA数据经常出现错误,或者数据随着细胞死亡而丢失。
瑞士联邦理工学院科学家们的实验之所以可以称为突破性成功,就在于解决了DNA片段的存储问题,将DNA片段当成“化石”保存,再通过氟化物的作用,释放DNA,进而完整准确地读取出所有存入的数据。
瑞士的科学家说,利用这种方法,存储数据的DNA可以在-18℃下保存100万年之久。
不过,即便保存方法难题得到解决,DNA存储还需要面对所有前沿科技面临的共同挑战——成本。
瑞士科学家在DNA片段中存储的83KB数据,包括一份瑞典联邦宪章以及英文版的阿基米德著作《机械定理方法》,整个存储和读取过程,花费超过1000欧元,而若要存储一整部电视剧,费用将是一个惊人的数字。
不过好消息是,基因测序和DNA合成技术的发展速度也同样惊人,DNA存储的成本也在随之降低,届时,即便不能成为最佳存储设备,也会是最好的选择之一。