科学家带你“玩”DNA:数据编码只需6步

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

   科学家带你“玩”DNA:数据编码只需6步

   众所周知,DNA(脱氧核糖核酸)是组成人体遗传物质的重要生物大分子,其主要功能是遗传信息存储。通常,科学家会严肃地将DNA视作个体独一无二的“身份证”,然而,有的艺术家却“脑洞大开”,用DNA进行艺术创作;有的科学家却“奇思妙想”,用DNA分子当“硬盘”,进行数据存储。

   科学家带你“玩”DNA:数据编码只需6步

   DNA艺术创作

  在美国宾夕法尼亚州费城大学城科学中心(University CityScience Center)的埃斯特·克莱因画廊(Esther Klein Gallery,EKG),艺术家保罗·万诺斯(Paul Vanouse)正在进行一项别具一格的展览: 利用参观者的混合DNA信息进行艺术创作。

  10月20日,由万诺斯发起的“美国投影”(The AmericaProject)展览会盛大开幕,并将持续至11月19日。此次展览会的别具一格在于: 参观者受邀接受DNA取样――用生理盐水漱口60秒后回收“口水”。万诺斯将参观者的“口水”收集到一个透明痰盂中得到混合样本,进行DNA凝 胶电泳*(GelElectrophoresis)处理,最终利用参观者的DNA信息创作了不同的艺术图像。

科学家带你“玩”DNA:数据编码只需6步

   参观者“口水”样本倒入透明痰盂,触手似的红色管道连接至离心机中的测试试管。

万诺斯称:“这就像是一个大熔炉,将所有美国人融合为一。”

   *注:凝胶电泳是一种用于大分子(如DNA、RNA、蛋白质)及其碎片的分离、分析技术。电场作用下,不同大小的大分子(如DNA)碎片在琼脂凝胶中具有不同的电泳迁移率,从而形成不同的电泳图谱。

通常来说,“DNA图谱”(DNA fingerprinting)是法医用来辨别个体的。然而,万诺斯认为既然人类的基因组在很大程度上是相似的,那么,利用群体混合DNA样品将会获得特定的标准(电泳)图像。

万诺斯称:“我并不想强调DNA是个体独一无二的身份证,相反,我想强调的是,无论个体是谁,最后都能获得一副标准的图像。”

展览厅后台,万诺斯利用前一天*收集的参观者DNA混合样本以及购买的人类DNA样品进行凝胶电泳分析,DNA图谱信息实时投影至主厅大屏幕,参观者可在现场实时观看。

   *注:因为DNA凝胶电泳处理需要至少一天,所以参观者现场实时观看的是前一天收集的样品。

科学家带你“玩”DNA:数据编码只需6步

“皇冠状”DNA艺术图像

科学家带你“玩”DNA:数据编码只需6步

“美国星条旗”DNA艺术图像

最终,参观者DNA混合样品凝胶电泳的图谱呈现出“皇冠状”、“美国星条旗”或者“战斗机”等艺术图像。

  正值美国大选白热化阶段,万诺斯将这一过程比作选票过程: 个人的选择是独立的,但是最终的综合结果却组成了一个统一的新整体。

万诺斯称,这一过程蕴含了很多深意:比如,如果凝胶电泳艺术图像代表力量,这意味着“力量来自人民”。再如,艺术虽美,但痰盂中混合的口水依旧腥臭,就像“民主就像灌香肠,吃起来香,但人们并不想真的知道那里面是什么”。

   DNA数据存储硬盘

微软研究员卡琳·斯特劳斯(Karin Strauss)说:“我们处于信息大爆炸的时代,现有存储恐已不能满足巨量数据存储的需求,我们需要全新的存储方法。”

信息大爆炸时代,为了极大地节约空间,试想DNA作为数据存储中心的潜力是不可估量的!

根据七月份发表的最新数据,目前数字数据转换为DNA生物信息的最大数据量为200MB,虽然比起iPhone16GB的存储器简直不值一提,但是该结果相比于之前哈佛大学研究者的DNA存储记录,已是后者的10倍之大!

   DNA数据编码方法

科学家带你“玩”DNA:数据编码只需6步

   步骤1:数字数据存储中的“0”、“1”映射到DNA数据存储中的“A”、“T”、“C”、“G”。

任何数据文件都能转化为以“0”和“1”为单位的二进制编码,研究者设计算法将二进制编码转换为“A”、“T”、“C”、“G”为单位的四字母编码。“A”、“T”、“C”、“G”分别代表DNA信息编码的四个碱基:腺嘌呤(adenine)、胞嘧啶(cytosine)、鸟嘌呤(guanine)和胸腺嘧啶(thymine)。该程序能将任何文件――从你读到的这篇文章到高清电影等――转换为对应的四碱基序列,而该碱基序列将作为随后合成DNA的前驱物。

   科学家带你“玩”DNA:数据编码只需6步

   步骤2: 调整编码

由于长序列的合成DNA结构脆弱并且难以读取信息,所以单个DNA片段最多存储200个碱基序列信息。同时,为了避免所有的DNA片段乱糟糟的纠缠在一起没法还原信息,研究者为每个DNA片段设计了额外的“头指针”和“尾指针”序列,以便于在组装读取信息时能够正确的找到首尾相接的片段以及其从属的文件。

   科学家带你“玩”DNA:数据编码只需6步

   步骤3:制造DNA

利用DNA测序仪器,将ATCG碱基序列变为合成DNA分子链。将获得的多个200碱基长度的DNA分子链脱水并冻干成粉末存储到小试管中。

   科学家带你“玩”DNA:数据编码只需6步

   步骤4:建立数据库

每个小试管存储1立方毫米的DNA粉末――大约100万亿个DNA分子链,而100个小试管存储大约1EB数据。为了便于对比,Facebook计划的1EB数据存储的计算机服务器将占据6.2万平方英尺的数据中心,而粉末DNA只需要存储到CD大小的格子盒里,每一个盒子大约能存储几千个小试管。

   科学家带你“玩”DNA:数据编码只需6步

   步骤5: 检索数据

由于每个小试管中存储的数据量大到不可思议,必须用非常复杂的DNA聚合酶链反应作为一种“索引函数”来定位特定的DNA序列链。近年来,DNA测序仪器越来越快,并且越来越便宜,用于最后确定每个DNA片段上的碱基序列。

   科学家带你“玩”DNA:数据编码只需6步

   步骤6:逆编码

代码程序分析每一个DNA片段,利用每个片段的识别指针将各个片段信息首尾相接起来,形成原始文件完整的碱基序列编码。前述编码转换程序反过来将生物碱基编码转换为二进制编码,进行数据还原。

   数据存储急需革命

此外,对于欧洲热点问题“数据主权”,管理者不断对握有敏感信息的公司――例如,金融服务公司、医疗机构等――施压,要求其进行本地信息存储以防泄密。那么,像DNA这样的便捷、经济的数据存取技术,将极大地改善这种情况。最终,DNA数据存储将以其低成本、生态友好性取代大型服务器工厂。

也许更重要的是,DNA作为数据存储介质更胜一筹的原因在于其使用寿命和耐用性。通常的数字数据存储介质,总是不堪一击的脆弱。硬盘和闪存驱动器总是毫无预警的崩溃,甚至一些只有几年的寿命。磁带和DVD或许寿命更长一些,但终究不是无限期的。

  相比之下, 假如数据存储在DNA中,给予合适的冻干条件,存储寿命长达几千年之久!

尽管DNA数据存储的概念非常标新立异,但是该技术从实验室研究阶段走向日常应用还需要数年、甚至数十年的研究和发展。

该技术复杂的过程,尤其是生产合成DNA,非常昂贵。目前来说,合成DNA技术暂时还不会出现像DNA测序技术的价格随需求量激增而下降的趋势。但是,如果研究者能够证明DNA数据存储的有效性,或许能够激发相似的市场动态变化。

   参考:

   http://www.the-scientist.com/?articles.view/articleNo/47351/title/DNA-as-an-Artistic-Medium/

   http://www.wsj.com/articles/is-dna-the-future-of-data-storage-1477405351

招聘

编辑、视觉设计、 实习生(编译)

地点:北京

联系:hr@mittrchina.com

MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。

分享至朋友圈才是义举

随意打赏

如何成为数据科学家首席数据科学家美国数据科学家大数据科学家dna科学家数据科学家
提交建议
微信扫一扫,分享给好友吧。