如今,将数据信息存储在 DNA 上的成本已经足够便宜,因此该技术有望实现商业化。
我们需要承认这样一个事实:我们已经成为数码囤积者,耗费大量的空间来存储我们的数据。
2016 年,人类共计产生了 16.1 万亿 GB 的数字信息;到 2025 年,这一数字预计将增加十倍以上。我们的个人照片、文本和电子邮件只是占很小的一部分;真正的数据洪流来自于科学家们在其研究活动中所创造的海量信息,比如进行实验和临床试验,深入研究生物的最小组成部分;观察其他行星,尽可能深入地观察浩瀚的宇宙。而我们目前放置数据的地方——外部硬盘和云服务器机房——大部分都称不上完美的解决方案。它们占用大量的空间,而且每隔十年左右就需要升级一次。
生物技术创业公司正在寻找从我们的身体内部来解决这个问题。具体地说,就是利用我们的细胞。
大容量存储的最新趋势是在 DNA 中编码数据。毕竟,基因材料已经是一种编码技术。它编码的生活:每个人体细胞包含 30 亿个碱基对。配对的核苷酸要么是腺嘌呤 (A) 与胸腺嘧啶 (T),要么是鸟嘌呤(G) 与胞嘧啶 (C)。它们的序列,是所有执行我们(和所有生物) 存活所需的功能的蛋白质的秘诀所在。
包括美国国防高级研究计划局(DARPA)在内的几家机构已经开发了基于 DNA 的存储系统,这种系统能够将各种信息编码到微小而稳定的分子链中,分子链能够持续数千年。
只有一个问题:制造编码信息的独特 DNA 成本十分高昂。据《连线》杂志报道,印制目前录制一分钟立体声音所需的 150 万对碱基对,成本约为 10 万美元。
总部位于波士顿的 Catalog 公司正试图降低那些成本。该公司是由麻省理工学院的前研究人员创办的。Catalog 并不是用信息填充一长串 DNA,而是制作 20 到 30 个碱基对长的 DNA 片段,这些片段可以用酶缝合在一起。这些片段的排列决定了它们的意义。本质上,它就像一种语言:在英语中,只有 26 个字母,但通过各种组合,理论上,我们可以创造出无数不同的单词。Catalog 估计,存储 1MB 数据的成本将不到 0.001 美分。作为参照,在 Spotify 上,一分钟最高质量的立体声音约为 2.4MB。
6 月 26 日,Catalog 宣布,它已经使用这一系统将道格拉斯·亚当斯 (Douglas Adams) 的小说《银河系漫游指南》(A Hitchhiker’s Guide to the Galaxy)和罗伯特·弗罗斯特 (Robert Frost) 的诗《未选择的路》(the Road Not Taken)存储到基因材料当中。该公司还表示,已经获得了来自不同风险投资公司的 900 万美元投资。它计划明年将其技术商业化。
任何对该技术感兴趣的公司可以将其想要存储的数据提交给 Catalog,然后 Catalog 会将那些信息转换成二进制代码,即由 0 和 1 组成的长链。接着,该公司的流程为每个核苷酸分配一对 0 和 1;例如,“A”可以是 00,“C”可以是 01,“T”可以是 11,“G”可以是 10。之后,通过使用这种 DNA 代码,数据被转换到一小瓶的基因材料里。小瓶子可以安全地存放在任何温度达到 4 摄氏度的冰箱里,比如餐馆使用的那种冰箱。
当信息以这种方式存储时,你需要使用密钥来将 DNA 解码回二进制代码,然后转换回可读的格式。Catalog 的创始人之一 Hyunjun Park 表示,一旦公司开始对信息进行编码,他们就会将他们的密钥公开,这样客户就可让任何人都能够对他们的信息进行重新排序。然而,企业可以请求获得一个新的私有密钥,这样他们的信息就有了额外的加密层。
如果 Catalog 的技术真如它所说的那样有效,那么该公司将有望为使得基因数据存储可为任何人所用和持续数百年铺平道路。Hyunjun Park 说,该公司正与档案学家合作,寻找在 DNA 编码中加入清晰而持久的密钥的最佳方式,以便未来我们的曾曾孙 (或外星入侵者) 能够自己解码 Catalog DNA。
来源:序说DNASpeaking
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系答魔删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权。
{replyUser1} 回复 {replyUser2}:{content}