设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

一条DNA单链放下整部维基百科?这家美国公司做到了

2019-07-08 10:46:45    创事记 微博 作者: 硅星人   

  欢迎关注“创事记”微信订阅号:sinachuangshiji

  有了这项技术,跨国数据运输再也不用卡车了。

  文/光谱

  来源:硅星人(ID:guixingren123)

  我们的祖辈,用纸笔写下族谱并保护起来。因为作为介质的纸,一场大火足以付之一炬;

  我们的父辈,开始用磁带、软盘和光盘,保存重要的资料。然而现如今,想要找到读取它们的设备越来越难;

  今天,关于这一代所有的记录,都可以在我们的手机、电脑、钱包里的U盘和远方的“云”上找到。

  一次次的科技进步,为我们带来更小、更高效、更持久和抗摧毁的数据存储方式。

  但是很多人都没意识到,大自然也有着一项“天然”且十分“保险”的存储介质。它极其微小,且被每一个人所拥有。在遗传学家看来,这一介质承载了作为物种的人类,从类人猿进化到智人的所有数据记录

  这一介质,就是DNA。

  最近,一家位于美国波士顿的医学科技公司 Catalog 宣布,在人造DNA作为数据存储介质的研究方面实现重要里程碑。

  该公司成功在一条人造DNA单链当中,保存了整部维基百科(英文版)。

  “人类在工程上的许多壮举,来自于我们对其它物种的模仿。我们看到会飞的鸟,发明了能让人类也飞起来的飞机,”Catalog 科学家 Milena Lazova 在一则视频里表示,“DNA也是同理,我们看到人体存储了信息,为什么不用DNA来存储数据呢?”

  DNA(脱氧核糖核酸)是一种生物大分子,构成基因的主要方式。通常,DNA是以双螺旋结构 (double helix),也即两条链相互配对且紧密结合的形态存在的。

  许多人可能都在生物课中学过DNA工作的基本原理。通俗来讲,DNA链条上通常包含四种碱基 (A, T, C, G),而不同碱基的排列组合方式,最终决定了我们的长相、智力,以及不同病症的发病风险等。

  对于包括人类在内的大部分物种,正是因为 DNA上面含有信息,才能决定遗传的结果。

  在过去的几年里,用于医学的基因编辑技术取得了长足的进展。人们现在可以在极小的、可接受的误差范围内,对已有的基因序列进行“Ctrl-x、c 和 v”。这一技术使得人类有机会攻克一些曾被认为无法根除的绝症,但也引发了一些道德争议[1]。

  从DNA结构首次被发现到今天已经过去了将近70年,基因学家仍无法百分之百明确DNA序列的全部意义并利用它;但是,在数据存储的语境下,一切其实并没那么复杂:毕竟大部分的数据信息,最终还是回到1和0。

  科学家将A、T、C、G分别定义为 01、10、00和11。这样,一条含有四种碱基排列组合的DNA单链实际上就变成了一条二进制的数字串。

  而 Catalog 的厉害之处,在于他们找到了一种更快、更廉价地按照要求排列碱基,从而将数据编码到 DNA分子里的方法:简单来说,大规模排列提前生产好的碱基片段,再进行合成。

  比方说 bagel 这个词:

  ASCII: b a g e l二进制: 01100010 01100001 01100111 01100101 01101100碱基排列: ATGT ATGA ATAC ATAA ATCG

  研究人员只需要把上面这五段碱基序列,再用酶合成,就制成了一条DNA;同理,一句话,一本书里的全部单词,甚至是一张 JPEG 照片,都可以转化成二进制编码,再编码到DNA里。

  Catalog 自主开发了一台“DNA写入机”(详细资料不足,目测大约一台冰箱大小)。这台机器每天可以写入1TB左右的数据,从而实现了大规模人工编写DNA信息

  市面上买到DNA测序仪并不难,所以任何人(只要有钱)都可以重新读取这些DNA信息,把它们转化为原来的文字或图片格式。

  Catalog 由两位科学家联合创建,团队不足10人。CEO 朴显俊 (Hyunjun Park) 在威斯康辛州大学麦迪逊分校完成微生物学博士学位,创业前在麻省理工学院担任博士后研究员。首席技术创新官 Nathaniel Roquet 拥有哈佛大学生物物理学博士学位。

  朴显俊和 Roquet 在2016年参加了 IndieBio 生物科技加速器。在当时,他们还没有发明出前面提到的那台机器,Roquet 必须用滴管来完成操作,花了足足4个小时,做完手都肿了。

  幸运的是,他们完成了概念验证,首次成功在一段DNA中注入了美国著名诗人罗伯特·弗罗斯特的《未选择的路》,一段大约1KB的信息[2]。

  在靠创始团队自己出资支持两年之后,Catalog 终于在2018年获得了恩颐投资 (NEA)、DataCollective 等在内的约800万美元注资。从《未选择的路》,到《银河系漫游指南》,到今天的英文版维基百科——因为DNA写入机的成功开发,Catalog 的数据录入效率越来越高。

  对于大部分人,Catalog 开发的技术属于“杀鸡焉用牛刀”,毕竟基于硬盘或闪存芯片的本地或云端存储,目前已经十分廉价。

  最适合使用DNA存储信息的,其实是那些需要长期存储海量数据,或者对于海量数据的全球运输有频繁需求的机构,比如数据中心和云计算公司。

  硬盘本身的确便宜,但在数据中心里让大量机柜持续运转,费用极高,而且对于一些存储方案来说,断电会导致数据丢失,因此还要考虑灾备的进一步成本。

  相比之下,DNA的信息存储密度大约是闪存的一百万倍。

  据 Catalog 计算,一座大型数据中心的存储容量大约在 1EB(一千PB或一百万TB)左右。而1EB数据如果写入到DNA上,大约只有一块方糖大小。

  因为存储密度大,DNA还很适合用于海量数据的运输。

  举例:你的公司最近要把10PB的数据迁移到亚马逊 AWS 上,知道 AWS 会怎么做吗?

  答案:AWS 会派来一辆卡车,把你的数据都保存到硬盘上,放到集装箱里,再运到数据中心里上传,费用大约是50万美元;当然,你也可以选择把硬盘寄给亚马逊。

  为什么:数据量太大,带宽不够,效率太低。集装箱实际上是最高效的运输手段。

  如果用DNA存储呢?这些数据还不到刚才那一枚方糖的大小。所以,在纸上滴一滴DNA,寄给对方就可以了。

  而且,把DNA 存储当作灾备方案也很合适,因为DNA 分子链很稳定,保存长达几千甚至上万年都不会丢失数据——当然,前提是未来的人们还在用 DNA 测序仪。

  更进一步,如果未来人类真的走到行将灭绝的路口,需要提前将所有历史、知识、数据进行数字化保存……使用DNA 进行存储的话,全人类的文明只要一个冰箱就能装下[3]

  “我热爱发明前人未曾想到的东西。但是更让我们感到激动的,是想到我们的发明能够为将来的世界带来巨大的价值。”Roquet 表示。

  [1] “基因编辑婴儿”闹剧收场:三部门叫停科研,查处违法违规 https://www.pingwest.com/w/180735

  [2] How to makeDNAdata storage a commercially viable solution — and bring physical data ownership back https://synbiobeta.com/how-to-make-dna-data-storage-a-commercially-viable-solution/

  [3] Introduction toDNA-based data storage and CATALOG https://www.youtube.com/watch?v=yXjGFSgqRC4

分享到:
保存   |   打印   |   关闭