从数据增长到存储挑战,DNA正在成为新的媒介

钛度号
数据的指数增长的算力的飞速提升,让数据储存的需求爆增,在这样的背景下,DNA正在成为下一代存储技术的新媒介。

图片来源@视觉中国

文 | 观察未来科技

当前,数据的指数增长的算力的飞速提升,让数据储存的需求爆增。毕竟,庞大的数据需要足够的储存空间,而计算与储存又如同好马配好鞍,两者相辅相成。计算速度与储存速度不匹配,就会遇到著名的冯·诺依曼瓶颈。

好在云端硬盘的普及,才不至于出现数据储存空间不够用的情况。然而,即便是数据上云,都依然是有限的。预测数据显示,2040年时,人们将会面临必须储存了个10的24次方数据的状况。为了支撑大数据革命,现在,我们也必须重新思考数据储存的根本问题。在这种情形下,人类的DNA被视为可以储存所有东西的超小型设备的可能替代方案之一。

下一代存储技术

从磁带到USB,过去各种各样的记忆媒介已经在被开发出来不过,今天,更多的数据被保存在数据中心。一个存储量为 10 亿 GB的大型数据中心,占地可达数个足球场,建设和维护成本高达 10 亿美元。也就是说,光是储存这些海量数据,就需要花费巨大的空间及金钱成本。

并且,现在数据产生的速度,远远要超过我们生产这些存储介质的速度,所以必须要有新的介质来解决这个难题。巨大的消耗使得人类开始寻求新的方式对于此如果DNA能够成为记忆媒介的话,它体积小、容量大的优点要比任何媒介都具有高性能的特点

要知道,人类基因组包含大约相当于750MB的信息,这么多信息就储存在一条比细胞还小得多的DNA上,并且事无巨细地告诉我们的身体,鼻子该长在哪里,眼睛该长成什么颜色,某个蛋白又该怎么合成。

其中,每个基因都是用四个字母的DNA文字写成的线性信息序列——组成DNA的基本单元是脱氧核苷,每个脱氧核苷都带有一个碱基,而碱基共有四种类型,分别是腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶。而线性序列是一种常见且高效的信息存储和传递方式

我们日常读到的这些单词和句子就是基于线性序列的,就连电脑、手机所用的代码也都是程序员用线性序列编写的。这些不同的代码都是以数字方式来存储信息的,即以少量数字的不同组合来存储的。英语使用26个基本“数字”,即字母表里的字母;计算机和智能手机使用1和0的不同组合;同理,DNA的数字就是4个核苷酸碱基。如果用0、1、2、3各代表一个碱基,就可以组成一个四进制的存储方式。

数字代码最重要的优势就在于,它们很容易从一种编码系统翻译成另一种编码系统。细胞将DNA编码转换为RNA,再转化为蛋白质就是基于这样的翻译过程。在翻译中,它们将遗传信息转化为实际动作,其无缝衔接的灵活方式是任何人类工程系统都无法比拟的。

计算机系统必须将信息“写”到不同的物理介质上才能对其加以存储,而DNA分子本身就是“信息”,这令它成为更简明的数据存储方式。正是因为认识到这一点,科学家们才设法开发将信息编码在DNA分子中的方法,以最稳定且节省空间的方式存储信息。

DNA不仅可以储存信息,而且信息衰减和损耗几乎为零。2019年,据《连线》杂志报道,科学家通过一种含有DNA数据的材料,用3D打印的方式制造出一只塑料兔子。结果显示,即使切下这只塑料兔子的尾巴,也可以在尾巴的DNA信息中制造出一只一模一样的塑料兔子。究其原因,则是因为DNA存储可以提供大量的信息密度和超常的半衰期。

如今全球每年产生的数据需要4180亿个1TB的硬盘才能放下,而把这些数据储存在DNA上,仅仅需要1千克DNA物质。不仅如此,依靠生物碱基不同的排列方式,这些信息还可以在-18℃的环境储存100万年之久。相比之下,纸张会腐烂,硬盘会降解,甚至连石头也会风化,DNA却可以彻底无视这些物理过程,保留人类文明的知识和历史。

商业化并不遥远

1981年,科幻小说家威廉·吉布森(William Gibson)发表短篇小说《约翰尼的记忆》,其中,小说的主人公正是以自己的大脑为数据记忆媒介的信息搬运商店——同样的技术或许在不久的将来成为现实。实际上,关于DNA存储信息的研究早在2000年代就已经开始。

2000年,美国生物学家把一段信息“刻”进了细菌的体内,这段信息就是爱因斯坦著名的质能方程“E=mc2”。2003年,又有科学家把迪士尼动画片中的一段音乐“刻”进了细菌体内。到了2010年,当首个人造细胞诞生时,带领该项工作的美国基因学家卡耐基·文特尔则把所有参与该项目的科学家的名字“刻”进了人造细胞的DNA上。

多年里,科学家们在DNA储存技术研究中,展现了可以将文书档案、影片资料等几乎所有东西储存在DNA的能力。不过,DNA储存技术一直有一个大问题,就是所有的过程中依然需要众多的人力介入,微软公司和华盛顿大学却打破了这一技术瓶颈,在信息储存与“自动化”解读方面获得了很大的进展。

究其原理,如前所述,数据信息以合成 DNA 中的碱基型态储存。DNA 是由腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶四个碱基单位组成。基于此,研究团队储存了5 位元容量的“HELLO”单词,他们将英文单词转换成0和1 组成的数位信息,再排列成相应的碱基后,将它们相连制成 DNA片段。

这时,人工加入可促成合成的化学液,再将其储存进特殊容器。想要读取资料时,使用生物科学研究用的DNA解读设备解析碱基的排序后,再次转换成0 和1的数据信息,最终就能确认是“HELLO”这5个英文字母。如今,微软已经投资了 1万美元开发这项设备

当然,研究DNA储存设备的公司不只有微软而已,英特尔(Intel)和美光科技(Micron Technology)也在投资研究;再比如,2018年接受麻省理工学院资助而成立的新创公司Catalog Technology,他们公布将在2019年制作可以把TB容量的资料记录在DNA的设备,尺寸大约为两台货柜大小。

除了将数据存在DNA的方式,其他运用DNA的方式也带来了极大的想像空间。比如,加州大学研究团队在《自然》期刊发表了首例可再程序化的“DNA计算机”论文。研究中使用数个可以进行绘制图样或计算数字等简单作业的DNA键建立区块——虽然这技术还无法取代实际的计算机,但是却可以在未来用于传递药物的纳米机器人或组合分子的纳米大小的工厂上。

不过,如果想要制造出 DNA 储存芯片的话,还有几个问题要先解决,其中之一就是解读时间与成本。根据英国科学报告(Scientific Reports)发表的研究论文,储存“HELLO”5 位元数据与再次解读出来总共要花上21个小时。另外,如果要储存几 MB 以上数据的话,要花上数千美元甚至数百万美元的成本。即便是微软宣布他们已经发现了可以节省一半时间,但也需要10~12个小时。

同时,DNA存储费用也依然昂贵。不过,随着生物技术的发展,DNA存储费用已经呈现大幅下降趋势,就拿基因测序的费用来说,最早发现人类基因序列的计划花了 27 亿美元成本和十五年的时间,但是十五年过去后的现在,只要缴纳1000 美元的费用给企业,就可以在数周内拿到基因分析结果——技术已然变得相当大众化了。

考虑到指数型科技的成长速度,或许,DNA 储存设备两三年内应该就可以商业化。并且,DNA 储存设备的开发与使用还将促进“生物计算机”的开发。显然,大数据与人工智能的大爆发,促使人类必须找到更多的新兴算力之源,而DNA储存的创新技术,很可能就是人类未来的智能新大陆——尽管DNA储存技术还处于萌芽阶段,但其作为新一代计算发展不可或缺的指路明灯趋势已现。(本文首发钛媒体APP)

本文系作者 陈根谈科技 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 合理、友好的方式展示数据也不容易,每个环节都很重要...

    回复 2022.08.18 · via netease
1

扫描下载App