4月25日,《自然-计算科学》发表了由深圳华大生命科学研究院主导的研究成果,研究团队开创了一套独具优势的编解码系统,用以解决当前DNA信息存储领域的技术难题。
据悉,研究团队结合DNA双链模型,开创了一套比特—碱基编解码系统,并在实验中验证了该系统在信息密度、技术兼容性、数据恢复稳定性等多方面的优势。
广州日报全媒体记者王纳
DNA数据存储拥有巨大潜能
我们知道,所有信息在计算机中只由二进制的方式存储,即0和1两个数码。而生物的遗传信息则储存在DNA中,以A、T、G、C四种碱基表现。
也许你会思考:倘若把信息语言的0和1,转换为生物语言的ATGC,我们是不是就能把各类信息长久地保存在DNA中,让DNA成为“完美”的存储器了?擅长把假设变为现实的科学家,已经用实际研究成果对这个问题给出了乐观的回答。这也就是这项研究的重要意义。
深圳华大生命科学研究院科研人员告诉记者,DNA的数据存储潜能其实是超越现有信息存储器的。
随着5G技术、大数据、人工智能等领域的蓬勃发展,海量数据如何长期稳定存储已成为亟待解决的一大难题,而以“BT+IT”融合的DNA信息存储技术,或能为这个问题提供更优解,因此受到了越来越多的关注。
毕竟在存储信息这件事上,DNA可以说是坐拥数十亿年经验的资深前辈。相较于现有的U盘、硬盘、磁带等介质,DNA具备无法比拟的优势。
一是超高的信息密度。2012年《科学》杂志文章指出,1克DNA理论上可以存储455EB数据,相当于数千万个1TB移动硬盘的大小。
二是超长的待机时间。DNA作为相对稳定的分子,其半衰期长达521年,在理想状态下甚至可保存成千上万年。
三是超强的生物兼容性。DNA作为绝大多数生物遗传信息的载体,相对无机物、金属等存储介质而言,具有更强的生物兼容性。
2019年,“DNA数据存储器”入选《时代周刊》年度100项最佳发明。我们有理由相信,DNA凭借其独家天然优势,在信息密度、复制与维护成本、使用寿命等方面都具有颠覆现有技术的巨大潜能。
这项技术从2012年起步至今短短十年时间,DNA信息存储领域已取得不少令人瞩目的研究成果,包括检索、修改等高级功能也已完成原理验证性的测试,以微软、谷歌等产业巨头形成的DNA存储联盟更是在为其商业化广泛合作蓄势。
深圳科学家巧妙破难题
但是,如何在保证信息转换效率和技术兼容的同时,大幅提高信息恢复的稳定性?这是DNA存储中编解码系统存在的棘手问题。如今,DNA存储的技术壁垒,深圳华大生命科学研究院(以下简称“华大研究院”)提供了全新的解决思路。
4月25日,华大研究院、深圳国家基因库等多家机构的研究团队联合在《自然》子刊《自然-计算科学》发表研究论文。研究团队结合DNA双链模型,开创了一套比特—碱基编解码系统,验证了该系统在信息密度、技术兼容性、数据恢复稳定性等多方面的优势。
华大研究院团队以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。
机智的朋友可能会问,人工合成的DNA要保存在哪?目前,常用的保存方法分为体内和体外两种模式,两者孰优孰劣尚未形成明确定论。为了全方位验证新系统的信息恢复稳定性,华大研究院团队通过体外DNA干粉和细胞体内大片段两种存储环境进行测试,皆实现了原始存储数据的完整恢复。
在体外模式方面,研究结果证明,深圳科学家研究的编码采用的线性数据恢复模式在每种DNA分子的平均拷贝数仅有100时,仍然能恢复最高88%的原始数据。
在体内模式方面,研究将信息存在了酵母活细胞的体内,酵母菌株经过1000代以上传代之后,信息仍可以被完美恢复。这在一定程度上意味着,利用活体细胞作为DNA存储的载体,上千年后原始信息或仍能被解读。这样的存储方式可以得到接近于天然DNA分子存储理论极限的物理信息密度,每克DNA能存储的信息量约为432.2EB。据透露,华大研究院团队曾将《开国大典》影片存储于DNA中。
该研究由深圳华大生命科学研究院主导,深圳国家基因库、首都师范大学、美国哈佛大学等多个研究团队共同参与。华大研究院平质博士为论文第一作者。
相信随着华大等全球科研机构、数字信息产业界的不断突破,在不远的未来,“DNA硬盘”将成为我们日常生活中必不可少的数据存储设备之一。