新技术的应用给生命科学带来了新机遇。日前,英国《自然》杂志和美国《科学》杂志同时刊发人工智能软件测序蛋白质结构既快又精确的研究结果——两款新型人工智能系统被宣布能够精准预测蛋白质结构,它们分别是英国深度思考(Deep Mind)公司研发的阿尔法折叠2(Alpha Fold2),以及华盛顿大学蛋白设计研究所David Baker教授课题组的玫瑰折叠(RoseTTAFold)。

这很容易让人联想到阿尔法狗(Alpha Go)。阿尔法狗被人们所熟知,是因为其连续战胜多名世界顶级棋手,收获了公众的关注。也因此,战胜了人类智慧的阿尔法狗被视为人工智能的重要成果。实际上,相较于阿尔法狗,阿尔法折叠2和玫瑰折叠虽不出名,但其存在价值对人类而言更具意义。

阿尔法折叠2和玫瑰折叠作为一个AI软件,其最大作用是既快又准地测定蛋白质的形状,尤其是3D形状。我们知道,生命的本质是蛋白质,蛋白质又由氨基酸按一定顺序结合形成的多肽链组成,而且它们从一维到二维再到三维,以无数方式折叠成各种精致形状,才能完成各种功能和发挥重要作用。

人类蛋白质有成千上万种,其他物种的蛋白质更是多达几十亿种,包括细菌和病毒的蛋白质。过去,人类只能用低温电子显微镜(CryoEM)、核磁共振(MR)和X射线晶体学等手段来测定蛋白质结构,而且要经过大量试错才能最终确定其结构。即便如此,有些蛋白质结构还测不出来,如在蛋白质数据库(PDB)中,有4种蛋白质无法用MR测定结构,包括牛属甘氨酸N-酰基转移酶、细菌氧化还原酶、细菌表面层蛋白(SLP)和来自真菌革菌属金孢子菌属的分泌蛋白。

蛋白质结构为何如此重要呢?原因之一是大量疾病与蛋白质的折叠形状有千丝万缕的联系。例如新冠病毒的棘突蛋白(S蛋白)的折叠形式决定了它入侵人体细胞的速度和致病能力,普里昂蛋白的折叠形式决定了对包括人在内的哺乳动物的传染海绵状脑病的致病力和致命。遗憾的是,虽然人类已经测序人和其他物种的数10亿计的蛋白质的氨基酸序列,但截至目前,只有约10万个蛋白质的结构已经用实验方法得到了解析。

从理论上看,一个蛋白质从一维到三维有无数的折叠方式。认识和精确测定蛋白质的构型既要耗费大量的时间和精力,同时也不一定能测得准,也造成了药物、疫苗研发和疾病治疗的举步维艰。如现在的新冠肺炎,尽管有疫苗了,但病毒蛋白质会频繁变异,如果不能及时、准确地认知其变异结构,就难以再研发新的疫苗。迄今,还没有有效治疗新冠肺炎的药物,原因之一也是对病毒蛋白质结构认知不清。

既如此,让AI来帮助人们认识和精确测定蛋白质的结构就具有重大意义,并且非常实用。以阿尔法折叠2为例,它测定的大部分蛋白质的结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,而且远超解析新蛋白质结构的其他方法。阿尔法折叠2测定的组成蛋白质主链骨架的叠加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米),而其他成绩排第二的方法只能达到2.8埃的准确度。玫瑰折叠是一个“三轨”神经网络,能够兼顾蛋白质序列模式、氨基酸如何相互作用以及蛋白质三维结构。在这种模板中,蛋白质的信息在一维(氨基酸序列)、二维(距离)和三维(坐标)之间来回流动,从而推断蛋白质化学部分与折叠结构之间的关系。可以说,有了阿尔法折叠2和玫瑰折叠,测定蛋白质结构就轻松多了,也为揭开生命现象和本质,以及研发无数战胜疾病的药物、疫苗和疗法提供了尖端武器。

我们相信,随着时间的推移,将有更多新的科学方法、新的实验手段投入使用,必将极大地推动生命科学的进展。(记者 张田勘)