阿尔法福特:利用人工智能进行科学发现

今天,我们很高兴地分享DeepMind在演示人工智能研究如亚搏体育投注何推动和加速新的科学发现方面的第一个重要里程碑。yabo网球我们的工作是跨学科的,亚搏体育投注DeepMind汇集了结构生物学领域的专家,物理学,机器学习应用尖端技术,仅根据蛋白质的基因序列预测其三维结构。

我们的系统,阿尔法褶,过去两年我们一直在努力,建立在多年前利用大量基因组数据预测蛋白质结构的研究yabo网球基础上。在生物学的核心挑战之一取得重大进展之前,Alphafold生成的蛋白质的3D模型比任何模型都要精确得多。

什么是蛋白质折叠问题?

蛋白质很大,维持生命所必需的复杂分子。几乎我们身体的每一个功能都会收缩肌肉,感应光,或者将食物转化为能量可以追溯到一种或多种蛋白质,以及它们是如何运动和变化的。这些被称为基因的蛋白质的配方被编码在我们的DNA中。

任何给定的蛋白质能做什么取决于它独特的三维结构。例如,构成我们免疫系统的抗体蛋白质是“Y”形的,类似于独特的钩子。通过感染病毒和细菌,抗体蛋白能够检测并标记引起疾病的微生物进行消灭。同样地,胶原蛋白的形状像绳索,传递软骨间的张力,韧带,骨头,和皮肤。其他类型的蛋白质包括cas9,哪一个,以CRISPR序列为指导,像剪刀一样剪切粘贴DNA片段;抗冻蛋白,其三维结构使其能与冰晶结合,防止生物体冻结;核糖体就像一条程序化的装配线,这有助于构建蛋白质本身。

但是,从蛋白质的基因序列中找出它的三维形状是一项复杂的任务,科学家们发现这项任务已经有几十年的挑战性了。挑战在于,DNA只包含一种叫做氨基酸残基的蛋白质构建基块的序列信息,形成长链。预测这些链如何折叠成复杂的蛋白质三维结构,这就是所谓的“蛋白质折叠问题”。

蛋白质越大,因为要考虑到氨基酸之间的相互作用,所以建模更为复杂和困难。如在利文索尔佯谬,在到达正确的三维结构之前,要列举一种典型蛋白质的所有可能的结构,需要比宇宙的年龄更长的时间。

Orgimi-Fig1 全屏幕 全屏移动

为什么蛋白质折叠很重要?

预测蛋白质形状的能力对科学家很有用,因为它是了解蛋白质在体内作用的基础,除了诊断和治疗由错误折叠蛋白质引起的疾病外,如阿尔茨海默病帕金森Huntington囊性纤维化.

我们特别兴奋的是它如何提高我们对身体的理解以及它是如何工作的,使科学家能够设计新的,更有效地治疗疾病。随着我们对蛋白质的形状以及它们如何通过模拟和模型进行操作的更多了解,它在药物发现方面开辟了新的潜力,同时也降低了与实验相关的成本。这将最终改善全世界数百万患者的生活质量。

了解蛋白质折叠也有助于蛋白质设计,这将带来巨大的好处。例如,蛋白质设计可以促进生物降解酶的发展,这有助于控制塑料和石油等污染物,帮助我们以对环境更友好的方式分解废物。事实上,yabo网球研究人员已经开始工程菌分泌能使废物生物降解的蛋白质,更容易处理。

促进研究和衡量提高预测准yabo网球确性的最新方法的进展,两年一次的全球竞赛称为蛋白质结构预测技术关键性评价的社区实验(casp)成立于1994年,已经成为评估技术的黄金标准。

人工智能怎么能起作用?

在过去的五十年里,科学家们已经能够在实验室里用实验技术确定蛋白质的形状,比如低温电子显微镜核磁共振X射线结晶学,但每种方法都要经过大量的反复试验,这可能需要数年时间,每个结构的成本高达数万美元。这就是为什么生物学家转向人工智能方法,以替代这一漫长而艰难的蛋白质加工过程。

幸运的是,由于基因测序成本的快速降低,基因组学领域的数据相当丰富。因此,深度学习方法对于依赖基因组数据的预测问题,近几年来已越来越流行。亚搏体育投注Deepmind在这个问题上的工作导致了Alphafold,我们今年提交给卡斯帕。我们很荣幸成为CAP组织者所称的“计算方法预测蛋白质结构能力的前所未有的进步”的一部分。第一在参赛队伍中的排名中(我们的参赛作品是A7D)。

我们的团队特别关注从零开始模拟目标形状的难题,不使用以前溶解的蛋白质作为模板。我们在预测蛋白质结构的物理性质时获得了很高的准确性,然后用两种不同的方法构建全蛋白质结构的预测。

利用神经网络预测物理性质

这两种方法都依赖于深层神经网络,这些神经网络经过训练,可以根据蛋白质的遗传序列预测其性质。我们的网络预测的特性是:(a)氨基酸对之间的距离;(b)连接这些氨基酸的化学键之间的角度。第一个发展是评估成对氨基酸是否彼此接近的常用技术的进展。

我们训练了一个神经网络来预测蛋白质中每对残基之间距离的独立分布。然后将这些概率合并成一个分数,以估计所提议的蛋白质结构的准确性。我们还训练了一个单独的神经网络,它综合使用所有距离来估计所建议的结构与正确答案的距离。


全屏幕 全屏移动
OrimaMIMAN-3 全屏幕 全屏移动
蛋白质结构预测的新方法

使用这些评分功能,我们能够搜索蛋白质景观,找到符合我们预测的结构。我们的第一种方法建立在结构生物学常用技术的基础上,不断地用新的蛋白质片段替换蛋白质结构的片段。我们训练了一个生成神经网络来发明新的片段,用于不断提高蛋白质结构评分。

全屏幕 全屏移动

第二种方法通过梯度下降-一种常用于机器学习的数学技术,用于制造小的物体,增量改进导致结构高度精确。这项技术应用于整个蛋白质链,而不是组装yabo曲棍球前必须分开折叠的部分。降低预测过程的复杂性。

接下来会发生什么?

我们第一次尝试蛋白质折叠的成功表明机器学习系统如何能够整合不同的信息源,帮助科学家快速找到解决复杂问题的创造性解决方案。正如我们所看到的,人工智能如何帮助人们通过诸如阿尔法戈阿尔法诺,我们同样希望有一天,人工智能的突破将帮助我们掌握基本的科学问题,也是。

很高兴看到蛋白质折叠的早期进展,展示人工智能在科学发现中的效用。尽管在我们能够对疾病产生可量化的影响之前还有很多工作要做,管理环境,更多,我们知道潜力巨大。一个专注于研究机器学习如何促进科学世界的团队,我们期待着看到我们的技术可以通过多种方式发挥作用。


直到我们发表了一篇关于这项工作的论文,请引用为:
基于深度学习评分的新结构预测
R.Evans,J.Jumper,J. KirkpatrickL.Sifre,T.F.G.绿色,C. QinA. ZidekA. Nelsona.新娘,H.佩内多尼斯,S. PetersenK. SimonyanS.克罗森,D.T.琼斯,D.银,K.Kavukcuoglu,D. Hassabis高级律师
《蛋白质结构预测技术的第十三次关键评估》(摘要)2018年12月1日至4日。从中检索在这里.


这项工作是与理查德·埃文斯合作完成的,John Jumper詹姆斯·柯克帕特里克,Laurent SifreTim Green充丽琴Augustin ZidekSandy NelsonAlex BridglandHugo Penedones斯蒂格彼得森,Karen SimonyanSteve CrossanD狂热的琼斯David Silver科雷·卡夫库格鲁,Demis Hassabis还有老安德鲁