蛋白质对生命至关重要,了解它们的结构可以促进对其功能的机械理解。通过巨大的实验努力 ,已经确定了大约 100,000 种独特蛋白质的结构,但这仅代表了数十亿已知蛋白质序列中的一小部分 。确定单个蛋白质结构需要数月至数年的艰苦努力,因此结构覆盖率受到瓶颈。需要准确的计算方法来解决这一差距并实现大规模结构生物信息学。仅根据其氨基酸序列预测蛋白质将采用的 3-D 结构,即“蛋白质折叠问题的结构预测组件,50 多年来一直是一个重要的开放研究问题 。尽管最近取得了进展,但现有方法仍远未达到原子精度,尤其是当没有可用的同源结构时。在这里,我们提供了第一个计算方法,即使在不知道相似结构的情况下,它也可以以原子精度定期预测蛋白质结构。我们在具有挑战性的第 14 次蛋白质结构预测关键评估 (CASP14)中验证了我们基于神经网络的模型的完全重新设计的版本,AlphaFold,在大多数情况下证明其准确性与实验相媲美,并且大大优于其他方法。支持最新版本的 AlphaFold 是一种新颖的机器学习方法,它将关于蛋白质结构的物理和生物学知识,利用多序列比对,融入深度学习算法的设计中。
Title: Highly accurate protein structure prediction with AlphaFold
Pdf: https://www.nature.com/articles/s41586-021-03819-2_reference.pdf
Github: https://github.com/deepmind/alphafold