alphabet旗下专研人工智能的deepmind,继两年前以alphafold夺下蛋白质结构预测关键评估(critical assessment of protein structure prediction,casp)所举办的全局距离测试(global distance test,gdt)冠军之后,今年再以alphafold 2创下更高的预测准确率,破解了已存在50年的生物学上的蛋白质折叠难题。
蛋白质的功能取决于它的3d结构,而其3d结构则是来自于氨基酸串行的折叠方式。1972年的诺贝尔化学奖得主christian anfinsen曾提出一个假设:理论上从一个蛋白质的氨基酸串行就能判断其结构。然而,该假设最大的挑战在于要进入3d结构之前,蛋白质的折叠方式将是个天文数字,若要利用蛮力运算,估计有10^300种可能性,所耗费的时间可能比已知的宇宙生命还久。
过去50年来,研究人员多是依赖实验技术来确定蛋白质的结构,而alphafold则是直接从结构着手,并不使用已知的蛋白质作为样本,再利用两种基于深度神经网络的方法来构建完整蛋白质结构的预测,得以预测氨基酸对之间的距离,以及连接这些氨基酸之化学键之间的角度。
alphafold是以含有17万种蛋白质架构的蛋白质资料银行(protein data bank,pdb)数据,再加上内置未知架构之蛋白质串行的各种大型数据库来进行训练,以128个tpuv3核心(约等于100~200个gpu)执行数周,这样的运算规模与现代最新大型机器学习模型差不多。
gdt则是比对各种蛋白质结构预测与已知实验的结果,在2020年的测试中,alphafold 2的准确度中位数达到92.4,就算是在最难的自由建模类别的蛋白质项目中,alphafold 2的准确度中位数也达87。在2018年,由alphafold于自由建模所创下的准确度中位数才接近60,而在alphafold现身以前,各种方法的准确度中位数从未超过50。
deepmind指出,这样的结果替生物学家打开了以运算结构预测作为科学研究核心工具的潜力,也许对一些重要类别的蛋白质特别有用,例如因为不容易结晶而很难通过实验来判断的膜蛋白。
max planck发育生物学研究所所长andrei lupas则表示,alphafold惊人的精确度将让他们得以解决近10年来被困住的蛋白质结构,重新启动被搁置的项目,以了解信号如何于细胞膜中传输。
deepmind认为,更精确地判断蛋白质架构除了能够加速对已知疾病的了解之外,也具备探索未知的数亿种蛋白质的潜力。目前uniprot蛋白质串行数据库存放了还在增加中的1.8亿种蛋白质串行,而pdb却只有17万种蛋白质架构,在尚未被确认的蛋白质中,可能有一些令人兴奋的新功能,而alphafold这类的工具则可协助科学家找到它们。