国家超级计算无锡中心

强强联合国内首个 | AIphaFold3 实现成功复现

2024-08-30 16:03

近年来，大模型技术在生物信息学领域取得了众多突破性进展，引起全球的广泛关注，特别是在蛋白质结构预测方面的革命性成就，赢得了科学和产业界的高度认可。其中，AlphaFold系列模型拥有预测蛋白质单链、复合体以及复杂生物分子结构的能力，其准确性堪比真实实验，极大地促进了生命科学的发展。特别是AlphaFold3能够预测生物分子间的相互作用，极大助力于药物研发合成，但由于算法未开源，限制了其在更广泛的科研领域中的应用和发展。尽管有团队尝试根据AlphaFold3的论文进行复现，但目前也仅完成了代码部分，尚未实现实际训练，因此尚未能应用于实际科研中。

国家超级计算无锡中心产业化团队与百度螺旋桨 PaddleHelix组成的联合研发团队成功完成AlphaFold3模型的全复现工作，突破DeepMind在该领域的技术高地。此次AlphaFold3的国产化复现，不仅是一次技术革新，更是我国科技生态建设的重要里程碑，提升了国产大模型研发技术在全球AI大模型领域的竞争力。

本次成功复现 AlphaFold3 模型，有赖于百度螺旋桨 PaddleHelix在HelixFold、HelixFold-Single、HelixFold2(HelixFald-Multimer)以及HelixDosk 等一系列工作中积累的丰富模型训练和数据处理经验；得益于无锡超算研发和产业化团队在大规模并行计算领域的专业优势及在生命科学领域和新药研发方向的深厚积淀；依托于无锡市数字新基建有限公司搭建的无锡市公共算力服务平台，由接入的国家超级计算无锡中心“太湖之光A+”智能超算系统提供的强大计算资源支持；联合研发团队优势互补协同合作，为业界首个AlphaFold3的全复现大模型莫定了基础。

AlphaFold3模型最新试用版本已于8月28日上线，欢迎对AlphaFold3或联合研发团队相关工作感兴趣的科研机构和商业公司通过邮件与我们联系（邮箱：aicenter@mail.nsccwx.cn）。

获取试用链接：http://223.108.218.41:8067/

具体技术性能

联合研发团队克服了一系列挑战，如：模型结构复杂、数据高度复杂，训练和运行所需的计算资源庞大等。在模型层面，AlphaFold3相较于AlphaFold2，增加了原子级建模，使得整体结构更加复杂，计算量也显著增加。同时，AlphaFold3采用了扩散模型进行所有原子坐标的端到端推理。在数据处理方面，AlphaFold3不仅需要建模蛋白质，还必须处理小分子配体、核酸和离子等多种生物分子，复杂的数据预处理和大规模自蒸馏数据生成对模型性能的提升至关重要。

目前，复现工作在常规的小分子配体、核酸分子（包括 DNA 和 RNA）以及蛋白质的结构预测精度上已与 DeepMind发布的AlphaFold3 相媲美，并在模型置信度上达标。

小分子配体

为了评估在蛋白质-配体结构预测中的效果，联合研发团队将复现工作与其他主流方法在PoseBusters数据集上的表现进行了对比。其中：

数据集PoseBusters :一个用于评估配体对接算法的基准数据集, PoseBusters V1包含428个结构，PoseBusters V2是排除了与多个生物分子单元内距离小于5.0Å的配体数据后，精简的308个结构。
对比的基线方法分为三类：不指定真实蛋白质结构的方法、指定已知蛋白质结构的方法，以及指定活性位点残基的方法。

结果显示：在这两个版本的数据集上，复现工作即便在没有指定蛋白质结构的情况下，仍然展示出卓越的表现，成功率甚至超过了依赖已知蛋白质结构的方法，其预测精度与目前顶尖的AlphaFold3相当，这表明复现工作在蛋白质-配体相互作用预测领域的出色潜力。

模型预测的配体结构在立体化学和物理合理性是大家所关注的，使用PoseBusters测试套件可以评估分子内部和分子之间的各种合理性指标。无论是复现工作还是DeepMind 发布的AlphaFold3，在几乎所有指标上都达到了90%以上的通过率。

图1 PoseBusters V1数据集上AlphaFold3复现工作与同类模型的精度表现

图2 PoseBusters V2数据集上AlphaFold3复现工作与同类模型的精度表现

图3 Alphafold3复现工作与同类模型的PoseBusters V2 quality check精度对比

核酸分子

由于核酸分子的结晶结构数量很少，完全无人为干预地自动化地准确预测其结构一直是一个巨大的挑战。

对于核酸分子效果的评估，复现工作在CASP15（蛋白质结构预测领域的重要国际竞赛）中有结晶结构的RNA样本及从Protein Data Bank(PDB)中最新收集的41个RNA分子和41个DNA分子进行评测。

结果显示：复现工作在CASP15的RNA样本的精度虽然还不及有人工干预的方法AIchemy_RNA2，但在能够完全自动化推理的RNA模型当中，已经达到了与AlphaFold3相当的水平。在从PDB最新收集的RNA和DNA的结构预测上，复现工作的精度亦是极具竞争力，远超专门为核酸分子结构预测所设计模型RoseTTAFold2NA和另一个全原子生物分子结构预测模型RoseTTAFold-AllAtom。

图4 Alphafold3复现工作与同类模型在CASP15上的精度对比

图5 Alphafold3复现工作与同类模型在PDB RNA-only与PDB DNA-only数据集上的LDDT评估值对比

蛋白质

在蛋白质-蛋白质复合体结构预测领域，尽管AlphaFold-Multimer在先前模型的基础上实现了显著的进步，但其成功率和准确性仍有进一步提升的空间。联合研发团队的复现工作在此基础上进一步优化了预测能力，展现出更为优异的性能。

结果显示：复现工作在蛋白质-蛋白质复合体结构预测方面已经略微超越了AlphaFold-Multimer的表现，展示出更强的预测能力。然而，与AlphaFold3相比，复现工作仍存在一定的性能差距。因此，未来的研究工作将继续致力于优化和迭代，以缩小这一差距，力求在复现工作的预测精度和成功率上进一步提升。