AlphaFold2 的遗产
Posted: Sat Jan 25, 2025 4:14 am
lphaFold2 表现不如传统方法的一个特定领域是抗体-抗原对接 [10]。这与 AlphaFold2 流程开始时使用的共同进化数据的要求有关。事实上,抗体-抗原结合强度不是来自共同进化,而是来自体细胞超突变和亲和力成熟。因此,AlphaFold2 优势的关键组成部分——多序列比对 (MSA) 嵌入无法帮助解决这一特定用例。去年 12 月在土耳其安塔利亚举行的 CASP15 会议上也强调了这些缺点 [11]。
AlphaFold2 必将在结构生物学领域留下持久的遗产。尽管 DeepMind 在 CASP15 上缺席,但表现最佳的方法将 AlphaFold2 作为预测流程的一部分,对于单域预测,可以预期从现在开始改进只会很大。相反,人们注意到蛋白质复合物预测性能有所提高,因为各个小组通过 AlphaFold2 流程集成/破解来预测模型,而 AlphaFold Multimer(多聚复合物预测的默认流程)无法正确预测 [11]。
大约在同一时期,Meta 基础人工智能研究蛋白质团队 (FAIR) 发布了蛋白质语言模型 ESM-2,以及基于 ESM-2 构建的蛋白质结构预测引擎 ESMFold。虽然 ESMFold 的性能不如 AlphaFold2,但它有一个显著的特点(或缺点):ESMFold 流程中缺少 MSA 预处理 巴林手机数据 步骤。此 MSA 依赖于 2 TB 的数据库扫描,这占了 AlphaFold2 预测的大部分运行时间。相反,ESMFold 依赖于存储在 ESM-2 模型权重中的信息来生成准确的模型。Meta 生成了超过 6 亿个模型,这些模型已在 ESM Metagenomic Atlas中发布[12]。
AlphaFold2 结构预测性能的突然提升凸显了蛋白质结构建模面临的剩余挑战。目前最先进的方法从序列输入输出静态模型。然而,现实情况是,蛋白质结构远非静态:部分蛋白质的刚性不如其他蛋白质,蛋白质运动对功能至关重要。许多蛋白质可以根据环境采用不同的构象。如本博文介绍中所述,蛋白质结构问题表明序列和结构之间存在一对一的映射,而事实并非如此,这凸显了我们对这种简化的偏见。虽然 PDB 数据库偏向于单一结构模型,但它的结构数据仍然表现出异质性。在最近的一篇出版物 [13] 中,Thomas J. Lane (CFEL-PBIO) 主张以蛋白质结构的连续分布作为模型,而不是单一快照。特别关注的是 AlphaFold2 对其训练数据的预测:通过分析 SARS-CoV-2 主蛋白酶 (M pro ) 的 PDB 模型之间的均方根偏差 (RMSD) 分布以及 AlphaFold2 预测与这些 PDB 模型之间的 RMSD 分布,结果表明这些分布重叠,但具有不同的峰值。
这意味着平均而言,两个随机选择的 PDB 模型彼此更相似的可能性大于与 AlphaFold2 预测的相似性。还有人认为 AlphaFold2 模型可以位于 PDB 中表示的构象状态之间:以血红蛋白状态为例——未结合或与配体结合(如 O 2或 CO)。AlphaFold2 结构显示位于两者之间,作为某种平均结构,它与真实的稳定物理状态不对应。最后,AlphaFold2 输出的具有低置信度指标的蛋白质结构域也被证明对应于具有结构灵活性的区域。这进一步证明了摆脱单一结构范式的必要性。
AlphaFold2 必将在结构生物学领域留下持久的遗产。尽管 DeepMind 在 CASP15 上缺席,但表现最佳的方法将 AlphaFold2 作为预测流程的一部分,对于单域预测,可以预期从现在开始改进只会很大。相反,人们注意到蛋白质复合物预测性能有所提高,因为各个小组通过 AlphaFold2 流程集成/破解来预测模型,而 AlphaFold Multimer(多聚复合物预测的默认流程)无法正确预测 [11]。
大约在同一时期,Meta 基础人工智能研究蛋白质团队 (FAIR) 发布了蛋白质语言模型 ESM-2,以及基于 ESM-2 构建的蛋白质结构预测引擎 ESMFold。虽然 ESMFold 的性能不如 AlphaFold2,但它有一个显著的特点(或缺点):ESMFold 流程中缺少 MSA 预处理 巴林手机数据 步骤。此 MSA 依赖于 2 TB 的数据库扫描,这占了 AlphaFold2 预测的大部分运行时间。相反,ESMFold 依赖于存储在 ESM-2 模型权重中的信息来生成准确的模型。Meta 生成了超过 6 亿个模型,这些模型已在 ESM Metagenomic Atlas中发布[12]。
AlphaFold2 结构预测性能的突然提升凸显了蛋白质结构建模面临的剩余挑战。目前最先进的方法从序列输入输出静态模型。然而,现实情况是,蛋白质结构远非静态:部分蛋白质的刚性不如其他蛋白质,蛋白质运动对功能至关重要。许多蛋白质可以根据环境采用不同的构象。如本博文介绍中所述,蛋白质结构问题表明序列和结构之间存在一对一的映射,而事实并非如此,这凸显了我们对这种简化的偏见。虽然 PDB 数据库偏向于单一结构模型,但它的结构数据仍然表现出异质性。在最近的一篇出版物 [13] 中,Thomas J. Lane (CFEL-PBIO) 主张以蛋白质结构的连续分布作为模型,而不是单一快照。特别关注的是 AlphaFold2 对其训练数据的预测:通过分析 SARS-CoV-2 主蛋白酶 (M pro ) 的 PDB 模型之间的均方根偏差 (RMSD) 分布以及 AlphaFold2 预测与这些 PDB 模型之间的 RMSD 分布,结果表明这些分布重叠,但具有不同的峰值。
这意味着平均而言,两个随机选择的 PDB 模型彼此更相似的可能性大于与 AlphaFold2 预测的相似性。还有人认为 AlphaFold2 模型可以位于 PDB 中表示的构象状态之间:以血红蛋白状态为例——未结合或与配体结合(如 O 2或 CO)。AlphaFold2 结构显示位于两者之间,作为某种平均结构,它与真实的稳定物理状态不对应。最后,AlphaFold2 输出的具有低置信度指标的蛋白质结构域也被证明对应于具有结构灵活性的区域。这进一步证明了摆脱单一结构范式的必要性。