2022 年计算生物学主要有两项进步:
1. 蛋白质结构预测主题的一系列快速发展(由DeepMind的AlphaFold引发)
2. 自然语言处理 (NLP) 领域的最新进展(例如 Transformer 模型)溢出到生物序列领域
在这篇博客中,我们将以这 孟加拉国手机数据 些最新进展为基础,猜测 2023 年可能为计算生物学、特别是计算机药物发现带来什么。
超越 AlphaFold
众所周知,DeepMind 的 AlphaFold 结构预测模型开启了生物学的新纪元。一方面,我们现在拥有超过 2 亿种蛋白质和多个蛋白质组的高质量结构模型。另一方面,公开发布的 AlphaFold 模型为其他结构预测工具提供了重要的灵感来源(请参阅 获取一份精心挑选的折叠预测器列表)。
我们已可以看出这些新工具所确立的几种趋势:
· 结构预测的速度和可扩展性尚未达到极限。一些较新的工具比 AlphaFold 快几个数量级,而不会牺牲预测蛋白质模型的准确性。重要的是,如果想要用结构模型丰富更大的数据集(例如免疫组库数据集),可扩展性是最重要的。
· 我们还观察到,许多较新的结构预测工具正在放弃计算和时间成本高昂的多序列比对 (MSA) 优化步骤,这对可扩展性有直接影响。为了弥补这一决定所造成的信息损失,不同的团队经常使用来自不同语言模型的蛋白质编码(下文将详细介绍)。
· 专门的结构预测模型(例如针对抗体结构进行训练的模型或基于抗体语言模型的模型)在其专门的子域中表现优于原始 AlphaFold。例如,已经优化了几种工具来预测 CDR3 环的结构(IgFold、EquiFold、ABLooper 等)。这些工具的速度确实非常惊人,尽管它们的准确性似乎已经接近收敛。