这是 2021 年约翰霍普金斯大学化学与生物分子工程系 Jeffrey Gray 教授组发表于《Current Opinion in Structural Biology》上的文章,综述了解决 backbone flexiblity 的前沿方法,是一篇非常好的 docking 学习文章。
1 背景
通过对接(docking)计算方法可以预测蛋白-蛋白的复合物结构,但是蛋白主链的柔性往往阻碍准确的预测。在最近的一些 blind 挑战中,对于那些蛋白存在显著 backbone 变化或者不准确的“困难”目标,只有不到20%的模型能够达到中等或者高准确度。这篇文章综述了蛋白-蛋白对接的最新进展,并重点介绍了针对 backbone flexiblity 的解决方案。在分子动力学和蒙特卡洛方法中,增强采样 技术已经减少了时间尺度的限制。内在坐标形式的引入,使得利用 谐波动力学 能够更好地捕捉蛋白单体和复合物的真实运动。于此同时,机器学习方法通过对深度神经网络对蛋白质界面的训练,能自适应地知道对接轨?;蛘卟碌慕岷显げ獾恪U庑┕ぞ呶吩げ饩哂邢灾瓜蟊浠母春衔锝峁固峁┝诵碌目赡?。
增强采样(enhanced sampling)介绍: 增强采样技术是一组旨在改善分子动力学模拟采样的方法。生物系统通常具有许多被高能垒隔开的局部最小值,这可能会限制完整采样,因为模拟可能会卡在局部能量最小值中。蛋白质折叠模拟和蛋白质对接模拟尤其会遇到这种问题。相对于 MD 强制的几飞秒的积分时间步长,跨越这些障碍是一个小概率事件。因此,在过去二十年中,已经提出了大量所谓的增强采样方法,这些方法允许人们加速系统的动力学,访问更长的时间尺度并准确采样概率分布/自由能和动力学速率常数。采用 Replica-exchange molecular dynamics (REMD) 、Metadynamics 和 Simulated annealing 方法可以解决这个问题。具体可参考 https://www.quora.com/Chemistry-What-are-enhanced-sampling-methods-in-molecular-dynamics
内在坐标形式(internal coordinate formulations)介绍: 分子动力学 (MD) 模拟的传统形式是在笛卡尔坐标系中发展起来的,因为它为系统的运动方程提供了最简单的形式,其中每个原子被视为一个点质量,其位置会根据施加的外力而变化。然而,人们注意到,在这种形式中,数值积分的步长应该保持较?。?.5-1 fs),以保持系统的稳定性。这使得在超过 ns 的时间范围内进行常规模拟几乎不可能,而生物分子很有可能在这个过程中发生构象变化。内部坐标是根据局部原子连接性(如键长、键角和固有扭转)定义的。内部坐标形式已被证明在从头算几何优化和蒙特卡洛模拟中是有效的。具体可参考 https://www.sciencedirect.com/science/article/abs/pii/S0301010401002361
2 CAPRI 比赛
1、Critical Assessment of PRediction of Interactions (CAPRI) 比赛近年来推动了蛋白质对接领域的发展。在过去四年中,CAPRI 评估了28个蛋白质-蛋白质对接目标,预测方法对11个“简单”目标(定义为主链运动较小,未结合到结合状态的Cα均方根偏差RMSDBU小于1.5 ?)获得了高质量的结构。其余17个目标被归类为“困难”目标(RMSDBU超过2.2 ?和/或单体模板可用性差)。预测方法仅在17个困难目标中的8个(47%)中取得了可接受的质量,只有2个(12%)达到了高质量。大分子的柔性仍困扰着蛋白对接领域。如 Fig1 所示
CAPRI和CASP比赛的对比:
3 通过全局搜索识别假定的结合位点
1、为了减少构象空间的复杂性,通常使用粗粒度(coarse-grained)模型来降低自由度。在极端情况下,通过限制六个自由度(三个旋转自由度和三个平移自由度),全局对接方法通常首先将 partners 视为刚性体。通过对刚性体的 6D 空间进行遍历,在一个网格空间并对不同朝向进行打分。Fig2 的1图展示了不同的粗粒度模型
2、像 ClusPro 和 ZDOCK 方法依赖于快速傅里叶变换(fast Fourier transform,FFT)相关性,将蛋白质的binding partners 映射到一个离散 3D 网格上。传统的 FFT 只会在平移空间加速采样,但是在旋转空间上需要进行新的FFTs。2015年,Kazennov 等开发了快速流形傅里叶变换(fast manifold Fourier transforms, FMFT)在一个 5D manifold 搜索两个刚性体的排列,相比于传统的FFT,速度加快了10倍
3、另一种shape-based的方法是 geometric hashing,它通过标记位点和曲线来匹配蛋白的几何特征,在任意变换下(如平移、旋转甚至缩放)都能有效进行匹配。如 CAPRI 比赛的一种排名较高的方法 LZerD,它将3D表面投影到球体上,以高效捕捉蛋白质表面的互补性
4、以上的这些方法提供了快速、全局的能量筛选。这些方法通常作为第一轮筛选手段来确定假定的结合位点,然后在辅助其他优化工具来解决主链的柔性
4 解决主链柔性的方法
4.1 分子动力学
1、MD 是网格搜索之后进行优化的一种常用策略。MD模拟可以提供蛋白-蛋白相互作用的高分辨率、时间尺度的微观模型。MD利用物理能量函数计算牛顿运动轨迹,来模拟蛋白结合和解离过程。但是,MD应用于蛋白 docking 受到非天然局部能量极小值和解离过程过慢的限制
2、一些新的MD方法可以捕捉到构象的变化。如 steered molecular dynamics (SMD)可以添加外力的约束和 Markov 采样,它可以将长程 MD 模拟分割成几个短的轨迹。为了加速解离过程,可以使用 Hamiltonian replica exchange MD protocol (H-REMD) ,该方法克服势能面上的能量障碍,从而可以更彻底地探索构象空间
3、其他一些增强采样的方法如FIg3 所示
4.2 蒙特卡洛方法(Monte Carlo methods)
1、MC 方法的背景知识可参考:https://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95
https://zhuanlan.zhihu.com/p/223042372
2、与MD使用牛顿力学的模拟动态变化不同,MC 允许使用多种构象随机移动来采样不同的构象。MC 算法可以模拟动力学结合模型,即锁钥模型、构象筛选模型(conformer selection CS)和诱导契合(induced-fit )机制。CS 模型可以从之前粗粒度的结果作为起始,选择蛋白的主链构象,可以一次性完成与 partner 构象的对接。当然,如果初始的结果不是 native-like 的主链构象,CS docking 有可能会失败
3、例如 Zhang et al 对于 RMSDBU等于2.5 ?的目标,使用了 ATTRACT 粗粒度模型产生的 40 个结构,用于进行 MC-based docking 。粗粒度的方法并不经常产生 bound-like 的构象,但是RE(replica-exchange)MC 的对接方法可以经常获得更高质量的结构
4、为了获得更多样性的主链构象,通常采用三种方法生成 monomer 结构:(1)normal modes ;(2) backrub motions; (3) all-atom backbone refinement
5、还有人开发了基于 6D 残基的粗粒度能量函数根据 PDB 数据库界面的信息区分 near-native 和 non-native 的结构
4.3 使用normal modes 主链构象进行采样
1、由于蛋白质内在的波动会引起构象的变化,一些 docking 方法会利用谐波动力学(harmonic dynamics)来捕获蛋白质 backbone 的移动。波动 normal modes 代表了基于相近残基之间胡克势的蛋白质内部运动。 正常模式分析(Normal mode analysis NMA)也被纳入多种对接方法之中,进行了一系列的创新
2、 为了模拟诱导契合,Schindler 等人通过在 NMA 产生的谐势下移动笛卡尔坐标空间中的界面残基,开发了 iATTRACT 。在细化阶段,将预测的天然接触比例提高了 70%。对于未结合到结合界面 RMSD 超过 4 ? 的靶标,iATTRACT 可以获得可接受的质量模型
3、尽管在对接前通常对单个蛋白 partners 使用 NMA ,但 Oliwa 和 Shen 在对接中引入了复合 NMA,以便同时对分子复合物波动进行采样。通过计算相遇复合物的模式,这种方法可以专注于结合区域,因为它可以降低搜索空间的维数。NMA 的其中一个问题是较高频率的模式通常会扭曲蛋白质键。为了克服这一限制,Frezza 和 Lavery 开发了内部坐标(internal coordinate NMA , iNMA) 方法,可以在扭转角空间中移动,即具有固定的键长和键角。利用内部坐标空间中的简化蛋白质模型,可以从低频模式的特征向量中捕获更大的构象变化,如Fig 4 所示
4.4 机器学习方法
1、蛋白质结合位点可以被认为是一个信息丰富的分子空间,可以挖掘它来阐明蛋白质相互作用。Geng 等使用图表法训练了一个 SVM 模型用于区分 native 和 non-native 蛋白复合物结构,并发明了 GraphRank 分数对对接模型排序。结合 GraphRank 和 HADDOCK 分数的 iScore 在 CAPRI 比赛中排名靠前
2、 Gainza等人采用了一种独特的方法,他们使用几何深度学习模型 (MaSIF) 来计算蛋白质表面的几何和化学特征,从而获得分子相互作用“指纹” 。深度网络由卷积层组成,用它来预测结合位点、评估替代对接界面,并评估给定蛋白质-蛋白质相互作用的可能性。相对于传统刚性对接方法,MaSIF-search 可以执行超快速扫描,以相似的准确度识别真正的“结合物”,但速度明显更快(评估 100 种结合蛋白质复合物的基准需要 4 CPU 分钟,而 PatchDock 需要 45 小时,ZDOCK 需要 93 天),如图Fig2所示
5 参考文献及背景知识
[1] Harmalkar A, Gray JJ. Advances to tackle backbone flexibility in protein docking. Curr Opin Struct Biol. 2021 Apr;67:178-186. doi: 10.1016/j.sbi.2020.11.011. Epub 2020 Dec 23. PMID: 33360497; PMCID: PMC9126319.
[2] 傅里叶变换
https://www.zhihu.com/question/30242595
[3] 快速流型傅里叶变化的文章FMFC
https://www.pnas.org/doi/10.1073/pnas.1603929113
[4] 利用深度学习docking的文章(许锦波老师组)
https://pmc.ncbi.nlm.nih.gov/articles/PMC5249242/
[5] Rigid-and-Flexible-Docking 文章
https://www.scribd.com/document/414919006/Rigid-and-Flexible-Docking
https://www.intechopen.com/chapters/83584