利用结构生物学方法界定 PPI 界面的优点在于结果准确,且不依赖已有数据,可以准确发现新的 PPI 界面信息。然而在实际产业化考虑中,传统实验方法均需要面对耗时长、实验成本高昂、无法高通量处理大量样品的问题,这限制了其产业化应用。
而其它的替代实验方法,如 H-D 交换质谱法和丙氨酸扫描,速度更快、成本更低,但分辨率与置信度都更低,且仍需要大量实验工作,在结果质量与通量上都不足以实现产业应用。更高通量的方法,如多重表面等离子体共振,可以同时表征许多相互作用,但不提供直接定位信息。
尽管已经通过实验发现了超过 41,000 种独特的人类 PPI (其中许多与心血管疾病和癌症等重大疾病的发生发展密切相关),但蛋白质数据库中,只有约 2,500 种非冗余多蛋白质复合物通过实验确定了可用的结构。因此,目前的实验方法无法满足对这些相互作用的结构细节的高要求。
为了解决传统实验的这些不足,研究人员发展了基于计算的 PPI 界面预测方法,用以辅助针对 PPI 界面的研究与药物研发。
1.2 传统 PPI 界面预测计算方式
1.2.1 同源建模
同源建模( )使用具有已知相互作用界面的蛋白质结构作为模板来预测同源蛋白质的相互作用界面。其步骤包括:
1. 模板蛋白的鉴定:选择具有已知结构和相互作用界面的蛋白质作为同源蛋白的模板。模板蛋白应与目标蛋白具有高序列同一性,以确保相互作用界面的准确预测;
2. 目标蛋白结构预测:以模板蛋白为指导,预测目标蛋白的三维结构,可以使用各种计算方法来完成,例如分子动力学模拟、 或比较建模等;
3. PPI 界面的预测:一旦预测了目标蛋白的结构,就可以通过将目标蛋白中的残基位置与模板蛋白中已知参与相互作用的残基位置进行比较来预测相互作用界面。
同源建模预测 PPI 界面的优点在于其快速且经济高效的方法,允许预测在实验条件下尚无已知结构的蛋白质的 PPI 界面,可以深入了解蛋白质-蛋白质相互作用的分子基础,从而为药物设计工作提供信息。
而其缺点也很明显:对已知 PPI 界面的先验数据高度依赖,预测的准确性取决于合适的模板蛋白的可用性和预测结构的质量;仅限于与模板蛋白具有高序列同一性的蛋白质,可能不适用于同源性低的蛋白质;没有考虑蛋白质-蛋白质相互作用的动态性质,并且在界面随时间变化的情况下,可能无法准确预测相互作用界面。
1.2.2 基于结构的对接模拟
使用对接模拟( )的蛋白质-蛋白质相互作用 (PPI) 界面预测涉及两种蛋白质之间结合过程的计算建模,以预测它们的相互作用界面。目前已有几类算法基于此源里进行开发,其中 是最常用来研究蛋白质复合物相互作用的分子动力学过程的工具之一。
对接模拟的第一步通常需要先获取蛋白结构,这一步可直接利用已有的 XRC、cryo-EM 或 NMR 解析出的蛋白结构,也可使用建模或 AI 计算预测的蛋白结构。之后将获取的结构进行对接模拟,将两种蛋白质的相对定位进行变化,通过定义模拟 box 的大小和组成、添加溶剂以及定义模拟的初始条件来预设模拟系统,再使用分子动力学( )或蒙特卡罗模拟(Monte Carlo )来模拟它们的相互作用,以及蛋白质的不同可能方向和构象,并评估其相互作用的稳定性。在这一过程中,系统内原子之间的相互作用随时间建模,从而探索蛋白质的不同可能方向和构象,并评估其相互作用的稳定性。对接模拟会生成大量可能的相互作用模型,最后根据结合能、结合位点大小和氢键形成等各种因素对这些模型进行评分并排名,从而选择得分最高的模型作为最可能的 PPI 界面。
对接模拟的好处在于可以详细了解 PPI 的分子基础,包括氢键的形成、范德华相互作用和静电相互作用,也可用于研究突变对 PPI 的影响,从而深入了解疾病的分子基础。而且即使未知相互作用蛋白质的结构,对接模拟也可用于预测相互作用界面,还可用于预测蛋白质在不同状态下(例如配体有无或在不同环境条件下)的相互作用界面。
然而,基于分子动力学的对接模拟对高性能计算资源要求很高,计算密集型且耗时长,且预测的准确性取决于蛋白质结构的质量和模拟中使用的参数。并且在界面随时间变化的情况下,模拟时间尺度有限,对接模型可能不足以完全捕捉 PPI 的动态性质,导致无法准确预测 PPI 界面。
1.2.3 传统预测方法的限制与 AI 的必要性
目前已有的建模模拟预测 PPI 界面的方法局限性主要存在于以下三方面:
其一是对高性能计算资源的需求:蛋白复合物的分子动力学建模需要庞大的计算量支撑方可获取较高的准确度,而模拟过程耗时很长,现阶段尚难解决药物研发产生的大量需求;
其二在于其对先验结构的高度依赖影响了其预测准确度:同源模拟基于合适的模板蛋白,且这一模板蛋白需要已知比较明确的 PPI 界面,如上文所说已经通过实验发现了超过 41,000 种独特的人类 PPI ,但只有约 2,500 种非冗余多蛋白质复合物通过实验确定了可用的结构。对接模拟的准确性取决于蛋白质结构的质量和模拟中使用的参数,在缺乏广泛可用的先验结构的情况下,基于分子模拟的 PPI 界面预测准确度不容乐观;
最后,建模模拟难以兼容计算资源与模型柔性:蛋白质对接模拟中,将蛋白质视为刚体可节省计算资源,然而由于蛋白质本身的生物学性质,必须要考虑其灵活性,以解释相互作用引起的结构重排,刚体对接难以实现准确的模拟。然而蛋白的柔性对接需要引入大量新的参数,每次生成的模型数量也大大增加,会极大增加计算资源与时间的消耗。目前通常考虑的一种折衷方案是半柔性对接方法,这种方法在计算上更可行,并且可以在对接期间在一定程度上考虑灵活性,然而最终产出的预测结果往往同真实数据存在偏差。
因此越来越多的研究人员将注意力集中到 AI 方法上,人工智能和深度学习的各类新进展揭示了一种无需考虑大量结构参数的替代方法。 证明了仅从蛋白质序列中可提取大量结构信息。而 AF2- 和 – 等工作将蛋白质结构预测的应用扩展到蛋白质复合物/多聚体的场景。AI 预测由于其对高性能计算资源需求较小,所需时间短,且对已有蛋白结构依赖相对较小,在药物研发与基础研究中具有更大的应用前景。
二、基于人工智能的蛋白作用界面预测
如上文描述的,无论采取何种策略,基于模拟的对接预测非常具有挑战性。在 2018 年的 -CAPRI 实验(13th of – of ,一项定期举办的实验,旨在评估在无参考数据下各种计算方法对 PPI 预测表现出的准确率)中,针对人蛋白的预测算法中,排名靠前的对接方法成功率(SR)仅有 50% 此外,2021 年的一项基准研究报告显示,针对著名的 5 数据集,不同网络服务器的 SR 只达到 16%。
而在 中,基于深度网络的 对单蛋白结构预测准确率已达到了 25/43。在 2020 年的 中,经过算法优化的 2 表现尤其亮眼,其 分数达到了前所未有的90分,在其所预测的单链蛋白结构中,序列上的各个结构域的预测准确度也达到了很高的程度。
而AF2 的空前成功让业界对于深度学习在 PPI 预测中的应用产生了浓厚兴趣,且已有了多种算法进行尝试。一项早期的此类研究简单地将两个蛋白质序列与聚甘氨酸 连接起来,从而将其转化为单链结构预测问题。而另一个稍好些的解决方案是通过修改 AF2 使用的“”特征,从而消除了引入 可能造成的构象变化。另一些方法中,则是将 AF2 与对接模拟结合,使用 AF2 生成高质量单体模型的想法,这些模型可以提高对接模拟中使用更类似原生结构的模型进行模拟的机会。
然而这些研究的很大一个问题在于,他们用于测试的基准集包括了用于训练 AF2 深度学习模型的蛋白质结构,尽管 AF2 模型未针对蛋白质复杂结构进行训练,但在 AF2 在模型训练中很可能已经“观察”到了完全复合物(holo )中各单体的构象与接触面结构,并体现在输出结果中,因此直接使用 AF2 生成的单体蛋白结构模型用于对接模拟很可能会得到不严谨的实验结果。因此,为了能够更加准确地预测 PPI 界面,仍需单独开发新的深度网络。
当前已有 (基于共进化理论生成 MSA ,通过深度学习预测蛋白物理接触位点)、 (结合 AF2 分析 MSA 信息与先验结构信息,预测蛋白多聚体复合物结构及其物理接触位点)和 – (百奥生图与-AI共同开发,加速结构预测) 等基于深度学习的方法可用于预测 PPI 界面或蛋白物理接触位点,下文将选取 5 个具有代表性的算法进行介绍。
2.1 AF2-
除了单域目标外,AF2 还在多种模式生物的域蛋白质结构预测上取得了出色的结果。考虑到蛋白质内域-域相互作用与 PPI 在物理本质上没有区别,驱动蛋白质折叠的相同物理力也会推动 PPI,原则上,AF2 可以重新用于预测一对蛋白质是否相互作用,如果相互作用则可以预测所得蛋白质复合物的四级结构。毕竟,许多在原核生物中形成复合物的蛋白质在真核生物中融合为长的、单链的、多结构域的蛋白质,其中每个结构域为原核生物中一个蛋白的同源体。此外,众所周知,PPI 界面的结构空间(即形成复合物的蛋白质之间直接物理接触的区域)非常小。综上所述,为单链结构预测训练的神经网络模型很可能已经学会了对由多个单链蛋白质组成的蛋白质复合物进行预测所必需的表示。事实上,已有研究人员推出了使用此类神经网络模型预测复杂结构的 进行蛋白质复合体结构预测,尽管其示例使用了其自己的模型训练集,但仍可以看出其设计灵感主要来自 AF2。
2021 年 10 月, 团队上线了AF2- ,并在 发文阐述了其进行蛋白质复合物结构预测的原理,文中研究人员对 AF2 模型进行了修改调整,将模型训练和推断过程扩展到多个链,并原生支持对称处理与对复合物的多链进行特征提取。
AF2 对于单个蛋白的结构预测结合了来自氨基酸序列、多序列比对和同源结构的信息。其神经网络的核心部分称为 ,主要利用神经网络 MSA 和蛋白质中不同氨基酸之间成对关系的 ,其中氨基酸对的 表示可以被认为包含了有关链中氨基酸相对位置的信息,用于预测链中氨基酸之间的相对距离,而 MSA 的第一行与氨基酸对 一起用以预测最终结构。
在 AF2 的基础上 AF2-M- 进行的最主要调整包括:
1) 调整了损失函数,并对位置编码( )进行了重新编码,从而可以考虑排列对称性( );
2) 结合共进化相关的研究成果,主要参考了许锦波团队 2018 年开发的 中利用配对 MSA 进行蛋白复合物界面预测的方法,对于符合物种的蛋白 MSA 进行了合理配对。这也是 AF2- 算法中最复杂的部分,将同一物种的序列进行配对,并根据遗传距离(原核生物蛋白)或序列相似性(真核生物蛋白)选取最优序列。
图2.AF2- 与 适用的 MSA 配对方法
资料来源:许锦波团队 2018 年 Acids 文章,探针资本整理
3) 引入了一种选择残基子集进行训练的新方法,选取最可能在 PPI 界面的氨基酸残基进行训练,从而节约计算内存。
最终团队在 2 和 -PDB- 两个数据集上对 – 进行了基准测试,证明了其在蛋白复合物结构预测中的表现优于包括 在内的其它算法(-, -Gap, , 和 plus :)。在 -PDB- 数据集中可以看到,相较 AF2,AF2- 在同源复合物的 PPI 界面预测提升不大,但在异源复合物中提升很大,证明了其基于共进化对 MSA 算法的优化能够大量提升异源复合物预测准确度,而对于同源复合物,由于其内部的蛋白同源性很高, MSA 组合结果不会受算法优化太大影响。
2.2 PINet
在 MSA 之外,蛋白的空间结构信息也可作为输入信息进行神经网络的学习。而为了将深度学习应用于的基于结构的界面区域预测,一个核心问题是如何表示蛋白质结构,从而开发合适的神经网络。由于几何是界面互补性的关键原则之一,但蛋白质结构不像传统深度学习研究的图像,并不是定期采样的网格,因此该任务属于几何深度学习的领域。
Bowen Dai等人 2021 年在 上发文,描述了其开发的 PINet ( )算法,将结构特征与生化特征整合进入深度学习网络,进行 PPI 界面预测。在这一模型中,利用空间点云表征蛋白的空间结构。而不同于传统处理点云的传统方法,例如可能会破坏数据导致不稳定的详细几何结构的 3D 体素 CNN(3D voxel CNN),或将固有的非线性点集排序为一个序列的 RNN,PINet 使用了 Qi 等人 2017 年提出的 算法,直接从点云中学习几何信息,保证点顺序不变,直接在云上聚合局部和全局特征。 利用 保证输入点云对几何变换的稳定性,使用多层感知器学习点的高维局部特征向量,然后对每个通道上使用 max layer 以生成描述整体形状特征的全局特征向量。这个全局特征向量可以与局部特征向量连接起来,通过学习全局空间特征子集与点之间的对应关系实现分割。当不同的点共享相似的全局空间特征时,其相关信息也被提取出来从而实现点的分组。
该模型基于输入的蛋白对结构数据,预测二者之间的 PPI 界面。PINet 利用这对蛋白的 PDB 文件作为输入,将其转化为蛋白表面氨基酸的空间点云数据后,将各类生理化学数据标记到每一个点上,从而形成两个代表每个蛋白质表面的几何和物理化学特性的 5 维点云,作为模型的输入点云数据。首先利用 分别处理每个点云,对于每种蛋白质, 使表面点云对刚体变换具有不变性。然后利用 MLP 提取蛋白的局部表面特征,并将这些局部表面特征聚合成全局蛋白质特征向量。两种蛋白质共享空间坐标转换、局部和全局特征提取的可训练权重。
图3.PINet 模型结构
资料来源:Bowen Dai 等人 2021 年 研究文章
最后 PINet 将两种蛋白质的蛋白质局部表面特征和全局蛋白质特征连接起来,以使用另一个 MLP 进行分割,从而在两个蛋白上同时实现对于空间点云中每个点的判定,同时预测出两个蛋白的 PPI 界面。由于 PINet 的预测需要一对蛋白作为输入,其预测是基于配体的蛋白对 PPI 界面,而其模型的训练主要基于抗体-抗原对的 PPI 界面。
然而 PINet 的准确性取决于输入数据的质量和对空间点云赋值使用的编码技术。该算法可能无法预测训练数据集中未能很好表示的 PPI 界面,且可能无法捕获复杂的网络结构和相互作用,例如多蛋白复合物或瞬态相互作用。
2.3 MaSIF
与 PINet 相同的是, 等人 2020 年在 提出的 MaSIF 算法( )同样使用空间点云表征蛋白的空间结构,但使用了不同形式的几何深度学习来学习和利用几何特征。
MaSIF 通过软极坐标系将蛋白质的 3D 表面块映射到 2D,然后使用 CNN 预测可能性涉及交互区域的表面顶点。MaSIF 也接受了比以前的研究大得多的数据集的训练,使用了数千个复杂结构。此外,MaSIF 的 PPI 界面预测独立于结合对象,通常预测蛋白质的可能结合位点,而不是针对给定配体蛋白质做出特定的预测,因此 MaSIF 不仅可用于预测与特定蛋白之间的 PPI 界面,也可用于预测:
1)蛋白结合小分子的 ;
2)这一蛋白可能的结合蛋白。
图4.MaSIF 框架示意图:b) 包括映射在蛋白质表面上的几何和化学特征;c)极测地坐标,用于表示 pacth 内部点的位置;d) MaSIF 使用几何深度学习工具将 CNN 应用于数据,使用特定于应用的神经网络架构为每个补丁计算指纹描述符,其中包含可重复使用的构建块( )。
资料来源: 等人 2020 年 发表文章
MaSIF 利用几何深度学习来学习蛋白质分子表面的相互作用指纹( )。分子表面数据在测地线空间( space)中描述,这意味着两点之间的距离对应于两点之间沿表面“行走”的距离,在高度不规则的蛋白质表面中,测地线距离可能比欧几里得距离大得多。首先从蛋白质结构中计算出一个离散化的分子表面,并将几何和化学特征分配给网格中的每个点(顶点)。在网格的每个顶点周围,模型会提取测地线半径为 r = 9 Å 或 r = 12 Å 的 patch。对于 patch 的每个顶点,两个几何特征(形状指数和距离相关曲率)和三个化学特征(亲水指数,连续静电学和自由电子和质子供体的位置)会被计算并赋值。之后将 patch 内的顶点转化为空间极坐标从而映射到 2D 方便后续使用 CNN。而蛋白表面的几何结构(例如,表面内口袋的“深度”)通过几何特征(形状指数和距离相关曲率)和测地线极坐标隐式描述。
然后 MaSIF 学习将表面的输入特征嵌入到数值向量描述符中,每个描述符都使用依赖于应用程序的神经网络层进行进一步处理。MaSIF 将几何深度神经网络应用于这些输入特征,使用极坐标对特征进行空间定位。该架构的一个关键组成部分是 ,将经典卷积推广到不规则蛋白表面,从而实现对于 patch 的局部操作。模型在局部极坐标系中构建了一个 ,其参数是可学习的,在局部平均顶点方向的 patch 特征并产生固定维度的输出,该输出与一组可学习的 filer 相关。这个可学习的 被称为学习软极坐标网格。然后利用带 的卷积层处理软极坐标网格层的输出。由于角坐标是相对于随机方向计算的,因此计算对不同方向不变的信息(旋转不变性)至关重要。为此,模型对 patch 执行 K 次旋转并计算所有旋转的最大值,为 patch 所在位置生成 输出。模型将对对不同的补丁位置重复该过程(类似于图像处理中的滑动窗口操作),以向量的形式在每个点生成表面指纹描述符,该向量包含了有关中心点及其邻域的表面模式的信息。
文章中研究者测试了 MaSIF 针对两个任务的两个程序模块表现,包括:用于预测小分子配体结合 的 MaSIF- 与预测 PPI 界面位点的 MaSIF-site 。并提出了基于表面指纹快速搜索蛋白质结合伴侣的 MaSIF-。
MaSIF- 相较其他三个程序(,KRIPO和)在综合基准测试中显示了良好性能,且在分析两个几何特征高度相似的辅助因子(SAM与ADP和NADP与NAD)之间的混淆数据时,凭借正确的化学特征获取了正确的区分结果。
MaSIF-site在蛋白质结构的大型数据集上进行了训练和测试,极大地利用了深度学习方法的潜力,凭借测地卷积层,MaSIF-site的ROC AUC已达到0.77,而将神经网络提升到三层,也将ROC AUC提升到0.86。且研究人员研使用MaSIF-site预测了已通过实验验证的三个工程蛋白的 PPI 界面:流感抑制剂、同型寡聚笼蛋白和用作免疫原的表位骨架。这些工程蛋白基于没有结合活性的野生型蛋白,而 MaSIF-site 在这三个工程蛋白表面结合位点的 PPI 界面发现评分均显著高于其对应野生型。
MaSIF无需同源序列,综合空间结构与生化信息进行预测,可以提高预测的准确性,并使用了多尺度方法捕获局部和全局相似性,可以提高预测的灵敏度和特异性。MaSIF 已被证明在独立的基准数据集中表现良好,并且在预测 PPI 界面方面具有很高的准确性。然而MaSIF 依赖于高质量结构数据的可用性,这些数据可能并不总是适用于所有蛋白质,且该算法可能无法捕获动态或瞬态交互,因为它使用静态结构信息。
2.4 PECAN
图卷积网络 (Graph , GCN)是一种几何深度学习方法,通过使用谱卷积将卷积神经网络 ( , CNN) 从 2D 网格推广到图形。2017年 Fout 等人的一项研究使用 GCN 来学习蛋白质中每个残基的表示,并使用该表示来分类两个残基是否相互作用。这项研究表明,卷积能够从残基的基本物理化学性质中捕获相互作用信息。
2020年, 和 – 开发的 PECAN 算法( and with graph )将 GCN 和注意机制的优势结合在一个集成模型中,用于预测表位和抗体表位,利用更好的残基表示及其相互作用偏好进行学习,从而将预测重点放在互补区域。
PECAN 的模型包括以下三个部分:(i) 图形卷积以捕获界面的空间关系;(ii) 注意力层使每个蛋白质的界面预测能够解释其配体提供的潜在结合环境;(iii) 迁移学习以利用更大的数据集提供使用抗体-抗原数据进行微调基线模型,从而将默型应用推广至广泛的 PPI 界面发现。
图5.PECAN 架构示意图
323AI导航网发布