计算机系统应用教程网站

网站首页 > 技术文章 正文

「深度学习」使用深度学习基于受体三维结构进行分子设计

btikc 2024-10-21 04:12:15 技术文章 8 ℃ 0 评论

——背景——


随着深度学习的发展,基于生成模型的全新分子设计正受到越来越多的关注。目前大多数基于深度学习的分子生成算法都只产生分子的拓扑结构(或二维结构),而较少有工作能够直接生成分子的三维结构。但是三维信息对基于结构的药物设计有非常重要的作用,而目前已有的二维生成模型很难很好解决这一类问题。今天我们向大家介绍来自匹兹堡大学的David Ryan Koes课题组发表的题为“Generating 3D Molecular Structures Conditional on a Receptor Binding Site with Deep Generative Models“的论文[1]。该工作于2020年发表在NeurIPS的Machine Learning for Structural Biology Workshop。在这篇论文中,作者提出了一种直接利用深度学习在蛋白口袋中生成三维小分子配体的方法。


——方法——


使用原子密度图表示小分子配体和口袋的三维结构


这一篇论文的核心思想是先利用三维卷积网络从蛋白口袋的原子密度图预测小分子的原子密度图,再通过算法补全原子的类型和位置。原子密度图使用三维格点表示,其大小为23.5 ?,分辨率为0.5 ?,格点的维度为48 x 48 x 48。其中每个原子使用高斯密度函数来表示,每个格点包含四种“通道”:原子类型,原子芳香性,疏水性以及是否为氢键供体/氢键给体。


利用深度学习模型生成配体的原子密度图


为了实现基于口袋结构的分子生成,作者将条件变分自编码器(conditionalvariational autoencoder,CVAE)与生成对抗网路(generative adversarial network)结合构建了小分子原子密度图的生成模型。该网络的完整构架如图1所示。



图1:模型的网络构架。编码器和解码器使用三维卷积层以及池化(pooling)/上池化(unpooling)层组成。口袋信息的编码器和解码器之间存在跳跃连接(skip connection)。


CVAE的损失函数包含两部分,第一部分衡量输入配体原子密度和输出之间的一致性(L2损失),第二部分衡量隐空间压缩的信息量(KL损失)。GAN的优化鼓励生成样本的分布和训练样本的分布一致。作者使用其课题组构建的CrossDocked2020数据集来训练模型。CrossDocked2020是一个利用Pocketome数据库和smina对接程序对PDBbind进行扩增得到的数据集(具体参见文献[2])。作者挑选了该数据集的一个高质量子集(包含728,048个对接pose)进行训练和测试。


从原子密度图补全分子结构


上述模型输出的结果是原子密度。为了得到完整的分子结构,作者设计了一套基于beam search以及梯度下降的方法来补全原子的位置。在每一步,算法在已有结构中添加一个新的原子,并且通过梯度下降的方法来优化原子位置。该梯度利用libmolgrid库计算得到。算法保存当前找到的最优的k个结构,在无法得到更好的解释,算法终止。算法的具体流程如图2所示:

图2:从原子密度补全配体原子的类型与位置。


——结果——


对于每一个被测试的口袋结构,作者选择一个“种子”分子作为输入条件,并且对模型输出的分子进行评价。评价指标包括合理性以及独特性。合理性考察生成的分子拓扑结构是否联通,以及能否通过RDKit的化学合理性检查。独特性考察去除重复分子后剩余结构所占的比例。结果如图3所示。作者发现模型生成的分子有较好的独特性,这意味着尽管模型是根据“种子”结构进行生成的,模型并没有直接拷贝种子分子的结构作为输出,而是生成了结构多样的分子。

图3:模型生成的分子结构的合理性和独特性。横坐标的Variabilityfactor与在隐空间采样时所用的方差有关,variabilityfactor越高方差越大。


为了检查三维结构的合理性,作者对生成的结构进行优化,并比较了优化前后的RMSD数值。优化包含两步:首先作者利用UFF立场对小分子整体结构进行优化,再利用Vina在口袋中对分子进行优化。RMSD结果与Vina打分如下图所示:

图4:模型生成的分子在RMSD(第一行)以及Vina打分(第二行)的分布上的累积概率密度图。不同列代表不同的variabilityfactor(1.0-5.0),no lig代表直接从VAE的先验分布中采样得到的分子结构。第二行的横坐标上标注了参考配体的Vina打分。


作者发现在variability factor设置为1.0, 1.5, 3.0, 5.0时中位RMSD分别为1.65,1.77,2.09以及3.27?。考虑到RMSD在2?以内的变动对于对接pose是可以接受的[2],作者认为模型生成分子的构象在优化前后是比较接近的。


作者还考察了模型在多大程度上利用了受体的结构信息。作者考察了当给定受体结构和没给定受体结构时输出分子的性质差异。作者发现,在给定受体结构时模型生成的分子在Vina打分上更低。同时作者还注意到分子在TPSA(拓扑极性表面积)上差别较大。对疏水性较高,溶剂可及性较低的口袋,模型生成的分子TPSA一般较低。反之对于溶剂可及性较高的口袋,TPSA一般较高。这一现象说明模型能够利用给定的受体信息进行判断。


最后,我们展示一些模型生成的分子(图5):

图5:模型生成的部分样本。每一行代表不同的variabilityfactor,no lig代表直接从VAE的prior distribution抽样得到的分子。


——小结——


文章中,作者提出了一种新的基于深度学习(CVAE+GAN)的分子生成模型,能够直接在受体的口袋结构中生成分子,主要的策略是先生成分子的原子密度图,再将其转换成真实的分子结构。这篇文章为我们提供了一个将深度学习用于基于结构的药物设计(SBDD)的一个新思路,但是问题也较为明显。首先,这篇文章在评价上较为粗糙,正文中并没有详细讨论生成分子的可合成性以及类药性。其次,作者在文中提到生成的原子密度图并不完美,所以在补全化学键时允许了最多长达4?的化学键。由此可以看出生成分子的三维结构还较为粗糙。因此,该方法在未来还有较大的改进空间。


参考文献:

[1] Masuda,Tomohide, Matthew Ragoza, and David Ryan Koes. "Generating 3D Molecular Structures Conditional on a Receptor Binding Site with Deep Generative Models." arXiv preprint arXiv:2010.14442 (2020).

[2] Francoeur,Paul G., et al. "Three-Dimensional Convolutional Neural Networks and a Cross-Docked Data Set for Structure-Based Drug Design." Journal of Chemical Information and Modeling 60.9 (2020): 4200-4215.

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表