一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
申请人信息
- 申请人:中国海洋大学
- 申请人地址:266100 山东省青岛市崂山区松岭路238号
- 发明人: 中国海洋大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311487947.5 |
| 申请日 | 2023/11/9 |
| 公告号 | CN117393036A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G16B15/30 |
| 权利人 | 中国海洋大学 |
| 发明人 | 张树刚; 魏志强; 毕祥鹏 |
| 地址 | 山东省青岛市崂山区松岭路238号 |
摘要文本
本发明提供了一种用于药物‑靶点亲和力预测的蛋白多层次语义聚合表征方法,该方法选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码,最后将获得药物表征和靶点蛋白表征进行联合表征学习,实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略包括自上而下、自下而上策略,来丰富蛋白质表征,用于亲和力预测任务;本发明提出了一种梯度加权可解释方法,其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息,为亲和力预测任务提供一了种可解释途径。
专利主权项内容
1.一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法,其特征在于,包括以下步骤:步骤一:药物分子特征提取首先在药物分支层次,以药物原子为节点,以原子之间的共价键为边,将药物分子构建药物分子图,将构建的药物分子图加载到包含图卷积层的药物GCN编码器中,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块;步骤二:靶点蛋白特征提取(1)首先,设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式:分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上进一步构建蛋白质层次图,进行全面的蛋白质表示学习,也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集,只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代;其中,V为蛋白质残基接触图中的节点集合,它的每一个元素代表了一个残基节点;E为蛋白质残基接触图/>中的边集合,每一条边指示了两个残基节点之间的三维欧氏距离小于/>即在蛋白质的三维结构中是空间邻近的;V为PPI网络中的节点集合,每一个元素代表一个蛋白质节点;E为PPI网络中的边集合,每一条边代表两个蛋白质节点之间存在着相互作用。ppppippi(2)其次,依托该蛋白质层次图,借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息;在此过程中设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合,提升蛋白表征丰度,分别为自上而下和自下而上的层次融合策略;步骤三:亲和力预测将最终的药物表征d和蛋白质表征连接起来,得到药物-靶标对表示,然后通过以下方法预测药物-靶标相互作用 : 其中MLP是具有三个全连接层的MLP块;对于DTA任务,采用均方误差损失函数来计算回归损失,其表示为 : 其中,为神经网络对于当前药物-靶点对(d, p)之间结合亲和力的预测值,而y为当前药物-靶点对(d, p)的结合亲和力真值。(d, p)步骤四:预测结果可解释性方法使用一个训练好的模型来预测药物靶标对的亲和力得分,然后反向传播亲和力得分,进而可以计算蛋白结构GCN编码器输出的梯度,该梯度可以用来表示特定残基对最终亲和力得分的贡献。