← 返回列表

一种多视图癌症药物反应预测系统

申请号: CN202311547057.9
申请人: 东北林业大学
申请日期: 2023/11/20

摘要文本

一种多视图癌症药物反应预测系统,涉及生物信息技术领域,本申请采用多视图的策略代替了通过GCN在细胞系‑药物异质图上聚合已知反应信息的传统方法,充分利用了已知的细胞系‑药物的所有反应信息。引入ILGCN,在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明在提高预测性能的同时,也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验,验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据,因此本申请的技术方案提升了癌症药物反应预测准确率。

专利详细信息

项目 内容
专利名称 一种多视图癌症药物反应预测系统
专利类型 发明申请
申请号 CN202311547057.9
申请日 2023/11/20
公告号 CN117524346A
公开日 2024/2/6
IPC主分类号 G16C20/30
权利人 东北林业大学
发明人 滕志霞; 尹铭鑫; 李丹; 汪国华
地址 黑龙江省哈尔滨市香坊区和兴路26号

专利主权项内容

1.一种多视图癌症药物反应预测系统,其特征在于包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块;所述数据获取模块具体执行如下步骤:步骤a1:获取每种药物的PubChem ID,并根据PubChem ID得到该药物的SMILES数据,之后利用Rdkit工具包将SMILES数据转化为该药物对应的药物分子图;步骤a2:选择癌症细胞系百科全书数据集中包含的细胞系多组学数据,所述细胞系多组学数据包括基因表达数据、拷贝数变异数据和细胞突变数据;步骤a3:在COSMIC数据库中获取致癌关键基因,最后在STRING数据库中收集与致癌关键基因有关的PPI数据,并利用PPI数据作为细胞系中节点的关联关系,所述节点即为基因;步骤a4:选择癌症药物敏感性基因组学中GDSC2版本的数据,之后在GDSC2版本的数据中获取药物和细胞系反应数据,之后根据PubChem ID以及细胞系多组学数据在药物和细胞系反应数据中筛选对应的药物和细胞系反应数据,即细胞系-药物反应数据;步骤a5:将细胞系多组学数据作为细胞系中节点的特征表示,并结合节点的关联关系,进而得到细胞系图;所述细胞系及药物特征提取模块具体执行如下步骤:步骤b1:利用GCN对每种药物对应的药物分子图进行图级结构特征提取,对所有药物对应的药物分子图提取完成后,得到图级结构特征矩阵;步骤b2:首先利用ESPF算法将SMILES数据分解为药物子序列,然后通过Transformer对药物子序列进行特征提取,得到药物的亚结构特征,对所有药物对应的SMILES数据提取完成后,得到药物的亚结构特征矩阵;步骤b3:将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接,得到药物特征矩阵;步骤b4:利用GAT在细胞系图中捕获节点的特征和生物网络拓扑信息,并利用节点的特征和生物网络拓扑信息得到细胞系特征矩阵其中,N表示药物的数量,F表示细胞系特征维度;cc所述相似性网络构建模块具体执行如下步骤:步骤c1:计算药物特征矩阵中药物特征之间的余弦相似性,进而构建药物相似性网络;步骤c2:计算细胞系特征矩阵中细胞系特征之间的余弦相似性,进而构建细胞系相似性网络;步骤c3:利用KNN重构药物相似性网络和细胞系相似性网络;所述相似性信息提取模块具体执行如下步骤:步骤d1:利用细胞系-药物反应数据构建异质图;步骤d2:在异质图上生成药物的特征表示,并将生成的药物的特征表示作为重构后的药物相似性网络中的初始节点特征,并利用ILGCN从药物相似性网络中提取相似性信息,并根据提取到的相似性信息得到最终药物特征表示;步骤d3:在异质图上生成细胞系的特征表示,并将生成的细胞系的特征表示作为重构后的细胞系相似性网络中的初始节点特征,并利用ILGCN从细胞系相似性网络中提取相似性信息,并根据提取到的相似性信息得到最终细胞系特征表示;所述反应敏感性模块具体执行如下步骤:步骤e1:利用FNN统一最终药物特征表示和最终细胞系特征表示的维度;步骤e2:将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接,得到拼接特征向量表示;步骤e3:将拼接特征向量表示作为基础预测癌细胞系对药物的反应敏感性,并利用FNN和Sigmoid函数对癌细胞系对药物的反应敏感性进行预测。