一种基于分层池化图哈希的图数据检索模型训练方法
摘要文本
本说明书公开了一种基于分层池化图哈希的图数据检索模型训练方法,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层。在编码子模型的各层卷积过程中,实现了对上一层卷积层特征矩阵表示的节点特征的聚合,以及对上一层卷积层邻接矩阵表示的节点个数的聚合,使得每个卷积层得到的特征矩阵都保留了图数据的结构信息。根据特征矩阵得到图特征,再根据图特征得到图数据的图哈希码,因为特征矩阵保留了图数据的结果信息,所以得到的图哈希码更加准确,在根据图哈希码进行图数据检索时,得到的检索结果也更加准确。
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于分层池化图哈希的图数据检索模型训练方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311673951.0 |
| 申请日 | 2023/12/7 |
| 公告号 | CN117391150B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06N3/0464 |
| 权利人 | 之江实验室 |
| 发明人 | 王乐乐; 王永恒; 罗实; 刘念; 周宇; 葛晓东 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
专利主权项内容
1.一种基于分层池化图哈希的图数据检索模型训练方法,其特征在于,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层,所述方法包括:获取药物化合物的图数据对,并确定所述图数据对包含的两个图数据之间的真实图编辑距离,其中,所述两个图数据为样本图数据以及所述样本图数据的增强图数据,所述样本图数据的各节点与所述药物化合物的构成元素对应,所述样本图数据的边由各元素之间的连接关系确定;将所述两个图数据,分别输入所述待训练的检索模型的编码子模型,通过所述编码子模型的首层卷积层,确定输入所述首层卷积层的图数据对应的特征矩阵以及邻接矩阵,所述首层卷积层的图数据对应的特征矩阵为对所述药物化合物的分子结构的初步的特征编码,所述首层卷积层得到的邻接矩阵体现所述首层卷积层得到的特征矩阵表征的各元素的连接关系;将所述特征矩阵输入所述首层卷积层的输出子层,得到所述首层卷积层输出的图特征,以及将所述邻接矩阵和所述特征矩阵作为输入数据,分别输入所述首层卷积层的嵌入子层以及分配子层,得到所述首层卷积层的嵌入矩阵和分配矩阵;根据所述首层卷积层的嵌入矩阵和所述首层卷积层的分配矩阵的转置矩阵的乘积,确定下一层卷积层的特征矩阵;根据所述首层卷积层的邻接矩阵、所述首层卷积层的分配矩阵和所述首层卷积层的分配矩阵的转置矩阵的乘积,确定所述下一层卷积层的邻接矩阵,继续在所述编码子模型的卷积层进行计算;针对每个图数据,根据所述各卷积层输出的该图数据对应的各图特征,确定该图数据对应的编码特征,并通过所述编码层,对该图数据的编码特征进行哈希编码,得到该图数据的图哈希码;将所述两个图数据对应的编码特征输入所述预测子模型,得到所述两个图数据之间的预测图编辑距离;根据所述两个图数据的图哈希码距离与所述真实图编辑距离的差异,以及所述预测图编辑距离与所述真实图编辑距离的差异,确定损失,并以损失最小训练所述检索模型;其中,所述检索模型用于响应携带药物化合物的相似性检索请求,确定所述药物化合物对应的查询图数据,根据所述查询图数据的图哈希码,对待召回图数据进行筛选,再通过筛选后的所述待召回图数据与所述查询图数据的预测图编辑距离,确定检索结果,根据所述检索结果中的图数据对应的已知药物的性质,对所述药物化合物的性质进行预测。