← 返回列表

面向引文网络的频率自适应静态异质图节点分类方法

申请号: CN202311732766.4
申请人: 南开大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 面向引文网络的频率自适应静态异质图节点分类方法
专利类型 发明授权
申请号 CN202311732766.4
申请日 2023/12/18
公告号 CN117421671B
公开日 2024/3/5
IPC主分类号 G06F18/2415
权利人 南开大学
发明人 宋春瑶; 廉亚红; 李玉奇; 袁晓洁
地址 天津市南开区卫津路94号

摘要文本

本发明公开了一种面向引文网络的频率自适应静态异质图节点分类方法,首先从引文网络数据中提取出特征,构建静态异质图;再忽略静态异质图的顶点类型和边类型,通过受约束的马尔可夫过程得到转移状态矩阵收敛时图的稳定的转移状态,再将随机游走概率大于给定阈值的顶点对作为新的类型的边加入到静态异质图中;再通过空间线性映射将不同的顶点类型从原始空间映射到同一向量空间中,再对每个顶点来自一阶邻居的信号分离高频和低频信号,并通过个性化注意力机制为每个顶点聚合高低频信号;最后,通过空间线性映射将顶点的表示向量映射回原始空间,通过加权交叉熵和受约束的注意力机制训练模型,再通过分类器将引文网络数据的顶点进行分类。 (来 自 专利查询网)

专利主权项内容

1.一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:步骤1、从引文网络数据中提取出每个顶点的特征向量X,第c种顶点类型的顶点特征向量记为X;同时建立静态异质图;再将静态异质图中所有的顶点划分为训练集、验证集和测试集;c引文网络数据的顶点类型为作者、论文、术语和会场;引文网络数据采用DBLP数据集或ACM数据集;当采用DBLP数据集时,边类型为作者-论文、论文-术语、论文-会场、论文-作者、术语-论文以及会场-论文;当采用ACM数据集时,边类型为作者-论文、论文-主题、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文以及主题-论文;步骤2、利用受约束的马尔可夫过程对静态异质图进行处理,得到稳定的转移状态;步骤3、结合步骤2得到稳定的转移状态,过滤出指定顶点类型的顶点集合,并且选择该顶点集合内的随机游走概率大于给定阈值θ的顶点对,θ为超参数;再将这些顶点对作为新的类型的边加入到步骤1得到的静态异质图中,得到含稳态边的静态异质图;步骤4、空间线性映射:对含稳态边的静态异质图中的每种顶点类型分别各自学习一个线性函数,将不同的顶点类型从原始空间映射到同一向量空间中,如式(3)所示:H=σ(WX+B) (3)cccc式(3)中,第c种顶点类型的顶点特征向量X通过式(3)映射到同一向量空间中,记为H;W和B分别表示第c种顶点类型的权重矩阵和偏移矩阵,它们是可学习的参数;σ是sigmoid激活函数;cccc步骤5、在线性映射后的同一向量空间内对每个顶点来自一阶邻居的信号依次进行高低频信号分离和个性化注意力机制聚合,得到每个顶点在线性映射后的空间中的向量表示步骤6、通过线性变换将任意一个顶点i在线性映射后的空间中的向量表示映射回同一向量空间中,再引入残差连接,得到顶点i的新向量表示/>步骤7、在受约束的注意力机制下进行分类:S7.1、经过步骤6映射回同一向量空间后,根据每个顶点i的新向量表示进行分类,得到顶点i的新向量表示/>的预测顶点类别/>S7.2、通过受约束的注意力机制增强注意机制中高频信号和低频信号之间的差异,受约束的注意力机制的损失函数L如式(12)所示:α式(12)中,c和c表示顶点u和顶点v的标签;N(v)表示与顶点v具有相同顶点类型的邻居,表示异或操作;γ表示与顶点v的标签不同的邻居的比例;θ和ζ是超参数;V是所有顶点个数,/>是顶点v的低频注意力分数;/>是顶点v的高频注意力分数;uvvenvS7.3、结合加权交叉熵损失函数和受约束的注意力机制L得到在进行分类时的损失函数L,如式(13)所示:α式(13)中,为加权交叉熵损失函数,w是顶点i在损失函数L中的权重,y顶点i的真实顶点类别;β是用来平衡损失函数L的超参数;iiαS7.4、利用损失函数L在训练集上对模型进行一次迭代训练,当在验证集上预测类别的准确率超过M次都没有提升时,M为超参数,返回步骤4;直至模型收敛,然后对于测试集中的第m个顶点,利用步骤6得到它的新向量表示再通过步骤S7.1来预测测试集中顶点的顶点类别。