← 返回列表

一种融合情感的共同注意网络多模态虚假新闻检测方法

申请号: CN202311699411.X
申请人: 江西师范大学
申请日期: 2023/12/12

摘要文本

本发明公开了一种融合情感的共同注意网络多模态虚假新闻检测方法,该方法包括如下步骤:首先将新闻数据集进行清洗筛选之后,输入到特征提取器和特征编码器中获取各种深层次多模态特征,接下来将各种深层次多模态特征输入到共同注意融合网络和注意力机制模块中进行特征融合,最后将所得最终特征输入到预测分类模块中对新闻进行分类和预测,本发明通过对多模态信息由浅到深的特征提取提升了模型的性能、泛化能力和解释性,同时降低计算复杂度,并且利用共同注意融合网络以及注意力机制将多模态信息进行有效的融合以及在不同模态之间建立关联,使虚假新闻检测模型的分类和预测效果能够显著提升。

专利详细信息

项目 内容
专利名称 一种融合情感的共同注意网络多模态虚假新闻检测方法
专利类型 发明授权
申请号 CN202311699411.X
申请日 2023/12/12
公告号 CN117391051B
公开日 2024/3/8
IPC主分类号 G06F40/126
权利人 江西师范大学
发明人 陈奥; 黄琪; 罗文兵; 王明文; 罗凯威; 吴督邦; 杨兰建; 邓正正
地址 江西省南昌市高新区紫阳大道99号

专利主权项内容

1.一种融合情感的共同注意网络多模态虚假新闻检测方法,其特征在于,包括如下步骤:步骤S1:构建多模态新闻数据集;步骤S2:对多模态新闻数据集任务形式化;步骤S3:构建虚假新闻检测模型,虚假新闻检测模型由特征提取层、语义多模态感知融合层、情感认知融合层和预测分类层组成;特征提取层由情感特征提取器、文本特征提取器和图像特征提取器组成,且情感特征提取器、文本特征提取器和图像特征提取器呈并行结构;语义多模态感知融合层、情感认知融合层和预测分类层依次呈串行结构;文本特征提取器由预训练好的BERT模型构成、图像特征提取器由预训练好的VGG-19模型构成,情感特征提取器由预训练好的Dul-Emotion模型构成;语义多模态感知融合层由图像特征编码器、文本特征编码器、情感特征编码器、串联拼接器和两个共同注意融合网络组成;两个共同注意融合网络分别为多模态共同注意融合网络和单模态共同注意融合网络;情感认知融合层由情感新闻内容融合器、情感多模态融合器、情感用户评论融合器和自注意力机制组成;预测分类层由多层感知机和分类函数Sigmoid组成;步骤S4:将任务形式化后的多模态新闻数据集输入虚假新闻检测模型,得到语义情感多模态新闻特征;步骤S5:将得到的语义情感多模态新闻特征输入虚假新闻检测模型的预测分类层中分类预测新闻的真实性;所述步骤S2中对多模态新闻数据集任务形式化的具体过程为:给定一个包含N条多模态信息S的多模态新闻数据集,多模态新闻数据集中每条多模态信息S都包含新闻内容T、用户评论C和新闻图像I三种信息/>;其中,新闻内容/>,用户评论/>,新闻图像/>,/>表示新闻内容T内的第Z个字令牌、/>表示用户评论C内的第U个字令牌、/>表示新闻图像I内的第G张图片,用/>表示二分类(0, 1)的标签,其中,/>表示真新闻,/>表示假新闻;所述步骤S4的具体过程为:将新闻内容T、用户评论C输入到文本特征提取器中,获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>,将新闻图像I输入到图像特征提取器中,获取新闻图像中的浅层次新闻图像特征向量/>;将获取的浅层次新闻内容特征向量/>、浅层次用户评论特征向量/>和浅层次新闻图像特征向量/>输入至语义多模态感知融合层中,通过语义多模态感知融合层内的文本特征编码器来增强浅层次新闻内容特征向量/>和浅层次用户评论特征向量/>的语义表示,得到深层次新闻内容特征表示/>和深层次用户评论特征表示/>,通过语义多模态感知融合层内的图像特征编码器来增强浅层次新闻图像特征向量/>的图像表示,得到深层次新闻图像特征表示/>;将新闻内容T和用户评论C输入虚假新闻检测模型内特征提取层中的情感特征提取器中分别获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>,再将得到的新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>输入至虚假新闻检测模型内的语义多模态感知融合层中,使用情感特征编码器来增强新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>,得到新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>,将新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>串联,得到新闻情感特征表示/>;将深层次新闻内容特征表示与深层次新闻图像特征表示/>、深层次用户评论特征表示/>与深层次图像特征表示/>输入到多模态共同注意融合网络中,分别得到新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>;将深层次新闻内容特征表示/>与深层次用户评论特征表示/>输入到单模态共同注意融合网络中,得到新闻内容和用户评论的语义单模态特征/>,将新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>以及新闻内容和用户评论的语义单模态特征串联拼接,形成语义多模态新闻特征/>;将得到的新闻情感特征表示/>、深层次新闻内容特征表示/>、深层次用户评论特征表示/>以及语义多模态新闻特征/>进行融合,分别得到情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>,将情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>分别经过情感认知融合层内的自注意力机制,得到情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>,将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>拼接串联,得到语义情感多模态新闻特征/>;获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>的具体过程为:将新闻内容T内的第Z个字令牌输入至预训练好的BERT模型中,获取浅层次新闻内容特征向量/>,其计算过程如下式所示:
(1);式中,为预训练好的BERT模型的输入,表示新闻内容T内的第Z个字令牌;/>为预训练好的BERT模型的输出,表示新闻内容T内的第Z个字令牌经过预训练好的BERT模型得到的对应浅层次新闻内容特征向量;同理,将用户评论C内的第U个字令牌输入到预训练好的BERT模型中进行处理,得到浅层次用户评论特征向量/>;获取新闻图像中的浅层次新闻图像特征向量的具体过程为:将新闻图像I内的第G张图片输入至预训练好的VGG-19模型中,获取新闻图像中的浅层次新闻图像特征向量/>,其计算过程如下式所示:
(2);式中,为预训练好的VGG-19模型的输入,表示新闻图像I内的第G张图片;/>为预训练好的VGG-19模型的输出,表示新闻图像I内的第G张图片经过预训练好的VGG-19模型得到的对应浅层次新闻图像特征向量;获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>的具体过程为:将新闻内容T内的第Z个字令牌输入至预训练好的Dul-Emotion模型中,获取浅层次新闻内容情感特征/>,其计算过程如下式所示:
(3);式中,为预训练好的Dul-Emotion模型的输入,表示新闻内容T内的第Z个字令牌;/>为预训练好的Dul-Emotion模型的输出,表示新闻内容T内的第Z个字令牌经过预训练好的Dul-Emotion模型得到的对应浅层次新闻内容情感特征/>;同理,将用户评论C内的第U个字令牌输入到预训练好的Dul-Emotion模型中进行处理,得到浅层次用户评论情感特征/>;所述图像特征编码器采用卷积神经网络CNN来提取新闻图像的特征,将浅层次新闻图像特征向量输入到卷积神经网络CNN内,如下式所示:
(4);式中,为图像特征编码器的输入;CNN表示卷积神经网络模型简称;/>为图像特征编码器的输出,表示深层次新闻图像特征向量;所述文本特征编码器利用双向的BiGRU模型分别获取新闻内容和用户评论中深层次特征向量表示,将浅层次新闻内容特征向量输入到双向的BiGRU模型中,如下式所示:
(5);式中,为双向的BiGRU模型的输入,表示浅层次新闻内容特征向量;/>作为输出表示/>的隐藏特征表示;采用基本注意力机制计算注意力权重,如下式所示:
(6);
(7);
(8);式中,为新闻内容通过基本注意力机制所得注意力权重分布;/>是通过隐藏特征表示来计算注意力权重获得;/>和/>是可训练的参数;tanh表示激活函数;/>表示衡量/>对新闻内容的重要性;/>表示为可学习的参数;/>表示为权重矩阵;所得/>注意力权重分布再次经过双向的BiGRU模型来获取深层次新闻内容特征表示,如下式所示:
(9);式中,为浅层次新闻内容特征向量最终通过文本特征编码器所得的深层次新闻内容特征表示;将浅层次用户评论特征向量/>也通过文本特征编码器,得到深层次用户评论特征表示/>;情感特征编码器采用由多头自注意力网络和前馈神经网络组成的标准TransformerEncoder编码层获取深层次的情感特征表示,如下式所示:
(10);式中,为Transformer Encoder编码层的输入,表示为浅层次新闻内容情感嵌入特征向量;/>为位置编码;/>为最终输出得到深层次新闻内容情感特征;同理,将浅层次用户评论情感特征向量/>通过情感特征编码器,得到深层次用户评论情感特征表示/>;得到新闻内容与新闻图像的语义多模态特征、用户评论与新闻图像的语义多模态特征/>的具体过程为:将深层次新闻图像特征表示/>和深层次新闻内容特征表示/>输入到多模态共同注意融合网络中捕捉不同模态之间的相互依赖关系,如下式所示:
(11);
(12);
(13);
(14);
(15);式中,Norm表示归一化操作;FNN表示前馈神经网络; Softmax为归一化指数函数;d为维度大小;为以深层次新闻图像特征表示/>为中心与深层次新闻内容特征表示/>结合的融合特征;/>为以深层次新闻内容特征表示/>为中心与深层次新闻图像特征表示/>结合的融合特征;/>为以融合特征/>为中心多模态表示;/>为以融合特征/>为中心的多模态表示;concat表示串联拼接特征向量;/>为新闻内容和新闻图像的融合语义多模态特征;/>为深层次用户评论特征表示/>和深层次新闻图像特征表示/>的融合语义多模态特征;得到新闻内容和用户评论的语义单模态特征具体过程为:将深层次新闻内容特征表示/>和深层次用户评论特征表示/>输入到单模态共同注意融合网络中捕捉语义之间的相互依赖关系,如下式所示:
(16);
(17);
(18);
(19);
(20);
(21);
(22);
(23);式中,F表示一个关系矩阵来捕获新闻内容和用户评论之间的关系;是一个可学习参数;/>和/>表示新闻内容和用户评论的交互映射;/>和/>是可学习的参数;tanh为激活函数;/>关系矩阵的转置形式;/>和/>表示新闻内容和用户评论中每个句子的注意力权重;/>和/>是可学习的参数;/>和/>表示新生成的新闻内容和用户评论特征向量;/>为深层次新闻内容特征表示的转置向量;/>为深层次用户评论特征表示的转置向量;/>表示把新生成的新闻内容和用户评论进行拼接融合后的语义单模态特征;形成语义多模态新闻特征的具体过程为:将新闻内容和图像融合的语义多模态特征/>、用户评论和图像融合的语义多模态特征/>和新闻内容和用户评论融合的语义单模态特征/>输入到串联拼接层中进行拼接融合,如下式所示:
(24);式中,表示整合/>、/>和/>三种模态特征后的语义多模态新闻特征。