大模型结合双路记忆的多模态有害社交媒体内容识别方法
摘要文本
本发明涉及社交媒体内容识别技术领域,公开了一种大模型结合双路记忆的多模态有害社交媒体内容识别方法,包括以下步骤:利用图像编码器提取图像的图像特征;利用文本嵌入模块,提取文本的文本特征;应用双通道记忆模块对图像特征以及文本特征建模,得到图像向量以及文本向量;利用大模型进行标签预测:图像向量以及文本向量输入到大模型中,生成标签。本发明通过双通道记忆模块,可以根据视觉特征为不同的记忆向量计算权重,这种权重分配使得模型能够更加准确地对信息进行对齐和融合。此外,视觉通道与文本通道采用相同的程序处理,确保了两种信息来源被平等且有效地考虑。
申请人信息
- 申请人:中国科学技术大学
- 申请人地址:230026 安徽省合肥市包河区金寨路96号
- 发明人: 中国科学技术大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311339502.2 |
| 申请日 | 2023/10/17 |
| 公告号 | CN117077085B |
| 公开日 | 2024/2/9 |
| IPC主分类号 | G06F18/25 |
| 权利人 | 中国科学技术大学 |
| 发明人 | 宋彦; 张勇东; 田元贺 |
| 地址 | 安徽省合肥市包河区金寨路96号 |
专利主权项内容
1.一种大模型结合双路记忆的多模态有害社交媒体内容识别方法,输入给定的图像和文本/>,输出用于判断多模态输入是否有害的标签/>,具体包括:步骤一:利用图像编码器提取图像的图像特征/>;步骤二:利用文本嵌入模块,提取文本的文本特征/>;步骤三:应用双通道记忆模块对图像特征以及文本特征/>建模,分别得到图像向量/>以及文本向量/>;其中,双通道记忆模块包括N个记忆向量,以及视觉通道和文本通道;视觉通道和文本通道分别编码图像特征和文本特征;记忆向量是双通道记忆模块的参数,表示记忆语义空间,记为/>,/>为第/>个记忆向量;视觉通道编码图像特征的过程,包括以下步骤:S31:计算基于图像特征的不同记忆向量的权重,得到第/>个记忆向量/>的视觉权重分数/>:
;S32:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的图像特征/>;S33:串联对齐后的图像特征和图像特征/>,得到视觉通道输出的图像向量/>;文本通道编码文本特征的过程,包括以下步骤:S34:计算基于文本特征的不同记忆向量的权重,得到第/>个记忆向量/>的文本权重分数/>:
;其中,是一个可训练的参数矩阵;S35:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的文本特征/>;S36:串联对齐后的文本特征和文本特征/>,得到文本通道输出的文本向量/>;步骤四,利用大模型进行标签预测:将图像向量以及文本向量/>输入到大模型中,生成标签/>。