← 返回列表

一种基于多模态预训练模型的视觉实体链接方法

申请号: CN202410148671.6
申请人: 南京邮电大学
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种基于多模态预训练模型的视觉实体链接方法
专利类型 发明申请
申请号 CN202410148671.6
申请日 2024/2/2
公告号 CN117689963A
公开日 2024/3/12
IPC主分类号 G06V10/764
权利人 南京邮电大学
发明人 董振江; 冯翊帆; 亓晋; 徐康; 陈滏媛; 孙雁飞
地址 江苏省南京市鼓楼区新模范马路66号

摘要文本

本发明属于视觉实体链接技术领域,公开了一种基于多模态预训练模型的视觉实体链接方法,选择视觉实体链接的多模态多粒度数据集,利用多模态预训练模型启发式的生成候选实体,再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息,提高视觉实体链接的准确性和鲁棒性。

专利主权项内容

1.一种基于多模态预训练模型的视觉实体链接方法,其特征在于,包括以下步骤:步骤1、选择视觉实体链接的多模态多粒度数据集;步骤2、在所述多模态多粒度数据集上,构建多模态大模型;所述多模态大模型包括主干模型M和分类头模型M;所述主干模型M融合多模态输入,得到融合特征z;所述分类头模型M将融合特征z投影到实体词汇表的预测向量y上;bhbh步骤3、采用启发式方法,利用分类头模型M生成测试数据的候选实体;h步骤4、利用主干模型M进行实体关联,生成测试数据的多个实体关联的示例;b步骤5、根据提示模板要求,将提示头、上下文信息和测试数据填入提示模板中形成提示;步骤6、将所述提示输入到多模态模型中,生成启发式的预测实体;步骤7、基于BM25算法,匹配与预测实体最相近的多个知识库实体;步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性。