一种基于多模态预训练模型的视觉实体链接方法

申请号: CN202410148671.6

申请人: 南京邮电大学

更新日期: 2026-03-17

摘要文本

南京邮电大学取得“一种透气窗帘布”专利技术，本发明属于视觉实体链接技术领域，公开了一种基于多模态预训练模型的视觉实体链接方法，选择视觉实体链接的多模态多粒度数据集，利用多模态预训练模型启发式的生成候选实体，再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息，提高视觉实体链接的准确性和鲁棒性。

专利主权项内容

1.一种基于多模态预训练模型的视觉实体链接方法，其特征在于，包括以下步骤：步骤1、选择视觉实体链接的多模态多粒度数据集；步骤2、在所述多模态多粒度数据集上，构建多模态大模型；所述多模态大模型包括主干模型M和分类头模型M；所述主干模型M融合多模态输入，得到融合特征z；所述分类头模型M将融合特征z投影到实体词汇表的预测向量y上；bhbh步骤3、采用启发式方法，利用分类头模型M生成测试数据的候选实体；h步骤4、利用主干模型M进行实体关联，生成测试数据的多个实体关联的示例；b步骤5、根据提示模板要求，将提示头、上下文信息和测试数据填入提示模板中形成提示；步骤6、将所述提示输入到多模态模型中，生成启发式的预测实体；步骤7、基于BM25算法，匹配与预测实体最相近的多个知识库实体；步骤8、对最后链接的实体进行准确率计算，比较知识库实体与真实实体的一致性。

专利申请信息

项目	内容
专利名称	一种基于多模态预训练模型的视觉实体链接方法
专利类型	发明申请
申请号	CN202410148671.6
申请日	2024/2/2
公告号	CN117689963A
公开日	2024/3/12
IPC主分类号	G06V10/764
权利人	南京邮电大学
发明人	董振江; 冯翊帆; 亓晋; 徐康; 陈滏媛; 孙雁飞
地址	江苏省南京市鼓楼区新模范马路66号

一种基于多模态预训练模型的视觉实体链接方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于多模态预训练模型的视觉实体链接方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种面向热点话题的基于自监督表示学习的观点挖掘方法

一种用于测试大尺寸图像传感器组件的光学系统

一种纳米铁强化磺胺废水厌氧消化的方法

一种噻唑烷二酮类HDAC抑制剂、制备方法及应用

一种提高二维电子海图显示效率的方法

一种基于物联网的触摸式旋钮屏管控系统及方法

热门技术领域

快速入口

专利技术资料