← 返回列表
一种基于多模态预训练模型的视觉实体链接方法
申请人信息
- 申请人:南京邮电大学
- 申请人地址:210023 江苏省南京市栖霞区亚东新城文苑路9号
- 发明人: 南京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于多模态预训练模型的视觉实体链接方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410148671.6 |
| 申请日 | 2024/2/2 |
| 公告号 | CN117689963A |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06V10/764 |
| 权利人 | 南京邮电大学 |
| 发明人 | 董振江; 冯翊帆; 亓晋; 徐康; 陈滏媛; 孙雁飞 |
| 地址 | 江苏省南京市鼓楼区新模范马路66号 |
摘要文本
本发明属于视觉实体链接技术领域,公开了一种基于多模态预训练模型的视觉实体链接方法,选择视觉实体链接的多模态多粒度数据集,利用多模态预训练模型启发式的生成候选实体,再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息,提高视觉实体链接的准确性和鲁棒性。
专利主权项内容
1.一种基于多模态预训练模型的视觉实体链接方法,其特征在于,包括以下步骤:步骤1、选择视觉实体链接的多模态多粒度数据集;步骤2、在所述多模态多粒度数据集上,构建多模态大模型;所述多模态大模型包括主干模型M和分类头模型M;所述主干模型M融合多模态输入,得到融合特征z;所述分类头模型M将融合特征z投影到实体词汇表的预测向量y上;bhbh步骤3、采用启发式方法,利用分类头模型M生成测试数据的候选实体;h步骤4、利用主干模型M进行实体关联,生成测试数据的多个实体关联的示例;b步骤5、根据提示模板要求,将提示头、上下文信息和测试数据填入提示模板中形成提示;步骤6、将所述提示输入到多模态模型中,生成启发式的预测实体;步骤7、基于BM25算法,匹配与预测实体最相近的多个知识库实体;步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性。