← 返回列表
多模态检索方法、装置以及存储介质
摘要文本
本申请公开了一种多模态检索方法、装置以及存储介质。方法包括:确定作为检索输入信息的图像信息和文本信息;利用预先设置的第一编码模块对文本信息进行编码,确定与文本信息对应的属于文本特征空间的第一文本特征;利用预先设置的第一迁移模块对第一文本特征进行迁移,确定相应的属于图像特征空间的第二文本特征,并将第一文本特征和第二文本特征进行合并,生成第三文本特征;对图像信息进行编码,生成与图像信息对应的图像特征;将第三文本特征与图像特征进行合并,生成图文合并特征;以及基于图文合并特征进行检索,获取与图像信息和文本信息对应的检索结果。
申请人信息
- 申请人:泰德网聚(北京)科技股份有限公司
- 申请人地址:100124 北京市顺义区仁和镇林河南大街9号院9号楼3层363室
- 发明人: 泰德网聚(北京)科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 多模态检索方法、装置以及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410072616.3 |
| 申请日 | 2024/1/18 |
| 公告号 | CN117763174A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/48 |
| 权利人 | 泰德网聚(北京)科技股份有限公司 |
| 发明人 | 李鲲; 李永海 |
| 地址 | 北京市顺义区仁和镇林河南大街9号院9号楼3层363室 |
专利主权项内容
1.一种多模态检索方法,其特征在于,包括:确定作为检索输入信息的图像信息和文本信息;利用预先设置的第一编码模块对所述文本信息进行编码,确定与所述文本信息对应的属于文本特征空间的第一文本特征;利用预先设置的第一迁移模块对所述第一文本特征进行迁移,确定相应的属于图像特征空间的第二文本特征,并将所述第一文本特征和所述第二文本特征进行合并,生成第三文本特征;对所述图像信息进行编码,生成与所述图像信息对应的图像特征;将所述第三文本特征与所述图像特征进行合并,生成图文合并特征;以及基于所述图文合并特征进行检索,获取与所述图像信息和所述文本信息对应的检索结果。