图像文本分类的方法及装置
申请人信息
- 申请人:深圳须弥云图空间科技有限公司
- 申请人地址:518054 广东省深圳市南山区粤海街道海珠社区滨海大道3369号有线信息传输大厦25F2504
- 发明人: 深圳须弥云图空间科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 图像文本分类的方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311765808.4 |
| 申请日 | 2023/12/21 |
| 公告号 | CN117435739B |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 深圳须弥云图空间科技有限公司 |
| 发明人 | 石雅洁 |
| 地址 | 广东省深圳市南山区粤海街道海珠社区滨海大道3369号有线信息传输大厦25F2504 |
摘要文本
深圳须弥云图空间科技有限公司取得“一种透气窗帘布”专利技术,本公开涉及计算机视觉与自然语言处理技术领域,提供了一种图像文本分类的方法及装置。该方法包括:根据待识别文本和待识别图像进行对比学习,获取相似度特征向量;对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、待识别文本的第一特征向量进行融合处理,得到第一图文融合特征向量;分别利用注意力机制得到第一表示特征向量、第二表示特征向量、第三表示特征向量;将表示特征向量进行融合处理,得到第二图文融合特征向量;最后基于第二图文融合特征向量对待识别文本图像进行分类,得到待识别图像与文本的分类结果。解决了现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题,提高了文本分类结果的准确度。 关注公众号专利查询网
专利主权项内容
1.一种图像文本分类的方法,其特征在于,包括:根据待识别文本和待识别图像进行对比学习,获取所述待识别文本与所述待识别图像之间的相似度特征向量;对所述待识别文本与所述待识别图像之间的相似度特征向量、所述待识别图像的第一特征向量、以及所述待识别文本的第一特征向量进行融合处理,得到第一图文融合特征向量;对所述第一图文融合特征向量进行编码处理和注意力处理,得到第一表示特征向量;对所述待识别文本的第一特征向量和所述待识别图像对应的文本特征向量进行注意力处理,得到第二表示特征向量;对所述待识别图像的第一特征向量和所述待识别文本对应的图像特征向量进行注意力处理,得到第三表示特征向量;对所述第一表示特征向量、所述第二表示特征向量、所述第三表示特征向量进行融合处理,得到第二图文融合特征向量;基于所述第二图文融合特征向量对所述待识别文本进行分类,得到所述待识别文本的分类结果,所述分类结果用于指代所述待识别文本的对象的类别结果;所述对所述待识别文本的第一特征向量和所述待识别图像对应的文本特征向量进行注意力处理,得到第二表示特征向量,包括:通过文本解码器对所述待识别图像的第一特征向量进行解码处理,得到所述待识别图像对应的文本特征向量;将所述待识别文本的第一特征向量作为键向量与值向量将所述待识别图像对应的文本特征向量作为查询向量进行交叉注意力处理,得到所述第二表示特征向量;所述对所述待识别图像的第一特征向量和所述待识别文本对应的图像特征向量进行注意力处理,得到第三表示特征向量,包括:通过图像解码器对所述待识别文本的第一特征向量进行解码处理,得到所述待识别文本对应的图像特征向量;将所述待识别图像的第一特征向量作为键向量与值向量将所述待识别文本对应的图像特征向量作为查询向量进行交叉注意力处理,得到所述第三表示特征向量。