← 返回列表
图像处理方法和装置、存储介质及电子设备
申请人信息
- 申请人:腾讯科技(深圳)有限公司
- 申请人地址:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 发明人: 腾讯科技(深圳)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 图像处理方法和装置、存储介质及电子设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410029993.9 |
| 申请日 | 2024/1/9 |
| 公告号 | CN117540221A |
| 公开日 | 2024/2/9 |
| IPC主分类号 | G06F18/22 |
| 权利人 | 腾讯科技(深圳)有限公司 |
| 发明人 | 辛毅; 杜俊珑; 鄢科 |
| 地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦35层 |
摘要文本
本申请公开了一种图像处理方法和装置、存储介质及电子设备。其中,该方法包括:获取目标图像和一组文本信息,将目标图像和一组文本信息输入预训练的目标多模态匹配模型,得到目标图像表征向量和一组文本表征向量,目标多模态匹配模型使用的文本提示信息和图像提示信息由源提示信息通过计算得到,再通过计算目标图像表征向量与各个文本表征向量之间的相似度,将满足预设相似度条件的文本表征向量指示的目标内容类别确定为目标图像的内容类别。本申请解决了使用多模态匹配模型进行图像处理的效率较低的技术问题。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
专利主权项内容
1.一种图像处理方法,其特征在于,包括:获取目标图像和预先确定的一组文本信息,其中,所述一组文本信息中的一个文本信息用于表征预设内容类别集合中的一个内容类别;将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型,得到目标图像表征向量和一组文本表征向量,其中,所述目标多模态匹配模型包括文本编码器、图像编码器、文本提示信息以及图像提示信息,所述文本提示信息和所述图像提示信息由源提示信息通过计算得到,所述图像提示信息用于和所述目标图像共同输入所述图像编码器,得到所述目标图像表征向量,所述文本提示信息用于和所述一组文本信息共同输入所述文本编码器,得到所述一组文本表征向量;通过所述目标多模态匹配模型确定所述目标图像表征向量与所述一组文本表征向量中各个文本表征向量之间的相似度,并将所述相似度满足预设相似度条件的文本表征向量所指示的目标内容类别确定为所述目标图像表征向量对应的内容类别。 马 克 数 据 网