← 返回列表

图像处理方法、装置、设备和介质

申请号: CN202410155582.4
申请人: 腾讯科技(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 图像处理方法、装置、设备和介质
专利类型 发明申请
申请号 CN202410155582.4
申请日 2024/2/4
公告号 CN117711001A
公开日 2024/3/15
IPC主分类号 G06V30/412
权利人 腾讯科技(深圳)有限公司
发明人 刘刚
地址 广东省深圳市南山区高新区科技中一路腾讯大厦35层

摘要文本

本申请提供了图像处理方法、装置、设备和介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等场景,方法包括本申请的技术方案获取待分析图像的图像特征、检测框特征和图像文本,图像文本至少包括检测框特征对应的框类别文本;对图像文本进行特征嵌入,得到图文特征;基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,图像分析结果包括多维度内容标签;该图像处理模型是对初始图像处理模型的特征融合网络和视觉语言生成网络进行分析内容生成的训练得到的,视觉语言生成网络基于大型语言模型构建。本申请能够提升图像处理的建模效率、泛化性和实用性。

专利主权项内容

1.一种图像处理方法,其特征在于,所述方法包括:获取待分析图像的图像特征、检测框特征和图像文本,所述图像文本至少包括所述检测框特征对应的框类别文本,所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别;对所述图像文本进行特征嵌入,得到图文特征;基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果,所述图像分析结果包括多维度内容标签,所述多维度内容标签用于指示所述待分析图像的多维内容类别;所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,所述视觉语言生成网络基于预训练大型语言模型构建。