图像处理方法、装置、设备和介质

申请号: CN202410155582.4

申请人: 腾讯科技(深圳)有限公司

更新日期: 2026-03-17

摘要文本

腾讯科技(深圳)有限公司取得“一种透气窗帘布”专利技术，本申请提供了图像处理方法、装置、设备和介质，涉及人工智能技术领域，可以应用于云技术、人工智能、智慧交通、辅助驾驶等场景，方法包括本申请的技术方案获取待分析图像的图像特征、检测框特征和图像文本，图像文本至少包括检测框特征对应的框类别文本；对图像文本进行特征嵌入，得到图文特征；基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析，得到图像分析结果，图像分析结果包括多维度内容标签；该图像处理模型是对初始图像处理模型的特征融合网络和视觉语言生成网络进行分析内容生成的训练得到的，视觉语言生成网络基于大型语言模型构建。本申请能够提升图像处理的建模效率、泛化性和实用性。

专利主权项内容

1.一种图像处理方法，其特征在于，所述方法包括：获取待分析图像的图像特征、检测框特征和图像文本，所述图像文本至少包括所述检测框特征对应的框类别文本，所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别；对所述图像文本进行特征嵌入，得到图文特征；基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析，得到图像分析结果，所述图像分析结果包括多维度内容标签，所述多维度内容标签用于指示所述待分析图像的多维内容类别；所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签，结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的，所述视觉语言生成网络基于预训练大型语言模型构建。

专利申请信息

项目	内容
专利名称	图像处理方法、装置、设备和介质
专利类型	发明申请
申请号	CN202410155582.4
申请日	2024/2/4
公告号	CN117711001A
公开日	2024/3/15
IPC主分类号	G06V30/412
权利人	腾讯科技(深圳)有限公司
发明人	刘刚
地址	广东省深圳市南山区高新区科技中一路腾讯大厦35层

图像处理方法、装置、设备和介质

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

图像处理方法、装置、设备和介质

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

帧率控制方法、装置、计算机设备及存储介质

一种弱监督的3D场景图生成方法、装置、设备及介质

一种多功能智能调光控制电路

调试电路、调试电路的控制方法及射频功率检测电路

数据处理方法、装置、设备及可读存储介质

命令审计方法、系统及存储介质

热门技术领域

快速入口

专利技术资料