← 返回列表

视频图像的编码方法、物品检索方法、电子设备、介质

申请号: CN202410094709.6
申请人: 羚客(杭州)网络技术有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 视频图像的编码方法、物品检索方法、电子设备、介质
专利类型 发明申请
申请号 CN202410094709.6
申请日 2024/1/24
公告号 CN117640947A
公开日 2024/3/1
IPC主分类号 H04N19/172
权利人 羚客(杭州)网络技术有限公司
发明人 严磊; 王芳
地址 浙江省杭州市滨江区长河街道滨兴路1866号1号楼406室

摘要文本

本发明公开一种视频图像的编码方法,其中,所述编码方法包括:获取视频源文件;利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式:;将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征。本发明还提供一种物品检索方法、一种电子设备和一种计算机可读介质。

专利主权项内容

1.一种视频图像的编码方法,其特征在于,所述编码方法包括:获取视频源文件;利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式(1)表示;将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征;
(1)其中,y为第t帧图像中第s个token的自注意力层的输出;s, t
表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵堆叠后的矩阵,n≥1;
表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。 数据由马 克 团 队整理