← 返回列表
视频图像的编码方法、物品检索方法、电子设备、介质
申请人信息
- 申请人:羚客(杭州)网络技术有限公司
- 申请人地址:310000 浙江省杭州市滨江区长河街道滨兴路1866号1号楼406室
- 发明人: 羚客(杭州)网络技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 视频图像的编码方法、物品检索方法、电子设备、介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410094709.6 |
| 申请日 | 2024/1/24 |
| 公告号 | CN117640947A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | H04N19/172 |
| 权利人 | 羚客(杭州)网络技术有限公司 |
| 发明人 | 严磊; 王芳 |
| 地址 | 浙江省杭州市滨江区长河街道滨兴路1866号1号楼406室 |
摘要文本
本发明公开一种视频图像的编码方法,其中,所述编码方法包括:获取视频源文件;利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式:;将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征。本发明还提供一种物品检索方法、一种电子设备和一种计算机可读介质。
专利主权项内容
1.一种视频图像的编码方法,其特征在于,所述编码方法包括:获取视频源文件;利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式(1)表示;将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征;
(1)其中,y为第t帧图像中第s个token的自注意力层的输出;s, t
表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵堆叠后的矩阵,n≥1;
表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。 数据由马 克 团 队整理