← 返回列表

模型训练方法、关键帧抽取方法及装置

申请号: CN202410169860.1
申请人: 腾讯科技(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 模型训练方法、关键帧抽取方法及装置
专利类型 发明申请
申请号 CN202410169860.1
申请日 2024/2/6
公告号 CN117710777A
公开日 2024/3/15
IPC主分类号 G06V10/774
权利人 腾讯科技(深圳)有限公司
发明人 何俊烽
地址 广东省深圳市南山区高新区科技中一路腾讯大厦35层

摘要文本

本公开实施例提供了一种模型训练方法、关键帧抽取方法及装置,涉及人工智能、机器学习、视频处理等领域。该方法包括:获取视频样本中的多个样本候选关键帧;基于多个样本候选关键帧对初始关键帧抽取模型和至少一个初始视频理解模型进行至少一次训练操作,直至满足预设训练结束条件,将满足预设训练结束条件的初始关键帧抽取模型作为训练好的关键帧抽取模型。本公开实施例实现了抽取到的样本关键帧可以更好地代表视频样本的特点,进而保证了训练好的关键帧抽取模型能够准确地从视频中抽取出具有代表性的关键帧,提高了抽取出的关键帧的准确性。

专利主权项内容

1.一种模型训练方法,其特征在于,包括:获取视频样本中的多个样本候选关键帧;基于所述多个样本候选关键帧对初始关键帧抽取模型和至少一个初始视频理解模型进行至少一次训练操作,直至满足预设训练结束条件,将满足所述预设训练结束条件的初始关键帧抽取模型作为训练好的关键帧抽取模型;其中,所述训练操作包括:将所述多个样本候选关键帧输入至初始关键帧抽取模型,确定各个样本候选关键帧的评价数值向量;所述评价数值向量中的各个评价数值分别用于表示各个样本候选关键帧分别与所述视频样本的关联程度;基于所述评价数值向量,从所述多个样本候选关键帧中确定至少一个样本关键帧;将所述至少一个样本关键帧分别输入至至少一个初始视频理解模型,得到所述至少一个初始视频理解模型分别输出的针对所述视频样本的视频预测标签;针对每个初始视频理解模型,基于所述视频样本对应的视频样本标签和视频预测标签,确定所述初始视频理解模型对应的第一损失函数;基于各个初始视频理解模型分别对应的第一损失函数,确定第二损失函数;基于所述第二损失函数对所述初始关键帧抽取模型的参数和所述至少一个初始视频理解模型的参数进行调整,将调整参数后的初始关键帧抽取模型作为下一次训练操作对应的初始关键帧抽取模型,将调整参数后的至少一个初始视频理解模型作为下一次训练操作对应的至少一个初始视频理解模型。