← 返回列表

一种视频分类方法、装置、设备和计算机可读存储介质

申请号: CN202311296302.3
申请人: 苏州元脑智能科技有限公司
申请日期: 2023/10/9

摘要文本

本发明涉及多模态数据分析技术领域,公开了一种视频分类方法、装置、设备和计算机可读存储介质,按照设定的单模态数据处理规则,从视频样本中提取出每种模态对应的单模态序列化数据;利用单模态编码器对各单模态序列化数据进行相关性分析,以得到每种模态对应的编码特征。利用多模态编码融合器对所有模态对应的编码特征进行交叉分析,以得到融合了共性特征和个性特征的多模态融合特征;基于单模态序列化数据以及多模态融合特征解码得到的重构特征,对视频分类模型进行训练以得到预训练好的视频分类模型;利用预训练好的视频分类模型对获取的待分类视频进行分析,以确定出待分类视频所属的类别,提高了视频分类的准确度。

专利详细信息

项目 内容
专利名称 一种视频分类方法、装置、设备和计算机可读存储介质
专利类型 发明授权
申请号 CN202311296302.3
申请日 2023/10/9
公告号 CN117036833B
公开日 2024/2/9
IPC主分类号 G06V10/764
权利人 苏州元脑智能科技有限公司
发明人 胡克坤; 董刚; 曹其春; 杨宏斌
地址 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢

专利主权项内容

1.一种视频分类方法,其特征在于,包括:按照设定的单模态数据处理规则,从视频样本中提取出每种模态对应的单模态序列化数据;利用单模态编码器对各所述单模态序列化数据进行相关性分析,以得到每种模态对应的编码特征;利用多模态编码融合器对所有模态对应的编码特征进行交叉分析,以得到融合了共性特征和个性特征的多模态融合特征;基于所述单模态序列化数据以及所述多模态融合特征解码得到的重构特征,对视频分类模型进行训练以得到预训练好的视频分类模型;利用所述预训练好的视频分类模型对获取的待分类视频进行分析,以确定出所述待分类视频所属的类别;所述利用多模态编码融合器对所有模态对应的编码特征进行交叉分析,以得到融合了共性特征和个性特征的多模态融合特征包括:选取任意一种模态的编码特征作为主模态数据,剩余模态的编码特征作为辅模态数据;基于所述主模态数据和所述辅模态数据构建多模态输入参数;其中,所述多模态编码融合器包括与模态种类匹配的协同编码器,每种主模态有其对应的一个协同编码器,各所述协同编码器包括主协同编码器和辅协同编码器;主协同编码器和辅协同编码器有其各自对应的多模态输入参数;对所述多模态输入参数进行相关性分析,以得到共性特征;对所述多模态输入参数进行差异性分析,以得到个性特征;将所述共性特征和所述个性特征进行融合,以得到多模态融合特征。。