基于三路视频流和上下文感知的视频异常检测方法及系统
申请人信息
- 申请人:山东建筑大学; 山东国子软件股份有限公司
- 申请人地址:250000 山东省济南市历城区凤鸣路1000号
- 发明人: 山东建筑大学; 山东国子软件股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于三路视频流和上下文感知的视频异常检测方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311686387.6 |
| 申请日 | 2023/12/11 |
| 公告号 | CN117409354B |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06V20/40 |
| 权利人 | 山东建筑大学; 山东国子软件股份有限公司 |
| 发明人 | 王少华; 史洋; 刘兴波; 庞瑞英; 聂秀山; 尹义龙 |
| 地址 | 山东省济南市历城区凤鸣路1000号; 山东省济南市高新技术产业开发区齐鲁文化创意基地5号楼4单元 |
摘要文本
本发明公开了一种基于三路视频流和上下文感知的视频异常检测方法及系统,涉及视频异常检测技术领域,该方法包括:获取包含多个连续视频帧的视频数据;提取视频数据中每一连续视频帧的视频帧特征,包括RGB视频流视频帧特征、光流视频流视频帧特征、跨模态视频帧特征;将多个连续视频帧的视频帧特征构成特征向量序列,将该序列输入至视频异常检测模型,该序列先进行位置编码得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一帧预测特征向量,根据预测特征向量和实际特征向量进行判断,输出视频异常检测结果。本发明通过少量样本进行训练,实现针对不同场景视频的高精度异常检测。
专利主权项内容
1.一种基于三路视频流和上下文感知的视频异常检测方法,其特征是,包括:获取包含多个连续视频帧的视频数据;基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果;所述视频异常检测模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>;Transformer网络的编码器/>包括3层,每层中均包含多头自注意力层、线性层、多层感知机和线性层;Transformer网络的解码器包括3层,每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机;所述通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,包括:多个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器中,依次重复进行三次相同的操作,最终输出特征/>;Transformer网络的编码器最后一层输出的特征输入至Transformer网络的解码器的每一层中,Transformer网络的编码器最后一层输出的特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层,第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层,第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层,第三层的输出作为Transformer网络的解码器的输出;Transformer网络的解码器的输出通过可学习线性层,输出序列最后帧的下一视频帧的预测特征向量;获取输入的连续视频帧序列下一视频帧的预测特征向量后,以预测特征向量和相应的实际特征向量/>之间的均方误差构建损失函数,为:;其中,/>,表示特征的层数,表示连续视频帧的大小。j