← 返回列表

视频语义特征和可扩展粒度感知时序动作检测方法及装置

申请号: CN202311308053.5
申请人: 齐鲁工业大学(山东省科学院); 山东省人工智能研究院
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 视频语义特征和可扩展粒度感知时序动作检测方法及装置
专利类型 发明授权
申请号 CN202311308053.5
申请日 2023/10/11
公告号 CN117058595B
公开日 2024/2/13
IPC主分类号 G06V20/40
权利人 齐鲁工业大学(山东省科学院); 山东省人工智能研究院
发明人 高赞; 宋虎远; 马春杰; 赵一博
地址 山东省济南市经十东路28789号; 山东省济南市科院路19号

摘要文本

本发明涉及计算机领域,尤其涉及一种视频语义特征和可扩展粒度感知时序动作检测方法及装置,包括以下步骤:视频特征提取;序列到序列的视频语义特征提取;与可扩展粒度感知特征融合,特征融合包括将来自语义流Video2sequence模块的输出和来自视频流可扩展粒度感知特征金字塔的输出进行拼接;将来自语义流视讯序列Video2sequence模块的输出和来自视频流可扩展粒度感知融合后的特征送入基于Trident‑Head的分类处理。充分利用了视频分类和视频字幕video2caption任务在特征提取层的相似性,并直接利用预先提取的低级特征。

专利主权项内容

1.一种基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,包括以下步骤:1)视频特征提取;将待检测的动作视频,通过预训练的I3D网络对整个视频进行特征提取,获得整个视频的时空特征序列,每个视频会以特征序列来表示;2)序列到序列的视频语义特征提取;201.将步骤1)中的时空特征序列进行序列特征提取归一化操作作为视讯序列Video2sequence和视频语义特征提取模块的输入;202.Video2sequence和视频语义特征提取模块利用预训练的BERT作为编码器得到视频特征标记,BERT是来自变换器的双向编码器表征量,通过多模态转换编码器将视频的时空特征序列转换为视频语义特征序列;203.将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为Video2sequence和视频语义特征提取模块的语义流输出;3)可扩展粒度感知特征金字塔特征提取;301.将步骤1)中的时空特征序列作为可扩展粒度感知特征金字塔模块的输入;302.可扩展粒度感知特征金字塔模块利用实例级Instant-level分支增加时序特征的可区分性和窗口级Window-level分支使网络自适应的抽取不同尺度的特征得到视频流输出;可扩展粒度感知特征金字塔特征提取的具体过程是:将视频的时空特征序列通过Instant-level分支和Window-level分支进行特征提取;其中Instant-level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性;Instant-level分支通过全连接层获取的动作和非动作时刻级特征FC(x)与视频级平均特征进行element-wise相乘,视频级平均特征表示为:φ(x)=ReLU(FC(AvgPool(x)));其中,FC表示全连接层,AvgPool(x)是时间维度上所有特征的平均池化,ReLU表示ReLU函数;Window-level分支的目的是通过分支ψ从更广泛的感受野中引入语义内容,其分支ψ有助于动态地聚焦于不同尺度的特征;Window-level分支通过一个卷积尺寸为w的Conv和卷积尺寸为k·w的Conv来提取特征,利用分支ψ对以上两个卷积的求和结果进行element-wise相乘操作,其中分支ψ表示为:wkwψ(x)=Conv(x);w其中Conv表示卷积尺寸为的w时间维度的1D深度卷积;w将Instant-level分支得到的动作和非动作时刻级特征FC(x)与视频级平均特征的相乘结果与Window-level分支得到的分支ψ和两个卷积求和的相乘结果以及时空特征序列相加求和得到视频流可扩展粒度感知特征,表示为:f=φ(x)FC(x)+ψ(x)(Conv(x)+Conv(x))+x;SGPwkw其中,FC和Conv分别表示全连接层和窗口大小w为的时间维度的1D深度卷积,k表示可缩放因子,旨在捕获更大粒度的时间信息;w4)视频语义特征与可扩展粒度感知特征融合;401.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列;402.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行融合后送入基于三头Trident-Head的检测头,获得最终的分类结果和定位偏移。。来自:马 克 团 队