← 返回列表

基于视觉语言模型的三维人体行为识别网络训练方法

申请号: CN202410059351.3
申请人: 北京大学深圳研究生院
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 基于视觉语言模型的三维人体行为识别网络训练方法
专利类型 发明申请
申请号 CN202410059351.3
申请日 2024/1/16
公告号 CN117576786A
公开日 2024/2/20
IPC主分类号 G06V40/20
权利人 北京大学深圳研究生院
发明人 刘梦源; 邓智超; 刘洋; 丁润伟; 孟凡阳
地址 广东省深圳市南山区西丽街道深圳大学城北大园区H栋208室

摘要文本

本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。

专利主权项内容

1.一种基于视觉语言模型的三维人体行为识别网络训练方法,其特征在于,所述的基于视觉语言模型的三维人体行为识别网络训练方法具体包括:获取训练样本集,其中,所述训练样本集包括若干训练数据,每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频;将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器,通过所述四维点云编码器确定点云特征嵌入;将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型,通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入;基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项,基于训练数据对应的点云特征嵌入确定第一分类损失项,以及基于训练数据对应的视频特征嵌入确定第二分类损失项;基于所述对齐损失项、所述第一分类损失项和所述第二分类损失项对所述初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。 更多数据:搜索马克数据网来源: