基于视觉语言模型的三维人体行为识别网络训练方法

申请号: CN202410059351.3

申请人: 北京大学深圳研究生院

更新日期: 2026-03-17

摘要文本

北京大学深圳研究生院取得“一种透气窗帘布”专利技术，本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法，方法包括将点云视频输入四维点云编码器确定点云特征嵌入；将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入；基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项，基于点云特征嵌入确定第一分类损失项，基于视频特征嵌入确定第二分类损失项；基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐，来从大规模图像－文本对的训练中学习共享的视觉和文本空间，提高了三维人体行为识别网络的模型性能。

专利主权项内容

1.一种基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述的基于视觉语言模型的三维人体行为识别网络训练方法具体包括：获取训练样本集，其中，所述训练样本集包括若干训练数据，每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频；将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器，通过所述四维点云编码器确定点云特征嵌入；将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型，通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入；基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项，基于训练数据对应的点云特征嵌入确定第一分类损失项，以及基于训练数据对应的视频特征嵌入确定第二分类损失项；基于所述对齐损失项、所述第一分类损失项和所述第二分类损失项对所述初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。更多数据：搜索马克数据网来源：

专利申请信息

项目	内容
专利名称	基于视觉语言模型的三维人体行为识别网络训练方法
专利类型	发明申请
申请号	CN202410059351.3
申请日	2024/1/16
公告号	CN117576786A
公开日	2024/2/20
IPC主分类号	G06V40/20
权利人	北京大学深圳研究生院
发明人	刘梦源; 邓智超; 刘洋; 丁润伟; 孟凡阳
地址	广东省深圳市南山区西丽街道深圳大学城北大园区H栋208室

基于视觉语言模型的三维人体行为识别网络训练方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

基于视觉语言模型的三维人体行为识别网络训练方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种数据湖的数据表存储和查询效率优化系统及方法

一种低共熔溶剂、微脂囊及其制备方法与应用

一种基于AI大模型内容安全质检处理方法

一种云台工作模式切换方法、装置、设备及存储介质

一种供水管网末梢水质浊度预测方法及相关设备

电磁玻璃的设计方法、装置、设备及存储介质

热门技术领域

快速入口

专利技术资料