← 返回列表

基于视觉听觉融合的家用机器人控制系统及其方法

申请号: CN202410073810.3
申请人: 浙江孚宝智能科技有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 基于视觉听觉融合的家用机器人控制系统及其方法
专利类型 发明申请
申请号 CN202410073810.3
申请日 2024/1/18
公告号 CN117718969A
公开日 2024/3/19
IPC主分类号 B25J9/16
权利人 浙江孚宝智能科技有限公司
发明人 贾国强; 程巧; 杭大明; 施洪锐
地址 浙江省杭州市临平区经济技术开发区天荷路42号6幢7层

摘要文本

本申请公开了一种基于视觉听觉融合的家用机器人控制系统及其方法,其通过利用机器人的摄像头和录音设备采集用户控制指令的手势监控视频和语音信号,并在后端引入数据处理和分析算法来实现对用户手势动作的识别和语音语义的理解,使机器人能够理解和响应用户的自然语言指令和手势动作,提高机器人的智能性和友好性。这样,能够实现基于对用户控制指令的视频?语音多模态识别来进行家用机器人的行为控制,通过视觉听觉融合技术可以提供更全面的指令感知能力,使机器人能够适应不同的环境和用户需求,提高机器人的灵活性和鲁棒性,并提高机器人的性能和效率。

专利主权项内容

1.一种基于视觉听觉融合的家用机器人控制方法,其特征在于,包括:由家用机器人的摄像头采集用户控制指令的手势监控视频;由所述家用机器人的录音设备采集用户在施加控制指令时的语音提示;对所述语音提示进行语音识别以得到语音提示文本;对所述手势监控视频进行离散采样以得到手势监控关键帧的序列;通过基于深度神经网络模型的手势特征提取器分别对所述手势监控关键帧的序列进行特征提取以得到手势语义特征向量的序列;对所述语音提示文本进行语义编码以得到语音提示词特征向量的序列;对所述手势语义特征向量的序列和所述语音提示词特征向量的序列进行语义交互筛选融合分析以得到视频-语音多模态融合特征;以及基于所述视频-语音多模态融合特征,确定家用机器人的行为策略标签。