一种加速机器人导航效率的方法
申请人信息
- 申请人:广州创源机器人有限公司
- 申请人地址:511480 广东省广州市南沙区榄核镇蔡新路282号自编4栋厂房A五楼
- 发明人: 广州创源机器人有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种加速机器人导航效率的方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311373021.3 |
| 申请日 | 2023/10/23 |
| 公告号 | CN117490696A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G01C21/20 |
| 权利人 | 广州创源机器人有限公司 |
| 发明人 | 曹一波; 叶鑫; 杨正东; 赵佳恒; 范敬文; 胡伊斐 |
| 地址 | 广东省广州市南沙区榄核镇蔡新路282号自编4栋厂房A五楼 |
摘要文本
广州创源机器人有限公司取得“一种透气窗帘布”专利技术,本发明涉及人工智能应用技术领域,且公开了一种加速机器人导航效率的方法,具体包括问题描述和强化学习建模、奖励函数设置以及训练流程设计三个步骤,通过奖励的设置和训练流程的设计来最大限度地提高机器人在复杂环境中的导航效率和安全性;通过外部奖励的设计,机器人会受到迫使尽快导航到目标点的外在鼓励,从而加快了导航速度;通过保持安全距离和避免碰撞的设计,提高了导航的安全性;通过内在奖励的应用,机器人受到探索新状态的奖励,从而促使其主动探索和发现新的导航策略,提高了机器人的探索效率,通过使用深度学习算法对奖励函数进行优化和网络权重的更新,提高了机器人导航算法的学习效率和准确性。
专利主权项内容
1.一种加速机器人导航效率的方法,其特征在于,具体包括以下步骤:S1、问题描述和强化学习建模:将多智能体避障问题表述为状态部分可观测的序列决策问题,环境中有n个智能体,包括机器人和行人;用表示机器人的状态,包含机器人在t时刻的可观测状态和和不可观察状态,/>表示行人i的可观测状态;/>表示环境中群体的可观测状态;机器人通过执行策略生成动作a从状态/>导航到目的地/>且机器人不知道其他行人的目的地和策略/>因此,所有智能体在t时刻的状态定义为:t其中为由/>和/>组成的环境的联合状态;目的是学习一个策略/>使机器人能够安全导航到目的地;其中,目标是求解最优策略Π:*S2、奖励函数设置:奖励函数分为外部奖励和内在奖励;外部奖励r定义为下式:ex其中d是机器人与目标之间的距离,0.2是导航过程中最小安全距离;μ表示第i个人和机器人之间的距离,N代表人类数量;gi内在奖励采用内在好奇心模块,它使用特征网络φ,将环境当前状态s和下一个状态s编码为特征空间φ(s)和φ(s);将agent的水平状态转换为由特征向量定义的状态,即网络的输出;特征空间中的状态用于预测采取的动作而在当前状态φ(s)下的实际动作a则用于预测特征空间中的下一个状态/>然后对网络进行训练,减少a和预测动作/>误差;t+1t+1tt因此,内在奖励r是用φ(s)和之间的均方误差计算的;int+1通过结合两种奖励,以提高机器人在人群中导航的效率和安全性能;总的奖励函数为:内在奖励r乘以控制其影响力的超参数β,再加上外部奖励r;公式如下:inexS3、训练流程设计:31、初始化环境、网络及机器人状态和策略;32、通过机器人自带传感器获取环境信息;33、提取获取到的环境信息并进行编码;34、判断机器人是否抵达目标点。。详见官网: