一种基于强化学习的海上无人机编队变粒度协同搜救方法
申请人信息
- 申请人:山东科技大学
- 申请人地址:266590 山东省青岛市黄岛区前湾港路579号
- 发明人: 山东科技大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习的海上无人机编队变粒度协同搜救方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311734139.4 |
| 申请日 | 2023/12/18 |
| 公告号 | CN117420849B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G05D1/46 |
| 权利人 | 山东科技大学 |
| 发明人 | 罗汉江; 郭恺; 刘奎; 陶航; 陈晓东; 董配军; 赵扬 |
| 地址 | 山东省青岛市经济技术开发区前湾港路579号 |
摘要文本
本发明公开了一种基于强化学习的海上无人机编队变粒度协同搜救方法,属于海洋环境下搜救技术领域,包括如下步骤:步骤1、初始化海面目标搜救作业区域范围,并在作业区域内部署多架无人机,形成无人机集群;步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业,并使用数字信息素记录每个区域单元格的目标存在概率;步骤3、使用改进的数字信息素传播公式,捕捉目标在海面上的运动,并使用数字信息素更新公式实现信息融合;步骤4、无人机集群执行细粒度搜救作业,并执行无人机集群变粒度搜救编队协同算法。本发明可以适用于特征稳定的海面环境下目标快速搜救定位、多无人机协同作业的需求。
专利主权项内容
1.一种基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,包括如下步骤:步骤1、初始化海面目标搜救作业区域范围,并在作业区域内部署多架无人机,形成无人机集群;步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业,并使用数字信息素记录每个单元格的目标存在概率,将目标存在概率大于零的单元格记录为感兴趣区域;步骤3、使用改进的数字信息素传播公式,捕捉目标在海面上的运动,并使用数字信息素更新公式实现信息融合;步骤4、无人机集群基于变粒度搜救编队协同算法执行细粒度搜救作业,若未搜寻到海面目标,则重复执行步骤3-步骤4,直到将作业区域内所有海面目标搜救定位完毕;所述步骤1中,将需要搜救的区域设定为一个矩形区域,该矩形区域为初始化的海上多无人机协同搜救作业区域将该作业区域离散化为若干个单元格,将第ξ个单元格记为一个单元格对应一个航路点;在作业区域/>上空部署N架无人机,每架无人机使用朝向向下的摄像机作为捕捉目标的传感器;将第i架无人机的飞行高度记为FA,当前时刻第i架无人机在海面上的探测半径为/>初始化作业区域内共有M个感兴趣目标,将第/>个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为其中/>表示第/>个感兴趣目标在t时刻的海面位置,/>表示第/>个感兴趣目标在t+1时刻的海面位置,/>是第/>个感兴趣目标运动过程的一个非线性函数,/>是第/>个感兴趣目标在t时刻的过程噪声;i所述步骤2中,协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法;记录感兴趣区域的具体过程为:步骤2.1、将作业区域内所有单元格的数字信息素值初始化为0;步骤2.2、每一架无人机通过摄像机的深度感知模型计算每个单元格的目标存在概率,并使用数字信息素统一记录;深度感知模型计算第ξ个单元格m的目标存在概率的具体公式为:ξ其中,k为时间序列;D是伯努利随机变量,表示目标检测概率;[u,v]为检测的感知位置坐标,u和v分别为感知位置的横坐标和纵坐标;为深度感知模型中的计算增量;P(D|[u,v])为[u,v]位置单元格的目标存在概率;/>为中间变量,通过/>计算得出,L为图像平面在u方向上的宽度;/>为中间变量,通过计算得出,L为图像平面在v方向上的宽度;τ和∈均是超参数;u为感兴趣目标在图像中的横坐标,v为感兴趣目标在图像中的纵坐标;函数T(d)是解释摄像机检测模型深度效应的深度系数;kkkkuvkkk步骤2.3、将目标存在概率大于零的单元格记录为感兴趣区域,并将该单元格的数字信息素值更新为0.5;函数T(d)定义如下:k其中,d为感知位置与摄像机的距离;β和β均是超参数;d和d分别表示摄像机检测到感兴趣目标的最短距离和最长距离;kslsl根据当前搜救阶段,每一架无人机的飞行高度根据期望数字信息素强度p进行自适应调整;p的值初始化为0.5;无人机飞行高度FA的计算公式为:exepexep其中,CSS为摄像机传感器尺寸;FL为摄像机镜头焦距;L为方程自变量,通过求解方程得出,其中/>表示式子/>如果方程自变量L具有一个以上的解,采用方程自变量L的最大值作为方程的解;所述步骤3中,改进的数字信息素传播公式具体如下:其中,表示位置为(x,y)的单元格在t-1时刻至t时刻的扩散;x和y分别为单元格位置的横坐标和纵坐标;G′为扩散的数字信息素邻居传播因子;|N(p)|是邻居单元格的数量,由单元格的传播距离r决定,具体计算公式为|N(p)|=(2r+1)-1;p为数字信息素强度;/>表示位置为/>的邻居单元格在t-1时刻的数字信息素强度;/>为单元格在横向方向扩散的增减量,/>为单元格在纵向方向扩散的增减量;fdd2数字信息素更新公式具体如下:其中,p(t)表示位置为(x,y)的单元格在t时刻的数字信息素强度;E为蒸发因子;G为传播因子;p(t-1)为位置为(x,y)的单元格在t-1时刻的数字信息素强度;表示由无人机采集得到的位置为(x,y)的单元格在t-1时刻至t时刻的额外的数字信息素;(x,y)ff(x,y)所述步骤4中,无人机集群执行细粒度搜救作业时,飞行高度需要匹配的数字信息素强度p的值是当前单元格的数字信息素强度加上0.5,根据步骤2的方法得到无人机自适应调整的飞行高度,并执行无人机集群变粒度搜救编队协同算法,得到无人机下一时刻的运动方向;变粒度搜救编队协同算法采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体过程为:exep在无人机集群中,每一架无人机维护自己的Actor网络和Critic网络;定义第i架无人机的Actor网络为σ为Actor网络参数;第i架无人机的Critic网络为/>κ为Critic网络参数;使用基于Actor-Critic的方法进行中心化训练去中心化执行的范式,在训练的时候,每一架无人机的Critic网络能够获得其他无人机的策略信息;第i架无人机的Critic网络参数κ通过最小化损失函数来更新;iii最小化损失函数的具体公式如下:其中,L(κ)为Critic网络参数κ的损失函数;表示对随机变量的期望;符号~表示随机抽取样本;x为无人机的观测信息;x′为关于执行相应操作后x的下一个状态的观测信息;a为抽取样本中的动作;r为抽取样本中的第i架无人机的奖励值;/>表示存储数据的经验回放池;y表示当前时刻的目标值,γ是折扣系数;/>表示第i架无人机的目标Critic网络,κ′为第i架无人机的目标Critic网络参数;/>表示第i架无人机的目标Actor网络,σ′为第i架无人机的目标Actor网络参数;a为第N架无人机的动作;a′为更新Critic网络中使用的根据目标策略得到的第N架无人机的动作;a′为更新Critic网络中使用的根据目标策略得到的第j架无人机的动作;o为第j架无人机在当前时间步的观测信息;iiiiiNNjj第i架无人机的Actor网络参数σ的更新是通过执行梯度下降的方法,具体公式为:i其中,符号表示对参数进行梯度操作;/>是第i架无人机的Actor网络;o为第i架无人机在当前时间步的观测信息;/>是优化目标;/>表示第i架无人机在当前t时刻和状态s下,执行动作a得到的函数值;a为第i架无人机执行的动作;itii使用滑动平均法的方式更新目标Critic网络的网络参数κ′和目标Actor网络的网络参数σ′,具体更新公式为:ii其中,符号←表示更新操作;ι是滑动平均法的参数;所述步骤4中,每一架无人机根据当前离感兴趣区域的距离,以及与相邻无人机的距离,调整与相邻无人机的编队距离,得到下一时刻的运动方向,训练时的奖励函数具体如下:其中,r为第i架无人机获得的奖励值;α为调整第1架无人机与第2架无人机之间编队距离的动态权重;α为调整第i-1架无人机与第i架无人机之间编队距离的动态权重;为当前时刻第2架无人机和第1架无人机之间的距离与期望距离的差值;/>表示当前时刻第i架无人机和第i-1架无人机之间的距离与期望距离的差值;β为调整第1架无人机趋近感兴趣区域的动态权重;β为调整第i架无人机趋近感兴趣区域的动态权重;/>表示当前时刻第1架无人机与感兴趣区域之间的距离;/>表示当前时刻第i架无人机与感兴趣区域之间的距离。i1i-11i