一种多无人艇避碰决策方法

阅读：评论：0

1.本发明属于多无人艇自主决策方法，涉及无人艇技术，路径规划算法领域，避碰算法领域以及多无人艇控制方法等，具体涉及一种多无人艇避碰决策方法。

背景技术：

2.近年来，对资源的需求促使各国加大对海洋的勘探和利用，无人驾驶技术发展为海洋勘探和利用提供了技术保障。无人艇作为新型海洋装备，在海洋资源勘探和利用方面广泛应用。对于海洋勘探开发任务，单条无人艇很难完美完成，无人艇集可以有效地完成海洋监测、海上救援和辅助停泊等任务。无人艇是无人驾驶技术研究的新领域，海洋环境相比陆地环境更加复杂，多无人艇对海上交通工程中的海上安全和环境保护提出了挑战，因此对无人艇航行控制与航行安全提出了更高要求。在海上避碰规则(colregs)下保证多无人艇的海上安全航行，实现多无人艇间自主避碰具有重要战略意义。
3.多无人艇研究中，控制方法主要两种形式：1)集中式控制方法，在一个集中式系统中，控制器可以灵活地协调在同一工作空间中的多条无人艇，体环境信息已知的条件下避免体内部发生碰撞。该方法可实现较为精确的控制，但对系统要求较高，且鲁棒性较低，很难扩展到大型体。2)分布式控制方法，允许每条船根据传感器独立做出决策，它适用于部署大量计算量相对较低的无人艇。对集中个别无人艇运动出现错误和出现紧急故障有较强鲁棒性。但控制精度较低，响应慢，因此需要搭载较成熟的避碰算法实现海上安全航行。各大科研院所、高校和企业在船舶路径规划与避碰算法进行大量研究，取得一系列研究成果。但是大部分针对单船领域避碰路径规划，在多无人艇领域研究较少。为此需研究一种多无人艇避碰决策方法，实现多无人艇海上安全航行与安全作业。
4.现有技术对多无人艇控制精度较低，控制方法没有好的泛化能力。人工势场法、动态窗口法以及模型预测控制方法大多应用于单无人艇领域，在多无人艇交互方面应用较少。栅格图法忽略了无人艇运动轨迹平滑特点，速度障碍法在多无人艇领域应用较多，但在避碰过程中会发生震荡运动。深度强化学习为复杂环境中的避碰问题提供了解决方案，但是在多无人艇避碰需要进行网络调整和奖励函数调整，具有随机性。现有避碰算法大部分针对单无人艇，在多无人艇避碰中容易发生震荡运动，陷入局部最优性等问题。

技术实现要素：

5.本发明的目的在于解决现有方案没有可遵循符合colregs的避碰和路径规划算法，不能很好实现多无人艇海上安全航行与安全作业问题，提供一种多无人艇避碰决策方法，同时考虑碰撞风险和colregs，通过相互速度障碍区域表示环境信息并评估环境风险，近端策略优化根据评估环境风险决策行为。使用相互速度障碍算法改进近端策略优化算法的行动空间和奖励函数，一个基于递归模块的神经网络被用来将周围不同数量障碍物的状态直接映射为行动，以解决有限信息下的避碰问题。本发明方法开发了一种新的基于相互速度障碍区域和预期碰撞时间的奖励函数，可以适应许多不同的环境并解决稀疏奖励难
题。多无人艇在本发明提出的算法控制下具有避碰路径规划能力，并遵守colregs。
6.为实现上述目的，本发明的技术方案是：一种多无人艇避碰决策方法，该方法以近端策略优化算法为基础，再辅以相互速度障碍算法的扩展策略，相互速度障碍算法对近端策略优化算法中奖励函数进行改进，解决了强化学习中稀疏奖励的问题，使得网络更新速度更快，学习效率更高，改善了随机性高，学习率低的缺点，如图1所示，该方法具体步骤如下：
7.步骤1、构建决策模型；
8.步骤2、载入未知环境，训练模型；
9.步骤3、设计测试环境，提取当前可监测环境信息；
10.步骤4、环境感知；
11.步骤5、数据处理；
12.步骤6、风险评估，检查当前无人艇风险状态；
13.步骤7、根据步骤6，针对风险执行相应决策行为；
14.步骤8、根据步骤7，计算奖励值；
15.步骤9、判断是否实现避碰，返回奖励值与结果。
16.对于步骤1，近端策略优化是三网络结构，是策略梯度算法的一种变形，算法结构如图2所示，该算法首先从初始化神经网络开始，设置了两个actor网络，结构为两层，每层256个神经元。其中网络π采样，对旧网络π
old
更新。在训练循环期间，π接收当前环境信息，根据信息选择动作更新状态s'并返回奖励r。两个actor网络通过自适应kl惩罚，critic网络结构为两层，每层256个神经元，通过s',r评价动作好坏，对π更新。可以缩短网络更新时间，提高算法效率。如图3、4所示，相互速度障碍是基于速度的避碰算法，将周围信息用向量表示，通过移动速度和方向评估碰撞风险，相比只观测位置而言提高了避碰效率。近端策略优化与相互速度障碍结合，在许多不同的任务上表现良好，优于先前算法。
17.对于步骤2，设计训练环境，近端策略优化算法优化目标是极大化奖励的期望，在计算期望时，采样方法选择重要性采样。重要性采样是实现用在参数为θ'网络下收集数据对θ网络更新的关键，用两个分布函数p,q来描述两条无人艇。计算期望公式如下：
[0018][0019]
理论上q(x)可以是任意分布，但在实际中p(x)和q(x)相近，从两个分布方差来看
[0020]
var
x～p
[f(x)]＝e
x～p
[f(x)2]-(e
x～p
[f(x)])2[0021][0022]
当采样数据达到1000以上时，p(x)＝q(x)。
[0023]
利用重要性采样方法，进行在线策略到离线策略的转换。在策略梯度中，对期望的求解
[0024]
[0025]
转换为
[0026][0027]
其中τ是采样轨迹，是修正项。
[0028]
应用到实际环境中，进行梯度更新
[0029][0030]
其中a
θ
(s
t
,a
t
)是评估函数，用来评价在t时刻状态s下选取动作a的好坏。
[0031]
新优化函数
[0032][0033]
由上式得到近端策略优化定义式
[0034][0035]
其中β为权重系数，kl散度的作用是用来描述θ,θ'之间的差异性度量，差异性指参数对应的行为(actor)的差异。βkl(θ,θ')为限制条件。
[0036]
相互速度障碍假设对方使用相同的策略，而非保持匀速运动，如图4所示，可使用公式(9)描述
[0037][0038]
相互速度障碍不是为其他无人艇速度障碍之外的每条无人艇选择一个新的速度，而是选择当前速度和位于其他无人艇速度障碍之外的速度的平均值，va、vb是无人艇当前选定的速度；无人艇b到无人艇a的相互速度障碍物包含代理a的所有速度，即当前速度va和无人艇b的速度障碍物内的速度的平均值。它可以从几何学上解释为速度障碍物其平移使其顶点位于
[0039]
考虑到无人艇避碰遵循海上交通避碰规则，在执行避碰策略时，都选择右侧。让无人艇a和无人艇b在彼此的相互速度障碍之外选择新的速度v'a和v'b，公式(10)证明其安全性。
[0040][0041]
对于步骤2，算法训练模型的运算过程具体分为以下步骤：
[0042]
步骤2.1、通过设计的未知环境，确定多无人艇当前位置以及各无人艇目标点；
[0043]
步骤2.2、相互速度障碍评估当前碰撞风险，并将结果反馈给近端策略优化，网络π执行动作并更新位置状态和动作状态，得到网络参数θ'；
[0044]
步骤2.3、网络π
old
根据环境进行决策，得到网络参数θ；
[0045]
步骤2.4，θ与θ'通过kl散度进行θ'对θ的更新；
[0046]
步骤2.5、相互速度障碍评估当前碰撞风险中，若检测到碰撞风险，预测障碍物下一时刻的速度状态，通过障碍物下一时刻状态改变无人艇速度大小和方向，使无人艇避开障碍物；
[0047]
步骤2.6、若距离目标点越来越远，则反馈较低奖励值，调整无人艇运动方向向目标点靠近；
[0048]
步骤2.7、若选定速度与期望速度相差很大，则反馈较低奖励值，调整无人艇速度向期望速度靠近；
[0049]
步骤2.8、判断是否完成避碰，若完成且到达目标点，则得到基本避碰路线；
[0050]
步骤2.9、若没有完成避碰行为，则返回步骤2.1，继续迭代更新直至到达目标点；
[0051]
步骤2.10、训练n次，得到最优避碰路线算法训练完成，得到训练模型。
[0052]
对于步骤3，设计测试环境，根据测试环境和当前无人艇位置状态，得到初步信息，用来进行下一时刻的决策。
[0053]
对于步骤4，监测周围环境信息，用相互速度障碍向量表示。
[0054]
对于步骤5，gru神经网络对输入信息处理成相同维度，参见图5。
[0055]
对于步骤6，每条无人艇的传感器需要设置最大检测范围，需要接收的信号除在可检测范围内他艇尺寸、当前速度、当前艏向和避碰半径。在获得局部环境的先验信息后，可以实现局部避碰路径规划。
[0056]
对于步骤7，根据相互速度障碍算法评估，执行避碰行为、正常航行或加速行为。
[0057]
对于步骤8，根据无人艇当前状态与目标点的距离，反馈奖励，指导无人艇下一时刻的决策行为。
[0058]
对于步骤9，模型通过与环境持续交互来学习动作策略，学习效果由每个训练事件的累积奖励值表示，计算总奖励值与结果。
[0059]
相较于现有技术，本发明具有以下有益效果：
[0060]
本发明方法以近端策略优化算法为基础，形成与相互速度障碍算法相结合的扩展策略。该算法进行局部避碰时，相互速度障碍改进奖励函数决定决策行为，周围障碍物及其他环境信息统一由相互速度障碍向量表示，用以策略评估碰撞风险，即在可检测范围内发现障碍物，根据观测障碍物的速度信息(大小和方向)判断下一时刻障碍物的位置是否造成碰撞威胁。近端策略优化根据碰撞风险大小执行避碰行为，避碰行为规则符合colregs，以最优路径完成避碰安全航行任务，经加入相互速度障碍后的算法运算流程结构简图如图6所示。
[0061]
本发明方法进行近端策略优化与相互速度障碍的融合，相互速度障碍用以表示环境信息和奖励函数的改进，提高了算法避碰的效率，解决了容易陷入局部最优和震荡运动的问题，提升了算法的避碰能力，且有良好的泛化能力，总体提高了多无人艇在水面避碰安全航行的效率。
附图说明
[0062]
图1为多无人艇避碰决策流程图。
[0063]
图2为近端策略优化算法结构图。
[0064]
图3为速度障碍算法结构图
[0065]
图4为相互速度障碍算法结构图。
[0066]
图5为gru数据处理流程图。
[0067]
图6为基于近端策略优化融合相互速度障碍算法结构简图。
[0068]
图7为双桨无人艇结构图。
[0069]
图8为多无人艇相互之间避碰验证。
[0070]
图9为多无人艇避碰静态障碍物验证场景。
[0071]
图10为多无人艇在动态、静态障碍物场景下的验证。
具体实施方式
[0072]
下面结合附图，对本发明的技术方案进行具体说明。
[0073]
针对近端策略优化算法避碰率较低和随机性太高的缺点，以及其容易陷入局部最优解的情况，通过加入相互速度障碍改进近端策略优化算法。
[0074]
无人艇集中面临的技术难题之一是相互之间避碰，在复杂海域环境中需要一种好的决策策略保证无人艇安全航行。近端策略优化在未知环境探索中有很好的表现，响应十分迅速，但是在无人艇应用中需要考虑无人艇航行速度低，轨迹平滑等特性，引入相互速度障碍算法改进奖励函数机制，解决有限信息下的避碰问题。
[0075]
通过对近端策略优化进行改进，加入相互速度障碍相结合的扩展策略，过程如下：
[0076]
速度障碍的几何定义如图7所示。让表示两条无人艇a和b的minkowski和，然后让-a表示在其参考点上的无人艇a：
[0077][0078]
设λ(s，v)表示从s开始，沿v方向的a射线：
[0079]
λ(s,v)＝{s+tv|t≥0}
[0080]
无人艇b生成无人艇a的vo面积通过以下公式给出
[0081][0082]
表示在一定时刻内无人艇a和b会发生碰撞。
[0083]
在usvs实际航行中，当每条无人艇将其他无人艇视为移动障碍物并为自己选择一个位于其他无人艇诱导的任何速度障碍物之外的速度时，这种方法会导致不希望的振荡运动。想象一下以下情况。两条无人艇a和b分别以va和vb的速度相向移动，因此和沿着当前速度继续将导致碰撞。因此，无人艇a决定将其速度更改为v'a，使其位于b的速度障碍之外，即同时，无人艇b将其速度改变为v'b，使其位于b的速度障碍物之外，即
[0084]
然而，在新的情况下，旧的速度va和vb分别位于b和a的速度障碍之外(即和)。如果两个代理都喜欢旧的速度，因为它直接引导他们达到目标，他们会再次选择这些速度。在下一个循环中，这些速度似乎会导致碰撞，它们可能会再次选择v'a和v'b，依此类推。因此，当使用速度障碍物方法来避免彼此时，代理在这两个速度之间振荡。
[0085]
为解决上述问题，对速度障碍进行改进，用以下公式来描述：
[0086][0087]
相互速度障碍不是为其他无人艇速度障碍之外的每条无人艇选择一个新的速度，而是选择一个新的速度，即其当前速度和位于其他无人艇速度障碍之外的速度的平均值。无人艇b到无人艇a的相互速度障碍物包含代理a的所有速度，即当前速度va和无人艇b的速度障碍物内的速度的平均值。它可以从几何学上解释为速度障碍物其平移使其顶点位于
[0088]
考虑到无人艇避碰遵循海上交通避碰规则，在执行避碰策略时，都选择右侧。让无人艇a和无人艇b在彼此的相互速度障碍之外选择新的速度v'a和v'b，以下公式证明其安全性。
[0089][0090]
经改进后的算法运算流程结构简图如图6所示。其运算步骤如下：
[0091]
步骤1、构建决策模型，神经网络结构均为2层，每层256个神经元。
[0092]
步骤2、训练模型，决策行为本发明无人艇为双桨欠驱动无人艇，如图7所示。无人艇质心c在双桨轴线中心位置，(xc,yc)为无人艇的质心坐标；α为方向角，即无人艇的运动方向与x轴的夹角。无人艇的位姿向量为：p＝(xc,yc,α)
t
。其中r
l
为运动半径，δα为双桨航向角增量，v
l
表示左桨的线速度，vr表示右桨的线速度，l为双桨的距离。
[0093]
根据刚体力学只是可得双桨差速驱动无人艇的运动学方程为：
[0094][0095]
其中v为无人艇质心处的线速度，ω为无人艇的转向角速度；
[0096]
假设无人艇初始位姿向量为s
start
＝(x0,y0,α)
t
，当前位置xc＝s
start
[0],yc＝s
start
[1],α＝s
start
[2]。
[0097][0098]
其中cur表示曲率，ste＝{-1，0，1}，ste＝-1表示无人艇左转，ste＝0表示无人艇直行，ste＝1表示无人艇右转。r
min
表示最小转动半径。
[0099]
旋转角度
[0100]
δ＝|ste|
×
l
step
×
cur
×
gea
[0101]
其中l
step
表示步长，gea＝{-1,1},gea＝-1为后退挡位，gea＝1为前进挡位。
[0102]
移动距离
[0103]
l
trans
＝(1-|ste|
×
l
step
×
gea
[0104]
旋转矩阵
[0105]
[0106]
迁移矩阵
[0107][0108]
如果ω≥0.01或ω≤-0.01，下一时刻位置为
[0109][0110]
如果ω
→
0，则下一时刻位置为
[0111][0112]
其中ts为采样时间。
[0113]
无人艇移动后双桨中心位姿变换质心坐标
[0114][0115][0116]
步骤3、设计不同的测试环境，体现模型的泛化能力。
[0117]
步骤4、周围环境信息统一用向量表示，作为模型输入进行决策。
[0118]
步骤5、在航行过程中，在保证自身安全航行的同时，还要观察其他船的行为，所有的船同时学习，因此环境处于不断重塑中，无人船可检测到周围其他船数量会不断发生变化，网络学习输入数据维度会发生变化。对于变长输入序列，我们采用gru算法处理提取有效信息，如图4所示，其中o1，o2，o3，on为检测范围内周围船只观测值，o
self
是自身状态，与船自身状态值连接形成固定长度的观测值o。gru算法在不失真的前提下把每条船的信息保留，采用归一化处理观测数据加快训练过程，经过网络学习选择最佳动作。
[0119]
步骤6、对于碰撞风险评估，相互速度障碍将环境信息输入到模型，模型通过无人艇周围障碍物的位置信息和速度信息即使调整决策行为。
[0120]
步骤7、本发明把避碰算法转化为圆线段碰撞检测算法，由相互速度障碍几何定义可以看出，两条无人艇避碰可以转化为质点对于圆的避碰，即把无人艇a看作质点，把无人艇a的半径ra加到无人艇b上。质点运动轨迹相当于由起点e发出的速度轨迹，是一条射线，假设t时刻后完成避碰，终点记为l。c表示避碰的圆心，即pb，r表示圆的半径，即ra+rb。
[0121][0122]
其中表示射线的方向矢量，在相互速度障碍中表示速度，从起点到终点。
[0123][0124]
其中表示从圆心到射线起点的矢量。
[0125]
插入参数方程：
[0126]
p
x
＝e
x
+td
x
[0127]
py＝ey+tdy[0128]
最终得到关于t的二次方程：
[0129][0130]
求解方程分类讨论判断质点速度轨迹与圆的位置。
[0131]
步骤8、为了解决稀疏奖励的问题，我们在每一步动作都设置奖励评价函数，靠近目标点且躲避障碍物给予正面奖励，反之给予反面奖励，目的是让其以最短时间最优路径到达目标点。对此本发明针对相对速度障碍算法设置奖励函数描述为r
rvo
：
[0132][0133][0134][0135]
其中p1，p2，p3，p4，p5，p6是常量，在实验中根据环境设置，用来调整奖励函数,进而提高策略函数性能。表示选定速度v
t
与所需速度之间的距离，我们设定最大距离为3，即dd
max
＝3，r
dd
是速度奖励函数，设置范围在(0，1)，与距离成反比，即选定速度越接近所需速度奖励值越大。r
t
是时间奖励函数，设置范围在(0，1)，与时间成反比，即用时越短奖励值越大。t
min
是无人艇在当前速度下与障碍物发生碰撞的预计最短时间。
[0136]
步骤9、测试结束根据测试结果和反馈奖励值判断无人艇是否到达目标点。
[0137]
本发明结合了近端策略优化和相互速度障碍，结合两者的优点，使多无人艇在colregs的基础上完美实现避碰，保证了多无人艇执行任务安全航行。
[0138]
本发明中，算法融合以及运动学模型的使用更贴近实际无人艇的航行状态，多无人艇之间即可独立执行动作，又可协同配合运行，可高效实现多无人艇避碰。
[0139]
以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

技术特征：

1.一种多无人艇避碰决策方法，其特征在于，包括如下步骤：步骤1、构建决策模型；步骤2、载入未知环境，训练决策模型；步骤3、设计测试环境，提取当前可监测环境信息；步骤4、环境感知；步骤5、数据处理；步骤6、风险评估，检查当前无人艇风险状态；步骤7、根据步骤6，针对风险执行相应决策行为；步骤8、根据步骤7，计算奖励值；步骤9、判断是否实现避碰，返回奖励值与结果。2.根据权利要求1所述的一种多无人艇避碰决策方法，其特征在于，步骤1中，决策模型采用近端策略优化算法和相互速度障碍算法构建；近端策略优化算法算法首先从初始化神经网络开始，设置两个actor网络，结构为两层，每层256个神经元，其中网络π采样，对旧网络π
old
更新；在训练循环期间，网络π接收当前环境信息，根据信息选择动作更新状态s'并返回奖励r；两个actor网络通过自适应kl惩罚；critic网络结构为两层，每层256个神经元，通过s',r评价动作好坏，对网络π更新；相互速度障碍算法是基于速度的避碰算法，将周围信息用向量表示，通过移动速度和方向评估碰撞风险。3.根据权利要求2所述的一种多无人艇避碰决策方法，其特征在于，步骤2中，需设计未知环境，近端策略优化算法优化目标是极大化奖励的期望，在计算期望时，采样方法选择重要性采样；重要性采样是实现用在参数为θ'网络下收集数据对θ网络更新的关键，用两个分布函数p,q来描述两条无人艇；计算期望公式如下：其中f(x)是一个采样函数，x是p(x)，q(x)的采样值，p＝p(x)，q＝q(x)，理论上q可以是任何分布，但在实际中p和q相近，从两个分布方差来看：var
x～p
[f(x)]＝e
x～p
[f(x)2]-(e
x～p
[f(x)])2在p(x)和q(x)分布下采样数据达到1000以上时，p(x)＝q(x)；利用重要性采样方法，进行在线策略到离线策略的转换；在策略梯度中，对期望的求解：转换为：
其中r(τ)是奖励值，τ是采样轨迹，p
θ
，p
θ’是概率值，是修正项；应用到实际环境中，进行梯度更新：其中a
θ
(s
t
,a
t
)是评估函数，π
θ
，π
θ'
是两个分布对应的策略，p
θ
，p
θ'
是概率值，n表示第n条采样，用来评价在t时刻状态s下选取动作a的好坏；新优化函数：由上式得到近端策略优化算法定义式：其中β为权重系数，θ'表示示范参数，θ表示需要优化的参数，kl散度的作用是用来描述θ,θ'之间的差异性度量，差异性指参数对应的行为(actor)的差异；βkl(θ,θ')为限制条件；相互速度障碍假设对方使用相同的策略，而非保持匀速运动，使用下式描述：相互速度障碍不是为其他无人艇速度障碍之外的每条无人艇选择一个新的速度，而是选择当前速度和位于其他无人艇速度障碍之外的速度的平均值；v
a
、v
b
是无人艇当前选定的速度，无人艇b到无人艇a的相互速度障碍物包含代理a的所有速度，即当前速度v
a
和无人艇b的速度障碍物内的速度的平均值；它可以从几何学上解释为速度障碍物其平移使其顶点位于考虑到无人艇避碰遵循海上交通避碰规则，在执行避碰策略时，都选择右侧；让无人艇a和无人艇b在彼此的相互速度障碍之外选择新的速度v'
a
和v'
b
，下式证明其安全性：4.根据权利要求3所述的一种多无人艇避碰决策方法，其特征在于，步骤2中，训练决策模型的具体步骤如下：步骤2.1、通过设计的未知环境，确定多无人艇当前位置以及各无人艇目标点；步骤2.2、相互速度障碍评估当前碰撞风险，并将结果反馈给近端策略优化，网络π执行动作并更新位置状态和动作状态，得到网络参数θ'；步骤2.3、网络π
old
根据环境进行决策，得到网络参数θ；步骤2.4、θ与θ'通过kl散度进行θ'对θ的更新；步骤2.5、相互速度障碍评估当前碰撞风险中，若检测到碰撞风险，预测障碍物下一时刻的速度状态，通过障碍物下一时刻状态改变无人艇速度大小和方向，使无人艇避开障碍物；步骤2.6、若距离目标点越来越远，则反馈较低奖励值，调整无人艇运动方向向目标点
靠近；步骤2.7、若选定速度与期望速度相差很大，则反馈较低奖励值，调整无人艇速度向期望速度靠近；步骤2.8、判断是否完成避碰，若完成且到达目标点，则得到基本避碰路线；步骤2.9、若没有完成避碰行为，则返回步骤2.1，继续迭代更新直至到达目标点；步骤2.10、训练n次，得到最优避碰路线算法训练完成，得到训练后的决策模型。5.根据权利要求1所述的一种多无人艇避碰决策方法，其特征在于，所述步骤3具体方式为：设计测试环境，根据测试环境和当前无人艇位置状态，得到初步信息，用来进行下一时刻的决策。6.根据权利要求2所述的一种多无人艇避碰决策方法，其特征在于，所述步骤4具体实现方式为：监测周围环境信息，用相互速度障碍向量表示。7.根据权利要求1所述的一种多无人艇避碰决策方法，其特征在于，所述步骤5具体实现方式为：gru神经网络对输入信息处理成相同维度。8.根据权利要求2所述的一种多无人艇避碰决策方法，其特征在于，所述步骤6具体实现方式为：每条无人艇的传感器需要设置最大检测范围，需要接收的信号除在可检测范围内他艇尺寸、当前速度、当前艏向和避碰半径；在获得局部环境的先验信息后，实现局部避碰路径规划。9.根据权利要求2所述的一种多无人艇避碰决策方法，其特征在于，所述步骤7具体实现方式为：根据相互速度障碍算法评估，执行避碰行为、正常航行或加速行为。10.根据权利要求1所述的一种多无人艇避碰决策方法，其特征在于，所述步骤8具体实现方式为：根据无人艇当前状态与目标点的距离，反馈奖励，指导无人艇下一时刻的决策行为。

技术总结

本发明涉及一种多无人艇避碰决策方法。同时考虑碰撞风险和COLREGs，通过相互速度障碍区域表示环境信息并评估环境风险，近端策略优化根据评估环境风险决策行为。使用相互速度障碍算法改进近端策略优化算法的行动空间和奖励函数，一个基于递归模块的神经网络被用来将周围不同数量障碍物的状态直接映射为行动，以解决有限信息下的避碰问题。本发明方法开发了一种新的基于相互速度障碍区域和预期碰撞时间的奖励函数，可以适应许多不同的环境并解决稀疏奖励难题。本发明结合了近端策略优化和相互速度障碍，结合两者的优点，使多无人艇在COLREGs的基础上完美实现避碰，保证了多无人艇执行任务安全航行。艇执行任务安全航行。艇执行任务安全航行。