一种变稳船变稳控制方法、系统、装置及存储介质

阅读: 评论:0



1.本技术涉及船舶控制技术领域,尤其是一种变稳船变稳控制方法、系统、装置及存储介质。


背景技术:



2.船舶的智能化是未来船舶发展的主要趋势,船舶将逐渐由人工驾驶转向自主航行。然而,不同型号的船舶具有不同的水动力学特性。目前,为保证自主航行控制系统对不同型号船舶均具有良好的控制效果,一般采用变稳船来进行船舶自主航行控制系统的测试。
3.变稳船是一种水上模拟船,可用于测试不同的船舶自主航行控制系统。采用变稳船进行测试,能够反映出不同船舶的特性,并进一步验证人工智能程序在不同船舶上的控制效果。具体的测试过程是:在使用控制方法a控制船a的前提下,使用控制方法b控制船b,使船b模拟出船a每个时刻的位置与姿态。其中,船b称为“变稳船”,控制方法b称为“变稳控制方法”;船a称为“待模拟船”,控制方法a对应的船舶自主航行控制系统称为“待验证控制系统”。然而,传统的变稳控制方法靠干扰性不够强,无法稳定地使变稳船航行状态与待模拟船的航行状态保持一致,可靠性仍然较低。


技术实现要素:



4.本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
5.为此,本发明实施例的一个目的在于提供一种变稳船变稳控制方法、系统、装置及存储介质,以使变稳船更加稳定、可靠、精准地模拟待模拟船的航行状态。
6.为了达到上述技术目的,本发明实施例所采取的技术方案包括:
7.第一方面,本发明实施例提供了一种变稳船变稳控制方法,包括以下步骤:
8.获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;
9.根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;
10.在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;
11.根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;
12.根据所述目标控制量进行所述变稳船的变稳控制。
13.本发明实施例的一种变稳船变稳控制方法,通过根据待模拟船的航行状态构建马尔可夫决策过程数学模型,建立了深度强化学习应用于变稳船变稳控制的环境模型;通过在马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,并根据待模拟船的航行状态和构建的变稳控制模型获取目标控制量,使得与环境交互并经过深度强化学习得到的目标控制量具有更强的抗干扰性,从而在根据目标控制量进行变稳船的变稳控制时提高了变稳控制的可靠性、稳定性和精确度,提高了变稳船的航行状态与待模拟船的航行状
态一致性。
14.另外,根据本发明上述实施例的一种变稳船变稳控制方法,还可以具有以下附加的技术特征:
15.进一步地,本发明实施例的一种变稳船变稳控制方法中,所述根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型,包括:
16.根据所述待模拟船的航行状态建立运动学模型;
17.根据所述运动学模型构建马尔可夫决策过程数学模型。
18.进一步地,在本发明的一个实施例中,所述马尔可夫决策过程数学模型包括状态空间、行动空间、奖励函数和控制策略;
19.所述根据所述运动学模型构建马尔可夫决策过程数学模型,包括:
20.根据所述运动学模型定义所述状态空间、所述行动空间,所述状态空间包括各个时刻的所述航向角和所述速度,所述行动空间包括各个时刻的所述控制量;
21.根据变稳控制要求设置所述奖励函数;
22.根据所述状态空间获取状态值函数;
23.根据所述行动空间获取行动值函数;
24.根据所述奖励函数计算所述状态值函数和所述行动值函数的最优解;
25.根据所述最优解得到所述控制策略,完成所述马尔可夫决策过程数学模型的构建。
26.进一步地,在本发明的一个实施例中,所述在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,包括:
27.根据所述马尔可夫决策过程数学模型获取变稳船与环境的交互数据,并将所述交互数据存入经验池;
28.当所述经验池中的数据达到预设的阈值后,从所述经验池中获取经验样本;
29.根据所述经验样本构建当前网络和目标网络,所述当前网络和目标网络的结构相同,所述当前网络配置的参数为第一参数,所述目标网络配置的参数为第二参数;
30.根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值;
31.根据所述目标参数值更新所述当前网络和所述目标网络,完成所述变稳控制模型的构建。
32.进一步地,在本发明的一个实施例中,所述根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值,包括:
33.根据所述经验样本和所述当前网络计算q的预测值;
34.根据所述经验样本和所述目标网络计算q的目标值;
35.根据所述最小化损失函数计算所述预测值与所述目标值之间的损失函数值;
36.根据所述损失函数值,通过梯度下降求解得到所述目标参数值。
37.进一步地,在本发明的一个实施例中,所述根据所述目标参数值更新所述当前网络和所述目标网络,包括:
38.根据所述目标参数值更新所述当前网络;
39.确认迭代次数未达到预设的阈值,返回根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值这一步骤;
40.确认所述迭代次数达到预设的阈值,根据所述目标参数值更新所述目标网络。
41.进一步地,在本发明的一个实施例中,所述根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,包括:
42.将所述待模拟船的航行状态输入所述变稳控制模型,输出所述目标控制量。
43.第二方面,本发明实施例提出了一种变稳船变稳控制系统,包括:
44.第一获取模块,用于获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;
45.第一构建模块,用于根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;
46.第二构建模块,用于在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;
47.第二获取模块,用于根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;
48.变稳控制模块,用于根据所述目标控制量进行所述变稳船的变稳控制。
49.第三方面,本发明实施例提供了一种变稳船变稳控制装置,包括:
50.至少一个处理器;
51.至少一个存储器,用于存储至少一个程序;
52.当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现所述的一种变稳船变稳控制方法。
53.第四方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现所述的一种变稳船变稳控制方法。
54.本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到:
55.本发明实施例通过根据待模拟船的航行状态构建马尔可夫决策过程数学模型,建立了深度强化学习应用于变稳船变稳控制的环境模型;通过在马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,并根据待模拟船的航行状态和构建的变稳控制模型获取目标控制量,使得与环境交互并经过深度强化学习得到的目标控制量具有更强的抗干扰性,从而在根据目标控制量进行变稳船的变稳控制时提高了变稳控制的可靠性、稳定性和精确度,提高了变稳船的航行状态与待模拟船的航行状态一致性。
附图说明
56.为了更清楚地说明本技术实施例或者现有技术中的技术方案,下面对本技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本技术的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
57.图1为本发明一种变稳船变稳控制方法具体实施例的流程示意图;
58.图2为本发明一种变稳船变稳控制方法具体实施例的变稳控制模型训练过程示意图;
59.图3为本发明一种变稳船变稳控制系统具体实施例的结构示意图;
60.图4为本发明一种变稳船变稳控制系统具体实施例的工作过程示意图;
61.图5为本发明一种变稳船变稳控制装置具体实施例的结构示意图。
具体实施方式
62.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能理解为对本技术的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
63.本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
64.在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
65.船舶的智能化是未来船舶发展的主要趋势,船舶将逐渐由人工驾驶转向自主航行。然而,不同型号的船舶具有不同的水动力学特性。目前,为保证自主航行控制系统对不同型号船舶均具有良好的控制效果,一般采用变稳船来进行船舶自主航行控制系统的测试。
66.变稳船是一种水上模拟船,可用于测试不同的船舶自主航行控制系统。采用变稳船进行测试,能够反映出不同船舶的特性,并进一步验证人工智能程序在不同船舶上的控制效果。具体的测试过程是:在使用控制方法a控制船a的前提下,使用控制方法b控制船b,使船b模拟出船a每个时刻的位置与姿态。其中,船b称为“变稳船”,控制方法b称为“变稳控制方法”;船a称为“待模拟船”,控制方法a对应的船舶自主航行控制系统称为“待验证控制系统”。然而,传统的变稳控制方法靠干扰性不够强,无法稳定地使变稳船航行状态与待模拟船的航行状态保持一致,可靠性仍然较低。
67.为此,本发明提出了一种变稳船变稳控制方法、系统、装置及存储介质,通过根据待模拟船的航行状态构建马尔可夫决策过程数学模型,建立了深度强化学习应用于变稳船变稳控制的环境模型;通过在马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,并根据待模拟船的航行状态和构建的变稳控制模型获取目标控制量,使得与环境交互并经过深度强化学习得到的目标控制量具有更强的抗干扰性,从而在根据目标控制量进行变稳船的变稳控制时提高了变稳控制的可靠性、稳定性和精确度,提高了变稳船的航行状态与待模拟船的航行状态一致性。
68.下面参照附图详细描述根据本发明实施例提出的一种变稳船变稳控制方法、系统、装置及存储介质,首先将参照附图描述根据本发明实施例提出的一种变稳船变稳控制方法。
69.参照图1,本发明实施例中提供一种变稳船变稳控制方法,本发明实施例中的一种变稳船变稳控制方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例中的一种变稳船变稳控制方法主要包括以下步骤:
70.s101、获取待模拟船的航行状态;
71.其中,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速。
72.s102、根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;
73.其中,深度强化学习的基础是马尔可夫决策过程(mdp),在应用深度强化学习之前需要建立完整的mdp数学模型以提供环境。
74.s102可以进一步划分为以下步骤s1021-s1022:
75.步骤s1021、根据所述待模拟船的航行状态建立运动学模型;
76.具体地,运动学模型:
[0077][0078]
其中,为η的一阶导数,x y表示待模拟船的位置的坐标,表示待模拟船的航向角;v=[u v w]分别表示纵荡、横荡和横摆率;
[0079]
步骤s1022、根据所述运动学模型构建马尔可夫决策过程数学模型。
[0080]
其中,所述马尔可夫决策过程数学模型包括状态空间、行动空间、奖励函数和控制策略。
[0081]
具体地,包括以下步骤:
[0082]
1)根据所述运动学模型定义所述状态空间、所述行动空间;
[0083]
其中,所述状态空间包括各个时刻的所述航向角和所述速度,所述行动空间包括各个时刻的所述控制量。
[0084]
具体地,mdp数学模型采用5元素元组表示:
[0085]
m=[s,a,p,r]
[0086]
其中,状态空间:s=s1,s2,...,s
t
,s
t+1
,s
t
表示t时刻船舶的航向角和速度;
[0087]
行动空间:a=a1,a2,...,a
t
,a
t+1
,a
t
表示t时刻船舶的控制量,即舵角和螺旋桨转速;
[0088]
p表示转移概率函数;
[0089]
r为奖励函数的因子。
[0090]
可以理解的是,环境中存在待模拟船和变稳船,因此状态空间由六个特征组成,包括待模拟船和变稳船的位置和航向角,即:
[0091]
[0092]
在本发明的实施例中,行动空间定义为包含13个元素的向量,行动空间:
[0093]
a=[a
1 a2ꢀ…ꢀa12
,a
13
]
[0094]
取值范围为[-60
°
,60
°
],增量ai∈[-10
°
,10
°
]。
[0095]
可以理解的是,船舶下一状态的计算公式为:
[0096][0097]
2)根据变稳控制要求设置所述奖励函数;
[0098]
具体地,在本发明的实施例中,最大累计奖励:
[0099][0100]
其中,γ∈[0,1],表示折扣函数,用于调节未来奖励对当前动作的影响;rk表示k时刻获得的瞬时奖励,k表示时间周期数。
[0101]
具体地,根据变稳控制要求设置的奖励函数r,包括:
[0102]
目的地奖励函数r
t
,旨在鼓励变稳船朝向目标区域移动;
[0103]
距离奖励函数rd,旨在使变稳船与待模拟船之间保持一定距离;
[0104]
方向奖励函数旨在使变稳船根据待模拟船的航向角调整自身舵角;
[0105]
速度奖励函数rv,旨在使变稳船根据待模拟船的速度调整螺旋桨转速。
[0106]
可以理解的是,强化学习是一个不断迭代的学习过程,在每一次迭代过程:给定一个策略求值函数,并根据策略求值函数更新策略。
[0107]
其中在船舶的状态与环境的交互过程中会不断地调整映射关系,所述映射关系定义为控制策略,表示在某种状态s下执行动作a的概率,即控制策略:
[0108][0109]
3)根据所述状态空间获取状态值函数;
[0110]
4)根据所述行动空间获取行动值函数;
[0111]
其中,状态值函数和行动值函数用于评价控制策略
[0112]
状态值函数表示变稳船在状态s下采取控制策略后得到的期望奖励值,行动值函数表示变稳船根据控制策略在状态s下执行动作a后得到的期望奖励值,具体如下:
[0113][0114][0115]
5)根据所述奖励函数计算所述状态值函数和所述行动值函数的最优解;
[0116]
具体地,结合步骤4)的状态值函数和行动值函数的表达式可知,根据所述奖励函数r中的最大累计奖励r
t
计算状态值函数和行动值函数的最优解。
[0117]v*
(s)=max
πvπ
(s)=e
π
{r(s,s

)+γmaxa′v*
(s

)|s}
[0118]q*
(s,a)=max
πqπ
(s,a)=e
π
{r(s,a,s

)+γmaxa′q*
(s

,a

)|s,a}
[0119]
其中,s

表示下一时刻的航向角的预测值和速度的预测值,a

表示下一时刻所有可能采取的舵角和螺旋桨转速(控制量),γ表示折扣因子,满足bellman方程。
[0120]
6)根据所述最优解得到所述控制策略,完成所述马尔可夫决策过程数学模型的构建。
[0121]
具体地,由步骤4)所述可知,状态值函数和行动值函数用于评价控制策略状态值函数和行动值函数得到最优解时对应的控制策略最优,因此,在本发明的实施例中,结合步骤2)-5),根据状态值函数和行动值函数的最优解得到最优的控制策略:
[0122]
π
*
(s)=argmaxq
*
(s,a)
[0123]
s103、在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;
[0124]
参照图2,s103可以进一步划分为以下步骤s1031-s1035:
[0125]
步骤s1031、根据所述马尔可夫决策过程数学模型获取变稳船与环境的交互数据,并将所述交互数据存入经验池;
[0126]
其中,在强化学习的任务中,样本之间往往是强关联的、有序的,若直接使用会导致模型难以收敛。在本发明实施例中,通过引入经验回放机制减弱样本数据之间的关联性,提高了神经网络的稳定性。
[0127]
具体地,创建一个经验数据库,在训练过程中通过经验数据库对样本数据进行随机采样,并定义每步迭代采集的经验为:p
t
=(s
t
,a
t
,r
t
,s
t+1
),然后将p
t
保存至经验池中,形成回放记忆序列z={p1,p2...pn}。
[0128]
步骤s1032、当所述经验池中的数据达到预设的阈值后,从所述经验池中获取经验样本;
[0129]
具体地,在神经网络训练过程中,每次从回放记忆序列中抽取一部分经验样本(s,a,r,s

)~u(z)。
[0130]
步骤s1033、根据所述经验样本构建当前网络和目标网络;
[0131]
其中,所述当前网络和所述目标网络的结构相同,所述当前网络配置的参数为第一参数θ,所述目标网络配置的参数为第二参数θ-。所述当前网络和所述目标网络形成双神经网络对照机制(fixed q-targets)。
[0132]
步骤s1034、根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值;
[0133]
其中,在本发明的实施例中,当前网络的参数集合表示为:q(s,a;θi),目标网络的参数集合表示为:q(s

,a

;θi),假设经验样本的初始状态为(s
t
,a
t
,r
t
,s
t+1
),则目标网络的优化目标值为:
[0134]
y(s,a)=r+γ
·
maxa’q(s

,a

;θi)
[0135]
其中y(s,a)由目标网络产生,s

表示下一时刻的航向角的预测值和速度的预测值,a

表示下一时刻所有可能采取的舵角和螺旋桨转速(控制量),γ表示折扣因子。
[0136]
最小化损失函数loss为:
[0137]
loss(θ;q,y)=e{[r+γ
·
maxa’q(s

,a

;θ-)-q(s,a;θ)]2}
[0138]
具体地:
[0139]
1)根据所述经验样本和所述当前网络计算q的预测值q(s,a;θ);
[0140]
2)根据所述经验样本和所述目标网络计算q的目标值q(s

,a

;θ-);
[0141]
3)根据所述最小化损失函数计算所述预测值q(s,a;θ)与所述目标值q(s

,a

;θ-)之间的损失函数值;
[0142]
4)根据所述损失函数值,通过梯度下降求解得到所述目标参数值。
[0143]
根据y(s,a)和损失函数值,损失函数loss对θ求偏导可得:
[0144][0145]
通过梯度下降求解θ,得到最优解,即所述目标参数值。
[0146]
步骤s1035、根据所述目标参数值更新所述当前网络和所述目标网络,完成所述变稳控制模型的构建。
[0147]
具体地,参照图2,包括以下步骤:
[0148]
1)根据所述目标参数值更新所述当前网络;
[0149]
2)确认迭代次数未达到预设的阈值,返回步骤s1034;
[0150]
3)确认所述迭代次数达到预设的阈值,根据所述目标参数值更新所述目标网络。
[0151]
s104、根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量;
[0152]
其中,所述目标控制量包括目标舵角和目标螺旋桨转速。
[0153]
具体地,结合步骤s1031-s1035可知:将所述待模拟船的航行状态输入所述变稳控制模型,输出所述目标控制量。
[0154]
s105、根据所述目标控制量进行所述变稳船的变稳控制。
[0155]
具体地,采用所述目标舵角和所述目标螺旋桨转速控制所述变稳船,使得所述变稳船的航行状态与所述待模拟船的航行状态保持一致,并采用实时获取所述变稳船的位置的航向角。
[0156]
结合步骤s101-s105所述的一种变稳船变稳控制方法可知,本发明通过根据待模拟船的航行状态构建马尔可夫决策过程数学模型,建立了深度强化学习应用于变稳船变稳控制的环境模型;通过在马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,并根据待模拟船的航行状态和构建的变稳控制模型获取目标控制量,使得与环境交互并经过深度强化学习得到的目标控制量具有更强的抗干扰性,从而在根据目标控制量进行变稳船的变稳控制时提高了变稳控制的可靠性、稳定性和精确度,提高了变稳船的航行状态与待模拟船的航行状态一致性。
[0157]
其次,参照附图描述根据本技术实施例提出的一种变稳船变稳控制系统。
[0158]
图3是本技术一个实施例的一种变稳船变稳控制系统结构示意图。
[0159]
所述系统具体包括:
[0160]
第一获取模块301,用于获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;
[0161]
第一构建模块302,用于根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;
[0162]
第二构建模块303,用于在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;
[0163]
第二获取模块304,用于根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;
[0164]
变稳控制模块305,用于根据所述目标控制量进行所述变稳船的变稳控制。
[0165]
图4示出了本发明具体实施例的变稳船变稳控制系统的工作过程示意图。
[0166]
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0167]
参照图5,本技术实施例提供了一种变稳船变稳控制装置,包括:
[0168]
至少一个处理器501;
[0169]
至少一个存储器502,用于存储至少一个程序;
[0170]
当所述至少一个程序被所述至少一个处理器501执行时,使得所述至少一个处理器501实现步骤s101-s105所述的一种变稳船变稳控制方法。
[0171]
同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0172]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本技术的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0173]
此外,虽然在功能性模块的背景下描述了本技术,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本技术的范围,本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
[0174]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0175]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行程序的定序列表,可以具体实现在任何计算机可读介质中,以供
程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用,或结合这些程序执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
[0176]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0177]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0178]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0179]
尽管已经示出和描述了本技术的实施方式,本领域的普通技术人员可以理解:在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本技术的范围由权利要求及其等同物限定。
[0180]
以上是对本技术的较佳实施进行了具体说明,但本技术并不限于所述实施例,熟悉本领域的技术人员在不违背本技术精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:


1.一种变稳船变稳控制方法,其特征在于,包括以下步骤:获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;根据所述目标控制量进行所述变稳船的变稳控制。2.根据权利要求1所述的一种变稳船变稳控制方法,其特征在于,所述根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型,包括:根据所述待模拟船的航行状态建立运动学模型;根据所述运动学模型构建马尔可夫决策过程数学模型。3.根据权利要求2所述的一种变稳船变稳控制方法,其特征在于,所述马尔可夫决策过程数学模型包括状态空间、行动空间、奖励函数和控制策略;所述根据所述运动学模型构建马尔可夫决策过程数学模型,包括:根据所述运动学模型定义所述状态空间、所述行动空间,所述状态空间包括各个时刻的所述航向角和所述速度,所述行动空间包括各个时刻的所述控制量;根据变稳控制要求设置所述奖励函数;根据所述状态空间获取状态值函数;根据所述行动空间获取行动值函数;根据所述奖励函数计算所述状态值函数和所述行动值函数的最优解;根据所述最优解得到所述控制策略,完成所述马尔可夫决策过程数学模型的构建。4.根据权利要求1所述的一种变稳船变稳控制方法,其特征在于,所述在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型,包括:根据所述马尔可夫决策过程数学模型获取变稳船与环境的交互数据,并将所述交互数据存入经验池;当所述经验池中的数据达到预设的阈值后,从所述经验池中获取经验样本;根据所述经验样本构建当前网络和目标网络,所述当前网络和所述目标网络的结构相同,所述当前网络配置的参数为第一参数,所述目标网络配置的参数为第二参数;根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值;根据所述目标参数值更新所述当前网络和所述目标网络,完成所述变稳控制模型的构建。5.根据权利要求4所述的一种变稳船变稳控制方法,其特征在于,所述根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值,包括:根据所述经验样本和所述当前网络计算q的预测值;根据所述经验样本和所述目标网络计算q的目标值;根据所述最小化损失函数计算所述预测值与所述目标值之间的损失函数值;根据所述损失函数值,通过梯度下降求解得到所述目标参数值。6.根据权利要求4所述的一种变稳船变稳控制方法,其特征在于,所述根据所述目标参
数值更新所述当前网络和所述目标网络,包括:根据所述目标参数值更新所述当前网络;确认迭代次数未达到预设的阈值,返回根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值这一步骤;确认所述迭代次数达到预设的阈值,根据所述目标参数值更新所述目标网络。7.根据权利要求6所述的一种变稳船变稳控制方法,其特征在于,所述根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,包括:将所述待模拟船的航行状态输入所述变稳控制模型,输出所述目标控制量。8.一种变稳船变稳控制系统,其特征在于,包括:第一获取模块,用于获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;第一构建模块,用于根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;第二构建模块,用于在所述马尔可夫决策过程数学模型的环境下构建基于dqn的变稳控制模型;第二获取模块,用于根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;变稳控制模块,用于根据所述目标控制量进行所述变稳船的变稳控制。9.一种变稳船变稳控制装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的一种变稳船变稳控制方法。10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的一种变稳船变稳控制方法。

技术总结


本发明公开了一种变稳船变稳控制方法、系统、装置及存储介质,变稳船变稳控制方法通过根据待模拟船的航行状态构建马尔可夫决策过程数学模型,建立了深度强化学习应用于变稳船变稳控制的环境模型;通过在马尔可夫决策过程数学模型的环境下构建基于DQN的变稳控制模型,并根据待模拟船的航行状态和构建的变稳控制模型获取目标控制量,使得与环境交互并经过深度强化学习得到的目标控制量具有更强的抗干扰性,从而在根据目标控制量进行变稳船的变稳控制时提高了变稳控制的可靠性、稳定性和精确度,提高了变稳船的航行状态与待模拟船的航行状态一致性。本发明可广泛应用于船舶控制技术领域。术领域。术领域。


技术研发人员:

李诗杰 徐子茜 刘佳仑 徐诚祺

受保护的技术使用者:

武汉理工大学

技术研发日:

2022.05.30

技术公布日:

2022/8/30

本文发布于:2022-12-02 02:06:38,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/19821.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   目标   状态   函数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图