基于dqn的多月球车采样固定目标自适应规划方法
技术领域
1.本发明涉及一种基于dqn(深度q网络,deep q network)的多月球车采 样固定目标自适应规划方法,属于航空航天技术领域。
背景技术:
2.月球车任务规划是月球车的重要组成部分,对月球车能否安全运行以及顺利 完成建设任务至关重要。然而,月球表面环境不确定,环境感知难度大,对月球 车来说需要频繁调整排布的任务计划;此外,月球车携带的处理器性能低,运行 速度较慢,难以满足实时规划过程运算能力的需求。
3.现有的月球车的完成和排布科学任务的方法主要有遥操作和预先任务规划 技术。前者虽然控制效果较好,但效率很低,而且大量依赖地面的人力和通信能 力;后者以美国mapgen(mixed initiative activity plan generator)为代表,用 于提前完成任务规划表示和推理,但存在预先认知与执行时
状态差别,在执行时 需要频繁调整现有规划方案。此外,大部分技术着眼于月球车的路径规划,对于 在状态空间中的任务规划研究较少。
4.在由不同的起始状态,向一个固定任务目标进行任务规划方面,业界学者从 不同的领域提出了不同的方法,比如传统任务规划方面,使用普通的状态空间规 划器,在可达的任意两状态间得出规划的序列解,但是完全推理和规划的速度较 慢;对于使用深度强化学习等方法规划方面,现有的增强自适应能力方法均基于 位置、速度等表示方法,无法直接应用于状态空间规划的自适应能力提升。
技术实现要素:
5.为了解决现有方法规划时间长,以及现有深度强化学习规划方法的提升自适 应能力和样本数量方法无法适应于状态空间规划的问题,本发明在基于
矩阵和向 量的状态空间表达方法基础上,提供基于dqn的多月球车采样固定目标自适应 规划方法,能够根据状态空间系统特点,生成适用于每个系统的随机状态,进而 组合为初始状态矩阵,传入dqn算法适配的环境,通过多次训练,产生对不同 初始状态的适应性,达到固定任务目标自适应规划的目的,实现在月表环境下对 于既定任务目标,在多种不同状态或初始状态下完成指定采样任务。
6.本发明的目的是通过下述技术方案实现的。
7.本发明公开的基于dqn的多月球车采样固定目标自适应规划方法,包括如 下
步骤:
8.步骤一、根据多月球车采样任务规划中多月球车系统状态与动作间的约束和 转移关系,确定待规划和训练的任务模型。
9.定义多月球车任务模型为一个五元组:《o,s,a,p,e》,其中o是系统的集 合,即多月球车任务模型中的所有系统;s是状态的集合,表示多月球车任务模 型中各系统的所有状态;a是动作的集合,表示多月球车任务模型中各系统的所 有动作;p是动作前提条件的
集合,表示多月球车任务模型中各系统的各动作的 所有前提条件;e是动作的影响或效果的集合,表示多月球车任务模型中各系统 的所有动作的影响。
10.步骤二、使用矩阵和向量形式表达多月球车采样任务规划使用的状态空间中 不同系统的当前状态,进而表达多月球车状态k,并形成多月球车状态空间。
11.确定系统o的个数m,根据每个系统oi的状态数ki,确定状态矩阵的列维度 尺寸,即每个系统状态数的最大值n。进一步,选择第i个系统oi,此系统的真实 状态向量为ηi,αi为状态存在性值,如果状态当前是存在的,则取1,反之则取 0。即
[0012][0013][0014]
在此基础上,构建所有系统的填充状态向量ρ,并进一步构建多月球车的状 态矩阵k。对于第i个系统oi,ρi为ηi的0填充向量,用于保持后续构建矩阵k的 维度有效性,即
[0015][0016][0017]
k=[ρ1,ρ2,...,ρn]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ5[0018]
步骤三、在状态矩阵所属的多月球车状态空间中,采用状态空间状态组表达 方法,调整和优化步骤一确定的任务模型表达方式,使多月球车o中每个系统oi的真实状态向量ηi均表达为ki个状态组ζj的组合,其中j为状态组的长度。状态组 定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系统的 状态属性确定。
[0019]
在公式(5)中状态矩阵所属的多月球车状态空间中,采用状态空间状态随机 生成方法,调整和优化模型表达方式,使月球车o中每个系统oi的真实状态向量 ηi均表达为ki个状态组ζj的组合,其中j为状态组的长度。状态组定义为一组互斥 状态,同一状态下仅有一个被选中的状态,其长度j根据系统的状态属性确定,并 非固定值,即
[0020][0021][0022]
步骤四、采用状态空间状态随机生成方法,根据随机选取规则为步骤三中定 义的状态组中每个状态随机赋值,生成随机的每个多月球车系统的状态组。
[0023]
采用状态空间状态随机生成方法,根据随机选取规则生成状态组ζj,并由表 示状态存在与否的s表达,即
[0024]
n=randint 1,j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ8[0025][0026]
其中函数randint(a,b)表示在[a,b]区间中选择一个整数值,进而根据公式(7)得到 一个生成状态组ζj。
[0027]
步骤五、重复步骤四生成状态组中的随机状态,组合得到步骤三定义的状态 组ζ,进而得到步骤三中的状态向量η,再根据步骤二得到多月球车的状态矩阵 k。
[0028]
经过步骤四得到一个随机的状态s,重复执行步骤四j次,根据公式(7)得到状 态组ζj,进一步重复上述方法ki次,根据公式(6)得到第i个系统的真实状态向量 ηi。根据公式(1)至公式(4),获得每个系统oi的填充状态向量ρi,根据公式(5)得 到一个多月球车状态矩阵k,作为其初始状态。
[0029]
步骤六、重复步骤四、步骤五n次,得到一组多月球车的状态矩阵,作为后 续步骤七dqn训练的初始状态的集合,所述初始状态的集合为初始状态备选的 矩阵列表;步骤四采用状态空间状态随机生成方法随机生成对应不同状态的多月 球车的状态矩阵,以增强多月球车采样任务规划对于各种不同初始状态的适应性。
[0030]
重复步骤四和步骤五n次,得到一组长度为n的初始状态备选的矩阵列表 lk=[k1,k2,...,kn],作为步骤七dqn训练的初始状态集合,增强dqn训练得 到的智能体对于多月球车采样任务规划过程中各种不同初始状态的适应性。
[0031]
步骤七、以多月球车采样任务模型作为训练环境,构建基于dqn的多月球 车采样任务训练体系,设定多月球车采样任务模型中不同类型动作的奖励值,构 建多月球车深度强化学习的训练环境,以采样任务目标状态为训练的末状态或目 标,在训练过程中从步骤六得到的初始状态备选的矩阵列表,随机选取元素作为 训练的初始状态,并在训练中统计每轮的奖励值和。
[0032]
步骤八、多次重复步骤七,直至预设时间段奖励值和变化较小或达到收敛阈 值,即基于dqn实现多月球车采样固定目标自适应规划,不仅能够提高多月球 车采样固定目标自适应规划对于不同状态的适应性,还能提高自适应规划效率。
[0033]
有益效果:
[0034]
1、本发明公开的基于dqn的多月球车采样固定目标自适应规划方法,通过 使用矩阵和向量形式表达多月球车状态空间,进而采用状态空间状态组调整和优 化模型表达方法,通过状态组中每个状态随机赋值,生成随机的每个多月球车系 统的状态组,获得更多的多月球车状态矩阵,作为dqn训练的初始状态的集合, 以此方法提升对于多月球车的任务规划的初始状态适应能力,也提高规划器的自 适应能力。
[0035]
2、本发明公开的基于dqn的多月球车采样固定目标自适应规划方法,通过 状态空间状态随机生成方法,生成大量训练用初始状态样本数据,利用基于dqn 的多月球车采样任务训练体系对规划的状态空间预训练,能够在保持目标状态不 变的情况下,适应多种不同的当前或初始状态,规划得出到达目标状态的动作序 列,无需多次全序列重新规划,以快速处理多月球车在月表采样的任务规划问题。
附图说明
[0036]
图1是本发明公开的基于dqn的多月球车采样固定目标自适应规划方法流 程图。
[0037]
图2是本发明公开的dqn每轮训练的奖励值和的曲线图。
[0038]
图3是本发明公开的初始状态测试集合中各元素作为初始状态的规划步数 曲线图。
具体实施方式
[0039]
为了更好的说明本发明的目的和优点,下面结合附图和实施例对发明内容做 进
一步说明。
[0040]
为了验证方法的可行性,设定如下的任务背景:两辆月球车从月球的基地b 点出发,分别前往d1和d2点采集月表岩石样品,而后返回基地,由其它设备分 析数据,考虑两辆月球车的位置、姿态朝向、样本存在情况、运动系统以及采样 系统等,根据各系统的关系和能力,构建如表1的规划任务模型。表中说明了规 划的系统、系统的可行状态、动作,动作的前提条件以及执行动作对整体带来的 影响。
[0041]
如图1所示,本实施例公开的基于dqn的多月球车采样固定目标自适应规 划方法,具体实现步骤如下:
[0042]
步骤一、根据多月球车采样任务规划中多月球车系统状态与动作间的约束和 转移关系,确定待规划和训练的任务模型。
[0043]
经过对模型中状态、动作、动作前提条件、影响的分析,得出规划模型表, 如表1所示。
[0044]
表1多月球车规划模型
[0045][0046]
步骤二、使用矩阵和向量形式表达多月球车采样任务规划使用的状态空间中 不同系统的当前状态,进而表达多月球车状态k,并形成多月球车状态空间。确 定系统o的个数m,根据每个系统oi的状态数ki,确定状态矩阵的列维度尺寸, 即每个系统状态数的最大值n。进一步,选择第i个系统oi,此系统的真实状态向 量为ηi,αi为状态存在性值,如果状态
当前是存在的,则取1,反之则取0。ρ是 η的零填充向量,而k则由ρ组合而成。
[0047]
通过表1模型可知,当前多月球车规划模型的m=5,ki={2,4},n=4。以 传输与采集系统为例,当处于“关闭、已传输”状态时,η=[0,1,1,0]。因为该系 统的η长度是最长的,因此ρ=η=[0,1,1,0]。此时k由多个不同系统的ρ根据公 式(5)组成。
[0048]
步骤三、在公式5中状态矩阵所属的多月球车状态空间中,采用状态空间状 态组表达方法,调整和优化步骤一确定的模型表达方式,使多月球车o中每个系 统oi的真实状态向量ηi均表达为ki个状态组ζj的组合,其中j为状态组的长度。状 态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系 统的状态属性确定。
[0049]
以传输系统为例,经过分析与整理,该系统视作包含两个状态组:开启关闭 状态组和传输情况状态组,因为开启和关闭状态为互斥的,而传输的完成状态也 是互斥的。因此对于传输系统,在关闭且已传输情况下:
[0050]
ζ1=[0,1],ζ2=[1,0]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
10 ηi=[ζ1,ζ2]=[0,1,1,0]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
11
[0051]
步骤四、采用状态空间状态随机生成方法,根据随机选取规则为步骤三中定 义的状态组中每个状态随机赋值,生成随机的每个多月球车系统的状态组。可知 对于传输系统的状态组ζj,n取0或1,即n={0,1}。进而根据公式(7)得到一个生 成状态组ζj。对于传输与采集系统,总共会生成2
×
2=4种不同的状态组: [1,0,1,0],[1,0,0,1],[0,1,1,0],[0,1,0,1],也即生成4种不同的ηi。
[0052]
步骤五、重复步骤四生成状态组中的随机状态,组合得到步骤三定义的状态 组ζ,进而得到步骤三中的状态向量η,再根据步骤二中公式(1)至公式(5),得到 多月球车的状态矩阵k。
[0053]
对于传输系统,经过步骤四得到一个随机的状态s={0,1},重复执行步骤四 j=4次,根据公式(7)得到状态组ζj,共有4种可能。进一步重复上述方法ki=5 次,根据公式(6)得到每个系统的真实状态向量ηi。根据公式(1)至公式(4),获得 每个系统oi的填充状态向量ρi,根据公式(5)得到一个多月球车状态矩阵k,作为 其初始状态。一个通过上述方法生成的k如下:
[0054][0055]
步骤六、重复步骤四、步骤五n=3000次,得到一组多月球车的状态矩阵, 作为后续步骤七dqn训练的初始状态的集合,所述初始状态的集合为初始状态 备选的矩阵列表;步骤四采用状态空间状态随机生成方法随机生成对应不同状态 的多月球车的状态矩阵,以增强多月球车采样任务规划对于各种不同初始状态的 适应性。通过上述方法,可以得到一组长度为n=3000的可作为初始状态备选的 矩阵列表lk=[k1,k2,...,k
3000
],作为后续训练的初始状态集合。
[0056]
步骤七、构建dqn的训练体系,并根据基于dqn的多月球车采样固定目 标自适应规划方法中规划环境各状态转移过程奖励值,设定一组奖励值:不可执 行动为-3,正常动作为-0.1,遇到新状态的动作奖励值为0.09,最终状态的动作 奖励值为5。构建多月球车深度
强化学习的训练环境,以表2状态为训练的目标 或末状态。在训练过程中从步骤六得到的lk随机选取元素作为训练的初始状态, 并在训练中统计每轮的奖励值和,其在每一轮的变化曲线如图2所示。
[0057]
表2训练任务目标状态表
[0058][0059]
步骤八、多次重复步骤七,由图2可知在80轮左右附近,奖励值和变化较 小,并达到收敛。
[0060]
测试步骤、对步骤八训练的模型进行测试。从lk中选取40个元素,构建一 个新的列表l
′k,作为测试用状态列表。针对l
′k中每一个元素作为测试的初始状 态,步骤七中表2设定的目标为末状态,进行规划测试,说明训练结果对于不同 规划初始状态的自适应能力。共测试了40个初始状态到指定末状态的规划步数, 如图3所示。从图中看出,对于测试的40个样例,尽管初始状态不同,但训练 的多月球车规划智能体模型均很好的完成相应的规划任务,设定规划步数上限为 100步,超过即判定失败,从图中看出,所有步数均小于上限值,因此对于表2 所示末状态,设置所有测试状态为初始状态,均规划成功。从而实现对于固定任 务目标的不同初始状态的自适应规划。
[0061]
以上所述的具体描述,对发明的目的、技术方案和有益效果进行进一步详细 说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本 发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、 改进等,均应包含在本发明的保护范围之内。
技术特征:
1.基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:包括如下步骤,步骤一、根据多月球车采样任务规划中多月球车系统状态与动作间的约束和转移关系,确定待规划和训练的任务模型;步骤二、使用矩阵和向量形式表达多月球车采样任务规划使用的状态空间中不同系统的当前状态,进而表达多月球车状态k,并形成多月球车状态空间;步骤三、在状态矩阵所属的多月球车状态空间中,采用状态空间状态组表达方法,调整和优化步骤一确定的任务模型表达方式,使多月球车o中每个系统o
i
的真实状态向量η
i
均表达为k
i
个状态组ζ
j
的组合,其中j为状态组的长度;状态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系统的状态属性确定;步骤四、采用状态空间状态随机生成方法,根据随机选取规则为步骤三中定义的状态组中每个状态随机赋值,生成随机的每个多月球车系统的状态组;步骤五、重复步骤四生成状态组中的随机状态,组合得到步骤三定义的状态组ζ,进而得到步骤三中的状态向量η,再根据步骤二得到多月球车的状态矩阵k;步骤六、重复步骤四、步骤五n次,得到一组多月球车的状态矩阵,作为后续步骤七dqn训练的初始状态的集合,所述初始状态的集合为初始状态备选的矩阵列表;步骤四采用状态空间状态随机生成方法随机生成对应不同状态的多月球车的状态矩阵,以增强多月球车采样任务规划对于各种不同初始状态的适应性;步骤七、以多月球车采样任务模型作为训练环境,构建基于dqn的多月球车采样任务训练体系,设定多月球车采样任务模型中不同类型动作的奖励值,构建多月球车深度强化学习的训练环境,以采样任务目标状态为训练的末状态或目标,在训练过程中从步骤六得到的初始状态备选的矩阵列表,随机选取元素作为训练的初始状态,并在训练中统计每轮的奖励值和;步骤八、多次重复步骤七,直至预设时间段奖励值和变化较小或达到收敛阈值,即基于dqn实现多月球车采样固定目标自适应规划,不仅能够提高多月球车采样固定目标自适应规划对于不同状态的适应性,还能提高自适应规划效率。2.如权利要求1所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤一实现方法为,定义多月球车任务模型为一个五元组:<o,s,a,p,e>,其中o是系统的集合,即多月球车任务模型中的所有系统;s是状态的集合,表示多月球车任务模型中各系统的所有状态;a是动作的集合,表示多月球车任务模型中各系统的所有动作;p是动作前提条件的集合,表示多月球车任务模型中各系统的各动作的所有前提条件;e是动作的影响或效果的集合,表示多月球车任务模型中各系统的所有动作的影响。3.如权利要求2所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤二实现方法为,确定系统o的个数m,根据每个系统o
i
的状态数k
i
,确定状态矩阵的列维度尺寸,即每个系统状态数的最大值n;进一步,选择第i个系统o
i
,此系统的真实状态向量为η
i
,α
i
为状态存在性值,如果状态当前是存在的,则取1,反之则取0;即
在此基础上,构建所有系统的填充状态向量ρ,并进一步构建多月球车的状态矩阵k;对于第i个系统o
i
,ρ
i
为η
i
的0填充向量,用于保持后续构建矩阵k的维度有效性,即即k=[ρ1,ρ2,...,ρ
m
]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
54.如权利要求3所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤三实现方法为,在公式(5)中状态矩阵所属的多月球车状态空间中,采用状态空间状态随机生成方法,调整和优化模型表达方式,使月球车o中每个系统o
i
的真实状态向量η
i
均表达为k
i
个状态组ζ
j
的组合,其中j为状态组的长度;状态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系统的状态属性确定,并非固定值,即即5.如权利要求4所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤四实现方法为,采用状态空间状态随机生成方法,根据随机选取规则生成状态组ζ
j
,并由表示状态存在与否的s表达,即n=randint 1,j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
8其中函数randint(a,b)表示在[a,b]区间中选择一个整数值,进而根据公式(7)得到一个生成状态组ζ
j
。6.如权利要求5所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤五实现方法为,经过步骤四得到一个随机的状态s,重复执行步骤四j次,根据公式(7)得到状态组ξ
j
,进一步重复上述方法k
i
次,根据公式(6)得到第i个系统的真实状态向量η
i
;根据公式(1)至公式(4),获得每个系统o
i
的填充状态向量ρ
i
,根据公式(5)得到一个多月球车状态矩阵k,作为其初始状态。7.如权利要求6所述的基于dqn的多月球车采样固定目标自适应规划方法,其特征在于:步骤六实现方法为,重复步骤四和步骤五n次,得到一组长度为n的初始状态备选的矩阵列表l
k
=[k1,k2,...,k
n
],作为步骤七dqn训练的初始状态集合,增强dqn训练得到的智能体对于多月球车采样任务规划过程中各种不同初始状态的适应性。
技术总结
本发明公开的基于DQN的多月球车采样固定目标自适应规划方法,属于航空航天技术领域。本发明通过使用矩阵和向量形式表达多月球车状态空间,通过状态组中每个状态随机赋值,生成随机的每个多月球车系统的状态组,获得更多的多月球车状态矩阵,提升对于多月球车的任务规划的初始状态适应能力,提高规划器的自适应能力。本发明通过状态空间状态随机生成方法,生成大量训练用初始状态样本数据,利用基于DQN的多月球车采样任务训练体系对规划的状态空间预训练,能够在保持目标状态不变的情况下,适应多种不同的当前或初始状态,规划得出到达目标状态的动作序列,无需多次全序列重新规划,以快速处理多月球车在月表采样的任务规划问题。划问题。划问题。
技术研发人员:
高艾 路思遥 徐瑞 李朝玉 朱圣英
受保护的技术使用者:
北京理工大学
技术研发日:
2022.05.30
技术公布日:
2022/10/17