一种基于深度强化学习的制造系统重构规划方法

阅读：评论：0

1.本发明属于智能制造装备产业技术领域，具体涉及一种基于深度强化学习的制造系统重构规划方法。

背景技术：

2.智能制造装备产业中的传统制造系统在设计过程中往往采用能够同时满足多工件加工需求的固定系统构形，其生产能力得不到充分发挥。与传统刚性制造系统不同，可重构制造系统(rms)具有可调整性的结构，可以在系统和设备层次上进行重构获得制造系统的柔性，生产能力与加工需求紧密结合。rms的实施，首要环节就是确定制造系统重构方案。合理的重构方案能够极大程度地提高制造系统重构的效率以及降低重构成本，但重构因素的引入增加了制造系统规划的复杂性，传统规划方法已经无法满足这种需要。因此，有必要对制造重构规划与优化技术展开研究。
3.在实施rms的过程中，需要根据多种产品的工艺方案需求来选择合适的机床构形来组成制造系统。在rms构形设计中，一定数量的设备通过位置变换、顺序变换或设备自身重构可以设计出多种不同的布局方案。为此，许多学者对制造系统重构方案的优化设计进行了大量研究。youssef等提出了一种新颖的rms构形选择方法，首先采用元启发算法、实数编码遗传算法和禁忌算法确定近优构形备选方案，然后转用整数编码遗传算法从备选方案中确定最优方案。kumar等提出了一种启发式算法来确定一组能够同时满足多种产品加工需求的线性机床序列，与将此方案与由两种经典的布局设计方法给出的方案进行对比，证明了启发式算法在制造系统布局设计方面的有效性。lin和yang基于层次分析法提出了一种机床优选方法，可以从一组潜在可用机床集合中选择出最合适的机床。karim和karmaker将层次分析法和优劣解距离法(topsis)相融合，提出了一个机床选择决策支持系统。juan等提出了一种采用禁忌搜索算法和模因算法相结合的方法来解决机床规划和布局集成问题，同时确定了机床布局方案和工件加工路径。赵晓波等基于随机模型建立了产品族与可行构形集合匹配的最优化问题，并采用了两种不同算法解决此问题，以实现rms在设计阶段构形的选择。刘艳凯等提出了一种基于拟阵的贪婪算法来实现快速rms的布局优化设计，并通过某工厂的重组实践进行了验证。
4.基于现有强化学习调度方法并结合可重构制造系统特点，对现有技术缺陷总结如下：
5.(1)智能化水平不高。现有的研究中多采用层次分析法、遗传算法、启发式算法或综合考虑来解决制造系统重构方案的设计问题，但往往最终需要进行人为的干预和决策，不能实现完成自主决策。因此，需要探索一种更智能的优化算法。
6.(2)设计方案准确性、优化效率过低。现阶段，由于产品需求个性化、多样化激增以及生产环境的不确定性加剧，生产过程中可能出现的状态呈指数上涨，传统方法在面对此类问题时缺乏快速处理的能力，并且无法准确地迭获得符合需求的最优设计方案。

技术实现要素：

7.有鉴于此，本发明提供了一种基于深度强化学习的制造系统重构规划方法，能够解决制造系统重构规划问题。
8.本发明是通过下述技术方案实现的：
9.一种基于深度强化学习的制造系统重构规划方法，该方法的实施过程如下：
10.步骤一、分析环境：对现有的可重构机床和待加工产品进行分析，获取机床构形集合与产品待加工特征集合；
11.步骤二、进行马尔可夫过程建模，确定重构规划过程四元组《s,a,r,p》：采用马尔可夫决策过程对制造系统重构规划问题进行建模，形成重构规划的马尔可夫模型，根据机床构形集合与产品待加工特征集合明确状态空间s和动作空间a，根据确定的优化目标，即以最小化生产成本作为制造系统重构规划的优化目标确定奖励函数r和转换概率矩阵p；
12.步骤三、进行深度强化学习，即深度神经网络训练：基于重构规划的马尔可夫模型，利用重构规划智能体与环境不断交互获得的样本数据对dqn算法的神经网络进行训练；
13.步骤四、基于dqn获取重构规划的优化方案：利用训练好的dqn网络，输入的工件特征，快速求解获得制造系统重构规划的优化方案。
14.进一步的，在步骤二中，所述马尔可夫模型的状态空间s即为环境状态，状态空间s＝(当前可用机床组m，工件类型e，工件特征完成情况f，当前机床构形c)；
15.当前可用机床组m表示可供直接使用而不需要重构调整的一组机床集合，t时刻的当前可用机床组m
t
的数学表达式为：
[0016][0017]
式中，表示工件的i特征采用j机床的n
ij
构形加工；m为机床个数；
[0018]
工件类型e＝{e|1，2，3，
…
,n}，n为工件个数；
[0019]
工件特征完成情况f表示：定义xi为某工件i的特征完成情况，用“0”表示特征尚未加工；“1”表示该特征已经加工，即xi＝{0，1}；特征完成情况f为“集合”形式，用于表征工件所有特征的加工情况，记t时刻的工件特征完成情况f
t
为：
[0020]ft
＝{x1,x2,x3,
…
,xn} (2)
[0021]
xn为工件n的特征完成情况，当f
t
＝{1,1,1,
…
,1}时，表示当前工件所有特征加工完成；
[0022]
t时刻的当前机床构形c
t
的数学表达为：
[0023][0024]
基于上述的描述，在t时刻的状态空间，即s
t
可表示为：
[0025][0026]
进一步的，在步骤二中，所述马尔可夫模型的动作空间a包括当前可用机床组m以及所有可以由m重构得到的机床构形；在t时刻的动作a
t
可表示为：
[0027][0028]
表明在t时刻，智能体根据策略选择了j机床的n
ij
构形加工工件的i特征；
[0029]
基于式(5)，动作空间可以表示为：
[0030][0031]
式中，和表示机床1具有n1和n2两种构形，对应可以加工工件的k1和k2两个特征，以此类推，表示机床m具有1
…
nm种构形，对应可以加工工件的k1…km
个特征。
[0032]
进一步的，在步骤二中，所述马尔可夫模型的奖励函数r以最小化生产成本为目标进行设置；
[0033]
假设当前的环境状态为：
①
已知当前可用机床组m；
②
已知工件的特征完成情况f，将要选择下一个机床构形来加工下一待加工特征；
③
工件处于构形位置，即已经完成i特征的加工，位于j机床处，定义t时刻的奖励函数r
t
为：
[0034][0035]
式(7)中，i
′
为下一个待加工特征，为加工i
′
特征所需的目标机床构形；
[0036]
为使用构形加工特征i
′
所需的加工成本；d(j,j
′
)为把工件从j机床搬运到j
′
机床所需的搬运成本；
[0037]
为重构成本，可以分成4种情况，如式(8)所示：
[0038][0039]
当j＝j
′
,时，在当前机床发生重构，产生重构成本；当j≠j
′
,时，智能体直接选择m中的机床，无需发生重构，即重构成本为零；当j≠j
′
,时，将选择另一机床，并需要对该机床进行重构，产生重构成本；当j＝j
′
,时，在当前机床加工两个特征i和i
′
，该情况不允许发生；
[0040]
智能体与环境在交互过程中会形成轨迹[s
t
,a
t
,r
t
,s
t+1
,a
t+1
,r
t+1
,
…
,s
t
]，最小化生产成本相当于从多条交互轨迹序列中最大化获得的累计回报，即奖励函数r，如式(9)所示：
[0041][0042]
式中，t为智能体与环境在交互过程的总时间。
[0043]
进一步的，在步骤二中，所述马尔可夫模型的转换概率矩阵p中的每个元素均为1。
[0044]
进一步的，在步骤三中，进行深度强化学习，即深度神经网络训练时：
[0045]
智能体采用贪婪-探索，即ε-greedy算法选择动作，分成随机选择和按q值选择两种形式；选择动作前，将产生一个随机数k，当k小于贪婪值ε时进行随机动作选择，当k大于或等于ε时，则根据a＝argmaxq
*
(s,a)进行贪婪动作选择，其中，a为动作，q
*
为最大的q值，s为状态。
[0046]
进一步的，在步骤三中，进行深度强化学习，即深度神经网络训练时：
[0047]
采用经验回放机制将智能体经历的每一笔“经验”e
t
＝{s
t
,a
t
,r
t
,s
t+1
}都放到“经验池”中，用“d”表示，形成d＝{e1,e2,
…
,e
t
}，e
t
为t时刻的经验，d为经验集合；在训练时每次从d中随机采样一个“组”来对q网络进行更新。
[0048]
进一步的，在步骤三中，进行深度强化学习，即深度神经网络训练时：
[0049]
在q网络更新过程中，为了使得损失函数l＝(y-q(s,a,θ))2最小，采用梯度下降法对损失函数l进行关于神经网络参数θ的迭代,其中，q(s,a,θ)表示当前神经网络的输出，用来评估当前状态动作对的值函数；y为目标网络的输出；
[0050]
每隔π步，用实时更新的q网络的神经网络参数θ
′
替换固定的目标q网络的神经网络参数θ，即令θ
′
＝θ。
[0051]
有益效果：
[0052]
(1)面向多工件制造系统重构规划方案的设计，需要考虑多个工件在有限台可重构机床之间流动的优化，这种流动包括工件搬运、机床加工和机床重构，三者之间的顺序关系是决定重构方案是否高效合理的关键；本发明针对制造系统重构规划问题，首先对重构规划问题构建马尔可夫决策过程模型，明确重构规划状态空间、动作空间和奖励函数，然后引入深度强化学习迭代优化重构规划过程，以获得最大累计回报，即应用dqn算法对问题模型进行优化求解，进而获得制造系统重构规划的最优方案；最终利用深度强化学习在学习过程中不断与环境进行交互并获得反馈以优化自身行为的特点，提高重构规划方案的有效性和优化效率。
[0053]
(2)本发明的状态空间s＝(当前可用机床组m，工件类型e，工件特征完成情况f，当前机床构形c)，完全考虑了可重构的制造系统需要考虑的环境因素，为后续进行马尔可夫过程建模的动作空间a、奖励函数r和转换概率矩阵p提供基础。
[0054]
(3)本发明的马尔可夫模型的奖励函数r以最小化生产成本为目标进行设置，奖励函数的设置决定了算法迭代的方向，直接关系到优化目标的实现，因此，奖励函数是工程人员与拟解决的最优化问题之间沟通的重要桥梁。
[0055]
(4)本发明采用深度神经网络训练，即采用深度q网络(dqn)算法进行训练时，采用经验回放机制，将智能体经历的每一笔“经验”e
t
＝{s
t
,a
t
,r
t
,s
t+1
}都放到“经验池”中，用“d”表示，形成d＝{e1,e2,
…
,e
t
}，e
t
为t时刻的经验，d为经验集合；在训练时每次从d中随机采样一个“组”来对q网络进行更新，可以减少智能体与环境的互动次数，增加数据的相关性，使得训练效果更好。
[0056]
(5)本发明采用深度神经网络训练，即采用深度q网络(dqn)算法进行训练时，采用梯度下降法对损失函数l进行关于神经网络参数θ的迭代，能够使得损失函数l＝(y-q(s,a,θ))2最小。
[0057]
综上所述，本发明在制造系统重构规划方案设计之初就考虑其重构特性和复杂程度，抽离出重构规划问题的底层数学逻辑并进行数学建模，采用智能算法进行求解，能够极
大地提高重构规划方案的设计和优化效率；
[0058]
通过分析制造系统重构规划问题，判断出其具有马尔可夫性质，故采用马尔可夫决策过程(mdp)进行建模，模型的状态空间、动作空间和行为规则都可以根据实际需求灵活增减修改，与真实场景的规划过程更为接近；
[0059]
结合马尔可夫决策过程，进一步引入深度强化学习(dqn)来寻最优的重构规划方案，提高了方案设计的智能化水平。此外，dqn算法采用训练神经网络的方式实现策略优化，仅需储存有限数量的参数，内存占用减少，并且决策过程的优化效率进一步提高；
[0060]
提出基于深度强化学习(dqn)的制造系统重构规划方法，采用“试错”的方式与环境交互，利用反馈的奖励信号实现策略优化，提高了方案的准确性。
附图说明
[0061]
图1为本发明的马尔可夫决策过程；
[0062]
图2为本发明的dqn算法实现流程；
[0063]
图3为实施例2中的制造单元中机床布局及当前构形；
[0064]
图4为实施例2中的机床构形与特征映射情况；
[0065]
图5为实施例2中的特征加工先后次序图；
[0066]
图6为实施例2中的dqn算法收敛情况；
[0067]
图7为实施例2中的制造系统重构规划流程。
具体实施方式
[0068]
下面结合附图并举实施例，对本发明进行详细描述。
[0069]
实施例1：
[0070]
本实施例提供了一种基于深度强化学习的制造系统重构规划方法，其基本实施过程如下：
[0071]
步骤一、分析环境：对现有的可重构机床和待加工产品进行分析，获取机床构形集合与产品待加工特征集合；
[0072]
步骤二、进行马尔可夫过程建模，确定重构规划过程四元组《s,a,r,p》：采用马尔可夫决策过程对制造系统重构规划问题进行建模，形成重构规划的马尔可夫模型，根据机床构形集合与产品待加工特征集合明确状态空间s和动作空间a，根据确定的优化目标，即以最小化生产成本作为制造系统重构规划的优化目标确定奖励函数r和转换概率矩阵p；
[0073]
步骤三、进行深度强化学习，即深度神经网络(dqn)训练：基于重构规划的马尔可夫模型，利用重构规划智能体(以下简称智能体或agent)与环境不断交互获得的样本数据对dqn算法的神经网络进行训练；
[0074]
步骤四、基于dqn获取重构规划的优化方案：利用训练好的dqn网络，输入的工件特征，快速求解获得制造系统重构规划的优化方案；
[0075]
至此，就完成了基于深度强化学习的制造系统重构规划方法的实施过程。
[0076]
其中，在步骤二中，进行马尔可夫过程建模的具体过程如下：
[0077]
通过对制造系统重构规划问题的分析，发现制造系统的未来状态只与当前的工件、资源状态有关，而与过去的状态无关，具有马尔可夫性质，故制造系统重构规划适合采
用马尔可夫决策过程进行建模。
[0078]
所述马尔可夫决策过程通常定义为一个四元组(s,a,r,p)，重构规划智能体与环境的交互过程如图1所示；其中，s指状态空间，a指动作空间，r指奖励函数，p指转换概率矩阵，下面分别对状态空间s、动作空间a、奖励函数r及转换概率矩阵p进行详细描述：
[0079]
(1)状态空间s：
[0080]
状态空间即为环境状态，可重构的制造系统的状态空间需要考虑的环境因素主要有四个：当前可用机床组、工件类型、工件特征完成情况和工件所处位置，其中，所述工件所处位置可用机床位置表示，机床是位置是固定的，重构不改变机床位置，因此可用机床构形直接表示工件所处位置，因此可重构的制造系统的环境状态由一个四元组表示，即状态空间＝(当前可用机床组，工件类型，工件特征完成情况，当前机床构形)，简写为s＝(m,e,f,c)，其中，m为当前可用机床组，e为工件类型，f为工件特征完成情况，c为当前机床构形；
[0081]
当前可用机床组m表示可供直接使用而不需要重构调整的一组机床集合，t时刻的当前可用机床组m
t
的数学表达式为：
[0082][0083]
式中，表示工件的i特征采用j机床的n
ij
构形加工；m为机床个数；如果选择不属于m
t
的机床进行加工，将对机床进行重构以适应特征加工并产生重构成本，此时m
t
也会随着重构事件的发生而动态调整；
[0084]
工件类型e＝{e|1，2，3，
…
,n}，n为工件个数，与n
ij
不同；
[0085]
工件特征完成情况f表示：定义xi为某工件i的特征完成情况，用“0”表示特征尚未加工；“1”表示该特征已经加工，即xi＝{0，1}；特征完成情况f为“集合”形式，用于表征工件所有特征的加工情况，记t时刻的工件特征完成情况f
t
为：
[0086]ft
＝{x1,x2,x3,
…
,xn} (2)
[0087]
xn为工件n的特征完成情况，当f
t
＝{1,1,1,
…
,1}时，表示当前工件所有特征加工完成；
[0088]
t时刻的当前机床构形c
t
的数学表达为：
[0089][0090]
基于上述的描述，在t时刻的状态空间，即s
t
可表示为：
[0091][0092]
(2)动作空间a：
[0093]
动作空间定义为：选择加工工件下一个待加工特征所需要的机床构形；因此，动作空间a包括当前可用机床组m以及所有可以由m重构得到的机床构形。在t时刻的动作a
t
可表示为：
[0094][0095]
表明在t时刻，agent根据策略选择了j机床的n
ij
构形加工工件的i特征。
[0096]
基于式(5)，动作空间可以表示为：
[0097]
[0098]
式中，和表示机床1具有n1和n2两种构形，对应可以加工工件的k1和k2两个特征，以此类推，表示机床m具有1
…
nm种构形，对应可以加工工件的k1…km
个特征。
[0099]
(3)奖励函数r：
[0100]
强化学习的目标可以归结为最大化智能体收到的标量奖励(reward)的累计和的期望(称为回报，return)。因此，奖励函数的设置是工程人员与拟解决的最优化问题之间沟通的重要桥梁，必须保证设计的奖励函数r在满足智能体训练要求的同时也要实现问题的目标。在本实施例中，以最小化生产成本为目标设计奖励函数r。假设当前的环境状态为：
①
已知当前可用机床组m；
②
已知工件的特征完成情况f，将要选择下一个机床构形来加工下一待加工特征；
③
工件处于构形位置，即已经完成i特征的加工，位于j机床处。定义t时刻的奖励函数r
t
为：
[0101][0102]
式(7)中，i
′
为下一个待加工特征，为加工i
′
特征所需的目标机床构形；
[0103]
为使用构形加工特征i
′
所需的加工成本；由于工件在不同机床间移动时将产生搬运成本，因此，d(j,j
′
)为把工件从j机床搬运到j
′
机床所需的搬运成本；
[0104]
为重构成本，可以分成4种情况，如式(8)所示：
[0105][0106]
当j＝j
′
,时，在当前机床发生重构，产生重构成本；当j≠j
′
,时，agent直接选择m中的机床，无需发生重构，即重构成本为零；当j≠j
′
,时，将选择另一机床，并需要对该机床进行重构，产生重构成本；当j＝j
′
,时，在当前机床加工两个特征i和i
′
，该情况不允许发生。
[0107]
如图1所示，智能体与环境在交互过程中会形成轨迹[s
t
,a
t
,r
t
,s
t+1
,a
t+1
,r
t+1
,
…
,s
t
]，最小化生产成本相当于从多条交互轨迹序列中最大化获得的累计回报，即奖励函数r，如式(9)所示：
[0108][0109]
式中，t为智能体与环境在交互过程的总时间。
[0110]
(4)转换概率矩阵p：
[0111]
转换概率在可重构制造系统中总是确定的，始终等于1，即在状态s
t
采取了动作a
t
，
环境的下一个状态s
t+1
和接收到的即时奖励r
t
是确定的，因此，转换概率矩阵p内的每个元素均为1。
[0112]
在步骤三中，进行深度强化学习，即深度神经网络(dqn)训练的具体过程如下：
[0113]
马尔可夫决策过程实质上是搭建了一个智能体与环境不断进行交互的数学模型，本身不具有迭代优化的功能，因此通常需要进一步引入深度强化学习算法进行训练。
[0114]
目前可采用q学习的方法进行训练，在q学习中，采用表格的形式存储每个状态-动作对的价值，通过表格的更新来获得最优动作，但弊端在于处理状态过多的模型时内存占用量大，处理效率低。
[0115]
目前还可采用深度神经网络算法，即深度q网络算法(dqn)进行训练，深度q网络算法(dqn)在工程领域的应用普遍，例如，seunghoon等针对复杂系统和动态环境下注塑模具生产车间的规划问题，提出一种基于dqn的模具生产规划算法并取得了有效的实践结果。与q学习采用表格存储q值不同，dqn采用神经网络对q值进行估计，将状态和动作输入神经网络，经过神经网络分析后输出动作的q值，减少了内存占用量的同时也提高了q值的输出速度。在此过程中，为保证神经网络输出结果的准确性，智能体与环境交互过程中产生的反馈数据将不断对神经网络进行训练。
[0116]
因此，本实施例采用深度q网络(dqn)算法进行训练，dqn算法程序实施的关键点如下：
[0117]
(1)动作选择：智能体采用贪婪-探索(ε-greedy)算法选择动作，分成随机选择和按q值选择两种形式。选择动作前，将产生一个随机数k，当k小于贪婪值ε时进行随机动作选择，当k大于或等于ε时，则根据a＝argmaxq
*
(s,a)(其中，a为动作，q
*
为最大的q值，s为状态)进行贪婪动作选择。
[0118]
(2)经验回放：经验回放机制将智能体经历的每一笔“经验”e
t
＝{s
t
,a
t
,r
t
,s
t+1
}都放到一个“经验池”中，用“d”表示，形成d＝{e1,e2,
…
,e
t
}，e
t
为t时刻的经验，d为经验集合；在训练时每次从d中随机采样一个“组(batch)”(比如10笔经验)来对q网络进行更新，经验回放可以减少智能体与环境的互动次数，增加数据的相关性，使得训练效果更好。
[0119]
(3)梯度下降法：在q网络更新过程中，为了使得损失函数l＝(y-q(s,a,θ))2最小，采用梯度下降法对损失函数l进行关于神经网络参数θ的迭代,其中，q(s,a,θ)表示当前神经网络的输出，用来评估当前状态动作对的值函数；y为目标网络的输出。
[0120]
(4)目标网络更新：每隔π步，用实时更新的q网络的神经网络参数θ
′
替换固定的目标q网络的神经网络参数θ，即令θ
′
＝θ。
[0121]
图2和表1展示了基于dqn进行训练的制造系统重构规划过程，在t时刻，如果待加工工件或者待工件特征存在，则根据dqn算法进行训练优化，直至不存在待加工工件或者待工件特征，重构规划优化过程结束：
[0122]
表1.dnq算法实现过程
[0123][0124][0125]
实施例2：
[0126]
本实施例在实施例1的基础上，通过展示求解一个小规模制造系统重构规划方案来展示实施例1的具体实现方式。
[0127]
该小规模问题的任务可以描述为：给定一组条件，包括一族工件、现有资源和工件工艺约束以及一个优化目标——最小化生产成本，求解满足上述条件的制造系统重构规划
最优方案。
[0128]
步骤s1，分析环境，进行条件设置：
[0129]
(1)分析待加工的工件的基本信息：一个工件族的基本情况如表2所示，工件特征采用数字形式进行编号，不同的工件的相似特征用相同的数字编号来表示，按照编号由小到大的顺序依次对工件族内的不同工件进行加工。
[0130]
表2待加工工件及其特征
[0131][0132]
(2)对工件进行工艺约束：由于加工工艺的要求，各工件的特征加工顺序需要满足一定的先后次序，可以用“先后次序图”来表示，如图5所示，s1表示1号特征，
…
以此类推
…
，s5表示5号特征。
[0133]
(3)分析现有机床的基本信息：现有机床情况如图3所示，一个制造单元内共有5台可重构机床，并确定了机床的位置和当前构形。
[0134]
在机床位置固定的情况下，制造单元可通过机床构形重构来满足不同工件的加工。机床构形用表示，其中，“c”是机床代号；表示机床的编号是“ω”表示该机床的ω号构形。每台可重构机床具有的全部构形如表3所示：
[0135]
表3每台rmt机床具有的机床构形
[0136][0137]
设定每台机床的各个构形都可以独立完成某个特征的加工，例如只需构形c21就可以完成1号特征的全部加工。那么，机床构形与工件特征存在映射关系，如图4所示。在机床构形的基础上加入了特征i，形成一种新的机床构形表示方法表示能够加工i号特征的号机床ω号构形。值得注意的是，构形依次加工不同特征a、b时，需要进行由到的重构；
[0138]
综合制造单元布局与构形-特征映射结果，得到现有资源情况如表4所示：
[0139]
表4现有资源集
[0140][0141]
步骤s2，进行马尔可夫过程建模，确定重构规划过程四元组《s,a,r,p》：
[0142]
(1)根据步骤s1的工件和机床的基本信息确定状态空间s和动作空间a；
[0143]
(2)确定优化目标：以最小化生产成本为重构规划问题的优化目标，其等价于智能体最大化获得的累计回报r(即奖励函数)，如式(9)所示。
[0144]
(3)根据确定的优化目标计算奖励函数r
t
，奖励函数的设置决定了算法迭代的方向，直接关系到优化目标的实现，奖励函数r
t
的计算如公式(7)所示，其中加工成本如表5所示,机床各构形的重构成本如表6所示,工件在机床间的搬运成本d(j,j
′
)如表7所示：
[0145]
表5工件加工成本
[0146][0147]
表5(续)工件加工成本
[0148][0149]
表6(a)rmt1各构形间重构成本
[0150]
重构成本gc111c112c211c511
c1110-41-42-50c112-360-43-42c211-33-320-49c511-41-43-390
[0151]
表6(b)rmt2各构形间重构成本
[0152]
重构成本gc221c121c322c422c423c2210-37-50-50-37c121-300-50-40-49c322-31-430-35-33c422-48-40-390-47c423-45-35-37-440
[0153]
表6(c)rmt3各构形间重构成本
[0154][0155][0156]
表6(d)rmt4各构形间重构成本
[0157]
重构成本gc241c341c342c541c542c2410-39-47-34-41c341-330-49-35-38c342-40-350-38-40c541-38-40-340-32c542-31-42-43-460
[0158]
表6(e)rmt5各构形间重构成本
[0159]
重构成本gc451c352c552c4510-47-37c352-430-46c552-40-340
[0160]
表7机床间搬运成本
[0161]
搬运费用drmt1rmt2rmt3rmt4rmt5rmt10-5-7-12-10rmt2-50-7-11-6rmt3-7-70-5-6rmt4-12-11-50-3rmt5-10-6-6-40
[0162]
步骤s3，进行深度神经网络(dqn)训练，并获取重构规划的优化方案：
[0163]
算法参数的选择对求解的质量有密切的影响。因此，在步骤s1确定任务的条件和步骤s2的优化目标后，需要对dqn算法的超参数进行设定，如表8所示。
[0164]
表8 dqn超参数设定
[0165][0166][0167]
用python语言在pycharm上编码所提方法，于3.20ghz amd ryzen 7 5800h处理器windows操作系统pc平台运行。强化学习的目标是最大化智能体选择动作的累计回报，对训练过程中智能体每一回合所获得的累计回报进行统计，花费时间2min49s，得到算法训练情况如图6所示。
[0168]
观察图6可知，在给定模型与算法参数的情况下，智能体的累计回报在训练过程中不断震荡上升，在训练到16000次左右就达到收敛，最大累计回报值为-713，每个动作对应的奖励为[-70,-39,-99,-62,-59,-77,-76,-42,-105,-84]，对应的最优策略为：
[0169]
π*＝[制造单元a：c131,c241,c341,c451；制造单元b：c111,c552,c341；制造单元c：c221,c541,c342；]
[0170]
根据策略π*，制造系统将针对工件1、工件2、工件3的加工需求进行重构，依次形成虚拟制造单元a、b、c，如图7所示。以虚拟制造单元b加工工件2为例进行说明。首先，工件2经1号机床的c111构形完成1号特征加工；然后搬运工件到5号机床处，重构5号机床(由c451到c552)，工件2在构形c552下完成5号特征的加工；最后，将工件运送到4号机床处，经构形c341完成3号特征加工；至此，虚拟制造单元b就完成了工件2的加工。
[0171]
综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种基于深度强化学习的制造系统重构规划方法，其特征在于，该方法的实施过程如下：步骤一、分析环境：对现有的可重构机床和待加工产品进行分析，获取机床构形集合与产品待加工特征集合；步骤二、进行马尔可夫过程建模，确定重构规划过程四元组<s，a，r，p>：采用马尔可夫决策过程对制造系统重构规划问题进行建模，形成重构规划的马尔可夫模型，根据机床构形集合与产品待加工特征集合明确状态空间s和动作空间a，根据确定的优化目标，即以最小化生产成本作为制造系统重构规划的优化目标确定奖励函数r和转换概率矩阵p；步骤三、进行深度强化学习，即深度神经网络训练：基于重构规划的马尔可夫模型，利用重构规划智能体与环境不断交互获得的样本数据对dqn算法的神经网络进行训练；步骤四、基于dqn获取重构规划的优化方案：利用训练好的dqn网络，输入的工件特征，快速求解获得制造系统重构规划的优化方案。2.如权利要求1所述的一种基于深度强化学习的制造系统重构规划方法，其特征在于，在步骤二中，所述马尔可夫模型的状态空间s即为环境状态，状态空间s＝(当前可用机床组m，工件类型e，工件特征完成情况f，当前机床构形c)；当前可用机床组m表示可供直接使用而不需要重构调整的一组机床集合，t时刻的当前可用机床组m
t
的数学表达式为：式中，表示工件的i特征采用j机床的n
ij
构形加工；m为机床个数；工件类型e＝{e|1，2，3，...，n}，n为工件个数；工件特征完成情况f表示：定义x
i
为某工件i的特征完成情况，用“0”表示特征尚未加工；“1”表示该特征已经加工，即x
i
＝{0，1}；特征完成情况f为“集合”形式，用于表征工件所有特征的加工情况，记t时刻的工件特征完成情况f
t
为：f
t
＝{x1，x2，x3，...，x
n
}
ꢀꢀꢀꢀ
(2)x
n
为工件n的特征完成情况，当f
t
＝{1，1，1，...，1}时，表示当前工件所有特征加工完成；t时刻的当前机床构形c
t
的数学表达为：基于上述的描述，在t时刻的状态空间，即s
t
可表示为：3.如权利要求2所述的一种基于深度强化学习的制造系统重构规划方法，其特征在于，在步骤二中，所述马尔可夫模型的动作空间a包括当前可用机床组m以及所有可以由m重构得到的机床构形；在t时刻的动作a
t
可表示为：表明在t时刻，智能体根据策略选择了j机床的n
ij
构形加工工件的i特征；基于式(5)，动作空间可以表示为：
中，用“d”表示，形成d＝{e1，e2，...，e
t
}，e
t
为t时刻的经验，d为经验集合；在训练时每次从d中随机采样一个“组”来对q网络进行更新。8.如权利要求7所述的一种基于深度强化学习的制造系统重构规划方法，其特征在于，在步骤三中，进行深度强化学习，即深度神经网络训练时：在q网络更新过程中，为了使得损失函数l＝(y-q(s，a，θ))2最小，采用梯度下降法对损失函数l进行关于神经网络参数θ的迭代，其中，q(s，a，θ)表示当前神经网络的输出，用来评估当前状态动作对的值函数；y为目标网络的输出；每隔π步，用实时更新的q网络的神经网络参数θ
′
替换固定的目标q网络的神经网络参数θ，即令θ
′
＝θ。

技术总结

本发明公开了一种基于深度强化学习的制造系统重构规划方法，该方法的实施过程如下：对现有的可重构机床和待加工产品进行分析，获取机床构形集合与产品待加工特征集合；采用马尔可夫决策过程对制造系统重构规划问题进行建模，形成重构规划的马尔可夫模型，根据机床构形集合与产品待加工特征集合明确状态空间和动作空间，根据确定的优化目标，确定奖励函数和转换概率矩阵；基于重构规划的马尔可夫模型，利用重构规划智能体与环境不断交互获得的样本数据对DQN算法的神经网络进行训练；利用训练好的DQN网络，输入的工件特征，快速求解获得制造系统重构规划的优化方案。本发明能够解决制造系统重构规划问题。决制造系统重构规划问题。决制造系统重构规划问题。