一种基于深度确定性策略梯度的数据处理方法及系统与流程

阅读：评论：0

1.本发明属于数据安全技术领域，具体来说涉及一种基于深度确定性策略梯度的数据处理方法及系统。

背景技术：

2.为保证电力系统的安全运行，需要对电力系统中的各种重要设备进行监视与检测。以求在出现故障或性能大幅下降前进行及时维修、更换，避免发生危及安全的事故。现有技术中，在10kv配电网络中用于监控跌落式熔断器的故障监测装置自带的数据处理能力有限。因此需要开发出依靠后台服务器实现对各熔断器监测装置的运行数据的实时监测的新方案。此外，现有技术中对上传至后台服务器的运行数据缺乏有效的保护手段，因此对后台服务器大量上传数据会增加企业核心和敏感数据的暴露风险。因此，针对熔断器及其监测装置在配电网络中大量应用的现状，如何开发出一种新型的检测设备数据处理方法，以保证对海量数据的快速处理，以及减少企业核心及敏感数据的暴露风险，是本领域技术人员的一个重点研究方向。

技术实现要素：

3.本发明的目的在于提供一种深度确定性策略梯度的数据处理方法，能够进一步提升响应速度和可靠性，减少企业核心及敏感数据的暴露风险。
4.一种基于深度确定性策略梯度的数据处理方法，其包括如下步骤：
5.步骤1：取得当前边缘网络状态，并对边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1进行存储；
6.步骤2：提取步骤1存储的数据，经actor双网络与critic双网络的深度学习和迭代，取得最优的计算卸载决策。
7.优选的，上述数据处理方法中，所述步骤1包括：
8.步骤11：从边缘网络中获取边缘网络当前状态st；
9.步骤12：边缘网络的本地智能代理根据策略函数at＝τ(st)得到卸载动作at；其中，所述τ(st)为当前策略函数；
10.步骤13：从边缘网络中得到回报rt和边缘网络下一状态st+1；
11.步骤14：将所述st,at,rt和st+1作为一个数据元祖存储至经验池中。
12.优选的，上述数据处理方法中，所述步骤2包括：
13.步骤21：计算边缘网络当前状态的期望回报值；
14.步骤22：critic网络基于损失函数评价actor网络给出的动作；
15.步骤23：训练和迭代神经网络参数ω，取得最优的计算卸载决策。
16.更优选的，上述数据处理方法中，所述步骤21中基于以下公式计算边缘网络当前状态的期望回报值；
17.yj＝rj+γq
target
(φ(s
′j)，τ
′
(φ(s
′j))，ω
′
)
18.其中，所述yj为边缘网络当前状态的期望回报值；所述rj为当前j状态的回报；所述sj
′
为未来网络状态，所述φ(sj
′
)为未来状态向量，所述τ
′
(φ(sj
′
))为未来状态的策略函数，所述ω
′
为神经网络未来参数；所述γ为权重因子、所述γ的取值范围在0至1之间。
19.更优选的，上述数据处理方法中，所述步骤22中critic神经网络基于以下损失函数评价actor神经网络给出的动作：
[0020][0021]
其中，所述q(φ(sj),aj,ω)为j时刻当前边缘网络状态的目标值，所述φ(sj)为j时刻的边缘网络当前状态向量，所述sj为j时刻的当前边缘网络状态，所述aj为j时刻的当前动作；所述ω为神经网络当前参数；所述m为样本数据量；
[0022]
更优选的，上述数据处理方法中，所述步骤23中基于神经网络的损失梯度
▽
j(ω)反向传递来更新eval-critic当前神经网络参数ω，在得到训练完毕的神经网络参数ω后，取得最优的计算卸载决策。
[0023]
为实现上述方法，本发明还公开了一种基于深度确定性策略梯度的数据处理系统，其包括：边缘网络，远程智能体和经验池；
[0024]
所述边缘网络包括本地智能代理与熔断器姿态识别装置；所述本地智能代理部署在熔断器姿态识别装置上，用于对熔断器姿态识别装置上产生的任务信息进行决策；
[0025]
所述远程智能体包括actor双网络与critic双网络，用于取得当前边缘网络状态，将边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1存储至经验池，以及从经验池中提取存储的数据，经actor双网络与critic双网络的深度学习和迭代，取得最优的计算卸载决策。
[0026]
优选的是，上述数据处理系统中：所述actor双网络包括eval-actor网络和tar-actor网络；所述critic双网络包括eval-critic网络和tar-critic网络；所述actor网络用于根据策略做出动作，所述critic网络用于对actor网络给出的动作做出评价。
[0027]
通过采用上述技术方案：本发明运用计算卸载技术将终端设备产生的计算任务卸载至算力更为强大的网络侧处理，从而解决了边缘设备处理器算力不足的痛点，保证了计算任务高效的完成。同时由于本方案所采用的边缘计算的方式进行数据处理，因此计算的功能下沉至更靠近用户的边缘侧，从而避免了用户出现大量数据上传至云后台的情况，一方面克服了数据传输间隔过长和网络拥堵的问题，另一方也避免了用户因大量敏感或核心数据上传至云后台所产生的信息安全问题。因此与现有技术相比，本发明的技术方案的响应更快、可靠性更高，并减少了企业核心及敏感数据的暴露风险。
附图说明
[0028]
图1为实施例1的工作流程图；
[0029]
图2为实施例1的系统框图；
[0030]
各附图标记对应部件名称如下：
[0031]
1、边缘网络；2、远程智能体；3、经验池。
具体实施方式
[0032]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0033]
如图1-2所示为本发明的实施例1：
[0034]
一种基于深度确定性策略梯度的数据处理系统，其包括：边缘网络，远程智能体和经验池；
[0035]
所述边缘网络包括本地智能代理与熔断器姿态识别装置；所述本地智能代理部署在熔断器姿态识别装置上，用于对熔断器姿态识别装置上产生的任务信息进行决策；
[0036]
所述远程智能体包括actor双网络与critic双网络，所述actor双网络包括eval-actor网络和tar-actor网络；所述critic双网络包括eval-critic网络和tar-critic网络；所述actor网络用于根据策略做出动作，所述critic网络用于对actor网络给出的动作做出评价。
[0037]
所述远程智能体用于取得当前边缘网络状态，将边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1存储至经验池，以及从经验池中提取存储的数据，经actor双网络与critic双网络的深度学习和迭代，取得最优的计算卸载决策。
[0038]
本方案中，远程智能体采取的是基于确定性策略梯度算法的边缘计算卸载算法；
[0039]
远程智能体采取本发明提出的确定性策略梯度算法，它减少训练数据之间的相关性，提高训练效率，加速神经网络参数收敛；在actor-critic模式下，由eval-actor网络使用政策梯度的方法进行提升梯度，通过策略函数τ(s)直接选择边缘网络当前状态下的最高概率的动作；本发明的确定性策略梯度算法为通过与边缘网络直接交互得到样本，通过所得样本估计值函数，最终目标是求解最优策略τ
*
；
[0040]
其工作过程如下：
[0041]
步骤1：从边缘网络中获取边缘网络当前状态st；
[0042]
步骤2：边缘网络的本地智能代理根据策略函数at＝τ(st)得到卸载动作at；其中，τ(st)为当前策略函数；
[0043]
步骤3：从边缘网络中得到回报rt和下一个边缘网络状态st+1；
[0044]
步骤4：将元组{st,at,rt,st+1}存储在经验池中；
[0045]
步骤5：对于当前目标qtarget，计算边缘网络当前状态的期望回报值：
[0046]
yj＝rj+γq
target
(φ(sj′
)，τ
′
(φ(sj′
))，ω
′
)
[0047]
其中，yj为边缘网络当前状态的期望回报值，代表边缘网络当前状态所获得的回报与未来可能获得回报的加权期望，用于评估边缘网络当前状态的价值；rj为当前j状态的回报；上标
“′”
表示未来，所述sj
′
为未来网络状态，所述φ(sj
′
)为未来状态向量，所述τ
′
(φ(sj
′
))为未来状态的策略函数，ω
′
为神经网络未来参数；γ为权重因子，表示对奖励的预见性，权重因子γ越大，智能体在做决策时更偏向于长期收益，反之则偏向于短期收益，0《γ《1；
[0048]
步骤6：critic神经网络采用以下损失函数j(ω)评价actor神经网络给出的动作：
[0049][0050]
其中，下标“j”表示j时刻，q(φ(sj),aj,ω)为j时刻当前边缘网络状态的目标值，φ(sj)为j时刻的边缘网络当前状态向量，sj为j时刻的当前边缘网络状态，aj为j时刻的当前动作；ω为神经网络当前参数；m为样本数据量；
[0051]
步骤7：智能体通过神经网络的损失梯度
▽
j(ω)反向传递来更新eval-critic当前神经网络参数ω，在得到训练完毕的神经网络参数ω后，可获回报最优的策略τ*。
[0052]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：

1.一种基于深度确定性策略梯度的数据处理方法，其特征在于，包括如下步骤：步骤1：取得当前边缘网络状态，并对边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1进行存储；步骤2：提取步骤1存储的数据，经actor双网络与critic双网络的深度学习和迭代，取得最优的计算卸载决策。2.如权利要求1所述数据处理方法，其特征在于，所述步骤1包括：步骤11：从边缘网络中获取边缘网络当前状态st；步骤12：边缘网络的本地智能代理根据策略函数at＝τ(st)得到卸载动作at；其中，所述τ(st)为当前策略函数；步骤13：从边缘网络中得到回报rt和边缘网络下一状态st+1；步骤14：将所述st,at,rt和st+1作为一个数据元祖存储至经验池中。3.如权利要求1或2所述数据处理方法，其特征在于，所述步骤2包括：步骤21：计算边缘网络当前状态的期望回报值；步骤22：critic网络基于损失函数评价actor网络给出的动作；步骤23：训练和迭代神经网络参数ω，取得最优的计算卸载决策。4.如权利要求3所述数据处理方法，其特征在于，所述步骤21中基于以下公式计算边缘网络当前状态的期望回报值：y
j
＝r
j
+γq
target
(φ(s
′
j
)，τ
′
(φ(s
′
j
))，ω
′
其中，所述yj为边缘网络当前状态的期望回报值；所述rj为当前j状态的回报；所述sj
′
为未来网络状态，所述φ(sj
′
)为未来状态向量，所述τ
′
(φ(sj
′
))为未来状态的策略函数，所述ω
′
为神经网络未来参数；所述γ为权重因子、所述γ的取值范围在0至1之间。5.如权利要求4所述数据处理方法，其特征在于，所述步骤22中critic神经网络基于以下损失函数评价actor神经网络给出的动作：其中，所述q(φ(sj),aj,ω)为j时刻当前边缘网络状态的目标值，所述φ(sj)为j时刻的边缘网络当前状态向量，所述sj为j时刻的当前边缘网络状态，所述aj为j时刻的当前动作；所述ω为神经网络当前参数；所述m为样本数据量；6.如权利要求5所述数据处理方法，其特征在于，所述步骤23中基于神经网络的损失梯度
▽
j(ω)反向传递来更新eval-critic当前神经网络参数ω，在得到训练完毕的神经网络参数ω后，取得最优的计算卸载决策。7.一种基于深度确定性策略梯度的数据处理系统，其特征在于，包括：边缘网络，远程智能体和经验池；所述边缘网络包括本地智能代理与熔断器姿态识别装置；所述本地智能代理部署在熔断器姿态识别装置上，用于对熔断器姿态识别装置上产生的任务信息进行决策；所述远程智能体包括actor双网络与critic双网络，用于取得当前边缘网络状态，将边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1存储至经验池，以及从经验池中提取存储的数据，经actor双网络与critic双网络的深度学习和迭代，取得最优的计算卸载决策。
8.如权利要求7所述数据处理系统，其特征在于：所述actor双网络包括eval-actor网络和tar-actor网络；所述critic双网络包括eval-critic网络和tar-critic网络；所述actor网络用于根据策略做出动作，所述critic网络用于对actor网络给出的动作做出评价。

技术总结

本发明公开了一种基于深度确定性策略梯度的数据处理方法及系统，其方法包括如下步骤：步骤1：取得当前边缘网络状态，并对边缘网络当前状态st、卸载动作at、回报rt和边缘网络下一状态st+1进行存储；步骤2：提取步骤1存储的数据，经Actor双网络与Critic双网络的深度学习和迭代，取得最优的计算卸载决策。与现有技术相比，本发明的技术方案响应更快、可靠性更高，减少了企业核心及敏感数据的暴露风险。减少了企业核心及敏感数据的暴露风险。减少了企业核心及敏感数据的暴露风险。