一种基于区块链和强化学习的纵深防御安全系统和方法

阅读: 评论:0



1.本发明涉及信息安全技术领域,尤其涉及一种基于区块链和强化学习的纵深防御安全系统和方法。


背景技术:



2.工业控制系统(industrial control system,ics),简称工控系统,是指用于操作、控制、辅助自动化工业生产过程的设备、系统、网络以及控制器的集合,在国家基础设施中扮演着至关重要的角,是关乎国计民生的重要资源。针对工业控制系统的攻击将大大威胁到社会的正常运转,因而保护工业控制系统安全具有极为重要的意义。但是工业控制系统逻辑范围广,应用软件多,涉及硬件复杂,生产设备与生产环境多样,一旦某个部分遭受攻击、破坏,都有可能影响整个工控系统,造成无法挽回的损失。并且随着计算机和网络技术的发展,信息化与工业化深度融合以及物联网的快速发展,在促进了传统的工业模式与产业布局的深刻变革的同时,工控系统面临的安全形势也愈发严峻。工控系统从封闭走向开放,大规模的互联互通为攻击者提供了更多攻击路径,也给工控系统安全带来了更多的安全隐患和威胁。当前以边界防护为特点的工业控制系统安全方法,由于缺乏动态防护的安全策略使得工业控制系统的脆弱性长期暴漏在攻击者面前。
3.面对复杂多变的工控安全问题,纵深防御的安全理念逐渐得到重视。纵深防御模型的基本思路就是将信息网络安全防护措施有机组合起来,针对保护对象,部署合适的安全措施,形成多道保护线,各安全防护措施能够相互支持和补救,尽可能地阻断攻击者的威胁。但是现有的纵深防御的安全模型存在成本较高,难以实现安全策略的自我优化和可信记录等问题,需要引入新的技术手段。
4.中国专利授权号cn112637220a,公告日2020.12.25,公开了一种工控系统安全防护方法及装置。该发明技术针对工控系统中终端设备的安全防护问题建立了工控安全基线,并在基线上结合漏洞数据库、威胁情报数据库,对整个工控系统进行安全风险识别、预测、初值、转移,有效提高了工控系统的安全级别。该发明在工控系统内终端层与网络层构建了安全基线,有效保护了接入工控系统终端与网络的安全。但是该发明只是在工控系统内构建了一道防护层,安全系统的纵深系统不足,面对较为复杂多变的工控系统无法实现有效保护。此外,搭建的漏洞数据库、威胁情报数据库也有可能遭到攻击,造成数据泄露,没有相应的保护措施。
5.因此,本领域的技术人员致力于开发一种基于区块链和强化学习的纵深防御安全系统和方法。


技术实现要素:



6.有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有安全防御架构纵深性不足、安全成本较高、难以实现安全策略的自我优化和可信记录。
7.发明人经研究发现,去中心化的区块链技术和依赖大数据的强化学习方法能够很
好地记录工控安全防御过程中的数据并且实现安全策略的迭代优化,使得纵深防御手段更加丰富有效,从而实现细粒度的访问控制。发明人将区块链技术和强化学习方法融合到工控网络(包括控制网络和通信网络)中,并结合风险评估和态势感知方法,建立起完备的纵深防御安全系统和方法,提高安全防御系统的纵深安全性,实现整体防御架构的安全和轻量化并行以及系统的安全策略和故障诊断的自我优化。首先,在终端设备启动进入工控网络时对终端设备的信息进行全面扫描,并基于各种风险因素生成终端设备的认证证书,根据认证证书的等级,终端设备交互和操作进入不同的通信网络;其次,高可信零信任域的终端设备操作采用轻量级加解密和验证操作,低可信零信任域的终端设备操作采用复杂度较高的加解密和验证处理,实现安全和轻量化并行;接着,对工控网络中的各种安全参数进行收集,并将数据预处理后构建安全感知模型进行态势评估,输出安全结果;同时,实时度量访问用户的信任度,实时评估访问用户是否可信,结合模型数据设定激励模型进行训练,智能诊断工控网络中的设备故障,最终根据训练的结果生成优化的权限管理规则,优化系统安全效率;另外,记录关键流程和数据,实现安全流程的可信存证和审计。
8.本发明的一个实施例中,提供了一种基于区块链和强化学习的纵深防御安全系统,包括:
9.设备风险评估模块,对终端设备进行风险评估认证,生成不同等级的认证证书;
10.工业防火墙模块,对工控网络横向隔离,内置工业通讯协议的解析和过滤,采用深度的包检测技术和应用层通讯的跟踪技术,拦截非法指令;
11.工控网络模块,基于零信任“永不信任,持续验证”的理念对于访问用户的行为实时监测和信任度量,并动态的调整访问决策;
12.工业态势感知模块,通过对工控系统数据提取特征,通过机器学习方法构建工控系统态势模型,输出当前工控系统安全态势作为工控可信度量模块激励机制的数据基础;
13.用户安全身份基础设施模块,进行访问用户身份管理与权限管理,通过身份管理对访问用户的身份化和身份生命周期进行管理,通过权限管理对访问用户跟踪分析;其中身份化是指为访问用户产生对应的身份信息,便于管理;
14.工控可信度量模块,通过强化学习方法对访问用户与工控网络中的设备交互进行实时信任度量,并根据信任度量结果动态调整信任决策;
15.可信访问代理模块,作为信任决策的执行模块,启用、监控和终止访问用户与工控网络中设备的连接;
16.区块链溯源存证记录模块,接收并保存需要上链存证的关键数据信息,发布到区块链网络,并为监管方提供安全审计接口;
17.设备风险评估模块、工业防火墙模块、工控网络模块、工业态势感知模块、工控可信度量模块、可信访问代理模块依次通信连接,用户安全身份基础设施模块与工业态势感知模块、工控可信度量模块通信连接,设备风险评估模块、工业防火墙模块、工控可信度量模块、可信访问代理模块和访问用户安全身份基础设施模块分别与区块链溯源存证记录模块通信连接;
18.响应于终端设备进入工控网络,设备风险评估模块对终端设备的信息进行全面扫描,基于各种风险因素进行风险评估认证,生成设备认证证书,终端设备根据认证证书的等级,通过工业防火墙模块,接入对应的零信任域,进行交互和操作,保证接入工控网络的终
端设备的安全;
19.响应于访问用户的访问请求,工业态势感知模块收集工控网络模块的各种安全参数,构建安全感知模型进行态势评估,输出安全结果发送给工控可信度量模块,工控可信度量模块实时度量访问用户的信任度,使用强化学习方法实时评估访问用户当前是否可信,保证访问用户的安全;
20.工控可信度量模块结合工业态势感知模块的模型数据,设定激励模型进行训练,智能诊断工控网络中的设备故障,根据训练结果生成优化的权限管理规则;区块链溯源存证记录模块记录上链存证的关键数据,用于安全流程的可信存证和审计。
21.可选地,在上述实施例中的基于区块链和强化学习的纵深防御安全系统中,终端设备包括所有待接入的生产、监控、管理的设备。
22.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,工控系统数据包括工控网络中的设备运行状态、访问用户操作信息、企业资产配置信息、网络拓扑结构。
23.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,工控系统态势模型数据上链存证,用于操作、管理人员监控工控系统当前的安全态势。
24.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,设备风险评估模块包括:
25.设备信息库,存储终端设备信息,包括终端设备的种类、型号、软件版本、功能、品牌数据以及终端设备的漏洞、补丁安全数据;
26.设备扫描子模块,与接入的终端设备直连,扫描终端设备的固件信息和通信报文,以匹配设备信息库中的设备信息;
27.风险评估子模块,基于设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到终端设备的风险等级;
28.设备登记子模块,基于风险评估子模块传输的终端设备信息,对接入的终端设备选择合适的加密算法,进行加密生成密钥;
29.证书生成子模块基于设备扫描子模块、风险评估子模块、设备登记子模块生成的扫描信息、初始风险等级、密钥生成不同等级的认证证书,并把认证证书发送到区块链存证记录模块。
30.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,工控网络模块包括高可信零信任域、低可信零信任域,认证证书等级高的终端设备为低风险设备,接入高可信零信任域网络,认证证书等级低的终端设备为高风险设备,接入低可信零信任域网络。
31.进一步地,在上述实施例中的基于区块链和强化学习的纵深防御安全系统中,低可信零信任域对工控网络中的设备之间以及工控网络中的设备与访问用户间的交互采用复杂的加密、验证算法,保证工控系统的安全,高可信零信任域对工控网络中的设备间以及工控网络中的设备与访问用户间的交互采用轻量级的加密、验证算法,兼顾工控系统安全同时保证效率。
32.进一步地,在上述实施例中的基于区块链和强化学习的纵深防御安全系统中,当低风险设备检测出恶意行为或受到攻击时,其认证证书等级降低,转为高风险设备,接入低
可信零信任域,反之,高风险设备验证持续可信,其认证证书等级提高转为低风险设备。
33.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,工控可信度量模块包括:
34.强化学习子模块,采用强化学习方法对访问用户进行实时信任度量,并将度量结果传送到动态访问控制子模块;
35.动态访问控制子模块,管理访问用户的权限,强化学习子模块输出的度量结果作为权限管理的基础,授予访问用户不同的权限,最终将权限发送可信访问代理模块执行。
36.进一步地,在上述实施例中的基于区块链和强化学习的纵深防御安全系统中,强化学习子模块通过卷积网络提取特征数据作为状态集合s=(s1,s2,......sn),s1,s2,......sn为不同时刻状态,n∈n,n是正整数,动作集合a=(a1,a2,a3,a4),a1,a2,a3,a4分别对应四种决策:高度可信,可信,不可信,高度不可信。
37.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,工业态势感知模块包括:
38.数据预处理子模块,对工控系统数据进行预处理,提取工控系统态势模型所需的特征发送模型构建子模块,工控系统数据包括工控网络中的设备运行状态、系统漏洞、访问用户操作信息、企业资产配置信息、网络拓扑结构;
39.模型构建子模块,通过机器学习方法构建工控系统态势模型,得到工控系统态势模型各个参数权重,输出安全可视化数据、模型和态势判定结果供了解系统运行安全状态,判定结果上链存证,同时作为强化学习奖励机制的数据基础。
40.可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全系统中,可信访问代理模块根据工控可信度量模块的信任决策执行细粒度的访问控制,同时对工控网络传输流量加密保护,访问记录生成日志发送到区块链溯源存证记录模块。
41.进一步地,在上述实施例中的基于区块链和强化学习的纵深防御安全系统中,可信访问代理模块通过单包授权技术(single packet authorization,spa),将所有业务数据都隐藏在可信访问代理模块之后,只有符合信任等级要求的访问用户才能访问,有效防护dos、ddos攻击。
42.基于上述任一实施例,本发明的另一个实施例中,提供了一种基于区块链和强化学习的纵深防御安全方法,包括如下步骤,其中s200与s300无先后顺序要求:
43.s100、准备工作,包括工控系统态势模型训练和强化学习dqn(deep q learning,深度q学习)模型训练;
44.s200、访问用户访问工控网络中的设备,访问用户通过用户安全身份基础设施模块发起对工控网络中的设备的访问请求;
45.s300、终端设备接入工控网络,设备风险评估模块对终端设备进行风险评估认证,生成设备认证证书,根据认证证书的等级,接入工控网络模块;
46.s400、评估工控网络安全态势,工业态势感知模块提取工控网络中设备运行状态特征信息,实时判断工控网络的安全状态并输出至工控可信度量模块和区块链溯源存证模块;
47.s500、实时信任度量,工控可信度量模块通过已训练完成的dqn模型实时度量访问用户的行为,以访问用户的状态为输入,判定访问用户是否允许访问,度量结果发送至动态
访问控制子模块;
48.s600、动态调整信任决策,动态访问控制子模块将工控可信度量模块输出的度量结果映射成访问权限,做出信任决策,发送给可信访问代理模块执行;
49.s700、执行信任决策,响应于动态访问控制子模块发来的信任决策,可信访问代理模块实时、动态地启用或终止访问用户与工控网络中设备的连接;
50.s800、持续监控和防御,重复执行步骤s400-s800。
51.可选地,在上述实施例中的基于区块链和强化学习的纵深防御安全方法中,步骤s100包括:
52.s110、工控系统态势模型训练;
53.s120、强化学习dqn模型训练;
54.可选地,在上述实施例中的基于区块链和强化学习的纵深防御安全方法中,步骤s110包括:
55.s111、数据预处理,工业态势感知模块的数据预处理子模块对收集到的工控网络中的设备运行状态、用户操作信息、企业资产配置信息、网络拓扑结构数据进行预处理,提取模型构建所需的特征,发送模型构建子模块;
56.s112、模型构建,工业态势感知模块的模型构建子模块通过机器学习对输入的数据特征进行整合训练,拟合各个参数权重,输出可视化数据,得到工控系统态势模型。
57.可选地,在上述实施例中的基于区块链和强化学习的纵深防御安全方法中,步骤s120包括:
58.s121、训练q网络参数,网络输入信息集{s,a,r,t},进行dqn的强化学习训练,当前时刻为t,训练过程中动作奖励为r,是态势感知模块输出的变化值,价值函数为q;初始选择时使用随机概率选择动作并记为a
t
,后续动作按照最大化价值函数原则进行选择,计算公式如下:
59.a
t
=argmaxq(s
t
,a)
ꢀꢀ
(1)
60.其中s
t
为t时刻的状态,a
t
为t时刻选择的动作。通过q网络计算动作概率并做出动作选择后,工业态势感知模块实时更新当前的奖励值r以及下一步状态s
t+1

61.s122、训练tarket-q网络参数,同时实际的q值由tarket-q网络模拟计算,公式如下:
[0062][0063]
其中λ∈[0,1]为折现系数,用来平衡即时价值函数和未来价值函数,为tarket-q网络权重参数。tarket-q网络利用贝尔曼方程思想计算损失函数l(ω),对l(ω)使用随机梯度下降法更新q网络参数ω,且设置每2次迭代两个网络参数同步1次,
[0064][0065]
其中ω为q网络权重参数;
[0066]
s123、更新网络信息集并同步网络参数,每一次强化学习子模块与访问用户交互后得到的样本(s
t
,a
t
,r
t
,s
t+1
)会存入到网络记忆池中,作为tarket-q网络下一轮训练的样本,打乱样本的相关性,并且每隔一定迭代次数tarket-q网络同步q网络参数;
[0067]
s124、随机选取记忆池样本,当前训练回合结束后,随机选取记忆池中的样本作为
补充继续训练,重复步骤s121-s214,直至损失函数l(ω)降至最低。
[0068]
可选地,在上述任一实施例中的基于区块链和强化学习的纵深防御安全方法中,步骤s300包括:
[0069]
s310、设备扫描,设备扫描子模块扫描终端设备的固件信息和通信报文;
[0070]
s320、设备信息匹配,根据固件信息和通信报文,匹配设备信息库中的设备信息;
[0071]
s330、风险等级计算,风险评估子模块基于设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到终端设备的风险等级;
[0072]
s340、密钥生成,设备登记子模块对接入的终端设备选择合适的加密算法,进行加密生成密钥;
[0073]
s350、认证证书生成,证书生成子模块基于接入的终端设备的扫描信息、初始风险等级、密钥生成不同等级的认证证书,证书信息发送到区块链存证记录模块。
[0074]
本发明把区块链技术和强化学习方法融合到工控网络,并结合风险评估和态势感知方法,建立了完备的纵深防御安全系统和方法,提高了安全防御系统的纵深安全性,实现了整体防御架构的安全和轻量化并行以及系统的安全策略和故障诊断的自我优化;基于强化学习方法实现了安全防御全流程的检测、判定,并不断优化提高系统的安全强度,基于区块链技术实现全流程安全记录的关键数据可信存证和审计,本发明提高了工控网络的纵深安全性和智能性。
[0075]
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
[0076]
图1是图示根据示例性实施例的基于区块链和强化学习的纵深防御安全系统的结构示意图;
[0077]
图2是图示根据示例性实施例的基于区块链和强化学习的纵深防御安全方法的流程图;
[0078]
图3是图示根据示例性实施例的基于区块链和强化学习的纵深防御安全强化学习dqn模型训练的流程图;
[0079]
图4是图示根据示例性实施例的基于区块链和强化学习的纵深防御安全方法风险评估的流程图。
具体实施方式
[0080]
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
[0081]
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方示意性地适当夸大了部件的厚度。
[0082]
发明人设计了一种基于区块链和强化学习的纵深防御安全系统,如图1所示,包
括:
[0083]
设备风险评估模块,对终端设备进行风险评估认证,生成不同等级的认证证书,终端设备包括所有待接入的生产、监控、管理的设备;设备风险评估模块包括:
[0084]
设备信息库,存储终端设备信息,包括终端设备的种类、型号、软件版本、功能、品牌数据以及终端设备的漏洞、补丁安全数据;
[0085]
设备扫描子模块,与接入的终端设备直连,扫描终端设备的固件信息和通信报文,以匹配设备信息库中的设备信息;
[0086]
风险评估子模块,基于设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到终端设备的风险等级;
[0087]
设备登记子模块,基于风险评估子模块传输的终端设备信息,对接入的终端设备选择合适的加密算法,进行加密生成密钥;
[0088]
证书生成子模块基于设备扫描子模块、风险评估子模块、设备登记子模块生成的扫描信息、初始风险等级、密钥生成不同等级的认证证书,并把认证证书发送到区块链存证记录模块。
[0089]
工业防火墙模块,对工控网络横向隔离,内置工业通讯协议的解析和过滤,采用深度的包检测技术和应用层通讯的跟踪技术,拦截非法指令;
[0090]
工控网络模块,基于零信任“永不信任,持续验证”的理念对于访问用户的行为实时监测和信任度量,并动态的调整访问决策;工控网络模块包括高可信零信任域、低可信零信任域,认证证书等级高的终端设备为低风险设备,接入高可信零信任域网络,认证证书等级低的终端设备为高风险设备,接入低可信零信任域网络;低可信零信任域对工控网络中的设备之间以及工控网络中的设备与访问用户间的交互采用复杂的加密、验证算法,保证工控系统的安全,高可信零信任域对工控网络中的设备间以及工控网络中的设备与访问用户间的交互采用轻量级的加密、验证算法,兼顾工控系统安全同时保证效率;当低风险设备检测出恶意行为或受到攻击时,其认证证书等级降低,转为高风险设备,接入低可信零信任域,反之,高风险设备验证持续可信,其认证证书等级提高转为低风险设备;
[0091]
工业态势感知模块,通过对工控系统数据提取特征,通过机器学习方法构建工控系统态势模型,输出当前工控系统安全态势作为工控可信度量模块激励机制的数据基础,工控系统数据包括工控网络中的设备运行状态、访问用户操作信息、企业资产配置信息、网络拓扑结构;模型数据上链存证,用于操作、管理人员监控工控系统当前的安全态势;工业态势感知模块包括:
[0092]
数据预处理子模块,对工控系统数据进行预处理,提取工控系统态势模型所需的特征发送模型构建子模块,工控系统数据包括工控网络中的设备运行状态、系统漏洞、访问用户操作信息、企业资产配置信息、网络拓扑结构;
[0093]
模型构建子模块,通过机器学习方法构建工控系统态势模型,得到工控系统态势模型各个参数权重,输出安全可视化数据、模型和态势判定结果供了解系统运行安全状态,判定结果上链存证,同时作为强化学习奖励机制的数据基础。
[0094]
用户安全身份基础设施模块,进行访问用户身份管理与权限管理,通过身份管理对访问用户的身份化和身份生命周期进行管理,通过权限管理对访问用户跟踪分析;其中身份化是指为访问用户产生对应的身份信息,便于管理;
[0095]
工控可信度量模块,通过强化学习方法对访问用户与工控网络中的设备交互进行实时信任度量,并根据信任度量结果动态调整信任决策;工控可信度量模块包括:
[0096]
强化学习子模块,采用强化学习方法对访问用户进行实时信任度量,并将度量结果传送到动态访问控制子模块;强化学习子模块通过卷积网络提取特征数据作为状态集合s=(s1,s2,......sn),s1,s2,......sn为不同时刻状态,n∈n,n是正整数,动作集合a=(a1,a2,a3,a4),a1,a2,a3,a4分别对应四种决策:高度可信,可信,不可信,高度不可信;
[0097]
动态访问控制子模块,管理访问用户的权限,强化学习子模块输出的度量结果作为权限管理的基础,授予访问用户不同的权限,最终将权限发送可信访问代理模块执行。
[0098]
可信访问代理模块,作为信任决策的执行模块,启用、监控和终止访问用户与工控网络中设备的连接;可信访问代理模块根据工控可信度量模块的信任决策执行细粒度的访问控制,同时对工控网络传输流量加密保护,访问记录生成日志发送到区块链溯源存证记录模块;可信访问代理模块通过单包授权技术(single packet authorization,spa),将所有业务数据都隐藏在可信访问代理模块之后,只有符合信任等级要求的访问用户才能访问,有效防护dos、ddos攻击。
[0099]
区块链溯源存证记录模块,接收并保存需要上链存证的关键数据信息,发布到区块链网络,并为监管方提供安全审计接口;
[0100]
设备风险评估模块、工业防火墙模块、工控网络模块、工业态势感知模块、工控可信度量模块、可信访问代理模块依次通信连接,用户安全身份基础设施模块与工业态势感知模块、工控可信度量模块通信连接,设备风险评估模块、工业防火墙模块、工控可信度量模块、可信访问代理模块和访问用户安全身份基础设施模块分别与区块链溯源存证记录模块通信连接;
[0101]
响应于终端设备进入工控网络,设备风险评估模块对终端设备的信息进行全面扫描,基于各种风险因素进行风险评估认证,生成设备认证证书,终端设备根据认证证书的等级,通过工业防火墙模块,接入对应的零信任域,进行交互和操作,保证接入工控网络的终端设备的安全;
[0102]
响应于访问用户的访问请求,工业态势感知模块收集工控网络模块的各种安全参数,构建安全感知模型进行态势评估,输出安全结果发送给工控可信度量模块,工控可信度量模块实时度量访问用户的信任度,使用强化学习方法实时评估访问用户当前是否可信,保证访问用户的安全;
[0103]
工控可信度量模块结合工业态势感知模块的模型数据,设定激励模型进行训练,智能诊断工控网络中的设备故障,根据训练结果生成优化的权限管理规则;区块链溯源存证记录模块记录上链存证的关键数据,用于安全流程的可信存证和审计。
[0104]
基于上述实施例,发明人提供了一种基于区块链和强化学习的纵深防御安全方法,如图2所示,包括如下步骤,其中s200与s300无先后顺序要求:
[0105]
s100、准备工作,包括工控系统态势模型训练和强化学习dqn(deep q learning,深度q学习)模型训练;具体包括:
[0106]
s110、工控系统态势模型训练;包括:
[0107]
s111、数据预处理,工业态势感知模块的数据预处理子模块对收集到的工控网络中的设备运行状态、用户操作信息、企业资产配置信息、网络拓扑结构数据进行预处理,提
取模型构建所需的特征,发送模型构建子模块;
[0108]
s112、模型构建,工业态势感知模块的模型构建子模块通过机器学习对输入的数据特征进行整合训练,拟合各个参数权重,输出可视化数据,得到工控系统态势模型。
[0109]
s120、强化学习dqn模型训练,如图3所示,包括:
[0110]
s121、训练q网络参数,网络输入信息集{s,a,r,t},进行dqn的强化学习训练,当前时刻为t,训练过程中动作奖励为r,是态势感知模块输出的变化值,价值函数为q;初始选择时使用随机概率选择动作并记为a
t
,后续动作按照最大化价值函数原则进行选择,计算公式如下:
[0111]at
=argmaxq(s
t
,a)
ꢀꢀ
(1)
[0112]
其中s
t
为t时刻的状态,a
t
为t时刻选择的动作。通过q网络计算动作概率并做出动作选择后,工业态势感知模块实时更新当前的奖励值r以及下一步状态s
t+1

[0113]
s122、训练tarket-q网络参数,同时实际的q值由tarket-q网络模拟计算,公式如下:
[0114][0115]
其中λ∈[0,1]为折现系数,用来平衡即时价值函数和未来价值函数,为tarket-q网络权重参数。tarket-q网络利用贝尔曼方程思想计算损失函数l(ω),对l(ω)使用随机梯度下降法更新q网络参数ω,且设置每2次迭代两个网络参数同步1次,
[0116][0117]
其中ω为q网络权重参数;
[0118]
s123、更新网络信息集并同步网络参数,每一次强化学习子模块与访问用户交互后得到的样本(s
t
,a
t
,r
t
,s
t+1
)会存入到网络记忆池中,作为tarket-q网络下一轮训练的样本,打乱样本的相关性,并且每隔一定迭代次数tarket-q网络同步q网络参数;
[0119]
s124、随机选取记忆池样本,当前训练回合结束后,随机选取记忆池中的样本作为补充继续训练,重复步骤s121-s214,直至损失函数l(ω)降至最低。
[0120]
s200、访问用户访问工控网络中的设备,访问用户通过用户安全身份基础设施模块发起对工控网络中的设备的访问请求;
[0121]
s300、终端设备接入工控网络,设备风险评估模块对终端设备进行风险评估认证,生成设备认证证书,根据认证证书的等级,接入工控网络模块;如图4所示,包括:
[0122]
s310、设备扫描,设备扫描子模块扫描终端设备的固件信息和通信报文;
[0123]
s320、设备信息匹配,根据固件信息和通信报文,匹配设备信息库中的设备信息;
[0124]
s330、风险等级计算,风险评估子模块基于设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到终端设备的风险等级;
[0125]
s340、密钥生成,设备登记子模块对接入的终端设备选择合适的加密算法,进行加密生成密钥;
[0126]
s350、认证证书生成,证书生成子模块基于接入的终端设备的扫描信息、初始风险等级、密钥生成不同等级的认证证书,证书信息发送到区块链存证记录模块。
[0127]
s400、评估工控网络安全态势,工业态势感知模块提取工控网络中设备运行状态特征信息,实时判断工控网络的安全状态并输出至工控可信度量模块和区块链溯源存证模
块;
[0128]
s500、实时信任度量,工控可信度量模块通过已训练完成的dqn模型实时度量访问用户的行为,以访问用户的状态为输入,判定访问用户是否允许访问,度量结果发送至动态访问控制子模块;
[0129]
s600、动态调整信任决策,动态访问控制子模块将工控可信度量模块输出的度量结果映射成访问权限,做出信任决策,发送给可信访问代理模块执行;
[0130]
s700、执行信任决策,响应于动态访问控制子模块发来的信任决策,可信访问代理模块实时、动态地启用或终止访问用户与工控网络中设备的连接;
[0131]
s800、持续监控和防御,重复执行步骤s400-s800。
[0132]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术特征:


1.一种基于区块链和强化学习的纵深防御安全系统,其特征在于,包括:设备风险评估模块,对终端设备进行风险评估认证,生成不同等级的认证证书;工业防火墙模块,对工控网络横向隔离,内置工业通讯协议的解析和过滤,采用深度的包检测技术和应用层通讯的跟踪技术,拦截非法指令;工控网络模块,基于零信任“永不信任,持续验证”的理念对于访问用户的行为实时监测和信任度量,并动态的调整访问决策;工业态势感知模块,通过对工控系统数据提取特征,通过机器学习方法构建工控系统态势模型,输出当前工控系统安全态势作为工控可信度量模块激励机制的数据基础;用户安全身份基础设施模块,进行所述访问用户身份管理与权限管理,通过身份管理对所述访问用户的身份化和身份生命周期进行管理,通过权限管理对所述访问用户跟踪分析;工控可信度量模块,通过强化学习方法对所述访问用户与所述工控网络中的设备交互进行实时信任度量,并根据信任度量结果动态调整信任决策;可信访问代理模块,作为信任决策的执行模块,启用、监控和终止所述访问用户与工控网络中设备的连接;区块链溯源存证记录模块,接收并保存需要上链存证的关键数据信息,发布到区块链网络,并为监管方提供安全审计接口;所述设备风险评估模块、所述工业防火墙模块、所述工控网络模块、所述工业态势感知模块、所述工控可信度量模块、所述可信访问代理模块依次通信连接,所述用户安全身份基础设施模块与所述工业态势感知模块、所述工控可信度量模块通信连接,所述设备风险评估模块、所述工业防火墙模块、所述工控可信度量模块、所述可信访问代理模块和所述访问用户安全身份基础设施模块分别与所述区块链溯源存证记录模块通信连接;响应于所述终端设备进入所述工控网络,所述设备风险评估模块对所述终端设备的信息进行全面扫描,基于各种风险因素进行风险评估认证,生成设备认证证书,所述终端设备根据认证证书的等级,通过所述工业防火墙模块,接入对应的零信任域,进行交互和操作,保证接入所述工控网络的终端设备的安全;响应于所述访问用户的访问请求,所述工业态势感知模块收集所述工控网络模块的各种安全参数,构建安全感知模型进行态势评估,输出安全结果发送给所述工控可信度量模块,所述工控可信度量模块实时度量所述访问用户的信任度,使用强化学习方法实时评估所述访问用户当前是否可信,保证访问用户的安全;所述工控可信度量模块结合所述工业态势感知模块的模型数据,设定激励模型进行训练,智能诊断工控网络中的设备故障,根据训练结果生成优化的权限管理规则;所述区块链溯源存证记录模块记录上链存证的关键数据,用于安全流程的可信存证和审计。2.如权利要求1所述的区块链和强化学习的纵深防御安全系统,其特征在于,所述设备风险评估模块包括:设备信息库,存储终端设备信息,包括终端设备的种类、型号、软件版本、功能、品牌数据以及终端设备的漏洞、补丁安全数据;设备扫描子模块,与接入的所述终端设备直连,扫描所述终端设备的固件信息和通信报文,以匹配所述设备信息库中的设备信息;
风险评估子模块,基于所述设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到所述终端设备的风险等级;设备登记子模块,基于所述风险评估子模块传输的所述终端设备信息,对接入的所述终端设备选择合适的加密算法,进行加密生成密钥;所述证书生成子模块基于所述设备扫描子模块、所述风险评估子模块、所述设备登记子模块生成的扫描信息、初始风险等级、密钥生成不同等级的认证证书,并把所述认证证书发送到所述区块链存证记录模块。。3.如权利要求2所述的区块链和强化学习的纵深防御安全系统,其特征在于,所述工控网络模块包括高可信零信任域、低可信零信任域,认证证书等级高的终端设备为低风险设备,接入所述高可信零信任域网络,认证证书等级低的终端设备为高风险设备,接入所述低可信零信任域网络。4.如权利要求3所述的区块链和强化学习的纵深防御安全系统,其特征在于,所述低可信零信任域对所述工控网络中的设备之间以及所述工控网络中的设备与所述访问用户间的交互采用复杂的加密、验证算法,保证工控系统的安全,所述高可信零信任域对所述工控网络中的设备间以及所述工控网络中的设备与所述访问用户间的交互采用轻量级的加密、验证算法,兼顾工控系统安全同时保证效率。5.如权利要求4所述的区块链和强化学习的纵深防御安全系统,其特征在于,所述工控可信度量模块包括:强化学习子模块,采用强化学习方法对所述访问用户进行实时信任度量,并将度量结果传送到动态访问控制子模块;动态访问控制子模块,管理访问用户的权限,所述强化学习子模块输出的度量结果作为权限管理的基础,授予所述访问用户不同的权限,最终将权限发送所述可信访问代理模块执行。6.如权利要求5所述的区块链和强化学习的纵深防御安全系统,其特征在于,所述工业态势感知模块包括:数据预处理子模块,对所述工控系统数据进行预处理,提取工控系统态势模型所需的特征发送模型构建子模块,工控系统数据包括工控网络中的设备运行状态、系统漏洞、访问用户操作信息、企业资产配置信息、网络拓扑结构;模型构建子模块,通过机器学习方法构建工控系统态势模型,得到工控系统态势模型各个参数权重,输出安全可视化数据、模型和态势判定结果供了解系统运行安全状态,判定结果上链存证,同时作为强化学习奖励机制的数据基础。7.一种的基于区块链和强化学习的纵深防御安全方法,使用如权利要求6所述的区块链和强化学习的纵深防御安全系统,其特征在于,包括如下步骤,其中s200与s300无先后顺序要求:s100、准备工作,包括工控系统态势模型训练和强化学习dqn模型训练;s200、访问用户访问工控网络中的设备,所述访问用户通过所述用户安全身份基础设施模块发起对所述工控网络中的设备的访问请求;s300、终端设备接入工控网络,所述设备风险评估模块对所述终端设备进行风险评估认证,生成设备认证证书,根据认证证书的等级,接入所述工控网络模块;
s400、评估工控网络安全态势,所述工业态势感知模块提取所述工控网络中的设备运行状态特征信息,实时判断所述工控网络的安全状态并输出至所述工控可信度量模块和所述区块链溯源存证模块;s500、实时信任度量,所述工控可信度量模块通过已训练完成的dqn模型实时度量访问用户的行为,以所述访问用户的状态为输入,判定所述访问用户是否允许访问,度量结果发送至所述动态访问控制子模块;s600、动态调整信任决策,所述动态访问控制子模块将所述工控可信度量模块输出的度量结果映射成访问权限,做出信任决策,发送给所述可信访问代理模块执行;s700、执行信任决策,响应于所述动态访问控制子模块发来的信任决策,所述可信访问代理模块实时、动态地启用或终止所述访问用户与所述工控网络中的设备的连接;s800、持续监控和防御,重复执行步骤s400-s800。8.如权利要求7所述的,其特征在于,所述步骤s100包括:s110、工控系统态势模型训练;s120、强化学习dqn模型训练。9.如权利要求8的,其特征在于,所述步骤s110包括:s111、数据预处理,所述工业态势感知模块的数据预处理子模块对收集到的所述工控网络中的设备运行状态、用户操作信息、企业资产配置信息、网络拓扑结构数据进行预处理,提取模型构建所需的特征,发送所述模型构建子模块;s112、模型构建,所述工业态势感知模块的模型构建子模块通过机器学习对输入的数据特征进行整合训练,拟合各个参数权重,输出可视化数据,得到工控系统态势模型。10.如权利要求9的,其特征在于,所述步骤s300包括:s310、设备扫描,所述设备扫描子模块扫描所述终端设备的固件信息和通信报文;s320、设备信息匹配,根据所述固件信息和所述通信报文,匹配所述设备信息库中的设备信息;s330、风险等级计算,所述风险评估子模块基于所述设备信息库中的漏洞、补丁安全数据结合预设的风险因子计算得到所述终端设备的风险等级;s340、密钥生成,所述设备登记子模块对接入的所述终端设备选择合适的加密算法,进行加密生成密钥;s350、认证证书生成,所述证书生成子模块基于接入的所述终端设备的扫描信息、初始风险等级、密钥生成不同等级的认证证书,证书信息发送到所述区块链存证记录模块。

技术总结


本发明公开了一种区块链和强化学习的纵深防御安全系统,涉及信息安全技术领域,包括设备风险评估模块、工业防火墙模块、工控网络模块、工业态势感知模块、工控可信度量模块、可信访问代理模块、访问用户安全身份基础设施模块和区块链溯源存证记录模块。本发明还公开了一种区块链和强化学习的纵深防御安全方法,包括S100、准备工作;S200、访问用户访问工控网络中的设备;S300、终端设备接入工控网络;S400、评估工控网络安全态势;S500、实时信任度量;S600、动态调整信任决策;S700、执行信任决策;S800、持续监控和防御。本发明提高了工控网络的纵深安全性和智能性。的纵深安全性和智能性。的纵深安全性和智能性。


技术研发人员:

田亚伟 王东初 伏玉笋

受保护的技术使用者:

上海交通大学宁波人工智能研究院

技术研发日:

2022.09.02

技术公布日:

2022/11/25

本文发布于:2022-11-28 02:27:48,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/9251.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模块   工控   所述   终端设备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图