1.本发明涉及一种基于图
卷积神经网络的互联网蠕虫传播溯源方法,适用于互联网中广泛传播的蠕虫,对蠕虫传播进行反向跟踪与溯源,在蠕虫传播初期将其遏制,为后期的病毒特征分析和互联网犯罪取证提供关键的证据支撑。
背景技术:
2.随着我国信息化进程的不断推进,大量工业企业和政府机构正致力于依托互联网技术实现其管理系统以及关键基础设施的信息共享和互联互通,这些基础设施暴露在互联网上的同时也带来了网络安全问题,特别是利用互联网的联通性,蠕虫能够广泛传播继而造成严重的后果。传统的溯源方法根据假设的传播模型先验知识来模拟传播过程,通过概率推理和图谱分析估计传播源
节点,只有当传播假设与真实情况相符时,溯源方法才是有效的,而实际情况中很难获取真实的传播模型,这使得蠕虫传播溯源面临新的挑战。
3.一方面,现有的蠕虫传播溯源方法往往假设具有传播模型先验知识,通过对传播过程的复现来寻传播源节点。这类方法对于假设模型与真实情况相符合的传播是有效的,但现实情况下,蠕虫有许多种类,其传播情况较为复杂多变,很难获得真实的传播模型。此外,对传播过程的假设参数越多时,描述才会越准确,溯源方法准确率越高。传统溯源方法的预测准确率因此受到限制,一般获得的估计结果不是真实源节点,而是与真实源节点距离相近的估计节点。
4.另一方面,使用卷积神经网络的方法解决溯源问题,需要将传播图转换为二维矩阵作为卷积神经网络的输入进行训练,只能获取欧式空间中的信息。而传播图这类非欧式空间的图结构信息通过邻接图的方式映射到二维欧式平面过程中必然导致传播图中大量非欧式结构信息的损失,影响溯源效果。因此,使用图卷积神经网络(graph convolutional network,gcn)的方法,直接将传播图作为输入,通过聚合图中相邻节点的信息,对图的结构特征进行表示,从而对传播图进行溯源。
5.综上所述,为解决面向互联网安全的蠕虫传播溯源问题,需要使用gcn直接对传播图在非欧式的图空间中进行卷积,避免不必要的图结构信息损失,有效提高溯源能力。
技术实现要素:
6.本发明的目的在于解决原始卷积神经网络模型在获取传播图中非欧式结构信息上能力有限的问题,提出一种基于图卷积神经网络的互联网蠕虫传播溯源方法,无需将传播图转换到欧式空间上,而是直接对图结构进行卷积,将传播图的节点感染状态作为节点特征,与邻接矩阵一起作为图卷积神经网络的输入,将传播图对应的传播源节点作为类标签输出,通过层次化堆叠的图卷积和图池化过程,对传播图进行分类训练与学习(基于梯度下降算法),从而可以直接从图分类的角度解决传播溯源问题。
7.为了达到上述发明目的,本发明通过以下具体技术方案进行实现:
8.一种基于图卷积神经网络的互联网蠕虫传播溯源方法,包括如下
步骤:
9.步骤1)采集蠕虫传播图样本集,使用传染病模型中的si(s表示节点为易感状态,i表示节点为感染状态)模型仿真蠕虫传播过程,获取不同节点作为源节点在网络上传播的传播图样本;
10.步骤2)将传播图用邻接矩阵a表示,传播图在不同观测条件下的节点感染状态表示为节点特征f;
11.步骤3)将传播图邻接矩阵a与节点特征f一起作为图卷积神经网络(gcn)的输入,传播图对应的源节点作为图分类的标签,经过层次化堆叠的图卷积和图池化过程,采用梯度下降算法训练gcn;
12.步骤4)将未知传播源的传播图输入到训练好的gcn中,得到对其传播源节点的预测结果。
13.所述步骤1)具体包括下列步骤:
14.步骤1.1、传播底图为有向图,随机赋予所有边权重weight作为边的节点之间被感染的概率;
15.步骤1.2、在传播过程中,随机设置传播感染概率设为q,服从在(0,1)上的均匀分布,当q>weight时,节点被感染,一段时间后,能够得到从源节点s起始的蠕虫传播图;
16.步骤1.3、实际传播过程中,不能得到节点的具体感染时间,但能够观测到节点的感染规模,即当感染节点数量达到一定范围时,停止传播。
17.所述步骤2)具体包括下列步骤:
18.步骤2.1、在传播底图上从源节点进行传播得到传播图,将传播底图节点编号固定,并观测所有节点所处的状态,其中处于感染状态的节点,用1表示,处于未感染状态的节点,用0表示;
19.步骤2.2、在完全观测条件下,能够观测到所有n个节点的感染状态,得到传播图的邻接矩阵用a∈rn×n表示,节点感染特征向量为f∈rn×1;
20.步骤2.3、在快照观测条件下,只能观测部分节点,观测节点数量为m时,如果得到非连通子图,将所有子图进行对角线拼接,得到邻接矩阵a∈rm×m,节点特征向量为f∈rm×1;
21.步骤2.4、在传感器观测条件下,同样只能观测部分节点,观测节点数量为m时,如果得到非连通子图,将所有子图进行对角线拼接,得到邻接矩阵a∈rm×m,用感染时间t表示处于感染状态的节点特征,未感染节点状态仍用0表示,此时节点特征向量为f∈rm×1。
22.所述步骤3)具体包括下列步骤:
23.步骤3.1、构建3层卷积层,每一层卷积层表示节点嵌入,依赖于邻接矩阵、可训练的参数和前一步得到的节点嵌入,聚合当前节点本身的特征和节点邻域特征,使用跳跃连接(skip connections)的方式,在最后一层使用contact函数聚合之前各层的嵌入;
24.步骤3.2、使用可微分池化层(differentiable pooling,diffpool)方法,以分层的方式堆叠多个gcn模块,计算第l层gcn的节点嵌入z
l
和分配矩阵s
l
,对图中每一个节点生成一个新的粗化邻接矩阵a
(l+1)
和新的嵌入矩阵x
(l+1)
,作为下一层gcn的输入,共使用两层池化层;
25.步骤3.3、将传播图邻接矩阵a和节点特征f共同作为gcn网络的输入,传播图对应的源节点作为图分类的标签输出,经过梯度下降算法训练gcn网络;
26.步骤3.4、图卷积神经网络训练时,通过输入前向传播得到的输出标签与实际源节
点标签对比做差,得到神经网络训练的损失;
27.步骤3.5、将网络损失采用梯度下降法后向传播,从而更新神经网络模型权重,重复步骤3.3-3.5直到网络损失收敛。
28.所述步骤4)具体包括下列步骤:
29.步骤4.1、对于未知传播源的传播图,将其输入到训练好的神经网络中,使用softmax函数对传播图的预测分类结果赋予不同的概率值,选择概率最大的结果作为输出分类结果,即作为对源节点标签的预测值;
30.步骤4.2、计算预测源节点与实际源节点之间的最短距离作为误差距离,误差距离越小,则预测效果越好,对于大量未知传播源样本,同时计算平均误差距离和预测准确率来评估算法的预测效果。
31.本发明与现有技术相比较,具有如下突出的实质性特点和显著的优点:
32.1.本发明不局限于将非欧式空间上的传播图结构映射到二维欧式平面上,而是通过图卷积神经网络直接对图结构进行卷积,经过层次化堆叠的图卷积和图池化过程,对传播图进行分类训练与学习,从而可以直接从图分类的角度解决传播溯源问题;
33.2.本发明可以对未知传播源的传播图进行溯源,以及在不同观测条件下,基于gcn模型的蠕虫传播溯源方法同样适用。
附图说明
34.图1为本发明方法的示意图。
35.图2为本发明的方法总流程图。
36.图3为传播图样本的邻接矩阵和节点特征示意图。
37.图4为基于gcn模型的蠕虫传播溯源方法示意图。
具体实施方式
38.下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
39.本发明的目的是通过基于gcn模型的溯源方法,直接对图结构进行卷积,基于梯度下降算法对传播图进行训练与学习,从而对未知传播源的传播图进行传播源估计。
40.如图1和图2所示,本实施例以100节点ba无标度网络和ws小世界网络以及117节点的phy真实社交网络的传播溯源为例,具体的实施步骤如下:
41.步骤101、将ba100、ws100和phy117网络分别作为传播底图,随机赋予所有边权重weight作为边的节点之间被感染的概率,将传播底图表示为加权有向图;
42.步骤102、在传播过程中,随机设置传播感染概率设为q,服从在(0,1)上的均匀分布,当q>weight时,节点被感染,一段时间后,能够得到从源节点s起始的蠕虫传播图,每个节点进行50次实验获得传播图样本数据集,随机选取数据集的80%作为训练集,10%作为测试集和10%作为验证集;
43.步骤103、实际传播过程中,不能得到节点的具体感染时间,但能够观测到节点的感染规模,当感染节点数量为节点总数的30%时,停止传播。
44.步骤201、在传播底图上从源节点进行传播得到传播图,将传播底图节点编号固定,并观测所有节点所处的状态,其中处于感染状态的节点,用1表示,处于未感染状态的节
error distance,aed)和预测准确率(accuracy,acc)来评估溯源算法的预测效果。
56.下表列出了本发明所提方法在完全观测、快照观测和传感器观测条件下,在ba网络,ws网络和真实社交网络phy中的实验结果,该结果表明了本发明方法的有效性:
[0057][0058]
上述实施例面向互联网安全的蠕虫传播溯源方法,采集蠕虫传播图样本集,使用si模型仿真蠕虫传播过程,获取不同节点作为源节点在网络上传播的传播图样本集;将传播图用邻接矩阵表示,传播图在不同观测条件下的节点感染状态表示为节点特征;然后将传播图样本邻接矩阵与节点特征一起作为gcn的输入,传播图样本对应的源节点作为图分类的标签,经过层次化堆叠的图卷积和图池化过程,采用梯度下降算法训练gcn;再将未知传播源的传播图输入到训练好的gcn中,得到对其传播源节点的预测结果。上述实施例方法采用图卷积神经网络建立传播图与源节点标签之间的图分类模型,解决卷积神经网络模型在获取传播图中非欧式结构信息上能力有限的问题。
[0059]
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于图卷积神经网络的蠕虫传播溯源方法,其特征在于,包括以下步骤:步骤1)采集蠕虫传播图样本集,使用si模型仿真蠕虫传播过程,得到不同节点作为源节点在网络上传播的传播图样本;步骤2)将传播图用邻接矩阵a表示,传播图在不同观测条件下的节点感染状态表示为节点特征f;步骤3)将传播图邻接矩阵a与节点特征f一起作为图卷积神经网络gcn的输入,传播图对应的源节点作为图分类的标签,经过层次化堆叠的图卷积和图池化过程,采用梯度下降算法训练gcn;步骤4)将未知传播源的传播图输入到训练好的gcn中,得到对其传播源节点的预测结果。2.根据权利要求1所述的基于图卷积神经网络的蠕虫传播溯源方法,其特征在于,所述步骤1)具体包括下列步骤:步骤1.1、传播底图为有向图,随机赋予所有边权重weight作为边的节点之间被感染的概率;步骤1.2、在传播过程中,随机设置传播感染概率设为q,服从在(0,1)上的均匀分布,当q>weight时,节点被感染,一段时间后,能够得到从源节点s起始的蠕虫传播图;步骤1.3、实际传播过程中,不能得到节点的具体感染时间,但能够观测到节点的感染规模,即当感染节点数量达到一定范围时,停止传播。3.根据权利要求1所述的基于图卷积神经网络的蠕虫传播溯源方法,其特征在于,所述步骤2)具体包括下列步骤:步骤2.1、在传播底图上从源节点进行传播得到传播图,将传播底图节点编号固定,并观测所有节点所处的状态,其中处于感染状态的节点,用1表示,处于未感染状态的节点,用0表示;步骤2.2、在完全观测条件下,能够观测到所有n个节点的感染状态,得到传播图的邻接矩阵用a∈r
n
×
n
表示,节点感染特征向量为f∈r
n
×1;步骤2.3、在快照观测条件下,只能观测部分节点,观测节点数量为m时,如果得到非连通子图,将所有子图进行对角线拼接,得到邻接矩阵a∈r
m
×
m
,节点特征向量为f∈r
m
×1;步骤2.4、在传感器观测条件下,同样只能观测部分节点,观测节点数量为m时,如果得到非连通子图,将所有子图进行对角线拼接,得到邻接矩阵a∈r
m
×
m
,用感染时间t表示处于感染状态的节点特征,未感染节点状态仍用0表示,此时节点特征向量为f∈r
m
×1。4.根据权利要求1所述的基于图卷积神经网络的蠕虫传播溯源方法,其特征在于,所述步骤3)具体包括下列步骤:步骤3.1、构建3层卷积层,每一层卷积层表示节点嵌入,依赖于邻接矩阵、能训练的参数和前一步得到的节点嵌入,聚合当前节点本身的特征和节点邻域特征,使用跳跃连接skip connections的方式,在最后一层使用contact函数聚合之前各层的嵌入;步骤3.2、使用可微分池化层方法,以分层的方式堆叠多个gcn模块,计算第l层gcn的节点嵌入z
l
和分配矩阵s
l
,对图中每一个节点生成一个新的粗化邻接矩阵a
(l+1)
和新的嵌入矩阵x
(l+1)
,作为下一层gcn的输入,共使用两层池化层;步骤3.3、将传播图邻接矩阵a和节点特征f共同作为gcn网络的输入,传播图对应的源
节点作为图分类的标签输出,经过梯度下降算法训练gcn网络;步骤3.4、图卷积神经网络训练时,通过输入前向传播得到的输出标签与实际源节点标签对比做差,得到神经网络训练的损失;步骤3.5、将网络损失采用梯度下降法后向传播,从而更新神经网络模型权重,重复步骤3.3-3.5直到网络损失收敛。5.根据权利要求1所述的基于图卷积神经网络的蠕虫传播溯源方法,其特征在于,所述步骤4)具体包括下列步骤:步骤4.1、对于未知传播源的传播图,将其输入到训练好的神经网络中,使用softmax函数对传播图的预测分类结果赋予不同的概率值,选择概率最大的结果作为输出分类结果,即作为对源节点标签的预测值;步骤4.2、计算预测源节点与实际源节点之间的最短距离作为误差距离,误差距离越小,则预测效果越好,对于大量未知传播源样本,同时计算平均误差距离和预测准确率来评估算法的预测效果。
技术总结
本发明提出了一种基于图卷积神经网络的互联网蠕虫传播溯源方法,采集蠕虫传播图样本集,使用SI模型仿真蠕虫传播过程,获取不同节点作为源节点在网络上传播的传播图样本集;将传播图用邻接矩阵表示,传播图在不同观测条件下的节点感染状态表示为节点特征;将传播图样本邻接矩阵与节点特征一起作为GCN的输入,传播图样本对应的源节点作为图分类的标签,经过层次化堆叠的图卷积和图池化过程,采用梯度下降算法训练GCN;将未知传播源的传播图输入到训练好的GCN中,得到对其传播源节点的预测结果。本方法采用图卷积神经网络建立传播图与源节点标签之间的图分类模型,解决卷积神经网络模型在获取传播图中非欧式结构信息上能力有限的问题。限的问题。限的问题。
技术研发人员:
周鹏 张灿阳
受保护的技术使用者:
上海大学
技术研发日:
2022.08.30
技术公布日:
2022/12/16