多维度融合的高性能深度包检测方法与流程

阅读: 评论:0



1.本发明属于深度包检测技术领域,具体是多维度融合的高性能深度包检测方法。


背景技术:



2.传统的网络运维管理,往往通过设备网管实现对网元级的管理,后来发展至网络级管理,可以对上层的简单应用进行管控,而这些应用级管控技术大多采用简单网络管理协议snmp或者基于端口的流量识别进行分析和管理。因此,如何深度感知互联网/移动互联网业务,提供应用级管控手段,构建“可运营、可管理”的网络,成为运营商关注的焦点。为了更好的对网络流量进行管理,dp i就发展起来了,dp i是一项已经在流量管理、安全和网络分析等方面获得成功的技术,同时该技术能够对网络数据包进行内容分析,但又与header(数据包头)或者基于元数据的数据包检测有所不同,这两种方式不能够检测基于内容的威胁和区分使用共同通信平台的应用程序。而dp i解决方案能够为不同的应用程序提供深度数据包检测。
3.传统的dp i识别引擎一般采用的是“特征码”的识别技术。不同的应用通常依赖于不同的协议,而不同的协议都有其特殊的指纹,这些指纹可能是特定的端口、特定的字符串或者特定的bit序列。基于“特征字”的识别技术通过对业务流中特定数据报文中的“指纹”信息的检测以确定业务流承载的应用,根据具体检测方式的不同,基于“特征字”的识别技术又可以被分为固定位置特征字匹配、变动位置的特征匹配以及状态特征匹配三种技术,通过对“指纹”信息的升级,基于特征的识别技术可以很方便的进行功能扩展,实现对新协议的检测。
4.传统的dp i底层数据上送采用的是on l i ne模式(数据包直接送人上层进行识别),on l i ne模式可以对机器上送的流量进行即时的分析,并且流量的追踪和识别上没有延迟,但仍然不足之处,当其上层识别业务趋于复杂后或者下层的数据过多时,带宽的下降非常明显,非常影响用户体验,on l i ne模式本质上是全上送模式,所有的数据包不管是否有用都会送到上层进行检测,不能选择性的上送,十分不智能。


技术实现要素:



5.为解决上述背景技术中提出的问题,本发明提供了多维度融合的高性能深度包检测方法数据上送使用了off l i ne模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析。使数据传输效率不受影响,将公有协议和私有协议分开识别,并且私有协议识别呈多层网状结构,极大的提高了识别准确率,在上层(识别引擎)和下层(数据上送)都使用了缓存机制,减少了很多冗余的数据传输的优点。
6.为实现上述目的,本发明提供如下技术方案:多维度融合的高性能深度包检测方法,所述多维度dpi核心分为三部分,第一部分是整个多维度dp i使用了高性能的网络开发框架——vpp、第二部分是基于底层off l i ne模式的流量上送机制,第三部分是基于特征码、权重网络和机器学习的多层网状识别引擎。
7.优选的,所述vpp是一个模块化和可扩展的软件框架,用于创建网络数据面应用程序。
8.优选的,所述流量上送机制:多维度dpi使用off l i ne模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析。
9.优选的,所述数据的流转过程:
10.s1:网卡:收到一个包,通过dma放到r i ng-buffer;
11.s2:包经过xdp hook点;
12.s3:内核给包分配内存,此时才有了大家熟悉的skb包的内核结构体表示,然后送到内核协议栈;
13.s4:包经过gro处理,对分片包进行重组;
14.s5:包进入traff i c contro l的i ngress hook;接下来,所有橙的框都是netf i l ter处理点;
15f i l ter:在prerout i ng hook点处理raw tab l e里的i ptab l es规则;
16.s6:包经过内核的连接跟踪conntrack模块;
17f i l ter:在prerout i ng hook点处理mang l e tab l e的i ptab l es规则;
18f i l ter:在prerout i ng hook点处理nat tab l e的i ptab l es规则;
19.s7:进行路由判断f i b:forward i ng i nformat i on base,路由条目的内核表示;接下来又是四个netf i l ter处理点;
20f i l ter:在forward hook点处理mang l e tab l e里的i ptab l es规则;
21f i l ter:在forward hook点处理f i l ter tab l e里的i ptab l es规则;
22f i l ter:在postrout i ng hook点处理mang l e tab l e里的i ptab l es规则;
23f i l ter:在postrout i ng hook点处理nat tab l e里的i ptab l es规则;
24.s8:包到达tc egress hook点,会进行出方向egress的判断,判断这个包是到本地设备,还是到主机外;
25.s9:对大包进行分片。根据step 15判断的结果;发送到一个本机veth设备,或者一个本机servi ce endpoi nt,若目的i p是主机外,就通过网卡发出去。
26.优选的,所述上层网状识别引擎识别方式包括:特征码识别、权重网络识别、机器学习识别与公有协议解析识别。
27.优选的,所述特征码识别基于“特征字”的识别技术不同的应用通常依赖于不同的协议,而不同的协议都有其特殊的指纹,这些指纹可能是特定的端口、特定的字符串或者特定的bit序列。
28.优选的,所述权重网络识别是基于机器学习模型,经过简化和改良形成的,其核心思想为概率映射。
29.优选的,所述机器学习识别基于传统机器学习模型,利用卷积神经网络来进行识别,提取特征,使用网络流量统计特性;
30.所述特征如包长、时间戳、数据流向、协议类型。
31.优选的,所述公有协议解析识别对于网络中常用的几种公有协议进行协议解析,将其中的重要信息解析出来并和引擎中内置的数据库进行比对,从而对流量进行追踪和定位;
32.所述重要信息包括dns协议的域名信息、tls协议中的证书信息、http协议中的host、agent、ur l信息。
33.优选的,所述引擎识别流程:上层的识别引擎自带有缓存机制,当遇到同一条f l ow的相同标识时,缓存机制可以保证相同的标识不会多次下发;
34.所述识别模块的具体流程:先对公有协议进行协议解析,将使用公有协议的流量全部进行追踪和识别,同时未识别的流量进入私有协议识别层。私有协议识别层优先进行算力消耗最低的规则,当与规则匹配上则直接转入到丢弃节点。
35.与现有技术相比,本发明的有益效果如下:
36.本发明提供了多维度融合的高性能深度包检测方法,数据上送使用了off l i ne模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析。使数据传输效率不受影响,将公有协议和私有协议分开识别,并且私有协议识别呈多层网状结构,极大的提高了识别准确率,在上层(识别引擎)和下层(数据上送)都使用了缓存机制,减少了很多冗余数据传输。
附图说明
37.图1为本发明的流量上送机制流程示意图;
38.图2为本发明的多维度dp i上送流程示意图;
39.图3为本发明的多层网状引擎识别流程示意图;
40.图4为本发明的识别模块流程示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.本发明提供多维度融合的高性能深度包检测方法,多维度dp i核心分为三部分,第一部分是整个多维度dp i使用了高性能的网络开发框架——vpp、第二部分是基于底层off l i ne模式的流量上送机制,第三部分是基于特征码、权重网络和机器学习的多层网状识别引擎;vpp是一个模块化和可扩展的软件框架,用于创建网络数据面应用程序;vpp代码为现代通用处理器平台(x86、arm、powerpc等)而生,并把重点放在优化软件和硬件接口上,以便用于实时的网络输入输出操作和报文处理;为了提高性能,vpp数据平面是由转发节点的有向图组成,这些节点在每次调用时处理多个数据包。这种模式支持各种微处理器优化:流水线处理和预取功能降低依赖数据的读取延迟,固有的i-cache阶段行为,向量指令。除了硬件输入和硬件输出节点,整个转发图都是可移植的代码。模块化设计框架允许任何人“插入”新的图形节点,而不需要更改核心/内核代码;
43.使用的是vpp框架,其可扩展性非常强,所有的功能模块都以插件的形式存在,并且可以指定数据的流向。尤其对于识别模块的规则,可以做到快速更新迭代;
44.解决了传统dp i单一维度,识别的精度不够高,还会有误判的缺陷。通过多层网状结构,将识别精度带上一个全新的高度。
45.流量上送机制:多维度dp i使用off l i ne模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析;这样带来的效果是数据传输效率没有受到影响,并且降低了即时算力的要求,使性能得到进一步的提升;
46.传统的dpi使用的是on l i ne模式,直接介入数据流转过程,在数据仍在传输时就使用识别引擎进行识别。这种模式可以对机器上送的流量进行即时的分析,并且流量的追踪和识别上没有延迟。当其上层识别业务趋于复杂后或者下层的数据过多时,带宽的下降非常明显,非常影响用户体验;
47.解决了传统dpi过度依赖高性能处理器的缺陷,利用off l i ne模式合理的规避了大的运算量,并且对识别精度并未造成影响,提高了dpi的商业价值。
48.其中,数据的流转过程:
49.s1:网卡:收到一个包,通过dma放到r i ng-buffer;
50.s2:包经过xdp hook点;
51.s3:内核给包分配内存,此时才有了大家熟悉的skb包的内核结构体表示,然后送到内核协议栈;
52.s4:包经过gro处理,对分片包进行重组;
53.s5:包进入traffic contro l的i ngress hook;接下来,所有橙的框都是netfi lter处理点;
54fi lter:在prerout i ng hook点处理raw tab l e里的i ptab l es规则;
55.s6:包经过内核的连接跟踪conntrack模块;
56fi lter:在prerout i ng hook点处理mang l e tab l e的iptab l es规则;
57fi lter:在prerout i ng hook点处理nat tab l e的iptab l es规则;
58.s7:进行路由判断fi b:forward i ng i nformat ion base,路由条目的内核表示;接下来又是四个netfi lter处理点;
59fi lter:在forward hook点处理mang l e tab l e里的i ptab l es规则;
60fi lter:在forward hook点处理fi lter tab l e里的i ptab l es规则;
61fi lter:在postrout i ng hook点处理mang l e tab l e里的iptab l es规则;
62fi lter:在postrout i ng hook点处理nat tab l e里的iptab l es规则;
63.s8:包到达tc egress hook点,会进行出方向egress的判断,判断这个包是到本地设备,还是到主机外;
64.s9:对大包进行分片。根据step 15判断的结果;发送到一个本机veth设备,或者一个本机servi ce endpoi nt,若目的i p是主机外,就通过网卡发出去;
65.多维度dpi上送则是通过虚拟xdp在网卡上增加一个挂载点来进行数据的拷贝,这样就不会对正常流量的传输造成影响。同时拷贝到缓存的数据马上放入识别引擎进行分析,并将结果下发给tc i ngress进行填充。并且网卡出口处的tc egress节点还能对被标
识过的数据进行流量统计;
66.使用的是虚拟xdp进行挂载,网卡适应性极佳,对于无实体xdp的网卡也可以进行数据提取。
67.其中,上层网状识别引擎识别方式包括:特征码识别、权重网络识别、机器学习识别与公有协议解析识别;这四种方式可以将多维度dpi的精度推向一个全新的高度,甚至部分应用的识别率可以到达99%,这是上层应用领域识别的一次极大的突破。
68.其中,特征码识别基于“特征字”的识别技术不同的应用通常依赖于不同的协议,而不同的协议都有其特殊的指纹,这些指纹可能是特定的端口、特定的字符串或者特定的bit序列;基于“特征字”的识别技术通过对业务流中特定数据报文中的“指纹”信息的检测以确定业务流承载的应用。根据具体检测方式的不同,基于“特征字”的识别技术又可以被分为固定位置特征字匹配、变动位置的特征匹配以及状态特征匹配三种技术。通过对“指纹”信息的升级,基于特征的识别技术可以很方便的进行功能扩展,实现对新协议的检测。
69.其中,权重网络识别是基于机器学习模型,经过简化和改良形成的,其核心思想为概率映射;私有协议在pay l oad部分的取值会成概率型分布,那么基于这一特点,可以通过大量数据的累积来放大其协议的特征,并将这些特征转化为可计算的模型。再将需要检测的数据包放入模型得到一个预测值,通这个值可以判断出数据包和模型的吻合程度,进而得到识别结果。
70.其中,机器学习识别基于传统机器学习模型,利用卷积神经网络来进行识别,提取特征,使用网络流量统计特性;
71.所述特征如包长、时间戳、数据流向、协议类型;
72.通过监督学习如决策树、svm、rf等模型进行训练学习。训练好的模型只需要送入数据包就能得到识别结果。
73.其中,公有协议解析识别对于网络中常用的几种公有协议进行协议解析,将其中的重要信息解析出来并和引擎中内置的数据库进行比对,从而对流量进行追踪和定位;
74.重要信息包括dns协议的域名信息、tls协议中的证书信息、http协议中的host、agent、ur l信息。
75.其中,引擎识别流程:上层的识别引擎自带有缓存机制,当遇到同一条f l ow的相同标识时,缓存机制可以保证相同的标识不会多次下发;
76.识别模块的具体流程:先对公有协议进行协议解析,将使用公有协议的流量全部进行追踪和识别,同时未识别的流量进入私有协议识别层。私有协议识别层优先进行算力消耗最低的规则,当与规则匹配上则直接转入到丢弃节点。
77.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
78.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:


1.多维度融合的高性能深度包检测方法,其特征在于:所述多维度dpi核心分为三部分,第一部分是整个多维度dpi使用了高性能的网络开发框架——vpp、第二部分是基于底层offline模式的流量上送机制,第三部分是基于特征码、权重网络和机器学习的多层网状识别引擎。2.根据权利要求1所述的多维度融合的高性能深度包检测方法,其特征在于:所述vpp是一个模块化和可扩展的软件框架,用于创建网络数据面应用程序。3.根据权利要求1所述的多维度融合的高性能深度包检测方法,其特征在于:所述流量上送机制:多维度dpi使用offline模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析。4.根据权利要求3所述的多维度融合的高性能深度包检测方法,其特征在于:所述数据的流转过程:s1:网卡:收到一个包,通过dma放到ring-buffer;s2:包经过xdp hook点;s3:内核给包分配内存,此时才有了大家熟悉的skb包的内核结构体表示,然后送到内核协议栈;s4:包经过gro处理,对分片包进行重组;s5:包进入traffic control的ingress hook;接下来,所有橙的框都是netfilter处理点;netfilter:在prerouting hook点处理raw table里的iptables规则;s6:包经过内核的连接跟踪conntrack模块;netfilter:在prerouting hook点处理mangle table的iptables规则;netfilter:在prerouting hook点处理nat table的iptables规则;s7:进行路由判断fib:forwarding information base,路由条目的内核表示;接下来又是四个netfilter处理点;netfilter:在forward hook点处理mangle table里的iptables规则;netfilter:在forward hook点处理filter table里的iptables规则;netfilter:在postrouting hook点处理mangle table里的iptables规则;netfilter:在postrouting hook点处理nat table里的iptables规则;s8:包到达tc egress hook点,会进行出方向egress的判断,判断这个包是到本地设备,还是到主机外;s9:对大包进行分片。根据step 15判断的结果;发送到一个本机veth设备,或者一个本机service endpoint,若目的ip是主机外,就通过网卡发出去。5.根据权利要求1所述的多维度融合的高性能深度包检测方法,其特征在于:所述上层网状识别引擎识别方式包括:特征码识别、权重网络识别、机器学习识别与公有协议解析识别。6.根据权利要求5所述的多维度融合的高性能深度包检测方法,其特征在于:所述特征码识别基于“特征字”的识别技术不同的应用通常依赖于不同的协议,而不同的协议都有其特殊的指纹,这些指纹可能是特定的端口、特定的字符串或者特定的bit序列。7.根据权利要求1所述的多维度融合的高性能深度包检测方法,其特征在于:所述权重
网络识别是基于机器学习模型,经过简化和改良形成的,其核心思想为概率映射。8.根据权利要求5所述的多维度融合的高性能深度包检测方法,其特征在于:所述机器学习识别基于传统机器学习模型,利用卷积神经网络来进行识别,提取特征,使用网络流量统计特性;所述特征如包长、时间戳、数据流向、协议类型。9.根据权利要求5所述的多维度融合的高性能深度包检测方法,其特征在于:所述公有协议解析识别对于网络中常用的几种公有协议进行协议解析,将其中的重要信息解析出来并和引擎中内置的数据库进行比对,从而对流量进行追踪和定位;所述重要信息包括dns协议的域名信息、tls协议中的证书信息、http协议中的host、agent、url信息。10.根据权利要求5所述的多维度融合的高性能深度包检测方法,其特征在于:所述引擎识别流程:上层的识别引擎自带有缓存机制,当遇到同一条flow的相同标识时,缓存机制可以保证相同的标识不会多次下发;所述识别模块的具体流程:先对公有协议进行协议解析,将使用公有协议的流量全部进行追踪和识别,同时未识别的流量进入私有协议识别层。私有协议识别层优先进行算力消耗最低的规则,当与规则匹配上则直接转入到丢弃节点。

技术总结


本发明属于深度包检测技术领域,且公开了多维度融合的高性能深度包检测方法,所述多维度DPI核心分为三部分,第一部分是整个多维度DPI使用了高性能的网络开发框架——VPP、第二部分是基于底层offline模式的流量上送机制,第三部分是基于特征码、权重网络以及机器学习的识别方式。本发明提供了多维度融合的高性能深度包检测方法,数据上送使用了offline模式,不直接介入数据的流转过程,而是将数据选择性的进行拷贝,再使用识别引擎进行分析。使数据传输效率不受影响,将公有协议和私有协议分开识别,并且私有协议识别呈多层网状结构,极大的提高了识别准确率,在上层(识别引擎)和下层(数据上送)都使用了缓存机制,减少了很多冗余数据传输。数据传输。数据传输。


技术研发人员:

赵坤 董晟 黄辰光 张芊

受保护的技术使用者:

上海叠念信息科技有限公司

技术研发日:

2022.11.23

技术公布日:

2023/3/24

本文发布于:2023-03-26 22:18:13,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/80076.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:多维   协议   所述   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图