陈迎春
(中共青海省委党校,西宁810001 )
摘 要:网络安全态势感知系统有助于用户准确感知所在网络安全情况,从而准确做出安全规划和决策。现阶 段的技术水平在一定程度上制约了安全态势感知的应用。本文重点阐述了构建网络安全态势感知系统所涉及的
大数据平台关键技术,旨在为搭建网络安全态势感知的用户提供借鉴。关键词:网络安全态势感知系统;大数据平台;数据处理过程中图分类号:TP309 文献标识码:A
1网络安全态势感知的定义
当下网络安全形势日趋严峻,传统安全防护
能力受到挑战。我们的安全防护意识不能仅仅停
留在部署防火墙、流量异常检测、漏洞扫描、入 侵检测等网络安全防护设备上,一定要化被动防
御为主动预判,积极充分利用网络产生的各类数
据进行分析处理,建立自适应预测预警防御系统,
自动抵御潜在攻击和威胁,大幅提升网络安全性。
态势感知的定义有多种说法,比较认可的是
Endsley 和Albert 提出的定义,其核心内容都是基
于大规模数据的搜集处理,利用人工智能实现对未
来一定时间内的态势进行动态判断。随着态势感知
理念的成熟,网络安全态势的定义也日趋清晰。所 谓网络安全事态感知是以大型网络为环境、实时产
生的大数据为基础,从整体视角对能够改变网络安 全趋势的安全因素进行分析、理解和处理,并给出
近期网络安全的现状和和未来发展趋势。
2主流大数据平台
目前应用最多的大数据平台主要有三种,即
文章编号:1005-9393(2021)01-0055-03
Hadoop 、Spark 和Storm,其中Hadoop 市场占有率
最高,但Spark 和Storm 也发展迅猛,各有优势,
不容小觑。本文重点介绍这三种大数据平台的优
势。
Hadoop 平台主要优势:(1)易跨平台性。系
统为分布式基础架构,底层接口友好,使用语言
主要是java,也支持C 和C++语言,这样使基于
云平台开发的应用具有较强的兼容性。(2)建设
成本低。由于平台可部署在不同型号的计算机集
,大幅节约硬件成本。(3)可靠高效。数据存
储方式采用冗余模式,即如果有某一部分集出
现故障,其副本立即启用,保障应用功能正常。
其强大的分布式数据采集存储和处理能力,保证
快速响应TB 甚至PB 级的数据。
Spark 平台为提高计算速度和实时性而横空出
世,不但囊括了主流平台Hadoop 的全部性能优势, 而且有针对性地解决了其瓶颈问题。它的最大优
势在于高效的运算能力和速度,其通用易用性很
得用户青睐,尤其是运用于流动数据的多种模式
使其逐渐成为当下最具潜力的大数据云平台。
Storm 的优势在于整合性、可扩展性以及信
息处理可靠性。它能够整合多种外来实时流数据,
作者简介:陈迎春,高级工程师,研究方向为大数据、信息化安全。
支持多种语言,有能力开发更强大的应用服务。
网络安全态势感知系统必须是高效稳定的,实时响应速度快,未来预判准确,大数据平台和技术的重要性毋庸置疑。以上三种大数据平台各有优势,Hadoop主要适用于批量数据,Spark适用于准实时流数据,而Storm适用于实时流数据,用户既可以搭建单一数据平台,也可以建设混合数据平台。本文搭建大数据平台选择最普及的Hadoop o
3构建支撑网络安全态势感知系统的大数据平台
网络安全态势感知系统的大数据平台建设主要包含四层数据处理过程:采集与预处理过程、存储与管理过程、处理与分析过程和大数据可视化技术过程。
3.1数据采集与预处理过程
大数据的核心价值主要是在纷繁杂乱的数据中提取有用的东西。大数据种类繁多,按结构形态分类,可分为结构化类和非结构化类,在网安管理中的结构化数据主要有日志、报警信息等,非结构化数据包括电子文档、音频录像文档等;按照使用状态分类,可分为静数据和动数据。不同来源的静数据一般只是简单保存在数据仓库中,我们可以利用数据挖掘和分析工具对这些静数据进行处理,发现有用价值。动数据是一组连续变化的数据集合,对这类数据的处理也是动态实时的,处理过程内存消耗持续而巨大,例如天气等趋势判断。
在网络安全态势感知系统中,用于安全趋势分析和预测数据主要提取于网络数据、日志数据、服务数据、报警数据等。我们对这些数据的采集和预处理方法是不同的,本文重点介绍几种常用的大数据采集方式和预处理技术。
3.1.1传感器(Sensor)
以软硬件形式旁挂在网络中,主要负责监控记录网络上通过的各种信息,同时实施漏洞扫描、入侵检测、协议自主识别等。目前市场上常见的传感器类型主要分为如下三种:纯采集类、采集检测类型、采集检测分析类型。
3.1.2网络爬虫(WEB Crawler)
它是一种定向搜索并抓取信息的脚本程序,首先准确“爬”到相关Web上,依照脚本预定的规则抓取所需网页信息,并将抓取的数据进行存储、分析,过滤一部分无用数据,最后建立索引方便查询使用。
3.1.3日志收集系统
随着大数据深度分析技术的日趋成熟,各类日志的价值越来越凸显,不再被定期清除,而是收集起来进行高效的分析,其结果对网络安全态势的预判起到了极大作用。
3.1.4数据抽取工具
Hadoop平台能够存储分析处理多源数据,那么,不同来源不同结构不同状态的数据是如何出入大数据平台的呢?比较流行的数据抽取工具是Sqoop。它是Hadoop家族中的一员,专用于Hadoop平台与SQL数据库之间抽取各类数据,它的一个重要功能是支持“增量更新”,使数据平台框架具备易扩展性和实时性。
3.1.5分布式消息队列系统
Hadoop大数据平台包含多个子系统的数据,数据在各个子系统之间不停抽取,为保障服务的高性能,这些数据的流转必须是低延迟不间断。分布式消息队列就是数据流转的中间容器,数据传输到中间容器后,它根据消息路由快速安全地分发数据至目的地。
适用于网络安全态势感知系统的中间件产品有Kafka、ActiveMQ等,应用比较广泛的是Kafkao早期它主要被应用于各类日志搜集、状态监控等数据的保存和预处理,逐渐发展成为实时系统的中间容器件。这样,各子系统之间的接口标准统一,极大简化了组网和编程难度,而Kafka 承担了数据枢纽作用。
3.2大数据存储与管理过程
大数据的采集完成后就要把底层数据分门别类可靠保存在介质上,存储必须是安全可靠的。大数据平台的存储硬件主要是服务器集资源。
用户最关注的问题是如何合理调配和高效管理数据。分布式文件系统、分布式数据库、分布式协调系统等大数据技术比较适用于网络安全态势感知系统的数据存储与管理。
分布式文件系统工作原理是通过网络传输把数据存储在服务器集上。系统采用标准通信协议,通过C/S模式在Internet环境中与数据服务器建立连接。在访问权限的约束下,终端和服务器端均可提出大
数据访问请求。现在使用较广泛的有GFS(Google研发)和HDFS(Hadoop研发)。开发HDFS的唯一目的就是可靠存储和有效管理大数据。一是防止数据在传输和处理过程中丢失,二是对运行环境要求极低,可以在老旧或廉价服务器上实现数据存储和管理。由于对硬件条件的宽容,系统的容错能力必须强悍。在存储服务器集部分设备出现故障时,HDFS依旧运转良好,并保持很高的数据吞吐率。
3.3大数据处理与分析过程
适用于态势感知系统的数据处理与分析技术框架有很多种,如批量数据处理、交互式数据挖掘、流式计算等框架。限于篇幅,本文只介绍Hadoop 的批量数据处理。
MapReduce是Hadoop大数据平台上用于批量数据处理的并行运算方法。它的理念是将大规模廉价集上的庞大运算分散至各个计算机,形成并行计算,而将过程自动抽象到Map()、Reduce ()两个函数上。这种计算方式将使技术人员可以通过底层透明接口自由调配、高效处理大数据。3.4大数据可视化技术过程
大数据可视化是大数据整个过程的最后环节,也是非常重要的环节。大数据可视化技术的理念是将繁杂的大数据以直观的图像模式呈现,通过相关数据分析和处理,辅助用户对数据进行更深入的多维度了解,进而快速发现本质问题。
传统的数据可视化表现形式通常是二维空间,比如统计图。当今大数据可视化,尤其是应用于网络安全态势感知领域的大数据可视化,关注重点是多维度多角度的结果呈现,以辅助用户预判和决策。
4结语
面对日益复杂的网络环境,建设网络安全态势感知系统是非常有必要的。它有助于用户准确感知所在网络安全情况,从而高效科学快速准确地做出安全规划和决策。但是网络安全态势感知是一个涉及多种信息化技术的复杂系统工程,现阶段的技术水平在一定程度上制约了安全态势感知的应用,我们要从思想上重视,技术上跟进,分步骤达成建设目标。本文重点阐述了构建网络安全态势感知系统所涉及的主流大数据平台关键技术,旨在为搭建网络安全态势感知的用户提供借鉴。
参考文献:
[1]赵争业.面向网络空间态势的多元数据融合技术研究[D].
长沙:国防科技大学,2012.
[2]T om White.Hadoop权威指南——大数据存储与分析[M].王
海,华东,刘宇,等译.北京:清华大学出版,2017.
⑶张俊林.大数据日知录一架构与算法[M].北京:电子工业
出版社,2016.