SYS SECURITY 系统安全摘要:论文结合网络信息传播模式特点,创新性地运用网络信息采集与抽取、话题检测与跟踪、短文本聚 类、空间向量模型等技术,以网络舆情安全为研究对象,解决网络舆情监控与预警安全的关键技术问题,构建 高效、多层次的网络舆情安全防控体系,为国家网络舆情安全管理工作提供决策支持和服务。
关键词:网络安全;舆情;监测
一、前言
网络舆情安全管理是国家维稳工作、保障和谐社会建设的重要部分,本文对网络舆情热点分析及安全预警的关键技术研究,以互联网用户体为研究对象,采用数据挖掘和分类的关键技术,构建高效的网络舆情安全防控体系,为网络舆情安全维稳工作提供决策支持。 数据挖掘领域的研究在主题信息监测技术方面已经很成熟,有Chakrabarti等提出的基于主题内容的Web信息采集系统;Aggwrwal等提出基于两个假设的主题Web 信息采集方法;Menezer等对Best First策略、Page Rank 策略、InforSpiders策略进行了基于主题采集的对比实验;Nie等提出的PopRank算法等。这些研究成果已经在 Libra Academic Search学术搜索和Windows Live Product Search 购物搜 索中得到部分应用。
二、网页信息采集与中文分词
本文的网页信息采集采用火车头软件,火车头采集器是互联网数据抓取、处理、分析的挖掘软件。采集的信息源包括:草根,代表是Follow5等;纯论坛阵营,代表是嘀咕网,做啥等;门户阵营,代表是新浪、腾讯、网易等;媒体阵营,代表是人民网、凤凰网等;行业阵营,代表是中关村在线等等;主题网站,代表是茶缸儿(微公益主题)等;社区网站,代表是宝宝成长网等。在信息采集时,编程方面对用户信息进行一定的过滤,筛选采集以互联网用户发布的较近的信息进行采集。
本文抓取网络发帖和评论内容,共收集资源53904条。通过研究5万多条网络留言信息,这些信息基本可以分为自我表达、社交、官方阐述、话题讨论。
三、文本自动聚类并建立网络舆情热点词库
通过聚类算法,得出如下暴恐、反动、民生、情、贪腐、其他6个网络文本大类,文本大类的识别通过分词软件进行分词,分词后按照词频统计进行排序,然后引入专家干预,对如上6个聚类进行大类的命名。
本项目根据网络舆情热点分析及安全预警的关键技术构建系统模型,主要包含“5大模块+用户可视化界
面”组成,分别是:网络信息获取模块(网页采集与抽取)、网络信息预处理模块、网络热点发现和分析模块、网络热点话题分类管理模块和用户可视化界面。架构详细设计如图1所示:
图1系统架构图
四、聚类后数据再分类
(一)特征值提取
通过聚类,我们得到暴恐、反动、民生、情、贪腐、其他的网络语言类别。通过专家干预,我们评价出各个类别的排前3的高频词,然后用3个词出现的总次数和3个词的个数在本文中的占比,作为特征值,那么一共构建12个特征值。
寻最优特征值一直是数据挖掘分类算法的精髓和关键所在,Fisher score algorithm(FS)一直是一种行之有效的特征值寻优方案,该算法的数学思想是降维,即把高维空间变换到低纬空间,在方差尽可能大的同时标准差尽可能小来寻最优特征值。
本文经过对原始数据的整理和特征值提取后的数据集共有8000个样本,12个特征属性,并按照从1逐渐递增,形成序号为1到17的17种特征值组合。
我们选用Fisher score算法对8000×12的特征值矩阵进行数据分析,各特征值经过算法评估得分如表1所示,算法证明对文本分类起作为的特征值都有比较高的分数。
网络舆情安全数据挖掘系统设计与实现
苏治中
◆
51
52SYS SECURITY 系统安全
表1 最优特征值排序
钼铋系催化剂生产厂家
特征值编号
评分排名N7 5.231N8 5.012N3 4.023N2 3.984N1 3.335N11 2.986N12 2.457N9 2.338N4 2.259N6 2.1610N10 1.9811N5 1.56
12
(二)混合核函数支持向量机算法
1.算法流程
文本信息具有非线性、样本分布不平坦、噪声大等问题,支持向量机在解决文本分类问题时仍存在如下的缺陷[5]:
(1)支持向量机在训练时对所有训练点是同等对待的,这就会产生一定的局限性。
根据这个实际问题,我们采用Lin 等提出的模糊支持向量机作为文本分类的基本分类器。
(2)传统的SVM 或者模糊支持向量机都是基于单个核函数的,对于文本信息分类问题,需要引入多个核函数。
根据这个实际问题,本分类算法将在模糊化支持向量机的基础上引入多个核函数映射,此算法决策树中的模糊核权重主要借助于样本无监督自学习来确定[6]。
2.混合核函数算法的构造
支持向量机分类器的数学模型原理如图2所示:
图2 SVM 分类器数学模型图
定义1 设X 是一个非空集合,则称
{},()|,1,2,,F i F x u x x X i l =∈=⋅⋅⋅ (1)
为模糊集。
目标函数的最优结构:
min(2
1
1()2l
F i i i C u x ωε=+∑)
s.t.[]()10i
i i y x b ωϕε⋅+−+≥ (2)最优别函数式: 1()(,)l i i i i f x sign a y K x x b ∗∗=
=
+
∑
(3)
0,1,2,,i
pe电熔管件i a C i l
ε∗≤≤=⋅⋅⋅
2.分类算法隶属度函数的确定
最小化目标函数:
∑∑===N
i C
ic卡防水水表c c i m i c v x
d u V U J 112
)
,(),(1
=∑C c
i c
u
,i ∀;且0≥i c u ,c i ,∀;且∑=∀>N
i i c
c u 1
,0(4)
得:
)
1(),(),(11
2
−+=∑∑∑==C
c
i c N i C c c i m i c u v x d u V U J λλ(5)
由(5)式得: 2
1''1
(,)(,)ic m C
医用手套i c c i c u d x v d x v −=
弹片开关
∑ (6)
∑∑===N i m
i
c N
i i m i c c
u
霍尔式角度传感器x u v 11 (7)
据此,通过无监督的学习,得到ic u 。3.分类算法实现步骤决策树如下:
1()(,)l i i i i f x sign a y K x x b ∧
∗∗=
=
+ ∑ (8)其中,11(,)(,)l m
i i j i i j K x x u K x x ∧===∑∑,i u 是多核函数的权重。
(,)j i K x x 表示第
j 个核函数[7]。
4.实验结果
本实验在真实文本信息环境中,使用8000个数据样本,并分成5份,其中4份用于训练分类器,剩下的1份用于测试分类器的效果,分类结果如表2所示。
表2算法分类结果
交叉验证
分类算法181.75 279.35381.52477.88585.49 平均值
81.19
在本次实验中,实验对数据特征值进行了标准化,得到8000个样本,12维度的特征向量作为分类器的输入数据。进行交叉检验,数据集4/5为训练样本,1/5为测试样本。表2详细的给出了应用此分类器的结果。分类准确率从77.88%到85.49%不等,平均的分类准确率是
81.19%。
五、网络检测信息的快速检索
网络检测信息的快速检索使用了Lucene.Net 框架。Lucene.Net 是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。基本功能是将多来源(Web 页面、TXT 文件、Word 文件、PDF 文件、存储在数据库中的数据)得到的数据整合在一起,建立索引文档,然后供当前用户检索时,把检索的相关信息返回给用户。
(一)建立索引。为了对文档进行索引,Lucene.Net 提供了五个基础的类,他们分别是 Document、Field、
53
SYS SECURITY 系统安全
IndexWriter、Analyzer、Directory。建立索引过程如图3所示。
图3 Lucene.Net 建立索引过程
在建立索引的过程中,并不是网络检测信息数据库中的所有字段都非常重要,其中有些字段需要索引、有些字段需要分词、有些字段只需要简单的保存在索引中。应根据字段的功能和重要性决定它在
索引中的作用以及存储方式。如资源的ID 字段,是资源的唯一标识,但是它并不需要提供检索,更不需要分词,只需要保存在索引中即可。资源的Title、Content 字段,需要提供检索,并且要分词(如表3所示)。
表3 表格字段设置情况
表字段备注
是否索引是否分词是否
仅存储
Information-id 信息标志字段××√Information-T1信息主题√√×Information-C 信息具体内容√√×Information-A 信息概要√√×Information-T2信息时间××√Information--URL 信息网址××√Information-W 信息来源网站××√Information-C 归类栏目√√×Information-T3信息类别√√×Information-S 信息科目√√×(二)检索。利用 Lucene.Net 进行搜索就像建立索引一样也是非常方便的。Lucene.Net 提供了几个基础的类来完成这个过程,它们分别是IndexSearcher,Term,Query,TermQuery,Hits。Lucene.Net 搜索过程如图4所示。
图4 Lucene.Net 搜索过程
举例来讲,
搜
索“超市过期食品”,分词器将“超市过期食品”分词为“超市过期食品”,然后QueryParser 将查询解析为三个“或”逻辑的Query,最后IndexSearch 完成检索。
Lucene.Net 是一个高性能的全文检索工具包。与SQL
全文检索相比,Lucene.Net 在检索速度和检全率方面都有优势。我们在一个1.8亿字规模的语料库上利用Lucene 检索使用频率最高的“的”字,共有3百多万条结果,只需要0.3秒完成检索。
六、结语
本文研究直接运用于网络舆情监控工作,并进一步提供舆情监控功能和服务:全方位信息搜索、辅助决策
支持、敏感信息监控和预警等。本研究的软件功能将不断完善,为网络舆情监测提供持续的研究成果。H
参考文献
[1] 许鑫, 黄仲清, 邓三鸿. 互联网侨情信息采集系统设计与
实现[J]. 现代图书情报技术,2010 (7):95-101.
[2] 牛万程. 使用Struts 技术开发侨务信息系统[J]. 计算机与现代化,2010 (5): 89-95.
[3] 薛春香, 张玉芳. 面向新闻领域的中文文本分类研究综述[J]. 图书情报工作,2013,57(14):134-139.
[4] 张倩, 刘怀亮. 一种基于半监督学习的短文本分类方法[J]. 现代图书情报技术,2013 (2):30-35.
[5] 刘华. 基于分类标注语料库的关键词标引知识自动获取[J]. 图书情报工作,2007,51(7):41-43.
[6] 罗盛芬, 孙茂松. 基于字串内部结合紧密度的汉语自动抽词实验研究[J]. 中文信息学报,2003,17(3):9-14.
[7]Yanni Li, Yuping Wang, Jintao Du. E-FFC: an enhanced form-focused crawler for domain-specific deep web databases[J]. Journal of Intelligent Information Systems,2013, 40(1):159-184.
[8]Bazarganigilani M., Syed A. & Burki S. Focused web crawling using decay content and genetic programming[J]. International Journal of Data Mining & Knowledge Management Process (IJDKP), 2011, 1, 1–11.
[9]Li Y., Nie T., Shen D., Yu G. Domain-oriented deep web data sources discovery and identification[J]. In Proc. of the 12th international asia-pacific web conference,2010, (pp. 464–467).
(作者单位:广州市广播电视大学信息服务与教育技术中心)