2021年第3期
信
China Computer&Communication
敬件卄农与京用
王展赵征鹏
(云南大学信息学院,云南昆明650091)
摘要:随着网络技术的发展,网络舆情已经成为高校思政工作的重要阵地.高校网络舆情具有变化快速、内容多元等特点,增加了思政工作的难度.笔者针对高校网络舆情分析的实际需求,结合网络爬虫以及现代自然语言处理的相关技术,设计了一个网络舆情分析系统,对高校舆情管理和引导具有一定的实用价值和探索意义.
关键词:网络舆情;高校思政工作;爬虫;文本分析
中图分类号:G647;TP311.13文献标识码:A文章编号:1003-9767(2021)03-137-03
Design and Realization of University Network Public Opinion Analysis System
Based on Crawler
WANG Zhan,ZHAO Zhengpeng
(School of Information,Yunnan University,Kunming Yunnan650091,China)
Abstract:With the development of network technology,network public opinion has become an important position for ideological and political work in colleges and universities.The network public opinion of colleges and universities has the characteristics of rapid change and diversified content,which increase the difficulty of ideological and political work.The author designed a network public opinion analysis system based on the actual needs of colleges and universities network public opinion analysis,combined with web crawlers and modern natural language processing technology,which has certain practical value and exploratory significance for the management and guidance of public opinion in colleges and universities.
Keywords:internet public opinion;ideological and political work in colleges and universities;crawlers;t
ext analysis
0引言
随着计算机网络技术的飞速发展和网络媒体的多样化,人们开始使用微博、、Facebook及Twitter等社交平台表现自我、传递思潮。网络舆情是网络用户面对热点事件、特定议题与社会现象,所表达的认知、态度、情绪、意愿、意见、观点和行为倾向等的总和⑴。网络舆情是网络用户的主观性表达,没有得到确认或包装便直接发布在互联网上。
高校师生的思想活跃,与互联网有着极强的黏连性。他们喜欢关注社会热点,喜欢评论与自身利益相关的事件或校园突发事件,由此带来的网络负面舆情⑷影响不容忽视,针对高校的网络舆情分析也就显得愈发重要。国内高校开展校园网络舆情研究起步较晚,再加上校园内从事舆情处置的工作人员又缺乏专业的数据分析知识,舆情处理观念滞后、方法落后,不符合现阶段的网络传播规律冈。本文基于爬虫技术设计高校网络舆情的分析系统,利用爬虫技术获取相关网络舆情数据,结合文本分析和自然语言处理技术了解学生的思想动态,能够为学校做好舆情管理和引导工作提供参考。 生物教具制作
1爬虫相关技术
在互联网时代,获取信息的手段越来越多,可以获取的信息也越来越多。面对浩瀚的数据资源,可以
利用爬虫技术快速获取大量用户所需的数据[4]o爬虫模块是舆情分析系统的基础,合理使用爬虫技术可以更快、更有效地获得精确的数据。爬虫系统选取指定网页获取网页源代码,再利用自然语言处理技术对数据进行去噪,从而得到想要的数据。通用的网络爬虫架构如图1所示。
爬虫系统工作的基本流程包括3个部分。第_,发送请求。爬虫程序通过网络协议向目标网站发送请求,等待网站服务器的响应。第二,获取信息。这一步是爬虫非常重要的一环,方便后续处理数据。服务器响应后会得到网页源代码,利用构造正则表达式或页面解析库解析源代码就可以获取所需数
基金项目:云南省高校辅导员发展研究中心(云南大学)资助“高校网络舆情分析方法研究”(项目编号:19FDYB26)作者简介:王展(1988-),男,河南内乡人,硕士研究生,助教。研究方向:人工智能、信号处理、思想政治。
信IB 与电IE
China Computer & Communication
後件卄发与龛用
2021年第3期
据;第三,存储数据。获取信息后可以将数据保存在本地或 远程数据库中,方便后续使用,存储格式可以根据实际情况 进行选择。
2原始数据处理与文本分析
原始数据的处理分析流程如图2所示。
舆情数据
2.1信息提取
爬虫获取的_般都是HTML 页面,整个页面由成对的标 签构成,标签层层嵌套,形成一个D0M 树状结构的文档。
页面信息提取就是从HTML 页面中提取出需要的数据,并且 保存为方便后续分析处理的标准格式。该模块采取正则匹配
方式,根据提取信息的规律制定信息匹配规则,对整个文档
进行正则匹配,把匹配到的信息保存下来。这种方法对正则 表达式的写法有很高的要求,要足够熟悉页面内容格式,很 多第三方的库可以帮忙完成这一任务。在具体提取过程中,
要结合页面内容制定规则,保证获取足够的分析数据。
2.2文本分析 2.2.1文本分词
标准格式的数据文本分析首先就要进行分词,输入的分
词是一连串的字符,但词与词的间隔并不清晰。分词就要把 词与词的间隔信息表示出来。比如,输入“九项约束性指标 超额完成,蓝天碧水净土保卫战取得重要成效”,输出应该
是“九项/约束性/指标/超额/完成,蓝天/碧水/净土 /保 卫战/取得/重要/成效” □分词方法如图3所示。
分词方法大致分为基于词典的机械切分方法和基于统计
语言模型的分词方法。基于词典的方法就是利用查字典进行
字符串匹配。该方法首先要构建词典,可以选用现有的中文 词典,也可以构建用户特定内容的词典,然后再用句子和词
安阳榕树湾典进行匹配,遇到词典里有的词就标记出来。如果要处理的
中大BBS
文本中有太多的歧义词或者未登录词时,需要使用经过改进 的基于词典的分词方法,如正向最大匹配法、逆向最大匹配 法和全切分路径选择方法等。基于统计语言模型的分词方法
就是通过汇总数据的统计特征去估计相邻字词的关联性,再 进行分词。一般选用的统计特征是互信息量。基于互信息量
的统计分词方法,就是假设一个句子有几种不同的分词方法, 如果使用某一种方法后这个句子出现的概率是所有方法中最
大的,那么就可以确定该方法为最好的分词方法卩役基于统 计语言模型的分词方法使用的模型有很多种,如隐马尔可夫
模型、N 元语言模型和条件随机场模型等。一般的分词工具 有现成的Python 库,在此不再赘述。
图3分词方法示意图
2.2.2文本特征
文本由字、词、短语、句子以及段落等元素构成,这些 元素都可以作为文本特征。选取特征时,需要考虑选取的特
征怎么赋予权重,选取不同的文本特征对文本分析的结果有
广告投资
什么影响等。目前,常见的特征选取方法包括基于文档频率 的特征、信息增益法和互信息法等。互信息法的原理如下:
假设右表示特征,q 表示类别,如果互信息越大,那么特征
t,和类别Cj 共现的程度就越大。假设a 表示属于Cj 类且包含 特征项右的文档频数,b 表示不属于q 类但包含t t 的文档频数,
c 表示属于q 类但不包含t,的文档频数,n 表示总的文本数量。
特征z,.和类别q 的互信息可由式(1)计算:
= log
Pg) pgp (c )
沁 AXN
(A + C)x(A + B)(1)
如果特征t t 和类别Cj 无关,则P(t ”Cj)=P(t) x P(Cj),那 么i(t ”q)=o 。为了选出对多类文档识别有用的特征,采用最 大值法和平均值法,表达式如下:
M
f ) = n^[P(Cj)x/(g)]
(2)
M
(3)
7=1
2.2.3文本分类
常用的分类方法包括贝叶斯分类法(Naive Bayesian
Classifier )、基于支持向量机的分类器(Support Vector Machines , SVM )、K-最近邻法(K-Nearest Neighbor ,
KNN)、决策树(Decision Tree )和神经网络法(Neural Network, NNet)等⑺。下面主要介绍K-最近邻法。KNN
的原理是假设一个文本与数据集中的几个样本最相似,而这
2021年第3期
神经网络控制信
China Computer&Communication
敬件卄农与京用
几个样本都属于某一类,则该文本也属于这一类。通俗地讲,就是看该文本与周围哪几个样本最相似。文本分类采用余弦
来计算文本相似度,该方法的基本步骤是:先用向量表示训练集和待分类文本,再计算待分类文本和训练集文本的相似度,接着计算几个最相似的文本的所属类别,最后判定待分类文本的类别冋。
3舆情分析系统设计与实现
3.1舆情分析系统设计
舆情分析系统的主要功能有数据采集、预处理和数据分析,系统流程如图4所示。
图4輿情分析系统流程
该系统使用互联网爬虫技术获取舆情数据,使用现代自然语言处理技术对获取的数据进行分析,为舆
情管理提供支持。该系统的整体设计如图5所示。
舆情分析系统
数据采集模块数据预处理模块数据分析模块
图5奥情分析系统
前端展示模块
舆情分析系统主要包括4个模块数据采集、数据预处理、数据分析和前端展示。其中,数据采集模块主要利用正则匹配提取技术,结合页面内容制定规则提取HTML页面信息,为获取足够的分析数据提供保证;数据预处理模块主要对所提取的页面信息进行数据查看、缺失值处理、特征规范化以及去噪处理,将有效的数据存储至舆情数据库中,为下一步的数据分析做准备;数据分析模块是整个系统的核心模块,在舆情分析系统性能评估中起决定性作用。此模块主要完成对文本信息的分词、文本特征提取以及文本聚类;前端展示模块是将数据分析的结果经过可视化处理后呈现给用户,能让用户更迅速、有效地搜集到网络舆情关键信息。
3.2获取结果展示
杨经曲
本文将豆瓣上所有关于电影《我和我的祖国》的短评作为数据进行分析,结果如图6所示。该电影共有168454条评论,从词云图中可以很清晰地看出评论的关键词和评论的变化趋势。
-
北护腔
F r,陶
/會
巒齡;
陈凯歌1020
宁浩889
夺冠836
祖国807
流星777
白昼744
徐峥731
张一白638
589
管虎580
牧野562
回归500
护航492
葛优477
你好476
七个459
小人物429
喜欢415
图6《我和我的祖国》短评分析
4结语
随着信息技术的不断发展,互联网与人类的生活密切相关。高校师生作为先进技术的受益者,与网络之间的联系更加紧密。高校网络舆情的压力也越来越大,这就要求高校相关部门要重视舆情管理,不但要提高思想认识,还要不断更新技术手段。本文针对网络舆情分析的实际需求,结合网络爬虫以及现代自然语言处理的相关技术,设计了_个高校网络舆情分析系统,对高校舆情管理和应对具有一定的参考意义[10]o虽然该系统的基本功能已经实现,但还是有几点不足:①«■棒性不高,只能爬虫采集舆情数据;②不支持对定制化内容进行舆情分析;
集和分析的效率还不够,不支持实时分析响应。在后续的研究工作中,要结合当下热门的人工智能技术,采用深度学习方法训练文本模型,让数据更好地为高校思政工作服务W
参考文献
[1]中共中央宣传部.网络舆情信息工作理论与实务[M].北京:
学习出版社,2009.
[2]周蔚华,徐发波.网络舆情概论[M].北京:中国人民大学
出版社,2016.
⑶冯源.加强高校突发事件网络舆情管理[N],人民日
报,2017-04-17(2).
[4]崔庆才.Python3网络爬虫开发实战[M],北京:人民邮电
出版社,201&
[5]吴军.数学之美[M].北京:人民邮电出版社,2012.
[6]巫黄旭.基于统计学习的中文分词改进及其在面向应用分
词中的应用[D].杭州:浙江大学,2012.
[7][以列]Yoav Goldberg.基于深度学习的自然语言处理[M],
车万翔,郭江,张伟男,译.北京:机械工业出版社,2018.
[8]宗成庆.统计自然语言处理[M],北京:人民邮电出版
社,2013.
[9]彭君睿.面向文本分类的特征提取算法研究[D],北京:北
京邮电大学,2014.
[10]北京大学党委政策研究室.大数据时代的舆情管理[M],
北京:北京大学出版社,2019.
[11][美]Jiawei Han,Micheling Kamber.Jian Pei,et al.数据挖掘
概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2012.