基于搜索引擎技术的网络舆情监测系统应用研究

阅读: 评论:0

88目前,网络媒体日趋发达,用户通过网络进行各
类新闻评论、BBS论坛交流和博客发表等,导致网络舆情信息不断增多,表现出自由性、交互性、多元性、偏差性和突发性5个特征。因此,采取相关技术和措施对网络舆情进行及时的监测和处理,发挥正面舆情的积极效果,将负面舆情引向正面效果的轨道 ,已经越来越必要。搜索引擎在网络舆情监测中有着重要的作用,是连接用户和互联网的纽带,研究学者对搜索引擎的研究表明用户搜索的关键词的频率可以很大程度上预测出网络舆情的趋势,为搜索引擎在网络舆情监测中的研究应用提供了一个良好的思路。
1  网络舆情监测技术研究
通过网络舆情监测系统自动监测网络舆情是非常必要的。网络舆情监测系统是众多技术结合的成果,其中最核心的是自然语言处理技术。在网络舆情监测过程中,应用较为广泛的有网络爬虫技术、网页清洗技术、文本分类技术、文本聚类技术和话题跟踪与识别技术等。
网络爬虫,也叫网络机器人,通俗地讲就是将网络中的舆情信息下载下来,然后经过过滤、筛选、归纳
李盛才
、整理和排序,为系统提供需要检索的舆情信息。主题网络爬虫有两种技术:基于Web链接分析的搜索。基于Web内容分析的搜索。基于Web链接的网络爬虫存在于统一资源地址(URLs)列表,当访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们保存在一个列表中,此列表中的统一资源地址将被按照一套策略循环访问。
网页清洗就是从网页中过滤掉无关紧要的数据,提取出网页中有价值的信息内容。基于Web挖掘的网页清洗方法是通过建立HTML标记信息和数据冗余的噪音判别模型进行的,一般包括初始化、版面分割和信息处理3个步骤:首先,对某个版面提供一个人工Web反馈;其次,对该版面做数据块分割,把目标文字所在的块作为抓取目标,并把目标块的位置写入配置文件;最后,检测目标块内所有主题的链接是否已经在原始数据库存在,不存在就把对应的文章抓取下来存入原始数据库。
目前的网络舆情信息量大,涉及范围广,影响力强,网络舆情监测系统首先需要对网络舆情信息进行有效合理的分类,将收集的舆情进行自动分类,主要运用到文本分类和文本聚类技术。文本分类是按照一定的规则和标准根据搜索需要获取舆情的内容,通过相应的技术手段搜索并关联文档的类别,从而实现文本分类。文本聚类区别于文本分类,是一种无监督的机器学习方法。
目前常用的这几类网络舆情监测技术大多是在内容分析的网络舆情监测思路上产生的,并由此设计实现了网络舆情分析和监测预警等系统。基于内容分析的网络舆情监测最广泛和常见的技术就是搜索引
擎技术,源于当网民获取社会事件的部分信息时,网民便会通过搜索引擎深度查询了解该事件的相关信息,从而留下了用户的搜索日志,利用该技术通过日志处理及数据清洗等功能,有效进行网络舆情信息的监管。
特勤机甲队62  搜索引擎在网络舆情监测中的关键技术
在网络舆情监测中,搜索引擎技术涉及方方面面,但归结起来最关键的3点在于具备一个大规模的分布式系统,支持海量数据处理和在线查询;具备数据处理和挖掘的核心技术,即爬虫技术、索引技术、排序技术和检索技术;具备一些支持辅助模块的算法,常见的有链接分析、去重、反垃圾、查询分析等。因此,搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。2.1  信息监测与采集技术
信息监测与采集是网络舆情监测的核心部分。在信息监测与采集环节主要应用到爬虫和查询2个关键技术,爬虫用于从网络上抓取网页并为这些网页建立索引,查询技术提供检索服务。为保证监测采集信息的准确性,目前的舆情监测系统中对爬虫做了部分改进和扩展,主要包括:页面分析、页面评分、URL过滤、分词等。
2.2  网页解析与去噪
通过不同的采集模型采集回来的原始网页信息,包含了大量的客户端脚本程序、广告、等噪音内容,需要通过信息抽取的方式将网页中有用内容提取出来。对于一个网页,HTML解析和去噪包括:网页编码转换、获取网页的标题部分的核心信息、去除无意义的导航栏
基于搜索引擎技术的网络舆情
监测系统应用研究
湛高峰,蒋  勇
公安部第一研究所,北京  100044
摘  要  本文通过对网络舆情进行分析,探究搜索引擎技术在自动收集和处理互联网舆情信息过程中的关键技术,进而建立基于搜索引擎技术的网络舆情监测模型,从而快速、高效地处理舆情信息。
关键词  网络;舆情;监测;搜索引擎
磁通量密度
中图分类号  TP3      文献标识码  A      文章编号  2095-6363(2016)15-0088-02
中兴u720作者简介:湛高峰,公安部第一研究所。
无生老母
蒋勇,公安部第一研究所。
SCIENTIST
SCIENTIST 89
信息、去除广告信息、去除多余信息、去除其他标签的文字及内容6个步骤去除网页中无用的信息,获得有价值、高质量的网页内容文本。
3  基于搜索引擎的网络舆情监测模型设计与应用
一般搜索引擎在网络舆情监测的应用主要集中在以下几个方面:政府机关行业的应用、企业行业的应用、新闻媒体行业的应用和行业网站的应用。政府机关行业需要实时跟踪采集与业务工作相关的信息来源,快速解决政府主网站对各地级子网站的信息需求,及时解决政务内外网的信息源问题,实现全面整合信息及信息资源共享与有效沟通。企业行业需要实时准确地监控、追踪网络舆情,为企业决策部门和管理层提供便捷、多途径的企业战略决策工具建立起以知识管理为核心的情报数据仓库,是提
高企业核心竞争力的神经中枢。新闻媒体行业需要每天对数万条新闻进行有效抓取,对所需内容智能提取和审核。
对于网络舆情监测系统来说,其核心功能应包括:信息源监测、信息数据采集及索引、信息数据处理和入库和信息服务4个模块。基于搜索引擎设计的网络舆情监测模型按照上述功能,可以建立以下模型,如图1所示,主要包括网页数据采集、数据处理、舆情分析和舆情报告4个功能。
1)数据采集:根据用户设置的信息源对数据进行采集,包括监测的目标网站、新闻、微博、论坛、贴吧和博客等。
2)数据处理:利用“多重双向数据过滤模型”、知识库引擎、中文分词、全文检索、文本自动摘要等,进行舆情过滤、自动分类、相似性排重。舆情过滤包含了5个子模块:时间过滤、来源过滤、排重过滤、热度过滤、显示过滤、舆情排序。
时间过滤:根据选择的时间显示舆情信息。来源过滤:根据选择的来源网站类型显示舆情信息。来源选项包括新闻、微博、论坛、博客、贴吧、搜索引擎,默认为全部。
排重过滤:按照文章排重显示舆情信息。可选项:文章排重、文章不排重。
热度过滤:热度高的舆情信息优先显示,热度根据点击量和回复量来评定。点击量选项:全部,点击
量>1 000、点击量>2 000、点击量>10 000,默认全部;回复量选项:全部,回复量>1 000、回复量>2 000、回复量>10 000,默认全部。
显示过滤:显示、隐藏舆情信息的来源、摘要、高频词,默认显示来源、摘要和高频词。
舆情排序:可根据网站、访问量、回复量、转载量、发布时间、相关文章、相似文章来排序。
3)舆情分析:对信息处理结果作进一步统计分析,以图表方式展现给用户浏览。每一个舆情浏览都有显示舆情分析图,以便可查看舆情统计数据,统计数据包括日报、周报、月报、年报和相关专题的简报。
奇魅植物酶4)舆情报告:预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息
列表。建立多个舆情指示,对于突发舆情自动发出预警信号,在最短时间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导。
图1
4  结论
基于搜索引擎技术的网络舆情监测应用主要是基于数据挖掘和处理技术,实现了在一定范围内对网站信息发布进行全面掌控,提高了对于网络舆情的应对能力和快速反应能力,加强了对社信息的全面动态控制水平,为领导提供决策依据。
B 直接有数据交输,FC
C A 与MCP 直接也有总线连接。是MCP 通过总线将自动驾驶衔接信号发送给FCC A,还是两部FCC 之间的交互总线将A/P 的衔接信息同步,用一种间接方法加以确定,如图3所示。
从图3可以看出,在WDM22-11-51中MCP 通过MCP-1 OUT 总线由D299 17和18针发送数据到FCC A D10135A J6和K6针,完成总线数据传输。同理,FCC B 相同。而DFDAU 通过总线FCC-L-1得到相应的总线数据。通过查询发现,FCC-L-1总线包括有自动驾驶衔接信息。同理,在DFDAU 通过相应总线,也能从FCC B 处得到自动驾驶相应参数。所以推断,两部FCC 分别从MCP 板得到A/P 衔接信息,
再分别通过各自总线发送至DFDAU。
至此,自动驾驶衔接条件对应的检查线路也已经确定出来了。但是,这个故障并未结束,以上逻辑顺序是正确的,但是有一个漏洞。所有检查全部是基于外部设备对FCC 的数据输入,FCC 反馈数据的检查,如果
FCC 反馈给FMC 的反馈数据有问题,那么A/T
测试依然是无法进行的。
最后,再来看看FCC 反馈数据到FMC 间的线路是如何走向的。
图4
至此,该故障的隔离步骤已经全部完成,按照如上操作故障应当得以解决。
3  结论
自动油门系统故障是航线维护中的常见故障,虽然部分故障在FIM 中已经有所提及,但是仍有部分故障需要在平时的排故中总结分析才能得以解决。
(上接第21页)

本文发布于:2023-08-16 08:22:53,感谢您对本站的认可!

本文链接:https://patent.en369.cn/xueshu/366417.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:舆情   信息   网络   监测   技术   网页   过滤   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图