网络爬虫技术原理及其应用研究

阅读: 评论:0

信IB与电as
China Computer&Communication
网絡与通信枝术2021年第4期阿络爬虫技术原理及其应用研究
顾勤
(景德镇学院信息工程学院,江西景德镇333000)
摘要:随着互联网技术的发展,人们在生活和工作中对于网络信息的依赖性也越来越大.网络爬虫技术是搜索引擎中的重要模块,会影响网页库更新的及时性和全面性,对此展开对网络爬虫技术的相关研究和分析,对于推动搜索引擎的优化升级具有重要的意义.基于此,本文对网络爬虫技术的基本原理展开分析,并提出网络爬虫技术在实际应用中的注意事项以及未来的发展趋势,旨在推动互联搜索引擎技术实现快速发展,以更好地为网络社会服务.
关键词:网络爬虫技术;原理;应用
中图分类号:TP393.09文献标识码:A文章编号:1003-9767(2021)04-174-03
Research on the Principle and Application of Web Crawler Technology
GU Qin
(School of Information Engineering,Jingdezhen University,Jingdezhen Jiangxi333000,China) Abstract:With the development of Internet technology,people are becoming more and more dependent on network information in life and work.Web crawler technology is an important module in search engines,which will affect the timeliness and comprehensiveness of web page library updates.To carry out related research and analysis on Web crawler technology is of great significance for promoting the optimization and upgrading of search engines.Based on this,this article analyzes the basic principles of web crawler technology,and puts forward the precautions and future development trends of web crawler technology in practical applications,aiming to promote the rapid development of Internet search engine technology to better serve the network society service.
Keywords:web crawler technology;principle;application
0引言
在互联网领域中,搜索引擎的设计和应用为人们有效应用海量网络信息提供了方便,在搜索引擎设计中,必然要应用到网络爬虫技术。该技术在搜索引擎中的应用,能够有效提高计算机的性能,实现了各个计算机功能的协同工作。在新时代,各个搜索引擎服务企业都基于分布式集完成网络抓取的运
算以及存储功能,从而能够为各行业的网民提供精准、全面、高效的信息搜索服务。
1网络爬虫技术的原理
网络爬虫技术是指一种按照一定的规则,自动地抓取互联网信息的程序或是脚本。在网络信息时代,万维网成为海量信息的重要载体,如何有效地提取并且利用这些信息成为一个重大挑战。在此背景下网络爬虫技术应运而生并且获得快速发展。在海量网络数据中,网络爬虫技术既能够自动下
基金项目:大数据技术在陶瓷行业中应用的研究(项目编号:作者简介:顾勤(1964-),女,上海人,硕士研究生,教授。
载网页的程序,又能够从网页中提取所需要的信息。因此在各大搜索引擎服务企业中,实现网络爬虫技术的优化创新成为当务之急。通过对网络爬虫技术的分析可知,该技术的工作原理如下。
(1)抓取网页。在搜索引擎系统中,网络爬虫技术会根据自己的需求在整个万维网中到需要抓取的网站信息,然后通过抓包或者其他方式到所抓取数据的链接请求(URL)[1]0不过网络爬虫技术所获得的链接请求结果一般是网页源代码或者json数据,若是想要获得图片、视频等文件信息,则需要进行二进制数据流处理。
90后炫富女(2)提取相关信息。对于抓取的网页源代码以及json 数据,需要通过正则表达式、xpath、css选择器等
数据提取库进行处理。如果请求的多媒体文件为二进制数据流,则不需要进行二次提取,只需要直接保存至相应的文件格式后就可以获得相应的多媒体文件信息。
GJJ181127)。
研究方向:计算机技术。
信黒与电IS
China Computer&Communication网絡与通信牧术2021年第4期
(3)预处理。对于所提取的数据可能还不够精炼,或者过于复杂,此时需要对数据进行预处理,如对数据格式进行处理,完成数据的去空白处理等。
(4)数据存储。预处理完数据之后就算得到了最终搜索所需要的数据,此时需要把数据存到数据库或是将其按照一定的格式进行存储,这样就可以将其按照关系型数据库或是非关系型数据库存储的方式进行有效应用[2]o
2网络爬虫技术的应用
2.1网络爬虫技术应用的物理结构
在搜索引擎中,网络爬虫技术是关键技术,从物理实现的角度来看,该技术可以从互联网中获取所需要的相关数据信息,并且将所获得的信息转存到搜索引擎的网页库中,为用户提供必要的数据支持。随着互联网技术的进一步发展,网络爬虫技术要想能够阶段性地从互联网全部副本中抓取相关内容,必须能够随着网络结构的变化而发生变化。目前,网络爬虫的物理结构分布采用分布式布局,网页库采用分布式的可扩展性存储系统。网络爬虫的物理结构如图1所示⑶。
图1网络爬虫技术应用的物理结构
2.2网络爬虫的应用结构
网络爬虫技术主要分为dns模块、待抓取URL库、网页抓取模块、页面解析模块、结果处理模块、URL过滤模块和URL库。这些模块共同组成网络爬虫技术结构框架,具体如图2所示。可以发现,一个完整的网络爬虫是一个环形的结构,其应用原理就是各个模块通过不断循环实现对万维网海量信息的抓取和更新。在此过程中,各个模块所发挥的实际作用是不同的。
(1)dns模块。该模块在网络信息抓取中发挥着寻址作用⑷,即URL模块会决定从哪一个网络服务器中获取相应的网页内容,而此时dns模块就发挥着指向性作用。该模块是网络爬虫技术应用的一个技术关键点。在获取网络信息的过程中,各个网页域名服务具有分布式特点,dns模块要想从海量的网络服务器中寻到所需要的网页需要进行多次请求转发。这一过程中所耗费的时间是不确定的,有可
能只需要几秒就可以解析出正确的IP地址,有可能需要更长的时间。因此当用户需要在1秒内抓取数百个文件时,就必须提高dns模块的效率。在网络技术的支持下,通过时间差的方式将近期完成的dns查询结果缓存到搜索引擎系统中,能够避免下一次访问dns服务器可能占用的时间。
(2)网页抓取模块。该模块的功能就是获取互联网上指定的URL资源数据。网络资源是以数据流的形式保存到本地数据库,但是现实中的网络环境较为复杂,其无法在数据流传输过程中就保障已经抓取到所需要的各种信息数据,此时就需要分析http状态码。当http状态码表示为“301”时,则表示网页抓取模块所请求的资源已经成功移动到一个新的URL中,只要通过新的URL就可以访问此前获取的资源。当http状态码表示为“400”时,则表示这一请求抓取属于无效的请求,需要丢弃重新完成抓取程序。总之,通过把握http状态码的物种类型情况,可以准确判断是否成功获取网络资源,系统是否可以将所获得的资源交付到下一环节进行解析应用。
(3)网页解析模块。网络爬虫需要处理的文档格式较多,其中html格式是公开默认的格式,其他word、pdf格式类型都是不公开的,这就需要对网络格式资源进行处理。在网络解析模块中,必须对于所获得的文件格式进行分析,对特定网页进行结构化信息提取和网页去噪管理,如此展开有效的网页提取。一般采用的方法是将网页转化为一个个串联的node,完成对这一串联node的有效处理[5]o
(4)网络处理模块。网络爬虫技术对于所抓取的相关数据文件进行解析后,需要对这些网页信息进
行进一步处理,以提高所获得数据的可视性、有效性和准确性。最常用的方式是语义指纹排重和simhash排重处理。
(5)URL提取模块。URL提取模块是尽可能及时更新网络爬虫所覆盖的互联网范围的站点信息,并从中抽取网络中的URL信息交给后续处理。
(6)逻辑模块。逻辑模块顾名思义就是管理网络爬虫所获得的各种信息数据,确保整个URL库中存储信息的完整性和排重性。该模块就是通过对整个URL库中的URL进行遍历抓取,达到及时更新URL库的目的。
公益海报设计论文
(7)URL库。URL库具有强大的存储功能,且需要做到所有URL的唯一性,因此必须考虑其去重性问题。更重要的是在每次的搜索服务中,都必须进行URL库的高效访问和数据插入操作,因此该URL库的应用必须拥有分布式的访问功能,从而才能够满足爬虫抓取的需求⑹。传统的网络爬虫结构框架如图2所示。
检索端
待抓取
Url库
归有光研究图2传统的网络爬虫结构框架
3网络爬虫技术的应用趋势
在网络爬虫技术的应用中,任何一个模块出现效率问题或是安全问题都会影响整个数据信息抓取的准确性,从而降
网辂与通信較术値■与电n
范长秘China Computer&Communication2021年第4期
低爬搜索引擎的服务质量。随着网络信息技术的进一步发展,传统的单机网络爬虫计算已不能满足实际需求,需要展开分布式计算的网络爬虫技术的应用研究。随着网络数据的规模化、全面化和及时化发展,基于分布式计算的网络爬虫技术的应用迫在眉睫。网络爬虫技术的应用趋势如下。
3.1将会出现大规模的分布式系统,实现多台机器的高效合作
分布式计算已经成为新时期互联网系统的重要技术手段,其能够构建起更大区域的分布式集系统,实现多台机器的高效合作,从而消除掉网络爬虫抓取存在的问题。网络爬虫技术通过导入分布式计算技术,有利于建立关系型存储结构,提高信息数据存储的质量,并且实现对数据的高效应用。可以说,网络爬虫技术能够有效提升网络搜索引擎系统的服务性能[7]o
3.2实现网络数据抓取的多元化
在新时期,网民对网络信息的应用不再单纯局限于某一种文件数据,而是实现了多元数据信息的应用。因此,未来的网络爬虫技术也将会实现网络数据抓取的多元化发展,完成各种图片、视频、各类文档的搜索和存储。
3.3网络爬虫技术的应用将呈现出个性化发展
聚偏氟乙烯人们对搜索引擎提出的要求不单单是精准、有效、及时,还要求能够提供个性化的抓取服务。因此未来网络爬虫技术也将实现个性化设置,能够抓取到更加完善且详细的页面资料,而不仅仅是直接提出的URL链接请求[8]…4结语
在大数据时代,现有的网络爬虫技术已经不能够完全获取整个互联网的信息副本,而与此同时各行业对于网络爬虫技术的要求越来越高。目前,网络爬虫技术如何实现更加及时、更加全面的网络数据索引,已经成为该技术研究的重要课题
参考文献
[1]郑承良.互联网地理信息爬虫技术研究与应用[D].泰安:
山东农业大学,2017.
[2]张金.基于Hadoop平台的网络爬虫技术研究[D],南京:
南京邮电大学,2017.
[3]杨琳,慕云逸,时铭月.基于NCrawler的网络爬虫设计及
其应用探讨[J].软件产业与工程,2016(5):31-35.
[4]张世元.基于Python爬虫原理的篮球鞋选择程序的设计
与实现[J].通讯世界,2019,26(2):208-209.
[5]汪小葭,普星.基于网络爬虫技术的数字资源检测软件的
设计与实现[J].数字通信世界,2019(11):97.
[6]卞伟玮,王永超,崔立真,等.基于网络爬虫技术的健
康医疗大数据采集整理系统[J].山东大学学报(医学版),2017,55(6):47-55.
[7]罗琼.基于网络爬虫技术我国体育慕课(MOOC)建设的
研究[D],上海:上海体育学院,2020.
[8]毕森,杨昱离.基于Python的网络爬虫技术研究[J].数字对溴苯胺
通信世界,2019(12):107-10&

本文发布于:2023-08-16 07:33:37,感谢您对本站的认可!

本文链接:https://patent.en369.cn/xueshu/366213.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   技术   爬虫
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图