G06F17/30 G06F21/60 G06F21/62
1.适用于专利公开科技数据库的信息抓取方法,其特征在于:
设定独立的抓取模块,根据网段的不同设定抓取协议;
衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;
检索后的数据文件首先在抓取服务器中进行存储;
所述抓取服务器内的数据文件进行过滤后,进行解析;
解析后的数据存入终端服务器并通过发布装置进行发布。
2.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述抓取模块为网络爬虫模块,所述网络爬虫模块设有独立的抓取关键词管理库,通过设定 时间段进行数据抓取。
3.根据权利要求2所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。
4.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述抓取协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据 格式,判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或是PDF格 式文件导出。
5.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述过滤过程为,搜寻数据文件内的无效内容,删除无效内容后进行逻辑判断,若影响逻辑表 达,则保留无效内容,且对无效内容进行标注,若不影响逻辑表达,则确认删除。
6.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述无效内容包括,验证码、格式符标注、无效代码嵌入、乱码嵌入。
7.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述抓取过程中,设定抓取范围,包括标题、摘要、专利全文、说明书、权利要求书、说明书附 图、著录项目信息。
8.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述终端服务器对解析后的数据进行加密,对解析后的数据匹配快速查的搜索关键词。
9.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所 述发布装置为PC机,和/或是为智能手机,和/或是为智能手持设备。
适用于专利公开科技数据库的信息抓取方法
技术领域
本发明涉及一种信息抓取方法,尤其涉及一种适用于专利公开科技数据库的信息 抓取方法。
背景技术
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公 式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完 毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部 门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于专利公开 科技数据库的信息抓取方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于专利公开科技数据库的信 息抓取方法。
本发明的适用于专利公开科技数据库的信息抓取方法,其中:设定独立的抓取模 块,根据网段的不同设定抓取协议。衔接专利公开数据库的对外数据端口,按照设定关键词 进行抓取。检索后的数据文件首先在抓取服务器中进行存储。同时,所述抓取服务器内的数 据文件进行过滤后,进行解析。最终,解析后的数据存入终端服务器并通过发布装置进行发 布。
进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取模 块为网络爬虫模块,所述网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进 行数据抓取。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述设定 时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取 协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据格式, 判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或是PDF格式文 件导出。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述过滤 过程为,搜寻数据文件内的无效内容,删除无效内容后进行逻辑判断,若影响逻辑表达,则 保留无效内容,且对无效内容进行标注,若不影响逻辑表达,则确认删除。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述无效 内容包括,验证码、格式符标注、无效代码嵌入、乱码嵌入。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取 过程中,设定抓取范围,包括标题、摘要、专利全文、说明书、权利要求书、说明书附图、著录 项目信息。
更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述终端 服务器对解析后的数据进行加密,对解析后的数据匹配快速查的搜索关键词。
再进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述发布 装置为PC机,和/或是为智能手机,和/或是为智能手持设备。
借由上述方案,本发明至少具有以下优点:
1、可依据网段的不同设定对应的抓取协议,减少抓取的匹配运算过程,提高抓取 执行效率;
2、可依据关键词制定抓取方式,获取有针对性数据。
3、拥有完善的存储、过滤机制,提升数据的保存安全性,同时减少无效信息,便于 文件汇总收录。
4、可匹配常用的智能设备进行信息抓取后的发布,实施便捷。
5、对服务器要求低,满足服务器长时间不间断抓取和发布运转。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于 说明本发明,但不用来限制本发明的范围。
适用于专利公开科技数据库的信息抓取方法,其与众不同在于:本发明设有独立 的抓取模块,可根据网段的不同设定抓取协议。这样,能够针对各种专利公开数据库的数据 结构,实现优化数据抓取,且设定后能人工智能识别。在实施期间,衔接专利公开数据库的 对外数据端口,按照设定关键词进行抓取。同时,为了预防数据出现不必要的丢失,检索后 的数据文件首先在抓取服务器中进行存储。考虑到无效数据的过滤,便于提供最合理的抓 取结果,抓取服务器内的数据文件进行过滤后,进行解析。最终,解析后的数据存入终端服 务器并通过发布装置进行发布。
结合本发明一较佳的实施方式来看,为了实现全方位的数据抓取,抓取模块为网 络爬虫模块,网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进行数据抓取。 结合实际实施来说,设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓 取。这样,不会对自身的服务器构架造成过大的负担。同时,能够优化数据抓取,提升抓取效 率。
进一步来看,本发明采用的抓取协议为,抓取模块根据针对的内网、外网的带宽、 数据传输效率、验证方式、原始数据格式,判断采用文本文件导出,或是html格式文件导出, 或是图片格式文件导出,或是PDF格式文件导出。由此,即便遭遇到需要反复数据验证的页 面,亦可以进行针对性的数据获取导向,顺利抓取数据,减少多余乱码产生。更为重要的是, 可以优化最终的数据,获得最合适的文件格式,减少存储负担。
结合实际实施来看,本发明采用的过滤过程为,搜寻数据文件内的无效内容,删除 无效内容后进行逻辑判断,若影响逻辑表达,则保留无效内容,且对无效内容进行标注,若 不影响逻辑表达,则确认删除。具体来说,为了尽可能排除潜在的无效内容,便于后续发布 采用,本发明采用的无效内容包括,验证码、格式符标注、无效代码嵌入、乱码嵌入。为了起 到更好的过滤效果,可通过专利公开数据库对应的语言文字,进行断字匹配,符合对应的语 言词组习惯与阅读习惯。
本发明在实施抓取过程中,可设定抓取范围。具体来说,为了适应专利公开文件的 常规格式或是内容,可包括标题、摘要、专利全文、说明书、权利要求书、说明书附图、著录项 目信息。这样,可以根据不同的抓取需要来获得对应的内容,
从信息安全性出发,为了预防自身抓取的信息被其他服务器恶意侵入或是出现端 口攻击,终端服务器对解析后的数据进行加密。由此,即便是数据因为攻击造成外泄,也不 会造成真实的数据损失。同时,考虑到后续使用者进行人工二次搜索的便利,能够第一时间 获取所需要的数据,可对解析后的数据匹配快速查的搜索关键词。
结合实际实施来看,为了实现最终发布的便利,本发明采用的发布装置为PC机。同 时,考虑到用户使用的便利,能够随时查阅相关的数据信息,可采用智能手机是为智能手持 设备参与发布。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、可依据网段的不同设定对应的抓取协议,减少抓取的匹配运算过程,提高抓取 执行效率;
2、可依据关键词制定抓取方式,获取有针对性数据。
3、拥有完善的存储、过滤机制,提升数据的保存安全性,同时减少无效信息,便于 文件汇总收录。
4、可匹配常用的智能设备进行信息抓取后的发布,实施便捷。
5、对服务器要求低,满足服务器长时间不间断抓取和发布运转。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技 术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和 变型,这些改进和变型也应视为本发明的保护范围。
本文发布于:2023-03-13 05:12:46,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69260.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |