G06F16/332 G06F16/338 G06F16/2458 G06F16/9532 G06F16/9538 G06Q50/18
1.一种基于分布式检索专利数据的方法,其特征在于,包括:
获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;
将所述关键词在多个检索服务器上进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;
将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;
向所述检索请求的发送方返回所述第一检索结果。
2.根据权利要求1所述的方法,其特征在于,获取检索请求并将所述关键词在多个检索服务器上进行检索包括:
将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;
所述第一检索服务器确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;
所述第一检索服务器将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;
所述第一检索服务器和所述其他检索服务器根据所述关键词和各自需要检索的专利数据的范围进行检索。
3.根据权利要求2所述的方法,其特征在于,将所述检索请求发送给第一检索服务器包括:
网页服务器将从网页获取到的检索请求发送给所述第一检索服务器。
4.根据权利要求2所述的方法,其特征在于,所述网页服务器将从网页获取到的检索请求发送给所述第一检索服务器包括:
所述网页服务器从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;
所述网页服务器将所述检索请求发送给所述第一检索服务器。
5.根据权利要求2至4中任一项所述的方法,其特征在于,将所述每个检索服务器的检索结果进行整合包括:
所述第一检索服务器将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
6.一种基于分布式检索专利数据的系统,其特征在于,包括:网页服务器和多个检索服务器,其中,
所述网页服务器用于获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;
所述多个检索服务器用于使用所述关键词进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;
所述多个检索服务器中的之一还用于将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;
所述多个检索服务器中的之一还用于所述向所述检索请求的发送方返回所述第一检索结果。
7.根据权利要求6所述的系统,其特征在于,
所述网页服务器用于将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;
所述第一检索服务器用于确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;
所述第一检索服务器用于将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;
所述第一检索服务器和所述其他检索服务器用于根据所述关键词和各自需要检索的专利数据的范围进行检索。
8.根据权利要求7所述的系统,其特征在于,
所述网页服务器用于将从网页获取到的检索请求发送给所述第一检索服务器。
9.根据权利要求7所述的系统,其特征在于,
所述网页服务器用于从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;
所述网页服务器用于将所述检索请求发送给所述第一检索服务器。
10.根据权利要求7至9中任一项所述的系统,其特征在于,
所述第一检索服务器用于将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
本申请涉及到数据检索领域,具体而言,涉及一种基于分布式检索专利数据的方法和系统。
结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易到的数据类型,但与非结构化数据相比,无疑是两者中人们更容易使用的数据类型。另一方面,计算机可以轻松地搜索它。
结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。
非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型,简单的说,非结构化数据就是字段可变的的数据。
专利文件文本中的内容可以认为是一种典型的非结构化数据,这是因为不同专利的权利要求书以及说明书中的字数均是不同的,而且专利的数量众多,对专利进行全文检索速度较慢。
本申请实施例提供了一种基于分布式检索专利数据的方法和系统,以至少解决现有技术中专利内容进行检索速度较慢的问题。
根据本申请的一个方面,提供了一种基于分布式检索专利数据的方法,包括:获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;将所述关键词在多个检索服务器上进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;向所述检索请求的发送方返回所述第一检索结果。
进一步地,获取检索请求并将所述关键词在多个检索服务器上进行检索包括:将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;所述第一检索服务器确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;所述第一检索服务器将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;所述第一检索服务器和所述其他检索服务器根据所述关键词和各自需要检索的专利数据的范围进行检索。
进一步地,将所述检索请求发送给第一检索服务器包括:网页服务器将从网页获取到的检索请求发送给所述第一检索服务器。
进一步地,所述网页服务器将从网页获取到的检索请求发送给所述第一检索服务器包括:所述网页服务器从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;所述网页服务器将所述检索请求发送给所述第一检索服务器。
进一步地,将所述每个检索服务器的检索结果进行整合包括:所述第一检索服务器将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
根据本申请的另一个方面,还提供了一种基于分布式检索专利数据的系统,包括:网页服务器和多个检索服务器,其中,所述网页服务器用于获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;所述多个检索服务器用于使用所述关键词进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;所述多个检索服务器中的之一还用于将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;所述多个检索服务器中的之一还用于所述向所述检索请求的发送方返回所述第一检索结果。
进一步地,所述网页服务器用于将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;所述第一检索服务器用于确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;所述第一检索服务器用于将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;所述第一检索服务器和所述其他检索服务器用于根据所述关键词和各自需要检索的专利数据的范围进行检索。
进一步地,所述网页服务器用于将从网页获取到的检索请求发送给所述第一检索服务器。
进一步地,所述网页服务器用于从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;所述网页服务器用于将所述检索请求发送给所述第一检索服务器。
进一步地,所述第一检索服务器用于将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
在本申请实施例中,采用了获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;将所述关键词在多个检索服务器上进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;向所述检索请求的发送方返回所述第一检索结果。通过本申请解决了现有技术中专利内容进行检索速度较慢的问题,从而在一定程度上提高了专利检索的速度。
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于分布式检索专利数据的方法的流程图。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于分布式检索专利数据的方法,图1是根据本申请实施例的基于分布式检索专利数据的方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;
步骤S104,将所述关键词在多个检索服务器上进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;
步骤S106,将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;
步骤S108,向所述检索请求的发送方返回所述第一检索结果。
通过上述步骤,采用了分布式检索的策略,解决了现有技术中专利内容进行检索速度较慢的问题,从而在一定程度上提高了专利检索的速度。
在一个可选的方式中,可以从多个检索服务器中确定一个第一检索服务器,该检索服务器用于分配所述多个检索服务器中的每个服务器的检索专利数据的范围,每个范围中包括的是部分专利数据,即上述获取检索请求并将所述关键词在多个检索服务器上进行检索的步骤可以包括:将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;所述第一检索服务器确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;所述第一检索服务器将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;所述第一检索服务器和所述其他检索服务器根据所述关键词和各自需要检索的专利数据的范围进行检索。
作为另一个可选的实施方式,所述第一检索服务器可以根据专利的日期(例如申请日期,也可以采用公开或公告日期)来分配每个检索服务器所要检索的专利范围。所述第一检索服务器首先按照专利的日期获取每一年的专利件的数量,然后根据每一年专利的数量以年为单位为每个检索服务器分配要检索的年份,所述第一检索服务器使用所述关键词以及每个检索服务器所要检索的专利的年份为每个检索服务器生成对应的检索式,并向每个检索服务器发送对应的检索式。
所述第一检索服务器还可以获取每个检索服务器的负载率,其中,所述负载率用于指示该检索服务器中的计算资源已经被使用的情况。所述第一检索服务器根据每个检索服务器负载率确定每个检索服务器所检索的专利数量,其中,负载率越高则检索的专利数量越少。然后根据每个检索服务器检索的专利数量确定其需要检索的年份。
如果检索请求中带有除关键词以外的其他限制信息,例如,申请时间、申请人等,则所述第一检索服务器首先检索其他限制信息,获取符合其他限制信息的专利的数量,然后按照专利的数量再以年为单位的分布,获取每一年中符合所述限制信息的专利数量,所述第一检索服务器根据所述专利数量确定需要的检索服务器的数量,所述第一检索服务器从剩余的检索服务器中选择所述数量的检索服务器,并根据选择出的每个检索服务器的负载为其分配检索的范围。在所述专利数量小于阈值的情况下,所述第一检索服务器确定自行进行检索。
作为另一个可以选择增加的实施方式,所述第一检索服务器还可以根据关键词确定该关键词所属的专利分类号(例如,国际专利分类号),所述第一检索服务器还可以根据使用所述关键词以及每个检索服务器所要检索的专利的年份以及关键词所属的专利分类号构建每个检索服务器对应的检索式,并将构建好的检索式发送给每个检索服务器。
根据关键词确定专利分类号的方式有很多,例如,可以获取多组训练数据,每组训练数据均包括多个关键词和所述多个关键词的标签,所述标签用于标识所述多个关键词所属的国际分类号的大类。每组训练数据中的关键词均提取在一篇专利文献摘要和权利要求中出现频率最高的预定数量的词,每组训练数据中的标签均来自该专利文献所带的分类号。通过使用多组训练数据进行训练之后,该机器学习模型训练之后,可以将待检索的关键词输入到所述机器学习模型中,然后,该机器学习模型就输入一个标签,该标签用于指示输入的关键词所属的国际分类号的大类。
获取检索请求是可以是网页服务器来进行获取的,即网页服务器将从网页获取到的检索请求发送给所述第一检索服务器。
所述网页服务器还可以从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;所述网页服务器将所述检索请求发送给所述第一检索服务器。
在一个可以选择增加的实施方式中,所述网页服务器可以获取检索请求所来自的IP地址,然后根据所述IP地址所在的地理位置,从所述多个检索服务器中选择距离所述IP地址最近的检索服务器作为所述第一检索服务器。各个检索服务器的地理位置也是根据各个服务器的IP地址确定的。
作为另一个可选的实施方式,如果距离最近的检索服务器的负载率超过50%,则说明该检索服务器上可用的计算资源不充足,则选择负载率最低的检索服务器作为所述第一检索服务器。或者,还可以根据与所述检索请求所来自的IP地址所在的地理位置的距离对每个检索服务器进行评分,该评分为1到10,其中10表示距离最近,根据每个检索服务器的负载进行评分,该评分为1到10,其中10表示负载最低计算资源最充足。对两个评分进行加权和,其中每个评分的权值是可以预先配置的,将得分最高的检索服务器作为所述第一检索服务器。
进一步地,将所述每个检索服务器的检索结果进行整合包括:所述第一检索服务器将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
在本实施例中还提供了一种基于分布式检索专利数据的系统,包括:网页服务器和多个检索服务器,其中,所述网页服务器用于获取检索请求,其中,所述检索请求中携带有待检索的关键词,所述检索请求用于在专利数据中检索与所述关键词对应的专利;所述多个检索服务器用于使用所述关键词进行检索,其中,所述多个检索服务器中的每个检索服务器均在部分专利数据中进行检索,每个检索服务器检索的部分专利数据均不相同,所述多个检索服务器中所有的检索服务器所检索的部分专利数据集合在一起为所述专利数据;所述多个检索服务器中的之一还用于将所述每个检索服务器的检索结果进行整合,得到整合后的第一检索结果;所述多个检索服务器中的之一还用于所述向所述检索请求的发送方返回所述第一检索结果。
该系统与上述的方法相对应,在方法中已经进行过说明的,在此不再赘述。
例如,所述网页服务器用于将所述检索请求发送给第一检索服务器,其中,所述第一检索服务器为所述多个检索服务器中的之一;所述第一检索服务器用于确定所述多个检索服务器中的每个检索服务器待检索的专利数据的范围;所述第一检索服务器用于将所述关键词以及每个检索服务器所需要检索的专利数据的范围发送给所述多个服务器除所述第一检索服务器外的其他检索服务器;所述第一检索服务器和所述其他检索服务器用于根据所述关键词和各自需要检索的专利数据的范围进行检索。所述网页服务器用于将从网页获取到的检索请求发送给所述第一检索服务器。
又例如,所述网页服务器用于从所述多个检索服务器中选择出一个检索服务器作为所述第一检索服务器;所述网页服务器用于将所述检索请求发送给所述第一检索服务器。所述第一检索服务器用于将所述每个检索服务器的检索结果进行整合得到所述第一检索结果。
通过上述实施例解决了现有技术中专利内容进行检索速度较慢的问题,从而在一定程度上提高了专利检索的速度。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
本文发布于:2023-03-13 00:27:24,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68611.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |