G06F17/30 G06Q50/18
1.一种基于扩展布尔检索模型的大数据专利检索方法,其特征在于,所述方法包括如 下步骤:
步骤S1:将用户的检索提问转化成广义析取提问式和广义合取提问式;
步骤S2:计算出检索词K i在专利文档d j中的权重;
步骤S3:对专利文档d j分别计算出其与广义析取提问式和广义合取提问式的相似度;
步骤S4:遍历专利数据库中的文档,计算出扩展布尔检索模型最匹配的前N个专利文 档,并组成集合D;
步骤S5:对集合D中的专利文档进行排序,输出给用户;
步骤S6:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词并且调 整各检索词的权重,进行二次检索过滤。
2.根据权利要求1所述的一种基于扩展布尔检索模型的大数据专利检索方法,其特征 在于,所述步骤S1中广义析取提问式和广义合取提问式计算公式如下:
q or=k 1∨ pk 2∨ p……∨ pk t
q and=k 1∧ pk 2∧ p……∧ pk t
其中,q or代表广义析取提问式,q and代表广义合取提问式,k i为用户检索词,t为检索词 个数,p∈[0,+∞]。
3.根据权利要求1所述的一种基于扩展布尔检索模型的大数据专利检索方法,其特征 在于,所述步骤S2中权重记为w ij,w ij由两种权值决定,分别是局部权值和全局权值。
4.根据权利要求1所述的一种基于扩展布尔检索模型的大数据专利检索方法,其特征 在于,所述步骤S3中,qo r和q and与d j的相似度计算公式如下:
其中,
5.根据权利要求1所述的一种基于扩展布尔检索模型的大数据专利检索方法,其特征 在于,所述步骤S4中,定义SUM(q,d j)=SIM(q or,d j)+SIM(q and,d j),遍历专利数据库中的文 档,计算出SUM(q,d j)最大的前N个专利文档,组成集合记为D。
本发明涉及一种大数据专利检索方法,属于专利检索技术领域,具体涉及一种基 于扩展布尔检索模型的大数据专利检索方法。
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一 种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来 越受到重视。据世界知识产权组织(World Intellectual Property Organization)报道, 专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的发明技术从未在 其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研 究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。
中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第 一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致 了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。
相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:
(1)复杂性。专利文献记载着技术解决方案,确定了专利权保护范围,包含很多专 业性和细节性的说明,特别是专利中描述技术细节和组成结构的句子表达非常复杂,涉及 多种并列结构、依存结构和嵌套结构,在做句法语义分析时也比普通文本遇到更多的挑战。
(2)规范化。专利文献相对网页有更规整的结构化信息,一是它具有统一的分类, 二是专利权利说明书遵循一定的写作规范,有效地利用这些规范化信息将有助于对专利的 分析。
(3)抽象性。专利作为一种技术上受保护的文献,专利发明人为了垄断技术,会使 用更加抽象的上位词表达保护的覆盖范围,这些词包含各种技术术语甚至是自定义词汇, 从而增加了词法处理的难度。
(4)唯一性。专利是一种独一无二的信息资源,相对于网页,专利间的文本重叠度 往往很小,因此在计算专利相似度时,基于词语重叠的方法并不适用。
(5)多主题多语言。一篇专利文献经常包括多个主题,而且不同国家采用不同的语 言描述专利,所以专利检索更加注重跨语言多主题的检索。
对比文件1(一种专利检索的系统和方法,CN201410787225.6)公开了一种专利检 索的系统和方法,专利检索的系统包括用户信息管理模块、检索类型选择模块、检索输入模 块、检索配对模块和检索输出模块,专利检索的方法包括:S1,从简单检索、高级检索和表达 式检索中选择适合本次检索的检索方式,并且进入该检索的窗口;S2,在选择进入的检索方 式的窗口中输入检索词,点击检索窗口进入显示窗口;S3,在检索窗口选择专利呈现的形 式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现;S4,选择对专利进行保存或则结 束进程。该发明中的专利检索主要从功能性模块出发,并没有进行实质性的提出高效率的 检索方法。
针对以上缺点,有必要设计出一种新的专利检索方法,避免传统专利检索方法中 检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
(一)要解决的技术问题
为了解决现有技术存在的上述问题,本发明提供了一种基于扩展布尔检索模型的 大数据专利检索方法,该方法能够避免传统专利检索方法中检索式构造的非友善性和二值 匹配相关性,提高专利检索结果的匹配度和关联度。
(二)技术方案
本发明提出了一种基于扩展布尔检索模型的大数据专利检索方法,该方法包括如 下步骤:
步骤S1:将用户的检索提问转化成广义析取提问式和广义合取提问式;
步骤S2:计算出检索词Ki在专利文档dj中的权重;
步骤S3:对专利文档dj分别计算出其与广义析取提问式和广义合取提问式的相似 度;
步骤S4:遍历专利数据库中的文档,计算出扩展布尔检索模型最匹配的前N个专利 文档,并组成集合D;
步骤S5:对集合D中的专利文档进行排序,输出给用户;
步骤S6:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词并 且调整各检索词的权重,进行二次检索过滤。
优选的,所述步骤S1中,广义析取提问式和广义合取提问式计算公式如下:
qor=k1∨pk2∨p……∨pkt
qand=k1∧pk2∧p……∧pkt
其中,qor代表广义析取提问式,qand代表广义合取提问式,ki为用户检索词,t为检 索词个数,p∈[0,+∞]。
优选的,所述步骤S2中权重记为wij,计算方法如下:wij由两种权值决定,分别是局 部权值和全局权值。所谓“局部权值”是指第i个索引词此在文档dj中多的权值fij。fij= frij/maxfrj,其中frij为索引词ki在文档中dj中出现的次数;maxfrj表示文档dj中所有索引 词出现次数的最大值。所谓“全局权值”是指i个索引词在整个系统中的权值idfi。idfi=log (N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索引词Ki的文档数。从而定义 wij=fij*idfi。
优选的,所述步骤S3中,qor和qand与dj的相似度计算公式如下:
优选的,所述步骤S4中,定义SUM(q,dj)=SIM(qor,dj)+SIM(qand,dj),遍历专利数据 库中的文档,计算出SUM(q,dj)最大的前N个专利文档,组成集合记为D。
(三)有益效果
从上述技术方案可以看出,本发明提出的基于扩展布尔检索模型的大数据专利检 索方法具有以下有益效果:
1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关 性。
2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。
图1显示了本发明优选实施例的基于扩展布尔检索模型的大数据专利检索方法流 程图。
下面结合附图,对本发明做的实施例作详细说明:本实施例在以本发明技术方案 前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于 下述的实施例。
图1显示了本发明优选实施例的基于扩展布尔检索模型的大数据专利检索方法流 程图。
如图1所示,本发明优选实施例的基于扩展布尔检索模型的大数据专利检索方法 包括如下步骤:
步骤S1:将用户的检索提问转化成广义析取提问式和广义合取提问式;广义析取 提问式和广义合取提问式计算公式如下:
qor=k1∨pk2∨p……∨pkt
qand=k1∧pk2∧p……∧pkt
其中,qor代表广义析取提问式,qand代表广义合取提问式,ki为用户检索词,t为检 索词个数,p∈[0,+∞]。
步骤S2:计算出检索词Ki在专利文档dj中的权重;权重记为wij计算方法如下:wij由 两种权值决定,分别是局部权值和全局权值。所谓“局部权值”是指第i个索引词此在文档dj 中多的权值fij。fij=frij/maxfrj,其中frij为索引词ki在文档中dj中出现的次数;maxfrj表 示文档dj中所有索引词出现次数的最大值。所谓“全局权值”是指第i个索引词在整个系统 中的权值idfi。idfi=log(N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索 引词Ki的文档数。从而定义wij=fij*idfi。
步骤S3:对专利文档dj分别计算出其与广义析取提问式和广义合取提问式的相似 度;qor和qand与dj的相似度计算公式如下:
步骤S4:遍历专利数据库中的文档,计算出扩展布尔检索模型最匹配的前N个专利 文档,并组成集合D;定义SUM(q,dj)=SIM(qor,dj)+SIM(qand,dj),遍历专利数据库中的文档, 计算出SUM(q,dj)最大的前N个专利文档,组成集合记为D。
步骤S5:对集合D中的专利文档进行排序,输出给用户;
步骤S6:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词并 且调整各检索词的权重,进行二次检索过滤。
综上所述,本发明提出了一种基于扩展布尔检索模型的大数据专利检索方法,该 方法将用户的检索提问转化成广义析取提问式和广义合取提问式,并计算出检索词在专利 文档中的权重,然后对专利文档分别计算出其与广义析取提问式和广义合取提问式的相似 度;其次遍历专利数据库中的文档,计算出扩展布尔检索模型最匹配的前N个专利文档,组 成集合D,并对集合D中的专利文档进行排序,输出给用户,用户根据呈现的结果,选择所需 专利,或者添加或重新输入专利检索词并且调整各检索词的权重,进行二次检索过滤。该方 法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,并通过相似度 计算函数提高了专利检索结果的匹配度和关联度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在 不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包 含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当 将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员 可以理解的其他实施方式。
本文发布于:2023-03-13 00:11:31,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68579.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |