G06F16/332
1.一种基于文本相似性分析的专利推荐方法,其特征在于,其包括:
获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
2.如权利要求1所述的专利推荐方法,其特征在于,所述获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词包括:
基于文本特征提取算法获得所述扩展相似文本的文本特征词;
滤除所述文本特征词中的停用词。
3.如权利要求1所述的专利推荐方法,其特征在于,所述基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,包括:
基于该所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E),其中V为节点集,E为边集;
基于TextRank算法计算出所述无向带权图中的各节点的权重;
对各节点的权重进行排序,选取预定数量的权重最大的节点所对应的词作为所述扩展相似文本的相似度评价词;
基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度;
当所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
4.如权利要求3所述的专利推荐方法,其特征在于,基于该所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E)包括:
将该所述扩展相似文本的文本特征词移入至所述节点集,并采用共现关系构造任意两点之间的边;
将该所述扩展相似文本对应的检索词移入至所述节点集,在所述扩展相似文本的文本特征词与每个所述检索词之间均构造边。
5.如权利要求3所述的专利推荐方法,其特征在于,基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度包括:
基于所述相似度评价词,获取所述扩展相似文本的tf-idf词向量;
基于所述tf-idf词向量,计算所述展相似文本与所述基础相似文本集中的各所述基础相似文本之间的余弦相似度。
6.一种基于文本相似性分析的专利推荐装置,其特征在于,其包括:
第一获取模块,用于获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
第一检索模块,用于以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
第二检索模块,用于以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
第二获取模块,用于获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
扩容模块,用于遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
7.如权利要求6所述的专利推荐装置,其特征在于,所述第二获取模块包括:
提取子模块,基于文本特征提取算法提取所述扩展相似文本的文本特征词;
滤除子模块,滤除所述文本特征词中的停用词。
8.如权利要求6所述的专利推荐装置,其特征在于,所述扩容模块包括:
构图子模块,用于基于所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E),其中V为节点集,E为边集;
第一计算子模块,用于基于TextRank算法计算出所述无向带权图中的各节点的权重;
选取子模块,用于对各节点的权重进行排序,选取预定数量的权重最大节点所对应的词作为所述扩展相似文本的相似度评价词;
第二计算子模块,用于基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度;
移入子模块,用于当所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
9.一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的专利推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-5任一项所述的专利推荐方法。
本发明设置文本处理领域,具体而言,本申请涉及一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质。
技术文本(例如专利文本、论文文本及企业技术文档)作为自然语言的载体,通常以一种非结构或半结构化的形式存在。随着计算机互联网技术的飞速发展,文本相似性分析在许多领域存在广泛应用,如在专利信息检索中,文本相似性分析即是一项基础而又重要的工作。
随着世界经济和技术的竞争越来越激烈,专利因其作为科技创新成果的重要表现形式和载体,已经成为推动现代社会进步和经济技术发展的重要杠杆。
企业获得创新性技术的路径不外乎包括自主研发和技术引进两种,无论是自主研发或者是技术引进,都必须首先获取到有关该创新性技术的相关专利成果。如当选择自主研发路径时,需要进行专利规避设计以绕开相关专利的保护范围,防止侵权。当选择技术引进路径时,则需要对相关专利进行技术分析,以选择出最合适、最先进的专利技术进行针对性的引进。
如何从海量的专利数据库中获取到与创新性技术相关的、足够多的专利文件是一项较为复杂、专业的工作,大多数中小企业不具备相关能力。因此,专利推荐相关的科技服务应运而生,其目的在于为客户推荐与客户感兴趣的创新性技术相关的专利文件。
专利推荐的首要任务是从海量的专利数据库(如中国专利数据库)中检索出与创新性技术相关的专利文本。目前,比较常用的专利文本检索策略为关键词检索,其基于待检索关键词构建检索式,从专利数据库中检索出相关的专利文本。关键词检索策略仅能检索到与选定的关键词强相关的少量的专利文本,其漏检率较高,很容易遗漏大量重要的、技术相似度高的专利文本,其难以实现满意的专利推荐效果。
为了解决上述技术问题,本发明第一方面提供了一种基于文本相似性分析的专利推荐方法,其包括:
获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
本发明第二方面提供了一种基于文本相似性分析的专利推荐装置,其包括:
第一获取模块,用于获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
第一检索模块,用于以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
第二检索模块,用于以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
第二获取模块,用于获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
扩容模块,用于遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述的基于文本相似性分析的专利推荐方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的基于文本相似性分析的专利推荐方法。
本发明首先将目标关键词分解成主体关键词和若干描述性关键词,并基于主体关键词和全部描述性关键词构建检索式以检索到包含有数量较少的基础相似文本的基础相似文本集,同时基于主体关键词和每个描述性关键词构建检索式以检索到包含有数量较多的扩展相似文本的扩展相似文本集。
本发明接着遍历扩展相似文本集中的每个扩展相似文本,针对每个扩展相似文本,计算该扩展相似文本与当前的基础相似文本集内的基础相似文本的相似度,如果该扩展相似文本与当前的基础相似文本集中的任一基础相似文本之间的相似度高于预定阈值,则将当前取出的扩展相似文本自扩展相似文本集移入至当前的基础相似文本集内以实现基础相似文本集的扩容。
与现有技术中的关键词检索策略相比,本发明能够显著提升与目标关键词相似的相似文本的查全率,降低漏检率。本发明非常适合应用于专利推荐,其能够获取到尽可能多的与目标关键词相关的专利文本,从而提升专利推荐效果。
图1为本申请实施例的基于文本相似性分析的专利推荐方法的流程图;
图2为本申请实施例的基于文本相似性分析的专利推荐方法的流程图;
图3为本申请实施例的基于文本相似性分析的专利推荐方法的流程图;
图4为本申请实施例的基于文本相似性分析的专利推荐方法的流程图;
图5为本申请实施例的基于文本相似性分析的专利推荐装置的结构示意图;
图6为本申请实施例的基于文本相似性分析的专利推荐装置的结构示意图;
图7为本申请实施例的电子设备的结构示意图。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
目前比较常见的专利文本检索策略采用关键词检索,基于待检索关键词构建检索式,从专利数据库中检索出相似的专利文本。关键词检索策略仅能检索到与选定的关键词强相关的少量的专利文本,其漏检率较高,很容易遗漏大量重要的、技术相似度高的专利文本。
本申请提供的基于文本相似性分析的专利推荐方法、装置、电子设备及计算机存储介质,旨在解决现有技术中的上述技术问题。
下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种基于文本相似性分析的专利推荐方法,如图1所示,包括:
步骤S100,获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词。
具体的,从目标文本(如客户提供的技术文档、专利文本、论文等)的摘要中确认关键词句,然后对关键词句进行分解以获得主体关键词和与主体关键词关联的若干描述性关键词。主体关键词一般为目标文本所针对的技术对象,描述性关键词则可能是该技术对象所应用的场景、该技术对象的外形、结构等。
例如,目标文件为一篇关于无人机发动机的专利文本,从该专利的摘要中确定其关键词句为“应用于无人机的涡轮喷气发动机”,对该关键词句进行关键词分解,获得一个主体关键词“发动机”及两个描述性关键词“无人机”、“涡轮喷气”。
步骤S200,以主体关键词和若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集。
如预设数据库为中国专利数据库,以主体关键词和所有的描述性关键词作为检索词构建检索式,基于该检索式在中国专利数据库中进行检索,即可获得所谓的基础相似文本集,该基础相似文本集可以被视为与目标文件最为相似的文本集。但是,通过步骤S200检索出的初始的基础相似文本集所包括的基础相似文本的数目过少,难以满足查全要求。
仍然以上文中的关于无人机发动机的目标专利文本为例,本步骤中,检索式可以被表征为(发动机*无人机*涡轮喷气),基于该检索式在中国专利数据库中进行检索,可以获得若干篇专利文本,这些专利文本即构成该目标文件的初始的基础相似文本集。
步骤S300,以主体关键词和各描述性关键词作为检索词,依次从预设数据库中获取到若干扩展相似文本子集,并将获取到的若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集。
如预设数据库为中国专利数据库,将主体关键词和各描述性关键词分别组合形成若干检索式,然后依次基于各检索式在中国专利数据库中进行检索,每个检索式均能返回若干专利文本,最后将这些专利文本合并在一起即能获得扩展相似文本集。
仍然以上文中的关于无人机发动机的目标专利文本为例,此时,可以分别构建两个检索式(发动机*无人机)和(发动机*涡轮喷气),基于两个检索式分别进行检索,获得包括有第一数量的专利文本的第一扩展相似文本子集及包括有第二数量的专利文本的第二扩展相似文本子集,最后将第一扩展相似文本子集和第二扩展相似文本子集合并即获得与该目标专利文本的扩展相似文本集。
如本领域一般技术人员所知,基础相似文本集为扩展相似文本集的子集,即:步骤S300检索到的扩展相似文本集包含了步骤S200检索到的基础相似文本集中的所有文本,且包含了除基础相似文本集之外的新文本,这些新文本中极有可能存在与目标文本的相似度较高的、重要的文本,将这些文本识别出来并加入(召回)至基础相似文本集中,显然是能够减少漏检率的,这也正是本申请的发明构思及所要实现的技术目标。
步骤S400,获取扩展相似文本集中的各扩展相似文本的文本特征词。
现有技术中存在大量的文本特征提取算法,如,常用的文本特征提取算法是在分词、词性标注等方法的基础上,根据词频来确认文本的特征词,从而将一些词频高的词抽取出来,以实现对文本的表征。本领域技术人员在实现本申请的技术方案时可根据需要选择合适的文本特征提取算法实施本步骤,本说明书中不进行特别的限定。
如,仍然以上文中的关于无人机发动机的目标专利文本为例。通过文本特征提取算法对其中的一篇扩展相似文本进行处理后,获取到其文本特征词为“涡轮”、“风扇”、“控制”。
此外,扩展相似文本中可能存在停用词,因此,可选的,如图2所示,步骤S400具体可包括:步骤401、基于提取文本特征算法获得所述扩展相似文本的文本特征词;步骤402、滤除所述文本特征词中的停用词。需要进行说明的是,步骤401和步骤402的执行顺序可以互换。
通过实施本步骤,即能获取到各扩展相似文本各自的文本特征词,后续将基于各扩展相似文本的文本特征词,确定各扩展相似文本与基础相似文本集内的各基础相似文本之间的相似度,从而实现对基础相似文本的扩容。
步骤S500,遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
由于扩展相似文本的文本特征词是通过步骤S400中的文本特征提取算法抽取出的词频高的词,其很容易漏掉文本中的某些词频低但是又非常关键的专业性词。回到步骤S300,我们追溯一下扩展相似文本的来源,每个扩展相似文本都是通过主体关键词和某个描述性关键词作为检索词检索获取的。因此,对于各扩展相似文本,其对应的检索词自然存在于该扩展相似文本内,而且属于该扩展相似文本的关键、专业性词,因此将对应的检索词融入至文本特征词内,必定更能实现对该扩展相似文本的有效表征。
如,仍然以上文中的关于无人机发动机的目标专利文本为例。其中的一篇扩展相似文本是步骤S300中采用检索词“发动机”、“涡轮喷气”构建的检索式(发动机*涡轮喷气)检索出来的。而通过步骤S400中的文本特征提取算法抽取出的文本特征词则为“涡轮”、“风扇”、“控制”。将检索词“发动机”、“涡轮喷气”和文本特征词“涡轮”、“风扇”、“控制”融合在一起形成特征词集{“涡轮”、“风扇”、“控制”、“发动机”、“涡轮喷气”},使用该特征词集显然更能实现对该扩展相似文本的特征表征。最后,基于融合后的特征词集,确认该扩展相似文本与基础相似文本集中的各相似文本之间的相似性,即能判断该扩展相似文本是否应该被移入至基础相似文本集内。
具体实施过程中,本发明遍历扩展相似文本中的每个扩展相似文本并计算当前被遍历到的扩展相似文本与基础相似文本集中的各基础相似文本的相似度,如果当前被遍历到的扩展相似文本被移入至基础相似文本集内,基础相似文本集即实现一次扩容(其包含的文本数量增加一篇),相对应的,扩展相似文本集包含的文本数量减少一篇。
也就是说,本发明中,基础相似文本集和扩展相似文本集为一对反向动态变化的文本集,随着对扩展相似文本集的遍历,基础相似文本集中的文本数量不断增加,扩展相似文本集中的文本数量不断减少。
当基础相似文本集中的文本数量不再增加时,即:当前的扩展相似文本集中剩余的扩展相似文本与当前的基础相似文本集中的任一基础相似文本的相似性均小于预定的阈值。此时,输出当前的基础相似文本集,该基础相似文本集即为本发明最终获取到的与目标关键词相关的相似文本集。
与现有技术相比,申请实施例提供的基于文本相似性分析的专利推荐方法,能够显著提升相似文本的查全率,降低漏检率,其非常适合应用于专利推荐,能够获取到尽可能多的与目标关键词相关的专利文本,从而提升专利推荐效果。
实施例二
本申请实施例提供了另一种可能的实现方法,在实施例一的基础上,还包括实施例二所示的方法,其中,
在步骤S500中,基于扩展相似文本的文本特征词及该扩展相似文本对应的检索词,通过构建TextRank算法选出最能表征扩展相似文本的词作为相似度评价词,然后基于这些相似度评价词计算该扩展相似文本与基础相似文本集中的各所述基础相似文本之间的相似度。
由于扩展相似文本的文本特征词及该扩展相似文本对应的检索词的数目往往较多,如果将这次词全部拿来计算相似度,计算量非常大。通过构建TextRank算法,能够从这些特征词中选出较少数量的最能表征该扩展相似文本的特征词作为相似度评价词,从而减少相似度算法的计算量。
TextRank算法是一种用于文本的基于图的排序算法,其基本思想源于谷歌的PageRank算法,通过把文本分割成若干组成单元(例如单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词的抽取。和LDA、HMM等模型不同,TextRank算法不需要事先对多篇文档进行学习训练,因其简洁多效而得到广泛应用。
具体的,如图3所示,本申请实施例的步骤S500的具体实施流程包括:
S501、基于扩展相似文本的文本特征词及该扩展相似文本对应的检索词构建无向带权图G=(V,E),其中V为节点集,E为边集。
如图4所示,本申请实施例中,G=(V,E)的具体构图过程如下:
S5011、将所述扩展相似文本的文本特征词移入至节点集,并采用共现关系构造任意两点之间的边。
S5012、将扩展相似文本对应的检索词移入至节点集,在扩展相似文本的文本特征词与每个检索词之间均构造边。
如,仍然以上文中的关于无人机发动机的目标专利文本为例。其中一篇扩展相似文本的文本特征词为“涡轮”、“风扇”、“控制”,其对应的检索词为“发动机”、“涡轮喷气”。
首先,执行步骤S5011:将“涡轮”、“风扇”、“控制”作为节点移入至图G=(V,E)中,即图中获得三个节点。然后采用共现关系算法构建各节点之间的边,具体的,将“涡轮”、“风扇”、“控制”排列在一起形成一个序列﹛“涡轮”、“风扇”、“控制”﹜,然后构建长度K=2的窗口沿着序列移动,移动步长为t=1,将同时出现在窗口内的两个词之间添加一条边,执行结束后,产生两条边:﹛“涡轮”—“风扇”,“涡轮”—“控制”﹜。当然,当节点的数目较多时,可以对窗口长度K和步长t进行调整。
接着执行步骤S5012:将检索词“发动机”、“涡轮喷气”作为两个新节点移入至图G=(V,E)中,即此时图中的节点书增至五个。“涡轮”、“风扇”、“控制”对应的三个节点分别与“发动机”、“涡轮喷气”对应的两个节点之间构建边,获得六条新的边:{“涡轮”-“发动机”,“涡轮”-“涡轮喷气”,“风扇”-“发动机”,“风扇”-“涡轮喷气”,“控制”-“发动机”,“控制”-“涡轮喷气”}。至此,完成了图G=(V,E)的构建。
S502、基于TextRank算法计算出无向带权图中的各节点的权重。
可选的,TextRank算法的具体执行过程如下:
1、输入G(V,E);
2、初始化节点权重:S(Vi)=1/N,d=0.85;其中N=V的元素个数;
4、迭代,直至收敛。
TextRank算法通过迭代获取各节点的权重的具体过程为本领域技术人员所熟知,本说明书不再进行深入描述。
当然,算法中涉及到的各节点的初始权重、阻尼系数等参数值及迭代的收敛判断条件,都可以根据实际情况进行设置,本申请并不进行特别限定。
执行完步骤S502,图中的每个节点均获得一个权重值,该权重值可以理解为节点对应的词在文本中的重要性。如,仍然以上文中的关于无人机发动机的目标专利文本为例,其五个节点均获得一个权重,这些权重即能表明“发动机”、“涡轮”、“涡轮喷气”、“风扇”、“控制”等五个词在该扩展相似文本中的重要性。
S503、对各节点的权重进行排序,选取预定数量的权重最大节点所对应的词作为扩展相似文本的相似度评价词。
仍然以上文中的关于无人机发动机的目标专利文本为例,经过权重排序。五个节点所对应的特征词的重要性依次为“发动机”、“涡轮”、“涡轮喷气”、“风扇”、“控制”。将预定数量设置为三个,即,选择排名前三的三个特征词作为相似度评价词,即:被选定的相似度评价词为“发动机”、“涡轮”、“涡轮喷气”。
可见,本发明实施例中的TextRank算法,在构建针对扩展相似文本的无向带权图G=(V,E)时,其不仅使用了该扩展相似文本的自身的文本特征词,还融入了与该扩展相似文本对应的检索词。如此,能够保证TextRank算法能够提取出预定数量的最能表征该扩展相似文本的特征的相似度评价词。这也正是本发明的TextRank算法与经典的TextRank算法存在的主要区别。
S504、基于相似度评价词,计算扩展相似文本与基础相似文本集中的各基础相似文本之间的相似度。
基于目标文本的特征词,计算目标文本与候选文本之间的相似度在本领域是非常成熟的技术。常用的算法为余弦相似度算法。可选的,本申请采用余弦相似度算法计算扩展相似文本与各基础相似文本之间的余弦相似度,其算法步骤大致分两步:
首先,基于相似度评价词,获取扩展相似文本的tf-idf词向量。
然后,基于tf-idf词向量,计算该扩展相似文本与基础相似文本集中的各基础相似文本的tf-idf词向量之间的余弦相似度。
S505、当扩展相似文本与基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该扩展相似文本自扩展相似文本集移入至基础相似文本集内。
对于每个扩展相似文本,均能获得与当前的基础相似文本集中基础相似文本的数量一致的余弦相似度。将这些余弦相似度中的最大值与预定的阈值相比,如果其大于预定阈值,说明该扩展相似文本与当前的基础相似文本集中的至少一个基础相似文本的相似性很大,该扩展相似文本被移入至当前的基础相似文本集中。否则,该扩展相似文本继续保留在扩展相似文本集中。
当完成对扩展相似文本集内的所有扩展相似文本的遍历后,获得本轮遍历后的基础相似文本集及对应的扩展相似文本集。
对扩展相似文本集进行循环遍历,直至基础相似文本集中的文本数量不再增加,输出最终的基础相似文本集。显然,与最初的基础相似文本集相比,最终的基础相似文本集中包括的基础相似文本显然要多得多。
实施例三
图5和图6为本申请实施例提供的基于文本相似性分析的专利推荐装置10的结构示意图。
该专利推荐装置10包括第一获取模块11、第一检索模块12、第二检索模块13、第二获取模块14和扩容模块15。其中
第一获取模块11,用于获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
第一检索模块12,用于以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
第二检索模块13,用于以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
第二获取模块14,用于获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词。
可选的,第二获取模块14包括提取子模块141和滤除子模块142,其中:提取子模块141基于文本特征提取算法提取所述扩展相似文本的文本特征词;滤除子模块142滤除所述文本特征词中的停用词。
扩容模块15,用于遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
可选的,扩容模块15包括构图子模块151、第一计算子模块152、选取子模块153、第二计算子模块154及移入子模块155,其中:
构图子模块151,用于基于所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E),其中V为节点集,E为边集;
第一计算子模152,用于基于TextRank算法计算出所述无向带权图中的各节点的权重;
选取子模块153,用于对各节点的权重进行排序,选取预定数量的权重最大节点所对应的词作为所述扩展相似文本的相似度评价词;
第二计算子模154,用于基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度;
移入子模块155,用于当所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
由于所述专利推荐装置10的各功能模块的处理过程与前述实施例一、实施例二中的专利推荐方法的处理过程一致,因此本实施例不再对专利推荐装置10的各功能模块的处理过程进行重复描述,可以参考实施例一、实施例二中的相关描述。
申请实施例提供的专利推荐装置,与现有技术相比,其通过将目标关键词划分为主体关键词和描述性关键词,获取到数量较少的基础相似文本集和数量较多的扩展相似文本集,并从扩展相似文本集中挑选出若干相似度较高的文本移入至基础相似文本集内,从而实现漏检文本的召回。与现有技术中的关键词检索策略相比,本申请能够显著提升相似文本的查全率,降低漏检率。
实施例四
图7为本申请实施例提供的电子设备20的结构示意图,如图7所示,该电子设备20包括处理器21和存储器23,处理器21和存储器23相连,如通过总线22相连。
处理器21可以是CPU,通用处理器、DSP,ASIC,FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器21也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等。
总线22可以包括一通路,在上述组件之间传送信息。总线22可以是PCI总线或EISA总线等。总线22可以分为地址总线、数据总线、控制总线等。为了便于表示,图中仅以一条粗线表示,但是并不表示仅有一根总线或一种类型的总线。
存储器23可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可以储存信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器23用于存储本申请方案的应用程序代码,并由处理器21来控制执行。处理器21用于执行存储器23中存储的应用程序代码,以实现实施例一、实施例二中的专利推荐方法。
本申请实施例最后还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一、实施例二中任一项的专利推荐方法。
上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解,实施例中的描述仅仅是示例性的,在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的,而不是由实施例中的上述描述来限定的。
本文发布于:2023-03-13 05:47:04,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69318.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |