科技项目查重方法、系统、计算机设备及存储介质

阅读: 评论:0

著录项
  • CN202011249285.4
  • 20201110
  • CN114462378A
  • 20220510
  • 深圳供电局有限公司
  • 汪桢子;章彬;汪伟;何维
  • G06F40/194
  • G06F40/194 G06K9/62

  • 广东省深圳市罗湖区深南东路4020号电力调度通信大楼
  • 广东(44)
摘要
本申请涉及一种科技项目查重方法、系统、计算机设备及存储介质。该方法包括:对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,对待分析文本信息以及历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度,通过相似度确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度。
权利要求

1.一种科技项目查重方法,其特征在于,所述方法包括:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

2.根据权利要求1所述的方法,其特征在于,所述待分析项目申请书中各事项类型的待分析文本信息包括:所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个;

所述历史项目申请书中各事项类型的历史文本信息包括:所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

对所述待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息;

对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息;

以及优选地,所述项目信息库中还包括所述待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息。

4.根据权利要求3所述的方法,其特征在于,所述对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息,包括:

对所述待分析项目申请书进行分词处理,得到分词结果;

对所述分词结果进行词频-逆文档频率处理,获取所述待分析项目关键词文本信息;

以及优选地,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:

根据所述待分析项目申请书中各事项类型的待分析文本信息的长度和所述历史项目申请书中各事项类型的历史文本信息的长度,确定所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型;所述文本类型包括长文本和短文本;

根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。

5.根据权利要求4所述的方法,其特征在于,根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:

对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度;

对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

6.根据权利要求5所述的方法,其特征在于,所述对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度,包括:

采用编辑距离算法,对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度;

以及优选地,所述对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度,包括:

采用段落向量算法以及相似度距离算法,对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

7.根据权利要求1所述的方法,其特征在于,所述通过所述相似度,确定所述待分析项目申请书的查重结果,包括:

对所述相似度和所述待分析文本信息的最优权重系数进行加权求和,得到所述待分析文本信息的总相似度;

通过所述待分析文本信息对应的相似度以及所述待分析文本信息的总相似度,确定所述待分析项目申请书的查重结果。

8.一种科技项目查重系统,其特征在于,所述系统包括:

信息抽取模块,用于对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

相似度处理模块,用于对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

查重结果确定模块,用于通过所述相似度,确定所述待分析项目申请书的查重结果。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书
技术领域

本申请涉及文本分析技术领域,特别是涉及一种科技项目查重方法、系统、计算机设备及存储介质。

随着我国科技项目申报数量的逐年递增,项目重复申报现象日益突出。为了有效防止科技项目的重复立项问题,科技项目相似度比对是科技项目申报时的必检测过程。

传统技术,主要依靠人工审查方式对待申报科技项目进行相似度比对。但是,传统的方式会导致科技项目的相似度比对速度较慢。

基于此,有必要针对上述技术问题,提供一种能够提高科技项目相似度比对速度的科技项目查重方法、系统、计算机设备及存储介质。

一种科技项目查重方法,所述方法包括:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

一种科技项目查重系统,所述系统包括:

信息抽取模块,用于对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

相似度处理模块,用于对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

查重结果确定模块,用于通过所述相似度,确定所述待分析项目申请书的查重结果。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

上述科技项目查重方法、系统、计算机设备及存储介质,该方法对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,对待分析文本信息以及历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度,通过相似度确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度。

图1为一个实施例中科技项目查重方法的流程示意图;

图2为另一个实施例中获取项目信息库的方法流程示意图;

图3为另一个实施例中抽取的各事项类型和各事项类型包含的文本信息的展示图;

图4为另一个实施例中关键词抽取的方法流程示意图;

图5为另一个实施例中抽取出的关键词展示图;

图6为另一个实施例中相似度处理的方法流程示意图;

图7为另一个实施例中相似度处理的具体方法流程示意图;

图8为另一个实施例中PV-DM模型的框架图;

图9为另一个实施例中PV-DBOW模型的框架图;

图10为另一个实施例中确定待分析项目申请书的查重结果的方法流程示意图;

图11为一个实施例中科技项目查重系统的结构示意图;

图12为一个实施例中计算机设备的内部结构示意图。

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本实施例提供的科技项目查重方法,可以适用于计算机设备中。可选的,上述计算机设备可以为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有信息处理功能的电子设备,本实施例对计算机设备的具体形式不做限定,下述方法实施例的执行主体以计算机设备为例来进行说明。

图1为一实施例提供的一种科技项目查重方法的流程示意图。本实施例涉及的是如何对待分析项目申请书与历史项目申请书进行比对,确定查重结果的实现过程,以该方法应用于计算机设备为例进行说明。如图1所示,该方法包括:

S1000、对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库。其中,所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息。

具体的,上述待分析项目申请书可以为待立项的科技项目申请书;上述历史项目申请书可以为当年之前每年中已立项申请过的科技项目申请书。在本实施例中,待分析项目申请书的数量可以为一件,历史项目申请书的数量可以为已立项申请过的多件项目申请书。可选的,项目申请书中的各事项类型可以包括项目目录、项目标题、项目摘要、主要研究内容、技术路线、预期目标和/或项目总结等。可选的,不同时间的项目申请书具有的项目布局结构可以不相同。

需要说明的是,计算机设备可以对待分析项目申请书进行信息抽取,抽取出待分析项目申请书中各事项类型下包含的所有文本信息,并对历史项目申请书进行信息抽取,抽取出历史项目申请书中各事项类型下包含的所有文本信息,并将抽取到的所有文本信息组成项目信息库。信息抽取时,不同时期的项目申请书的布局结构不同,因此,需要采用不同的抽取方式对各事项类型下的文本信息进行抽取。

其中,项目申请书涉及的项目类型可以为继保自动化组、输电组、配电组、发电组、通信与信息组、计量营销组、系统运行与智能电网组、变电组等。在本实施例中,在S1000中的步骤执行之前,待分析项目申请书和历史项目申请书的文本类型为doc格式时,计算机设备需要先将待分析项目申请书和历史项目申请书的当前文本格式转换为docx格式。

S2000、对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。

具体的,计算机设备可以对从待分析项目申请书中抽取到的各事项类型下的待分析文本信息,与从历史项目申请书中抽取到的相同事项类型下的历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度。需要说明的是,上述相似度处理可以理解为相似度计算过程;相似度处理的方法可以为余弦相似性、Jaccard相似性系数、欧几里得距离、曼哈顿距离等。

S3000、通过所述相似度,确定所述待分析项目申请书的查重结果。

具体的,计算机设备可以根据待分析文本信息与历史文本信息之间的相似度,获取待分析项目申请书与历史项目申请书的查重结果,进一步确定待分析项目申请书是否可立项。

上述科技项目查重方法中,对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,对待分析文本信息以及历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度,通过相似度确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度,减少了查重过程所需的人力资源,降低查重成本。

作为其中一个实施例,如图2所示,上述S1000中对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库的步骤,可以通过以下步骤实现:

S1100、对所述待分析项目申请书进行信息抽取,得到所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息。

其中,所述待分析项目申请书中各事项类型的待分析文本信息包括:所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个。

在本实施例中,项目信息库中的各事项类型可以包括项目标题、项目摘要、主要研究内容、技术路线和预期目标中至少一个,因此,待分析项目申请书中各事项类型的待分析文本信息可以包括:待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个。

可以理解的是,计算机设备可以抽取待分析项目申请书中项目标题、项目摘要、主要研究内容、技术路线以及预期目标对应的文本信息,得到待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息和待分析预期目标文本信息。其中,上述项目标题可以理解为项目名称。

示例性的,如图3所示为从一个待分析项目申请书中抽取出来的各事项类型和各事项类型包含的文本信息,方框内的文本信息包括各事项类型和/或各事项类型包含的文本信息。

S1200、对所述历史项目申请书进行信息抽取,得到所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息。

其中,所述历史项目申请书中各事项类型的历史文本信息,包括:所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。

在本实施例中,历史项目申请书中各事项类型的历史文本信息可以包括:历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。

需要说明的是,计算机设备可以抽取历史项目申请书中项目标题、项目摘要、主要研究内容、技术路线以及预期目标对应的文本信息,得到历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息和历史预期目标文本信息。

其中,上述S1100与S1200步骤的执行过程可以相互调换,本实施例不做任何限定。

S1300、通过所述待分析项目标题文本信息、所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目标题文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息,得到所述项目信息库。

具体的,计算机设备可以将待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息、待分析预期目标文本信息、历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息和历史预期目标文本信息组合,得到一个项目信息库。

进一步地,在上述S1200的步骤之后,所述方法还包括:对所述待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息,并对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息。

需要说明的是,项目申请书中包括的主要研究内容中还可以包括主要研究内容小标题。计算机设备可以对待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息,并对整个待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息。可选的,主要研究内容小标题可以理解为主要研究内容中包含的小标题。

另外,在上述S1200的步骤之后,所述方法还包括:对所述历史主要研究内容进行小标题抽取,得到历史主要研究内容小标题文本信息,并对所述历史项目申请书进行关键词抽取,得到历史项目关键词文本信息。

可以理解的是,计算机设备可以对历史主要研究内容进行小标题抽取,得到历史主要研究内容小标题文本信息,并对整个历史项目申请书进行关键词抽取,得到历史项目关键词文本信息。

其中,所述项目信息库中还包括所述待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息。

在本实施例中,项目信息库中的信息可以包括:待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息、待分析预期目标文本信息、历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息和历史预期目标文本信息、待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息中的至少两个。

其中,如图4所示,所述对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息的步骤,可以通过以下步骤实现:

S1210、对所述待分析项目申请书进行分词处理,得到分词结果。

具体的,在对待分析项目申请书进行分词处理之前,计算机设备可以先对待分析项目申请书中的文本信息进行预处理,得到预处理后的待分析项目申请书,然后将预处理后的待分析项目申请书作为待分析项目申请书进行分词处理。可选的,预处理可以理解为对待分析项目申请书中的文本信息中无用字符去除和对杂乱的书写格式进行处理的过程;无用字符可以包括空格、回车、冗余的无用词(如介词)等字符;杂乱的书写格式可以为繁体、全角等格式。本实施例可以对杂乱的书写格式进行转换处理;如将繁体转简体,全角转半角等。

需要说明的是,将预处理后的待分析项目申请书作为待分析项目申请书后,计算机设备对待分析项目申请书进行分词处理。可选的,待分析项目申请书中的文本信息可以包括多句语言文字或字符。可选的,分词处理可以理解为从每句语言或字符中划分出多个词(即单个词和词语)的过程;其中,词可以包括专业名词。

在本实施例中,计算机设备可以采用结巴分词、外部词典和停用词过滤的组合算法,对待分析项目申请书中的文本信息进行分词处理,然后对得到的结果进行微调,把分词效果较差或者需要特定分词效果的词语再强制分词处理,之后,对所分的词进行词性筛选,得到分词结果。可选的,分词结果中的词性可以包括:普通名词、专业名词、机构团体、组织名、作品名等。

另外,计算机设备还可以对历史项目申请书进行分词处理,得到历史分词结果。

S1220、对所述分词结果进行词频-逆文档频率处理,获取所述待分析项目关键词文本信息。

在本实施例中,可以将分词结果作为一整篇文档,将词频*逆文档作为向量表示;上述词频tfi,j可以等于某个词在该篇文档中出现的次数/该篇文档中词的总数量,通过公式可以表达为:

其中,tfi,j表示第i篇文档中第j个词的数量。

上述逆文档频率可以等于log(语料库中的文档总数量/(语料中包含该词ti的文档总数+1)),通过公式可以表达为:

其中,|D|为语料库中的文档总数量,|{j:ti∈dj}|为语料库中包含该词ti的文档总数,如果该词不在语料中,则|{j:ti∈dj}|为0;语料库可以理解为所有历史项目申请书,语料可以理解为历史分词结果集。

在本实施例中,上述词频-逆文档频率可以表示为:

tfidfi,j=tfi,j*idfi,j (3);

通过对第i篇文档中每个词的tfidf值进行计算,并对tfidf值进行排序,可以过滤重要性较低的词,获得较为重要的词,即可以得到前N个待分析项目关键词文本信息。如图5所示,为从待分析项目申请书的某个段落中抽取出的关键词展示图,从中可以看出关键词抽取能够达到一个较好的效果。

另外,计算机设备还可以对历史分词结果进行词频-逆文档频率处理,获取历史项目关键词文本信息。

上述科技项目查重方法可以对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,进而对项目信息库中的待分析文本信息和历史文本信息进行相似度处理,以确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度,减少了查重过程所需的人力资源,降低查重成本。

作为其中一个实施例,如图6所示,上述S2000中对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度的步骤,可以通过以下步骤实现:

S2100、根据所述待分析项目申请书中各事项类型的待分析文本信息的长度和所述历史项目申请书中各事项类型的历史文本信息的长度,确定所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型;其中,所述文本类型包括长文本和短文本。

具体的,计算机设备可以根据待分析项目申请书中各事项类型的待分析文本信息的长度和历史项目申请书中各事项类型的历史文本信息的长度,确定待分析项目申请书中各事项类型的文本类型为长文本类型还是短文本类型,以及确定历史项目申请书中各事项类型的文本类型为长文本类型还是短文本类型。如,当待分析文本信息的长度大于预设长度阈值时,可以表征待分析文本信息的文本类型为长文本类型,否则为短文本类型;预设长度阈值可以根据实际情况人为设定。

在本实施例中,上述待分析项目标题文本信息、待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史项目标题文本信息、历史主要研究内容小标题文本信息、历史项目关键词文本信息可以确定为短文本;待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息、待分析预期目标文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息和历史预期目标文本信息可以确定为长文本。

S2200、根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。

具体的,计算机设备可以根据待分析项目申请书中各事项类型的文本类型和历史项目申请书中各事项类型的文本类型,分别采用不同的相似度计算方法对待分析文本信息和历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度。

其中,如图7所示,上述S2200中根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,可以通过以下步骤实现:

S2210、对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度。

具体的,计算机设备可以对待分析项目标题文本信息、待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史项目标题文本信息、历史主要研究内容小标题文本信息、历史项目关键词文本信息进行短文本相似度处理。

其中,上述S2210具体可以包括:采用编辑距离算法,对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度。

可以理解的是,短文本相似度处理的方法可以为余弦相似性、Jaccard相似性系数、欧几里得距离、曼哈顿距离等。但在本实施例中,短文本相似度处理的方法可以为编辑距离算法。其中,编辑距离可以衡量两个词或字符串(即文本信息)相似度的一种度量,表示的是两个词或字符串之间,其中一个转换为另一个词或字符串所需要的最少操作步骤;该操作包括:删除、插入、替换等操作。该编辑距离可以表示为:

其中,D(str1,str2,i,j)表示词或字符串str1的前i个字符和词或字符串str2的前j个字符之间的编辑距离,str1i表示词或字符串str1的第i个子串,D(str1,str2,0,0)的初始值为0;公式(4)为一个递归的定义形式。

示例性的,若有字符串s1和s2,长度分别为m和n,一般采用(m+1)*(n+1)阶的一个匹配关系矩阵来计算编辑距离里;矩阵中的元素值为:

其中,di,j表示矩阵中第i行j列的值;一个匹配关系矩阵的示例如,求“相似度计算”和“计算相似度”之间的编辑距离,所得编辑距离为4,如表所示:

表 编辑距离计算矩阵

0 相 似 度 计 算 计 1 2 3 3 4 算 2 2 3 4 3 相 2 3 3 4 4 似 3 2 3 4 5 度 4 3 2 3 4

S2220、对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

其中,上述S2220的步骤,具体可以包括:采用段落向量算法以及相似度距离算法,对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

具体的,长文本可以由较多句子组成,上下句大都存在相互关系,不能简单的划分为短文本。可选的,相似度距离算法可以为汉明距离、闵可夫斯基距离、切比雪夫距离、马氏距离等。但在本实施例中,长文本相似度处理的方法可以为段落向量算法和相似度距离算法的组合。

需要说明的是,段落向量(paragraph2vec,sentence embeddings,即Doc2vec)算法可以为一种无监督算法,可以获得句子/段落/文档的向量表达式。段落向量算法可以包括Doc2vec句向量模型,即PV-DM(Distribute Memory Model of Paragraph Vectors)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector)。

其中,如图8所示为PV-DM模型的框架图,该模型在加入单词级别的向量之外还有每个段落/句子的向量表示。如对一句子“the cat sat on”,如果要预测句子中的单词on,不仅可以根据其它单词生成对应的特征,也可以根据其它单词和句子生成特征来进行预测。可选的,每个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示;每个单词同样被映射到向量空间,可以用矩阵的一列来表示。之后,将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用可以理解为是上下文的记忆单元或者是这个段落的主题。在模型训练过程中,固定上下文长度,可以用滑动窗口的方法产生训练集,并且段落/句向量在该上下文中共享。实现Doc2vec算法的过程,主要有两步:

(1)训练模型;在已知的训练集中得到词向量、softmax参数和段落向量/句向量。

(2)推断过程;对于新的段落,得到向量表达,在矩阵中添加更多的列,在固定长度的情况下,利用(1)进行训练,使用梯度下降的方法得到新的D(段落向量矩阵),进一步得到新段落的向量表达。

另外,如图9所示为PV-DBOW模型的框架图,该模型可以忽略输入的段落的上下文,让模型去预测段落中随机的一个单词;模型输入的只有段落向量,但预测的是段落/句子中的所有单词,此方法类似于词向量(Word2vec)算法中的skip-gram。

上述科技项目查重方法可以对项目信息库中的待分析文本信息和历史文本信息进行相似度处理,进而确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度,减少了查重过程所需的人力资源,降低查重成本。

作为其中一个实施例,如图10所示,上述S3000中通过所述相似度,确定所述待分析项目申请书的查重结果的步骤,具体可以包括以下步骤:

S3100、对所述相似度和所述待分析文本信息的最优权重系数进行加权求和,得到所述待分析文本信息的总相似度。

具体的,查重处理均是对待分析文本信息和历史文本信息进行查重的过程,因此,在此过程中可以对待分析文本信息与比对的历史文本信息赋最优权重系数。可选的,计算机设备可以通过待分析文本信息与比对的历史文本信息之间的相似度,和对应的最优权重系数进行算术运算,得到待分析文本信息的总相似度。可选的,算术运算可以为加法、减法、乘法和除法运算中的一种或多种组合运算。但在本实施例中,计算机设备可以通过待分析文本信息与比对的历史文本信息之间的相似度,和对应的最优权重系数进行加权求和,得到待分析文本信息的总相似度。

在本实施例中,第一相似度、第二相似度、第三相似度、第四相似度、第五相似度、第六相似度和第七相似度均有对应的最优权重系数。

需要说明的是,在最优权重系数确定是通过查重模型训练过程获取的,在训练过程中,开始要确定初始权重,通过对专家所设权重进行采样综合确定初始权重,具体过程可以描述为:设定10个对项目申请书的整体内容结构较为熟系的专家,让其自行确定所提取项目标题文本信息、项目摘要文本信息、主要研究内容文本信息、技术路线文本信息、预期目标文本信息、主要研究内容小标题文本信息和项目关键词文本信息7部分内容在计算相似度时所占的权重,并对这些权重系数取平均得到最终权重系数。其中,权重系数更新可以使用网格搜索法确定最优权重,具体为:

(1)对抽取到的7部分内容对应的权重系数,按照最低为0,最高为1各切分成的100份(或者更多);

(2)循环组合7部分内容对应的权重系数,计算每个待分析项目申请书在这个权重系数组合下的相似度,并根据得到的相似度和待分析项目申请书真实相似情况(待分析项目申请书是经过人工筛选处理的)计算性能评价指标,即auc值,并将获取到的auc值保存进对应列表。

(3)在满足最基本权重系数条件的基础上(即专家认为的各个权重系数可以波动的范围之内),选择auc值最大的那一组权重系数组合,并根据auc图,确定对应相似与不相似的阈值作为最新阈值,如图X所示为相似度的auc曲线图,从中可以看出auc值为0.9626,并且在阈值为0.5575的时候,达到了最好效果,因此,将auc值为0.9626时对应的一组权重系数确定为最优权重系数。

S3200、通过所述待分析文本信息对应的相似度以及所述待分析文本信息的总相似度,确定所述待分析项目申请书的查重结果。

具体的,选取待分析文本信息对应的前N个相似度和对应的待分析文本信息的总相似度,即对应的N个历史项目申请书和对应的待分析文本信息的总相似度。计算机设备可以综合考虑待分析文本信息对应的相似度和待分析文本信息的总相似度,确定待分析项目申请书的查重结果。可选的,当相似度和总相似度分别大于等于对应相似度阈值时,可以确定待分析项目申请书的查重结果;该查重结果为待分析项目申请书与历史项目申请书重复或者不重复。

上述科技项目查重方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度,减少了查重过程所需的人力资源,降低查重成本。

应该理解的是,虽然图1、2、4、6、7和10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、2、4、6、7和10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图11为一实施例提供的科技项目查重系统的结构示意图。如图11所示,该系统可以包括:信息抽取模块11、相似度处理模块12以及查重结果确定模块13。

具体的,所述信息抽取模块11,用于对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

所述相似度处理模块12,用于对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

所述查重结果确定模块13,用于通过所述相似度,确定所述待分析项目申请书的查重结果。

其中,所述待分析项目申请书中各事项类型的待分析文本信息包括:所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个;

所述历史项目申请书中各事项类型的历史文本信息包括:所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述信息抽取模块11包括:还包括:小标题抽取单元和关键词抽取单元。

具体的,所述小标题抽取单元,用于对所述待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息;

所述关键词抽取单元,用于对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息。

其中,所述项目信息库中还包括所述待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述关键词抽取单元包括:分词子单元以及频率计算子单元。

具体的,所述分词子单元,用于对所述待分析项目申请书进行分词处理,得到分词结果;

所述频率计算子单元,用于对所述分词结果进行词频-逆文档频率处理,获取所述待分析项目关键词文本信息。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述相似度处理模块12包括:文本类型确定单元以及相似度处理单元。

具体的,所述文本类型确定单元,用于根据所述待分析项目申请书中各事项类型的待分析文本信息的长度和所述历史项目申请书中各事项类型的历史文本信息的长度,确定所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型;所述文本类型包括长文本和短文本;

所述相似度处理单元,用于根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述相似度处理单元包括:短文本相似度处理子单元以及长文本相似度处理子单元。

具体的,所述短文本相似度处理子单元,用于对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度;

所述长文本相似度处理子单元,用于对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述短文本相似度处理子单元具体用于采用编辑距离算法,对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述长文本相似度处理子单元具体用于采用段落向量算法以及相似度距离算法,对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以及所述待分析预期目标文本信息与所述历史预期目标文本信息的第七相似度。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在其中一个实施例中,所述查重结果确定模块13包括:加权求和计算单元以及总相似度计算单元。

具体的,所述加权求和计算单元,用于对所述相似度和所述待分析文本信息的最优权重系数进行加权求和,得到所述待分析文本信息的总相似度;

所述总相似度计算单元,用于通过所述待分析文本信息对应的相似度以及所述待分析文本信息的总相似度,确定所述待分析项目申请书的查重结果。

本实施例提供的科技项目查重系统,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

关于科技项目查重系统的具体限定可以参见上文中对于超声成像方法的限定,在此不再赘述。上述科技项目查重系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种超声成像方法。

本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

在一个实施例中,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;

对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;

通过所述相似度,确定所述待分析项目申请书的查重结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

本文发布于:2023-04-13 11:29:30,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/85838.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图