企业专利集与业务相关性测量方法和系统

阅读: 评论:0

著录项
  • CN202210563931.7
  • 20220523
  • CN115146912A
  • 20221004
  • 安徽省征信股份有限公司
  • 阮传宏;田继阳;吴胜建;王驭;张邦华;徐绡绡
  • G06Q10/06
  • G06Q10/06 G06Q50/18 G06F40/216 G06F40/284 G06F40/289 G06K9/62

  • 安徽省合肥市包河区徽州大道4872号金融港中心A2幢23层
  • 安徽(34)
  • 北京久诚知识产权代理事务所(特殊普通合伙)
  • 郭子辰
摘要
本发明提供了一种企业专利集与业务相关性测量方法和系统,涉及计算机信息处理技术领域。本发明实施例先基于企业专利摘要和业务描述构建并训练专利摘要词向量模型和企业描述文本词向量模型。在基于训练好的两个模型对目标企业的专利摘要和业务描述进行提取,得到目标企业业务向量和目标企业专利摘要向量,再计算每个目标企业专利摘要向量与目标企业业务向量的相似度,最终考虑所有专利摘要和业务的相似度作为企业专利集与业务相关性,因此本发明的方法考虑专利语义信息和企业语义信息,能够有效度量企业专利集与其业务之间的相关性。且能够避免人工干预,降低人工成本,在大数据背景下,提高相关性度量效率。
权利要求

1.一种企业专利集与业务相关性测量方法,其特征在于,该方法包括:

基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型;

基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量;

基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量;

计算每个目标企业专利摘要向量与目标企业业务向量的相似度;

基于所述相似度计算企业专利集与业务相关性。

2.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述企业业务描述文本包括:企业简介、经营范围、产品介绍、竞品介绍以及公司业务简介。

3.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型,包括:

对企业专利摘要文本进行预处理,得到专利摘要语料;

基于专利摘要语料训练Word2vec模型,得到专利摘要词向量模型;

对企业业务描述文本进行预处理,得到企业业务语料;

基于企业业务语料训练Word2vec模型,得到企业描述文本词向量模型。

4.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量,包括:

获取目标企业业务描述文本,并对其进行预处理;

基于TF-IDF算法对预处理后的目标企业业务描述文本进行关键词抽取,得到目标企业的业务关键词以及业务关键词权重;

将目标企业的业务关键词作为训练好的企业描述文本词向量模型的输入,生成目标企业的业务关键词向量;

基于目标企业的业务关键词权重对目标企业的业务关键词向量进行加权平均,得到目标企业业务向量。

5.如权利要求4所述的一种企业专利集与业务相关性测量方法,其特征在于,所述业务关键词权重包括:

获取目标企业业务描述文本的第j个业务关键词的TF-IDF值作为第j个业务关键词的权重。

6.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量,包括:

获取目标企业专利摘要文本,并对其进行预处理;

基于TF-IDF算法对预处理后的目标企业专利摘要文本进行关键词抽取,得到目标企业的摘要关键词以及摘要关键词权重;

将目标企业的摘要关键词作为训练好的专利摘要词向量模型的输入,生成目标企业的摘要关键词向量;

基于目标企业的摘要关键词权重对目标企业的摘要关键词向量进行加权平均,得到目标企业摘要向量。

7.如权利要求6所述的一种企业专利集与业务相关性测量方法,其特征在于,所述摘要关键词权重包括:

对于位于专利摘要首句的摘要关键词的权重为否则,摘要关键词权重为

其中,表示目标企业的第i个专利摘要pi的第k个摘要关键词的权重;

表示目标企业的第i个专利摘要pi的第k个摘要关键词的TF-IDF值;

γ和δ为系数,γ+δ=1,γ>δ。

8.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述计算每个目标企业专利摘要向量与目标企业业务向量的相似度,包括:

计算目标企业业务向量与目标企业的每个目标企业专利摘要向量的余弦距离作为相似度。

9.如权利要求1所述的一种企业专利集与业务相关性测量方法,其特征在于,所述基于所述相似度计算企业专利集与业务相关性,包括:

将所有相似度的平均值作为企业专利集与业务相关性。

10.一种企业专利集与业务相关性测量系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-9任一所述方法的步骤。

说明书
技术领域

本发明涉及计算机信息处理技术领域,具体涉及一种企业专利集与业务相关性测量方法和系统。

专利是企业的重要无形资产,在企业生产经营过程中发挥重要作用。专利与企业主营业务相关性高,一方面说明企业有将该专利转化的技术基础,该专利为企业带来经济收益的潜力越大;另一方面也体现了该专利的权威性,因此,如何判断企业专利与业务的相关度成为判断科技型企业实力的重要步骤。

现有的专利与业务相关度大多通过专家经验进行人工判断,主观性较强且效率低下。因此,亟需一种能够判断企业专利与业务的相关度的技术。

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种企业专利集与业务相关性测量方法和系统,解决了现有的专利与企业业务相关性判断方法主观性强,效率低下的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

第一方面,提供了一种企业专利集与业务相关性测量方法,该方法包括:

基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型;

基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量;

基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量;

计算每个目标企业专利摘要向量与目标企业业务向量的相似度;

基于所述相似度计算企业专利集与业务相关性。

进一步的,所述企业业务描述文本包括:企业简介、经营范围、产品介绍、竞品介绍以及公司业务简介。

进一步的,所述基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型,包括:

对企业专利摘要文本进行预处理,得到专利摘要语料;

基于专利摘要语料训练Word2vec模型,得到专利摘要词向量模型;

对企业业务描述文本进行预处理,得到企业业务语料;

基于企业业务语料训练Word2vec模型,得到企业描述文本词向量模型。

进一步的,所述基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量,包括:

获取目标企业业务描述文本,并对其进行预处理;

基于TF-IDF算法对预处理后的目标企业业务描述文本进行关键词抽取,得到目标企业的业务关键词以及业务关键词权重;

将目标企业的业务关键词作为训练好的企业描述文本词向量模型的输入,生成目标企业的业务关键词向量;

基于目标企业的业务关键词权重对目标企业的业务关键词向量进行加权平均,得到目标企业业务向量。

进一步的,所述业务关键词权重包括:

获取目标企业业务描述文本的第j个业务关键词的TF-IDF值作为第j个业务关键词的权重。

进一步的,所述基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量,包括:

获取目标企业专利摘要文本,并对其进行预处理;

基于TF-IDF算法对预处理后的目标企业专利摘要文本进行关键词抽取,得到目标企业的摘要关键词以及摘要关键词权重;

将目标企业的摘要关键词作为训练好的专利摘要词向量模型的输入,生成目标企业的摘要关键词向量;

基于目标企业的摘要关键词权重对目标企业的摘要关键词向量进行加权平均,得到目标企业摘要向量。

进一步的,所述摘要关键词权重包括:

对于位于专利摘要首句的摘要关键词的权重为否则,摘要关键词权重为

其中,表示目标企业的第i个专利摘要pi的第k个摘要关键词的权重;

表示目标企业的第i个专利摘要pi的第k个摘要关键词的TF-IDF值;

γ和δ为系数,γ+δ=1,γ>δ。

进一步的,所述计算每个目标企业专利摘要向量与目标企业业务向量的相似度,包括:

计算目标企业业务向量与目标企业的每个目标企业专利摘要向量的余弦距离作为相似度。

进一步的,所述基于所述相似度计算企业专利集与业务相关性,包括:

将所有相似度的平均值作为企业专利集与业务相关性。

第二方面,提供了一种企业专利集与业务相关性测量系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

(三)有益效果

本发明提供了一种企业专利集与业务相关性测量方法和系统。与现有技术相比,具备以下有益效果:

本发明先基于企业专利摘要和业务描述构建并训练专利摘要词向量模型和企业描述文本词向量模型。在基于训练好的两个模型对目标企业的专利摘要和业务描述进行提取,得到目标企业业务向量和目标企业专利摘要向量,再计算每个目标企业专利摘要向量与目标企业业务向量的相似度,最终考虑所有专利摘要和业务的相似度作为企业专利集与业务相关性,因此本发明的方法考虑专利语义信息和企业语义信息,能够有效度量企业专利集与其业务之间的相关性。且能够避免人工干预,降低人工成本,在大数据背景下,提高相关性度量效率。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图。

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种企业专利集与业务相关性测量方法和系统,解决了现有的专利与企业业务相关性判断方法主观性强,效率低下的问题。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明先基于企业专利摘要和业务描述构建并训练专利摘要词向量模型和企业描述文本词向量模型。在基于训练好的两个模型对目标企业的专利摘要和业务描述进行提取,得到目标企业业务向量和目标企业专利摘要向量,再计算每个目标企业专利摘要向量与目标企业业务向量的相似度,最终考虑所有专利摘要和业务的相似度作为企业专利集与业务相关性,因此本发明的方法考虑专利语义信息和企业语义信息,能够有效度量企业专利集与其业务之间的相关性。且能够避免人工干预,降低人工成本,在大数据背景下,提高相关性度量效率

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1:

如图1所示,本发明提供了一种企业专利集与业务相关性测量方法,该方法包括:

基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型;

基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量;

基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量;

计算每个目标企业专利摘要向量与目标企业业务向量的相似度;

基于所述相似度计算企业专利集与业务相关性。

本实施例的有益效果为:

本发明实施例先基于企业专利摘要和业务描述构建并训练专利摘要词向量模型和企业描述文本词向量模型。在基于训练好的两个模型对目标企业的专利摘要和业务描述进行提取,得到目标企业业务向量和目标企业专利摘要向量,再计算每个目标企业专利摘要向量与目标企业业务向量的相似度,最终考虑所有专利摘要和业务的相似度作为企业专利集与业务相关性,因此本发明的方法考虑专利语义信息和企业语义信息,能够有效度量企业专利集与其业务之间的相关性。且能够避免人工干预,降低人工成本,在大数据背景下,提高相关性度量效率。

下面对本发明实施例的实现过程进行详细说明:

S1、基于企业专利摘要文本和企业业务描述文本训练专利摘要词向量模型和企业描述文本词向量模型。

具体实施时,专利摘要词向量模型的构建过程包括如下步骤:

S101、采集企业专利摘要文本和企业业务描述文本作为原始语料;

S102、对原始语料中的企业专利摘要文本进行预处理,例如进行分词、去停用词等操作,得到专利摘要语料;

S103、将专利摘要语料作为Word2vec模型的输入,利用现有的模型训练方式进行训练后得到专利摘要词向量模型。

Word2vec是用来产生词向量的相关模型。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

与专利摘要词向量模型类似,企业描述文本词向量模型的构建过程包括如下步骤:

S104、对原始语料中的企业业务描述文本进行预处理,例如进行分词、去停用词等操作,得到企业业务语料;

S105、将企业业务语料作为Word2vec模型的输入,利用现有的模型训练方式进行训练后得到企业描述文本词向量模型。

S2、基于训练好的企业描述文本词向量模型和目标企业业务描述文本生成目标企业业务向量。

具体实施时,可采用如下步骤实现:

S201、获取目标企业的企业业务描述文本,并进行预处理;具体的,预处理包括进行分词、去停用词处理等操作;

S202、基于TF-IDF算法对预处理后的目标企业业务描述文本进行关键词抽取,得到目标企业的业务关键词以及业务关键词权重;

其中,用t表示待评测企业业务描述文本b的关键词数量;

用tfidfbj表示目标企业业务b第j个关键词的TF-IDF值;

则目标企业的所有业务关键词的TF-IDF值可以记为:

tfidfb=[tfidfb1,tfidfb2,…,tfidfbj,…,tfidfbt]

具体的,经发明人研究发现,因为业务描述文本规律性不强,业务描述文本不考虑位置权重,因此可将目标企业业务描述文本的第j个业务关键词的TF-IDF值作为第j个业务关键词的权重。

S203、将目标企业的业务关键词作为训练好的企业描述文本词向量模型的输入,生成目标企业的业务关键词向量,记为:

wb=[wb1,wb2,…,wbj,…wbt]

其中wbj表示待评测企业业务描述文本b第j个关键词向量。

S204、基于目标企业的业务关键词权重对目标企业的业务关键词向量进行加权平均,得到目标企业业务向量β。且计算公式如下:

S3、基于训练好的专利摘要词向量模型和目标企业专利摘要文本生成目标企业专利摘要向量。

S301、获取目标企业专利摘要文本,并对其进行预处理;具体的,预处理包括进行分词、去停用词处理等操作;

S302、基于TF-IDF算法对预处理后的目标企业专利摘要文本进行关键词抽取,得到目标企业的摘要关键词以及摘要关键词权重;

具体的,目标企业的专利摘要集合用P={p1,p2,…,pn}表示,且pi为P中的第i个专利摘要。则目标企业的第i个专利摘要pi的所有关键词的TF-IDF值可记为:

其中,表示目标企业的专利摘要pi的第k个关键词的TF-IDF值,m表示目标企业的专利摘要pi的关键词数量。

进一步考虑摘要关键词在摘要中位置对权重的影响,经发明人研究发现,按如下方式对权重进行设置能够达到预料之外的效果,有效提高准确度:

对于位于专利摘要首句的摘要关键词的权重为否则,摘要关键词权重为

其中,表示目标企业的第i个专利摘要pi的第k个摘要关键词的权重;

表示目标企业的第i个专利摘要pi的第k个摘要关键词的TF-IDF值;

γ和δ为系数,γ+δ=1,γ>δ。

则目标企业专利摘要pi的关键词权重可记为:

S303、将目标企业的摘要关键词作为训练好的专利摘要词向量模型的输入,生成目标企业的摘要关键词向量;

具体的,目标企业第i个专利的摘要pi关键词词向量可记为:

其中,表示目标企业专利摘要pi的第k个关键词的词向量,m表示专利摘要pi关键词数量。

S304、基于目标企业的摘要关键词权重对目标企业的摘要关键词向量进行加权平均,得到目标企业摘要向量。

用αi表示目标企业第i个专利摘要pi的目标企业摘要向量;则其计算公式如下:

S4、计算每个目标企业专利摘要向量与目标企业业务向量的相似度。

具体实施时,计算目标企业业务向量β与目标企业专利集合P={p1,p2,…,pn}中每个专利摘要pi向量αi的余弦距离Si,且计算公式为:

S5、基于所述相似度计算企业专利集与业务相关性。

具体的,发明人经研究还发现,目前多是针对单个专利来判断与企业业务的相似性,但该方法无法很好的对企业的能力进行评估,需要考虑企业专利集整体与业务相关性,因此需要计算目标企业描述文本向量与其所有专利摘要向量余弦距离平均值S来确定企业专利集与业务相关性。且具体公式如下:

实验验证:

下面以具体例子验证本发明实施例的准确性,设定γ=2/3,δ=1/3选取一千家安徽省科技型中小企业,收集其专利集数据和企业描述数据,邀请三位研究生对数据进行标记,判定企业专利集与业务相关性,并以现有方法——基于关键词TF-IDF权重进行文本向量化作为对照实验,实验结果如表1所示。

表1专利与企业相关性测度性能

TF-IDF TF-IDF+位置权重 均方误差(MSE) 0.0085 0.0021 均方根误差(RMSE) 0.0923 0.0457 平均绝对误差(MAE) 0.0792 0.0347 平均绝对百分比误差(MAPE) 0.2776 0.1214

从结果可以看出,在均方误差、均方根误差、平均绝对误差和平均绝对百分比误差四个指标下,相比于现有的基于TF-IDF权重进行文本向量化的方法,结合位置权重和TF-IDF权重进行优化,可以有效提高企业专利集与业务相关性测度的准确性。

实施例2

本发明还提供了一种企业专利集与业务相关性测量系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

可理解的是,本发明实施例提供的企业专利集与业务相关性测量系统与上述企业专利集与业务相关性测量方法相对应,其有关内容的解释、举例、有益效果等部分可以参考企业专利集与业务相关性测量方法中的相应内容,此处不再赘述。

综上所述,与现有技术相比,本发明具备以下有益效果:

本发明提供的企业专利集与业务相关性测度方法,考虑专利语义信息和企业语义信息,能够有效度量企业专利集与其业务之间的相关性。且能够避免人工干预,降低人工成本,在大数据背景下,提高相关性度量效率。

需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本文发布于:2023-03-12 23:40:22,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68508.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图