G06F16/33 G06F16/34 G06F40/289 G06Q50/18
1.一种专利文本新颖性/创造性预测方法,其特征在于,包括:
利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;
计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;
利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;
将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;
利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
2.根据权利要求1所述的方法,其特征在于,所述授权专利文本的数量为一个。
4.根据权利要求2所述的方法,其特征在于,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
3.根据权利要求1所述的方法,其特征在于,所述授权专利文本的数量为两个。
5.根据权利要求3所述的方法,其特征在于,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
6.权利要求1至5中任一项所述的方法,其特征在于,所述授权专利文本的获取方法包括:
利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;
以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。
7.一种专利文本新颖性/创造性预测装置,其特征在于,包括:
主题模块,其配置成利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;
主题分布平均值计算模块,其配置成计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;
BERT模块,其配置成利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;
拼接模块,其配置成将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;和
概率计算模块,其配置成利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
8.根据权利要求7所述的装置,其特征在于,所述授权专利文本的数量为一个,所述装置还包括:
关键词提取模块,其配置成提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;和
第一输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
9.根据权利要求7所述的装置,其特征在于,所述授权专利文本的数量为两个,所述装置还包括:
关键词提取模块,其配置成提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;和
第二输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
10.权利要求7、8或9所述的装置,其特征在于,所述授权专利文本的获取方法包括:
利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;
以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。
本申请涉及自然语言处理中的文本匹配技术。
专利不仅是一种重要的财产权和无形资产,而且是企业的一种重要的竞争资源,专利发展水平更是成为衡量一个地区综合实力、发展能力和核心竞争力的战略性标志。
经统计发现,专利申请不授权的主要原因是权利要求不具备专利法规定的新颖性和/或创造性,因此,在专利申请文件撰写完成后,对专利申请文件的新颖性和/或创造性进行初步的预测判断是很有必要的。
本申请的目的是为了满足现有技术的发展需求,提供一种专利文本新颖性/创造性预测方法及装置。
本申请的一种专利文本新颖性/创造性预测方法包括:
利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;
计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;
利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;
将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;
利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
可选地,所述授权专利文本的数量为一个。
可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的数量为两个。
可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的获取方法包括:
利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;
以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。
本申请的一种专利文本新颖性/创造性预测装置包括:
主题模块,其配置成利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;
主题分布平均值计算模块,其配置成计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;
BERT模块,其配置成利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;
拼接模块,其配置成将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;和
概率计算模块,其配置成利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
可选地,所述授权专利文本的数量为一个,所述装置还包括:
关键词提取模块,其配置成提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;和
第一输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的数量为两个,所述装置还包括:
关键词提取模块,其配置成提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;和
第二输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的获取方法包括:
利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;
以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。
本申请的专利文本新颖性/创造性预测方法及装置,使用了预训练的基于关键词匹配的BERT模型,并在此基础上融合了LDA主题模型,由于对于特定领域下的专利文本,某些出现次数较少的实体出现在预训练中的可能性很低,因此BERT模型对于这类实体没有较好的表征,而主题模型能够抽取输入文本的单词主题,是对BERT模型的有力补充,也是对数据集以外的关键词的表征补充,因此,在BERT模型上融合LDA主题模型后能够显著提高专利文本新颖性/创造性预测的准确度。
图1是本申请实施方式一所述的专利文本新颖性/创造性预测方法的示意性流程图;
图2是本申请实施方式一中授权专利文本的数量为1时,专利文本新颖性/创造性预测方法的原理示意图;
图3是本申请实施方式一中授权专利文本的数量为2时,专利文本新颖性/创造性预测方法的原理示意图;
图4是本申请实施方式二所述的专利文本新颖性/创造性预测装置的结构示意图。
具体实施方式一:如图1所示,本实施方式所述的专利文本新颖性/创造性预测方法是对各专利文本的关键词进行比对,由于关键词能够在一定程度上反映一篇专利的创新点,因此,可以将待预测专利文本的关键词与已授权的专利文本的关键词进行匹配,如果两个专利文本有大量关键词重合,说明待预测专利文本的关键技术、发明点等与现有技术相比没有太大差别,即,待预测专利文本的创新程度比较低,可以认为其新颖性和/或创造性达不到专利法规定的新颖性和/或创造性的标准。基于上述对各专利文本的关键词进行比对的思想,本实施例的专利文本新颖性/创造性预测方法一般性地可以包括如下步骤S1至步骤S5。
步骤S1、获取与待预测专利文本内容相似度最高的授权专利文本。
所述授权专利文本是指通过检索得到的与待预测专利文本在技术方案上相似度最高、并且法律状态为有权的专利文本。所述授权专利文本的获取方式有很多种,例如:
方法一、通过常规的专利检索网站根据用户输入的关键词进行检索来获得;
方法二、利用本实施例提供的检索模型进行检索,所述检索模型主要包括Word2vec和LambdaRank两部分,具体流程为:利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码,然后以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本,根据实际情况,可以选取排在第一位或者排在前两位的专利作为授权专利文本。该方法不需要用户提供关键词,只要将待预测专利文本的整篇文档或者部分文档直接输入至模型即可。
步骤S2、利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布。
步骤S3、计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值。
以一个授权专利文本为例,所述待预测专利文本的N个关键词的主题分布记为ωi,i=1,2,…,N,所述授权专利文本的M个关键词的主题分布记为ω′j,j=1,2,…,M,对于每个专利文本,把所有的关键词主题分布取平均得到一个固定长度的表示:
步骤S4、利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理。
在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理前,需要提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;
然后在所述待预测专利文本的关键词序列前面增加[CLS],当选取的授权专利文本的数量为1时,在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后将增加了[CLS]和[SEP]分隔符的两个关键词序列作为一个整体输入至所述BERT模型。当选取的授权专利文本的数量为2时,还需要在两个授权专利文本的关键词序列之间也增加[SEP]分隔符,然后将增加了[CLS]和[SEP]分隔符的三个关键词序列作为一个整体输入至所述BERT模型。
本实施例的上述步骤S3和步骤S4可以同时进行,对先后顺序不作限定。
步骤S5、将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;
步骤S6、利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
如图2所示,待预测专利文本为S1,授权专利文本为S2。将S1和S2输入至主题模型,S1在前,S2在后,这里的主题模型选用LDA主题模型。主题模型输出S1的N个关键词的主题分布ω1、ω2、……、ωN和S2的M个关键词的主题分布ω′1、ω′2、……、ω′M,计算ω1、ω2、……、ωN的平均值W1和ω′1、ω′2、……、ω′M的平均值W2。采用BERT模型处理之前,需要提取专利文档的关键词,这里的专利文档可以选取权利要求书、说明书、或者说明书的一部分,但选取的部分必须能够包含专利申请的完整的技术方案。本实施例选取了说明书的发明内容部分。由于TF-IDF方法在词语权重提取方面简单高效的特性,本实施例采用TF-IDF算法对说明书发明内容部分进行专利关键词提取,具体为:对每个专利文本发明内容部分进行分词,然后计算每个单词对应的TF-IDF权重,选取权重最高的30个单词作为该专利文本的关键字。图中T1至TN表示采用TF-IDF算法提取的S1的关键词,T′1至T′M表示采用TF-IDF算法提取的S2的关键词,输入BERT模型的不同专利文本的关键词之间需要用[SEP]分隔符区分开,还要在第一个专利文本的第一个关键词前面加上[CLS]。E1至EN分别表示T1至TN的输入编码向量,E′1至E′M分别表示T′1至T′M的输入编码向量,F1至FN与T1至TN相对应,表示经BERT编码后的输入编码向量,F′1至F′M与E′1至相对应,E′M表示经BERT编码后的输入编码向量。BERT模型的输出用C表示,将W1、W2和C拼接成一个矩阵[C;W1;W2],输入至全连接层,然后利用激活函数对全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率,所述概率反映了S1与S2两篇专利文本关键词重合(或相似)的程度,关键词重合程度越低,所述待预测专利文本具备新颖性/创造性的概率越高,当方法给出的具备新颖性/创造性的概率超过50%时,认为所述待预测专利文本具备新颖性/创造性,否则,认为所述待预测专利文本不具备新颖性/创造性。
如图3所示,待预测专利文本为S1,授权专利文本为S2和S3,ω″1、ω″2、……、ω″K表示授权专利文本S3的K个关键词的主题分布,对ω″1、ω″2、……、ω″K取平均后得到W3。两个授权专利文本与一个授权专利文本的区别在于:按照S1、S2、S3的顺序将三个专利文本输入至LDA主题模型,主题模型输出三个专利文本的各关键词的主题分布,然后计算W1、W2和W3,W3表示ω″1、ω″2、……、ω″K的平均值。T″1至T″K表示采用TF-IDF算法提取出的S3的关键词。三个专利文本的关键词序列按照S1、S2、S3的顺序输入至BERT模型。将W1、W2、W3和C拼接成一个矩阵[C;W1;W2;W3],后面的步骤与图2相同。图3包含两组比对,一组为S1与S2进行关键词比对,另一组为S2与S3进行关键词比对,如果第一组的关键词相似度高于第二组的关键词相似度,说明待预测专利文本为S1的创新程度不够高,相反,则说明待预测专利文本为S1的创新程度比较高。同样地,当方法给出的具备新颖性/创造性的概率超过50%时,认为所述待预测专利文本具备新颖性/创造性,否则,认为所述待预测专利文本不具备新颖性/创造性。
下面对本实施例的专利文本新颖性/创造性预测方法(按照2所示的原理)的准确率与现有的Tf-idf-BERT方法进行对比。
选取若干篇专利(包括已授权和因不具备创造性被驳回两类专利)作为查询专利,采用本实施提供的检索模型对所述若干篇查询专利分别进行检索,并选取top-10篇已授权的索引专利。
将每篇查询专利分别与对应的前10篇索引专利作进行关键词比对,记查询专利的数量为X篇,那么,所述预测方法将共给出10X个预测结果,所述10X个预测结果中正确的预测结果所占的比例为所述预测方法的准确率。
对于每篇查询专利,将检索到的前10篇索引专利作为授权文本分别与该查询专利进行关键词比对,方法给出的10个预测结果中,正确的预测结果的数量所占的比例为该查询专利的准确率,所有查询专利的准确率的平均值为平均准确率。
两种方法预测结果如表1所示,其中,LDA-BERT表示本实施例的专利文本新颖性/创造性预测方法,Tf-idf-BERT为现有预测方法。
表1两种预测方法准确率对比
根据表1可以看出本实施例的专利文本新颖性/创造性预测方法无论是准确率还是平均准确率都明显高于现有的Tf-idf-BERT方法。
本文发布于:2023-03-12 22:27:52,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68352.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |