一种自注意力机制的双向编码表征的知识产权匹配技术

阅读: 评论:0

著录项
  • CN201911335341.3
  • 20191223
  • CN111026850A
  • 20200417
  • 园宝科技(武汉)有限公司
  • 王家奎
  • G06F16/33
  • G06F16/33 G06F16/335

  • 湖北省武汉市东湖新技术开发区汤逊湖北路33号华工科技园创新基地17栋B幢3层01号
  • 湖北(42)
  • 南京鼎傲知识产权代理事务所(普通合伙)
  • 殷筛网
摘要
本发明公开了一种自注意力机制的双向编码表征的知识产权匹配技术,包括Sentence?Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐,本发明结构科学合理,使用安全方便基于专利标题的匹配方法首先训练Sentence?Bert模型,运用Sentence?Bert模型对所有的标题文本进行向量化,然后将标题对应的向量存储到数据库中,当用户选择要匹配的标题时,首先从数据库查询该标题的向量,与在高校专利库中的向量逐一进行余弦相似度的计算,最后对余弦相似度的结果排序,选出大于预设阀值的高校专利。
权利要求

1.一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于:包括Sentence-Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐;

具体步骤包含:

S1、首先对历史专利数据中专利标题是否相似进行标记,得到Sentence-Bert模型训练的训练数据,加载中文Bert预训练模型和训练数据,Sentence-Bert模型在加载训练数据对相似度计算任务中的Bert模型参数进行微调,训练完成得到Sentence-Bert模型,

S2、加载Bert模型,从数据库中获取所有专利对应的标题,标题文本通过Sentence-Bert模型生成对应的向量,并将每一个标题的向量存储到数据库中每一条对应的专利中,

S3、根据用户选择的企业专利标题,得到该专利在数据库中的ID,查询该ID对应的标题的向量,在确定完要匹配的专利库中的范围后,得到待匹配专利的列表,将用户选择的专利列表与待匹配的专利列表中的向量做余弦相似度计算,最终获得一对多的相似度结果,

S4、通过相似度数值在测试数据中是否为相似专利的分布,设置大于阀值d的相似度则判定为推荐专利,

S5、将大于阀值d的相似度按数值从高到低排序,选取前N个相似度值对应的专利为相似专利并推荐给用户。

2.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S1中的中文Bert模型为Chinese-BERT-wwm模型,已经在多个中文库做过预训练,较其它模型的优势是可以做句子级向量。

3.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S1中的Sentence-Bert中的训练数据标记随机从数据库中选取专利对,人工判定是否为相似专利,然后加载数据训练模型Sentence-Bert。

4.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S5中的阀值的确定是通过已经训练好的模型给出相似度之后,在测试集上做测试,通过测试集上相似度的分布,设定阀值,使得相似度大于阀值的专利呈现给用户。

说明书
技术领域

本发明涉及文本处理技术领域,具体为一种自注意力机制的双向编码表征的知识产权匹配技术。

专利文献作为技术记录和传播的载体,为个人、高校、企业的学术发展和技术创新提供了良好的土壤,当代社会知识信息爆炸,学术剽窃和技术抄袭也愈演愈烈,专利作为个人和企业的财产难免会遭受损失,个人或企业为了维护自己持有的知识产权将专利申请作为自己维护权利的保障,成功获得专利授予的专利可以作为个人或企业的知识成果发布在互联网上,企业可以从互联网上寻求专利技术的支持,也可以在发表专利之前,查询相关专利是否已经发表,从而确定是否需要发表专利;

目前对于专利的搜索大多是基于关键词匹配标题或关键词的,虽然关键词在专利文本中占有的权重很高,但是忽略了关键词之间的联系,并且关键词并不能总是表达专利的中心含义,且需要人工提取和存储,而标题则高度概括了专利的内容,也没有丢失词之间的语义信息,搜索的结果也符合用户搜索目标,并且不需要对专利进行类别的分类。

本发明提供一种自注意力机制的双向编码表征的知识产权匹配技术,可以有效解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种自注意力机制的双向编码表征的知识产权匹配技术,包括Sentence-Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐;

具体步骤包含:

S1、首先对历史专利数据中专利标题是否相似进行标记,得到 Sentence-Bert模型训练的训练数据,加载中文Bert预训练模型和训练数据,Sentence-Bert模型在加载训练数据对相似度计算任务中的Bert模型参数进行微调,训练完成得到Sentence-Bert模型,

S2、加载Bert模型,从数据库中获取所有专利对应的标题,标题文本通过Sentence-Bert模型生成对应的向量,并将每一个标题的向量存储到数据库中每一条对应的专利中,

S3、根据用户选择的企业专利标题,得到该专利在数据库中的 ID,查询该ID对应的标题的向量,在确定完要匹配的专利库中的范围后,得到待匹配专利的列表,将用户选择的专利列表与待匹配的专利列表中的向量做余弦相似度计算,最终获得一对多的相似度结果,

S4、通过相似度数值在测试数据中是否为相似专利的分布,设置大于阀值d的相似度则判定为推荐专利,

S5、将大于阀值d的相似度按数值从高到低排序,选取前N个相似度值对应的专利为相似专利并推荐给用户。

优选的,所述步骤S1中的中文Bert模型为Chinese-BERT-wwm 模型,已经在多个中文库做过预训练,较其它模型的优势是可以做句子级向量。

优选的,所述步骤S1中的Sentence-Bert中的训练数据标记随机从数据库中选取专利对,人工判定是否为相似专利,然后加载数据训练模型Sentence-Bert。

优选的,所述步骤S5中的阀值的确定是通过已经训练好的模型给出相似度之后,在测试集上做测试,通过测试集上相似度的分布,设定阀值,使得相似度大于阀值的专利呈现给用户。

与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,在于企业园区内企业通过特定高校来检索企业所需的潜在专利,为企业的发展寻技术支持,基于专利标题的匹配方法首先训练Sentence-Bert模型,运用Sentence-Bert模型对所有的标题文本进行向量化,然后将标题对应的向量存储到数据库中,当用户选择要匹配的标题时,首先从数据库查询该标题的向量,与在高校专利库中的向量逐一进行余弦相似度的计算,最后对余弦相似度的结果排序,选出大于预设阀值的高校专利。

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

在附图中:

图1是Bert的流程图;

图2是Sentence-Bert的流程图;

图3是本发明的流程图。

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例:如图1-3所示,本发明提供技术方案,步骤一、构建专利信息库:专利信息库的构建,一部分来源于企业园区内企业专利的注册,一部分来源于已公开专利的爬取;

步骤二、加载中文预训练模型Chinese-BERT-wwm,运用 SentenceBert对Bert模型的参数进行微调,首先将句子A和句子B 通过Bert模型转化为向量,然后分别通|u-v|过Bert模型输出向量a 和b,再通过一层均值池化层得到u和v,|u-v|表示向量的差值的绝对值,最后通过连接向量u,v和|u-v|组成新向量,然后通过全连接网络得到2维向量,然后做softmax处理,softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,用于多分类处理,softmax值输出Si表示其中i,j表示第i,j 个元素的值;

SentenceBert对Bert的改进计算公式如下:

ο=softmax(Wt(u,v,|u-v|));

步骤三、准备训练集,即人工标注数据,人工标注数据三元组表示,其中t1表示专利的标题,t2表示另一篇专利的标题, l表示两篇专利是否相似,若相似标记为1,若不相似标记为0;

步骤四、加载训练数据,在SentenceBert上进行训练,最终得到新的SentenceBert模型;

步骤五、加载数据库中的专利数据,从数据库中查询得到ID和每个专利的标题,通过SentenceBert模型的将数据转化为向量,然后通过每个专利对应的ID,将向量存储到数据库中;

步骤六、根据用户的专利标题,通过SentenceBert模型得到该标题的向量a,然后从数据库中查需要匹配的向量b,最后循环计算用户输入专利标题的向量和数据库中需要比对的向量的余弦值用1-cos(θ)作为两个向量相似程度的参考值,该值越大表示专利之间越相似;

步骤七、在测试集上统计相似度值在不同数据标签上的分布,在相似与不相似的分布的交点设置为阀值d,最终将大于阀值d的专利呈现给用户。

最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

本文发布于:2023-03-13 07:08:31,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/69468.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图