一种基于多示例学习的工业互联网专利识别方法

阅读: 评论:0

著录项
  • CN202111593675.8
  • 20211222
  • CN114330314A
  • 20220412
  • 杭州电子科技大学
  • 陈信;俞东进;蔡鑫鑫;徐忆航
  • G06F40/258
  • G06F40/258 G06F40/289 G06K9/62

  • 浙江省杭州市钱塘新区白杨街道2号大街1158号
  • 浙江(33)
摘要
本发明涉及一种基于多示例学习的工业互联网专利识别方法,利用自然语言处理技术,将专利中的摘要信息切分成句子,并利用基于句子关系图的文本主题句抽取算法来抽取摘要中的主题句,可以有效减少计算开销。同时通过结合标题和摘要中抽取的主题句,将专利转换为为句子包,其中每个专利看作包,包中的每个句子看作示例。最后,通过采用K近邻算法(K Nearest Neighbors,KNN)来预测新样本的类别。通过本发明方法能有效提高工业互联网专利识别效果,极大地减少人工审查代价,对专利检索有着非常重要的意义。
权利要求

1.一种基于多示例学习的工业互联网专利识别方法,其特征在于:包括以下步骤:

步骤一、从数据集中获取专利数据P=(P1,P2,…,Pn),n为专利的件数,将每个专利样本表示为Pi=(id,pnun,title,abstract),

其中id表示专利的编号,pnun表示专利的申请号,title表示专利的标题,abstract表示专利摘要;

步骤二、数据过滤:通过专利的申请号pnum对专利数据去重,仅保留一个专利申请号的相关专利;

步骤三、句子切分:对于专利中的abstract文本内容,根据“。”、“;”、“!”、“?”等将其划分为句子,并将摘要表示为句子的集合abstract=(s1,s2,…,sm),其中m表示abstract包含的句子数量;

步骤四、数据预处理:利用在线分词工具LTP对专利中的文本内容进行分词;后删除文本内容中包含的噪音信息;再利用停用词表去除文本内容中包含的停用词;经过预处理后每个样本表示为Pi=,其中preTitle和preAbstract分别表示预处理后的标题信息和摘要信息;

步骤五、句子相似度计算:采用Jaccard系数来计算相似度,将样本表示为词袋模型,根据两个样本包含的相同的词的个数与所有不同词的个数的比例来度量相似度;

步骤六:abstract主题句抽取:采用基于句子关系图的文本主题句抽取算法来抽取主题句,对于句子sj(j=1,2,…,m),得到主题句的集合topSen={s1,s2,…sm'},m'为最终选择的主题句的数量;

步骤七:句子包表示:对于每个专利Pi,用句子包来表示专利;将title看作是单独的主题句,与topSen中主题句进行合并,将专利Pi表示为Pi={s1,s2,…sli},从而专利Pi看作包,Pi中的每个句子看作一个示例,li为包Pi中示例的个数;

步骤八:包间相似度计算:对于任意两个句子包Pa和Pb,la和lb分别表示包Pa和Pb中示例的个数,则Pa和Pb的相似度为:

其中Sim(Pa,Pb)表示Pa和Pb的相似度;

步骤九:训练集划分:将数据集划分为正样本集和负样本集,其中工业互联网专利作为正样本,非工业互联网专利作为负样本:

步骤十:分类预测:对于新的专利样本Pu,对标题和摘要进行预处理,然后对预处理后的摘要进行主题句抽取,将标题当作一个单独的主题句,将专利Pu表示为句子包形式;利用K近邻算法来预测Pu的类别。

2.根据权利要求1所述的一种基于多示例学习的工业互联网专利识别方法,其特征在于:所述步骤四中噪音信息包括数字、标点。

3.根据权利要求1或2所述的一种基于多示例学习的工业互联网专利识别方法,其特征在于:所述步骤五中对于abstract中任意两个句子sa和sb,采用Jaccard系数来计算句子相似度,公式如下:

其中||表示集合中包含的单词的个数。

4.根据权利要求3所述的一种基于多示例学习的工业互联网专利识别方法,其特征在于:所述步骤六包括以下步骤:

步骤(6-1):对于abstract=(s1,s2,…,sm),根据Jaccard系数计算所有句子之间的相似度Sim(sj,sk),其中j≠k且j,k=1,2,…,m,构建相似度矩阵Xm×m;

步骤(6-2):设定相似度阈值δ1(δ1=0.3),构建矩阵Ym×m,其中每个元素Yjk(Yjk∈Ym×m)的值为:

步骤(6-3):构造一个行向量Z1×m,对应分量Zj(j=1,2,…,m)代表句子sj的重要程度,与Ym×m的每一行对应;Zj的值为Ym×m中第j行元素值大于0的元素的个数;

步骤(6-4):将句子按重要程度从大到小进行排序,选定阈值δ2(δ2=0.5)以及压缩比率R(R=0.2),初始化集合topSen={},依次按照句子重要程度处理每个句子sj;

步骤(6-5):若待处理的句子sj未被标记为“已处理”,则将sj放入topSen,并标记为“已处理”,同时扫描矩阵Ym×m第j行,如果Yjk≥δ2,则将句子sk也标注为“已处理”;若待处理的句子sj已经标注为“已处理”,则不操作;

步骤(6-6):重复步骤6-5,直到无待处理句子或者topSen中包含的句子数量已经达到R×m;

步骤(6-7):得到abstract的主题句集合topSen={s1,s2,…sm'},m'为最终选择的主题句的数量。

5.根据权利要求1所述的一种基于多示例学习的工业互联网专利识别方法,其特征在于:所述步骤十包括以下步骤:

步骤(10-1):将待分类的专利表示为句子包形式Pu=(s1,s2,…slu),lu为包Pu中示例的个数;

步骤(10-2):计算出待分类专利Pu与训练集中每个样本之间的相似度;

步骤(10-3):从训练集中为待分类专利Pu选择相似度最大的K个样本,构成集合CadSet={P1,P2,…,PK};

步骤(10-4):统计出待分类的专利Pu相对于每个类别cd的权重,计算公式如下:

其中w(Pu,cd)表示Pu属于类cd的权重,y(Pv,cd)为类别属性函数,即如果Pv属于类cd,那么其值为1,否则为0;

步骤(10-5):类别权重最大的类就是待分类样本所属的类。

说明书
技术领域

本发明涉及一种基于多示例学习的工业互联网专利识别方法,属于数据挖掘技术领域。

工业互联网作为我国新一代网络信息技术与现代工业融合发展催生的新事物,是实现制造和生产领域全要素、全产业链、全价值链的关键性支撑。工业互联网是推动我国实现工业经济数字化、网络化、智能化发展的重要基础设施,也是互联网技术从消费领域跨越到生产领域、从虚拟经济迈步到实体经济的核心载体。相比传统互联网产业,工业互联网发展更加具有高研发投入、长回报周期等产业特点,这就造成国内大部分工业互联网软件公司的研发积极度不够高,且短期内投入的技术和研发成本有限等问题。因此,如何从专利布局的角度出发,正确引导工业互联网产业发展成为一个迫在眉睫的问题。

开展专利导航工作不仅可以充分发挥专利制度对产业创新资源的配置作用,还可以发挥专利信息分析对产业创新决策的引导作用,从而进一步提高产业创新能力,实现知识产权风险的规避和产业整体竞争力的提高。然而,想要顺利开展专利导航工作,数据识别就显得尤为重要。工业互联网专利导航需要大量的数据支撑,这就要求我们需要通过选取专利的主分类号、标题、摘要等影响专利类别的因素作为基础特征来识别相关的专利数据,之后建立一个专用数据库存放这些专利数据。工业互联网专利数据识别本质上是一个文本分类问题,良好的识别效果可以大大减少人工审查时间,提高专利分析效率。

当前,越来越多的学者投入到中文文本分类的研究中,经过众多学者的研究,各种基于机器学习的中文文本分类方法层出不穷,许多深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)等也被应用于文本分类中。然而,目前大部分中文专利文本分类的研究,主要都聚焦于专利的分类号分类,在某一细分领域尤其工业互联网领域,尚未有学者提出相关切实可行的分类方案应用于专利识别。近年来,工业互联网产业发展如火如荼,大量创新的专利技术纷纷涌现,工业互联网专利识别有很大的研究空间和应用前景,采用有效的算法对工业互联网专利进行识别显得尤为重要。

本发明的目的是针对上述问题,提供一种基于多示例学习的工业互联网专利识别方法,可以极大地减少人工审查效率,有效识别工业互联网专利数据。

为实现上述目的,本发明的技术方案是:

一种基于多示例学习的工业互联网专利识别方法,包括以下步骤:

步骤一:从数据集中获取专利数据P=(P1,P2,…,Pn),n为专利的件数,将每个样本(即专利)表示为Pi=(id,pnun,title,abstract),其中id表示专利的编号,pnun表示专利的申请号,title表示专利的标题,abstract表示专利摘要;

步骤二:数据过滤:数据集中存在大量的重复专利,这些专利是申请人首次申请因专利质量问题未通过,修改后再次申请造成的;通过利用专利的申请号pnum对专利数据去重,即如果多个专利都拥有相同的专利申请号,则该专利申请号的相关专利仅保留一个;

步骤三:句子切分:对于专利中的abstract文本内容,根据“。”、“;”、“!”、“?”等将其划分为句子,并将摘要表示为句子的集合abstract=(s1,s2,…,sm),其中m表示abstract包含的句子数量;

步骤四:数据预处理:首先,利用中文在线分词工具LTP(Language TechnologyPlatform)对专利中的文本内容进行分词;然后,删除文本内容中包含的数字、标点等噪音信息;最后,利用中文停用词表去除文本内容中包含的停用词;经过预处理后每个样本表示为Pi=,其中preTitle和preAbstract分别表示预处理后的标题信息和摘要信息;

步骤五:句子相似度计算:句子作为短文本,其包含的词有限,不适合采用面向长文本的相似度计算方法,如空间向量模型;本发明采用Jaccard系数来计算相似度,其将样本表示为词袋模型,然后根据两个样本包含的相同的词的个数与所有不同词的个数的比例来度量相似度;

步骤六:abstract主题句抽取:在文本中,为了描述一个主题,可能存在许多语义重复的句子,应该选择其中最能代表文本内容的句子,即主题句;本发明采用基于句子关系图的文本主题句抽取算法来抽取主题句,对于句子sj(j=1,2,…,m),如果和其相似度较大的句子较多,则该句子被选择作为主题句的概率较大;最终得到主题句的集合topSen={s1,s2,…sm'},m'为最终选择的主题句的数量;

步骤七:句子包表示:对于每个专利Pi,借用多示例学习理论中包的概念,用句子包来表示专利;将title看作是单独的主题句,与topSen中主题句进行合并,将专利Pi表示为从而专利Pi看作包,Pi中的每个句子看作一个示例,li为包Pi中示例的个数;

步骤八:包间相似度计算:对于任意两个句子包Pa和Pb,la和lb分别表示包Pa和Pb中示例的个数,则Pa和Pb的相似度为:

其中Sim(Pa,Pb)表示Pa和Pb的相似度;

步骤九:训练集划分:将数据集划分为正样本集合和负样本集合,其中工业互联网专利作为正样本,非工业互联网专利作为负样本;采用十折交叉验证方法,即将正负样本划分为10折,并将每折的正负样本合并,合并后的9折作为训练集,1折作为测试集;

步骤十:分类预测:对于新的专利样本Pu,首先对标题和摘要进行预处理,然后对预处理后的摘要进行主题句抽取,将标题当作一个单独的主题句,将专利Pu表示为句子包形式;利用K近邻算法(K Nearest Neighbors,KNN)来预测Pu的类别。

与现有技术相比,本发明的有益效果在于:

本发明涉及的基于多示例学习的工业互联网专利识别方法,构建了基于多示例学习的工业互联网专利分类方法,可以有效识别出工业互联网专利,提高分类的准确率。本发明中将专利表示成句子包形式,将每个句子当作一个示例,能有效避免正包中各示例类别模糊性问题。本发明利用基于句子关系图的文本主题句抽取算法来抽取主题句,有效克服了长文本带来的高计算代价问题。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于多示例学习的工业互联网专利识别方法的流程图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

数据源获取:本实验涉及的专利数据通过Innojoy专利搜索引擎获取,同时协同汤森路透开发的Thomson Innovation专利检索及分析系统、Innography专利检索及分析系统、SooPAT专利检索及分析系统等平台,检索时间段为2000年1月1日到2020年9月30日。通过关键字检索,最后得到69658条专利数据。对于收集到的数据,邀请3名研究生对其进行标注。对每个专利样本,每个研究生都对其进行标注,即确定是否为工业互联网专利。如果一个专利的3次标注结果一致,则认为该专利标注结果可以接受;否则,该专利需要提交给专家进行决策。专家对所有标注结果不一致的专利进行审查,并确定其最终标签,即是否是工业互联网专利。最终得到的工业互联网专利数据24880条。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1,对本发明专利提供的基于多示例学习的工业互联网专利识别方法进行详细说明,包括以下步骤:

步骤一:从数据集中获取专利数据P=(P1,P2,…,Pn),n为专利的件数,将每个样本(即专利)表示为Pi=(id,pnun,title,abstract),其中id表示专利的编号,pnun表示专利的申请号,title表示专利的标题,abstract表示专利摘要;

步骤二:数据过滤:通过利用专利的申请号pnum对专利数据去重,即如果多个专利都拥有相同的专利申请号,则该专利申请号的相关专利仅保留一个;

步骤三:句子切分:对于专利中的abstract文本内容,根据“。”、“;”、“!”、“?”等将其划分为句子,并将摘要表示为句子的集合abstract=(s1,s2,…,sm),其中m表示abstract包含的句子数量;

步骤四:数据预处理:首先,利用中文在线分词工具LTP(Language TechnologyPlatform)对专利中的文本内容进行分词;然后,删除文本内容中包含的数字、标点等噪音信息;最后,利用中文停用词表去除文本内容中包含的停用词;经过预处理后每个样本表示为Pi=,其中preTitle和preAbstract分别表示预处理后的标题信息和摘要信息;

步骤五:句子相似度计算:通过预处理后,abstract中的每个句子实际上是由单词组成的集合;对于abstract中任意两个句子sa和sb,采用Jaccard系数来计算句子相似度,公式如下:

其中||表示集合中包含的单词的个数;

步骤六:abstract主题句抽取:针对专利Pi中的abstract,采用基于句子关系图的文本主题句抽取算法来抽取主题句,详细步骤如下:

6-1、对于abstract=(s1,s2,…,sm),根据Jaccard系数计算所有句子之间的相似度Sim(sj,sk),其中j≠k且j,k=1,2,…,m,构建相似度矩阵Xm×m;

6-2、设定相似度阈值δ1(δ1=0.3),构建矩阵Ym×m,其中每个元素Yjk(Yjk∈Ym×m)的值为:

6-3、构造一个行向量Z1×m,对应分量Zj(j=1,2,…,m)代表句子sj的重要程度,与Ym×m的每一行对应;Zj的值为Ym×m中第j行元素值大于0的元素的个数,值越大代表对应的句子覆盖的内容越广;

6-4、将句子按重要程度从大到小进行排序,选定阈值δ2(δ2=0.5)以及压缩比率R(R=0.2),初始化集合topSen={},依次按照句子重要程度处理每个句子sj:

6-5、若待处理的句子sj未被标记为“已处理”,则将sj放入topSen,并标记为“已处理”,同时扫描矩阵Ym×m第j行,如果Yjk≥δ2,则将句子sk也标注为“已处理”;若待处理的句子sj已经标注为“已处理”,则不操作;

6-6、重复步骤6-5,直到无待处理句子或者topSen中包含的句子数量已经达到R×m;

6-7、最终得到abstract的主题句集合topSen={s1,s2,…sm'},m'为最终选择的主题句的数量;

步骤七:句子包表示:对于每个专利Pi,借用多示例学习理论中包的概念,用句子包来表示专利;将title看作是单独的主题句,与topSen中主题句进行合并,将专利Pi表示为从而专利Pi看作包,Pi中的每个句子看作一个示例,li为包Pi中示例的个数;

步骤八:包间相似度计算:对于任意两个句子包Pa和Pb,la和lb分别表示包Pa和Pb中示例的个数,则Pa和Pb的相似度为:

其中Sim(Pa,Pb)表示Pa和Pb的相似度;

步骤九:训练集划分:将数据集划分为正样本集合和负样本集合,其中工业互联网专利作为正样本,非工业互联网专利作为负样本;采用十折交叉验证方法,即将正负样本划分为10折,并将每折的正负样本合并,合并后的9折作为训练集,1折作为测试集;

步骤十:分类预测:对于新的专利样本Pu,首先对标题和摘要进行预处理,然后对预处理后的摘要进行主题句抽取,将标题当作一个单独的主题句;利用K近邻算法(KNearest Neighbors,KNN)来预测新样本的类别,步骤如下:

10-1、将待分类的专利表示为句子包形式lu为包Pu中示例的个数;

10-2、计算出待分类专利Pu与训练集中每个样本之间的相似度;

10-3、从训练集中为待分类专利Pu选择相似度最大的K个样本,构成集合CadSet={P1,P2,…,PK};

10-4、统计出待分类的专利Pu相对于每个类别cd的权重,计算公式如下:

其中w(Pu,cd)表示Pu属于类cd的权重,y(Pv,cd)为类别属性函数,即如果Pv属于类cd,那么其值为1,否则为0;

10-5、最终,类别权重最大的类就是待分类样本所属的类。以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

本文发布于:2023-03-12 23:32:23,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68481.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图