一种专利文本自动分类方法

阅读: 评论:0

著录项
  • CN201810623455.7
  • 20180615
  • CN108897805A
  • 20181127
  • 江苏大学
  • 刘桂锋;汪满容
  • G06/F1730
  • G06/F1730 G06/F1727

  • 江苏省镇江市京口区学府路301号
  • 江苏(32)
摘要
本发明公开了一种专利文本自动分类方法,该方法包括专利文本分词、专利文本特征选择及向量化、基于k近邻策略的专利文本概率超图构建及基于超图学习的专利文本自动分类;在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重,相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征;在专利文本分类方面采用了基于概率超图半监督学习的方法,可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。
权利要求

1.一种专利文本自动分类方法,其特征在于,包括以下步骤:

步骤一、基于概率超图的专利文本建模

选取代表专利技术主题和法律特性的专利文本组成部分,分词处理后得到特征词,统计每个特征词在组成部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重;将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重;

步骤二、基于超图半监督学习的专利文本分类

计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别作为每个顶点的最终类别。

2.如权利要求1所述的一种专利文本自动分类方法,其特征在于,所述代表专利技术主题和法律特性的专利文本组成部分为标题、摘要及主权项。

3.如权利要求1所述的一种专利文本自动分类方法,其特征在于,所述超边相应类簇质心的获取过程为:将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边,连接该顶点及其k个近邻顶点,对于每条超边,将该超边连接的k+1个顶点看成一个类簇,然后计算相应类簇的质心。

4.如权利要求3所述的一种专利文本自动分类方法,其特征在于,所述相应类簇的质心的计算公式为其中表示质心,表示顶点的第s个分量。

5.如权利要求1或4所述的一种专利文本自动分类方法,其特征在于,所述超边内各顶点与超边相应类簇质心的相似度的计算方法为:其中v为顶点,顶点v可表示为一个r维向量,即v=(w,w,…,w),w表示向量的一维。

6.如权利要求1所述的一种专利文本自动分类方法,其特征在于,所述计算每个顶点对应各个类别的得分值公式为:F=(1-α)(I-αΘ)Y,其中初始标记矩阵Y表示各顶点对应各类别的初始类别,类别得分矩阵F表示各顶点对应各类别的得分值,H是关联矩阵、W是权重对角阵、D是顶点度对角阵、D是超边度对角阵,α=1/(1+μ),μ为正则化参数。

7.如权利要求6所述的一种专利文本自动分类方法,其特征在于,所述矩阵Y和F为n×l矩阵,其中n为数据集中专利文本总数,l是类别的数量。

说明书
技术领域

本发明属于专利文献的计算机分析技术领域,具体涉及一种基于概率超图半监督学习的专利文本自动分类方法。

随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。面对海量的专利数据,现有的专利文本分类主要依靠专家的人工分类,耗费大量的人力物力财力,同时难以保证分类的准确率。因此,如何借助于计算机技术来有效地解决专利文本自动分类问题具有重要的理论意义和实用价值。

相对于传统的文本而言,专利文本具有领域词汇多、结构性及专业性强等特点,因此专利文本自动分类更具有挑战性。目前,基于传统文本分类方法,国内外学者已经提出了许多针对专利文本自动分类的方法。较早提出来的且比较有代表性的方法主要有支持向量机SVM、朴素贝叶斯、kNN(k近邻)等。Trappey等采用后向传播神经网络算法对IPC分类的小类和大组两个层级的专利文献进行自动分类,实验结果表明该方法取得比之前的分类方法更好的分类效果。He等提出了一种利用创新型关联规则自动构建基于TRIZ的专利分类方法,该方法能够发现专利文档特征的语义关系。Wu等提出的遗传算法与支持向量机融合的新算法(HGA-SVM),能够对支持向量机的所有参数进行优化,利于开发高精度的专利分类系统。Liu等基于文本内容、引文分析及专利元数据提出了一种新颖的基于专利网络的分类方法。Chen等提出了一种新的三阶段分类(three phase categorization,TPC)算法,并且在专利的IPC小组层面上取得较高的准确率。Zhu等提出了使用有监督机器学习技术作为一种互补方法的以需求为导向的专利分类方案,能够将专利数据集分类到用户定义的分类上。上述方法都是基于监督学习、分类器的精度及推广性能,需要依赖大量的训练样本。当以IPC分类体系作为分类目标时,由于积累了大量的人工分类的专利文献,因此比较容易满足分类器的训练要求。然而,有信息分析专家认为IPC更适合用于专利的检索而非分类,在特定需求下并不能较好地定位用户所需的技术信息,因此从实际应用环境出发,设置具有针对性的类目的价值更高。当以某种满足特定需求的类别体系作为分类目标,或是现有的IPC分类体系发生变化需要重新分类时,采用上述基于监督学习的分类方法需要人工标注大量的训练样本。由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。

为了解决训练样本不足所带来的问题,基于半监督学习的分类方法应运而生,它旨在通过未标记样本提供的样本分布信息提高分类精度。目前现有的半监督学习方法有很多,其中广受国内外学者关注的是基于图的半监督学习方法。超图学习是对普通图学习的泛化和扩展,在超图中一条边可以包含任意数量的顶点,因而相对于普通图而言,超图具备描述多元关系的能力,这使得超图学习具有更好的性能表现。近年来超图理论的应用领域不断拓展和延伸,代表性的主要有移动用户细分、图像分类、用户创造内容、微博用户落感知、科研合作网络等。

现有的基于监督学习的专利文本分类方法需要依赖大量的训练样本,由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。针对上述问题,本发明提出了一种基于概率超图半监督学习的专利文本自动分类方法,该方法可以利用待测样本提供的样本结构分布信息来提高分类精度。

一种专利文本自动分类方法,包括以下步骤:

步骤一、基于概率超图的专利文本建模

选取代表专利技术主题和法律特性的专利文本组成部分,分词处理后得到特征词,统计每个特征词在组成部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重;将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重;

步骤二、基于超图半监督学习的专利文本分类

计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别作为每个顶点的最终类别。

上述方案中,所述代表专利技术主题和法律特性的专利文本组成部分为标题、摘要及主权项。

上述方案中,所述超边相应类簇质心的获取过程为:将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边,连接该顶点及其k个近邻顶点,对于每条超边,将该超边连接的k+1个顶点看成一个类簇,然后计算相应类簇的质心。

上述方案中,所述相应类簇的质心计算公式为其中表示质心,表示顶点的第s个分量。

上述方案中,所述超边内各顶点与超边相应类簇质心的相似度计算方法为:其中v为顶点,顶点v可表示为一个r维向量,即v=(w,w,…,w),w表示向量的一维。

上述方案中,所述计算每个顶点对应各个类别的得分值公式为:F=(1-α)(I-αΘ)Y,其中初始标记矩阵Y表示各顶点对应各类别的初始类别,类别得分矩阵F表示各顶点对应各类别的得分值,H是关联矩阵、W是权重对角阵、D是顶点度对角阵、D是超边度对角阵,α=1/(1+μ),μ为正则化参数;所述矩阵Y和F为n×l矩阵,其中n为数据集中专利文本总数,l是类别的数量。

本发明的有益效果:1、本发明在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重,相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征。2、本发明在专利文本分类方面采用了基于概率超图半监督学习的方法,可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。

图1为基于超图学习的专利文本分类算法工作流程图;

图2为本发明分类方法与传统分类方法的总体分类精度对比图。

下面将结合附图对本发明的内容作进一步的说明,但是本发明的保护范围并不限于此。

本发明将基于超图的半监督学习方法引入到专利文本分类中,提出了一种基于近邻策略的专利文本概率超图构建方法,并在此基础上给出了基于超图学习的专利文本自动分类算法,最后通过与传统基于监督学习的方法SVM以及kNN的大量对比实验来验证该方法的有效性。

一种基于概率超图半监督学习的专利文本自动分类方法,包括步骤:

步骤一、基于概率超图的专利文本建模

1.1超图相关定义

超图是普通图的泛化,在普通图中一条边只能连接两个顶点,而在超图中一条边可以连接任意数量的顶点。一个超图可由二元组G=(V,E)表示,其中有限集V={v,v,…,v}为超图的顶点集,而有限集E={e,e,…,e}为超图的超边集,在超边集E中的每条超边都是V的非空子集且满足若在超边集E上定义正值权重函数w(e),则超图G=(V,E,w)称为加权超图。加权超图G一般可以由4个矩阵描述:关联矩阵H、权重对角阵W、顶点度对角阵D及超边度对角阵D。关联矩阵H描述了超图中的顶点与超边之间的对应关系,可由一个|V|×|E|的矩阵定义:

权重对角阵W的对角元素由E中的各超边权值组成,顶点度对角阵D的对角元素由V中各顶点的度组成,而超边度对角阵D的对角元素由E中各超边的度组成。对于顶点v∈V,它的度而对于超边e∈E,它的度由公式(1)可知,在上述标准超图中各个超边内的所有顶点被同等地对待,忽略了超边内各顶点之间的差异,从而引起某些信息的丢失。为了弥补标准超图的不足,Huang等提出了概率超图模型。在概率超图中,对于超边e∈E中的某个顶点v,对应关联矩阵H中的取值h(v,e)被定义为顶点v属于超边e的概率,即h(v,e)=p(v|e)∈[0,1]。概率超图不但可以表示多个顶点之间的多元聚合信息,而且还能描述超边内各顶点之间的差异,因而相对于标准超图具有更好的性能和表现。

1.2专利文本特征描述

在专利文本分类中,目前最常用的特征表示方法是基于向量空间模型的文本表示法。设分词处理得到的词表中特征词的数量为r,则专利文本p可表示为一个由二元组组成的r维向量F(p)=((t,w),(t,w),…,(t,w)),其中t(1≤i≤r)表示第i个特征词,w表示特征词t对应的权重。在传统文本分类中,特征词权重的计算主要是基于TF-IDF算法,具体计算方法如下:

其中:TF(t)为特征词t在文本p中的词频,n为数据集中的文本总数,n为数据集中出现特征词t的文本数。

TF-IDF算法将整个文本看成一个整体处理,但由于专利文本是一种同时具有技术和法律特性的结构特殊文本,因而该方法并不能有效地描述专利文本的特征。针对上述问题,一些学者提出了多要素融合的专利文本特征表示方法。本实施例选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,进行分词处理,得到特征词,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重。

设TF(t)、分别表示特征词t在专利文本p的标题、摘要及主权项中的词频,则特征词t在p中的综合词频TF(t)计算方法如下:

其中w、w、w分别表示特征词出现在标题、摘要及主权项中的位置权重。将公式(3)计算得到的综合词频TF(t)代入公式(2)中,即可计算得到特征词t在p中的最终权重w(t)。

1.3专利文本概率超图模型构建

由超图相关定义可知,构建专利文本概率超图模型需要确定构成超图的顶点、超边以及超边权重的计算方法。本实施例将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边连接该顶点及其k个近邻顶点。对于每条超边,将该超边连接的k+1个顶点看成一个类簇,然后计算相应类簇的质心,最后分别将超边内各顶点与其质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与其质心的相似度之和作为该超边的权重。

设超图中的顶点v对应专利文本p,则基于专利文本特征的向量表示,顶点v可表示为一个r维向量,即v=(w,w,…,w)。w表示向量的一维,设以顶点v为基准构建的超边为e,则其中表示顶点v的第i近邻顶点。由上可知,超边e内各顶点的质心可表示为其中而则表示顶点的第s个分量。基于上述定义,可将超图的关联矩阵H定义如下:

其中:表示超边e内的顶点v与其质心之间的相似度,而对于超边e的权重则可按以下方法计算:

因而超边内各个顶点之间的相似程度越高,则超边的权重取值越大。对于各个顶点之间以及顶点与相应质心之间的相似度,本实施例采用向量夹角的余弦值来度量。因此,超边e内的顶点v与其质心之间的相似度的计算方法如下:

同理可以计算顶点v与v之间的相似度S(v,v)。

步骤二、基于超图半监督学习的专利文本分类

2.1超图半监督学习原理

给定一个加权超图G=(V,E,w)及一个类别标记集L={0,1},设顶点集V的某个非空子集S中的各顶点的类别标记已给定,则超图半监督学习的任务就是预测S的补集S中的各顶点的类别标记。为了解决该问题,通常是先求解一个关于超图的分类函数f:V→R,然后根据各个顶点对应的得分值f(v)来确定顶点v∈V的类别标记。

基于结构风险最小化原则,分类函数f一般需要满足两个条件:(1)在整个超图上尽可能保持光滑,即对相似顶点的分类应该接近;(2)对已标记顶点的分类尽可能不改变原有的标记。基于上述目标,分类函数f可以通过以下正则化框架来求解:

其中:Ω(f)为正则化项,R(f)为损失函数,而正则化参数μ>0用于实现Ω(f)与R(f)之间的一个平衡。在超图学习中,正则化项Ω(f)可定义为:

其中:I为单位矩阵,Δ=I-Θ为超图的拉普拉斯矩阵;而对于损失函数R(f)则通常可将其定义为:

其中:向量y定义了V中各顶点对应的初始类别标记。基于上述定义,通过对式(7)的求解可以得到最终的分类函数为:

f=(1-α)(I-αΘ)y (10)

其中:α=1/(1+μ),即等价于求解线性方程组[(1+μ)I-Θ]f=μy。

2.2基于超图学习的专利文本分类算法

专利文本分类通常是一个多分类问题,基于超图半监督学习原理,本实施例分别计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别来作为每个顶点的最终类别。设超图G=(V,E,w)中的各顶点V={v,v,…,v}分别对应n个专利文本,待分类的目标类别集为C={c,c,…,c},则各顶点对应各类别的初始类别标记可以表示为一个n×l的初始标记矩阵Y,而各顶点对应各类别的得分值可以表示为一个n×l的类别得分矩阵F。对于初始标记矩阵Y中元素的取值,若顶点v被标记为类别c,则Y=1,否则Y=0。由此,基于公式(10)可以得到类别得分矩阵:

F=(1-α)(I-αΘ)Y (11)

因而对于给定顶点v可以确定其所属类别为其中

综合专利文本概率超图构建过程以及上述超图学习分类过程,下面给出一个完整的基于超图学习的专利文本自动分类算法,具体步骤如图1所示。

专利文本分类方法的有效性验证:

为了验证上述基于超图学习的专利文本分类方法的有效性,从上海知识产权公共服务平台的中国专利数据库中选取水处理技术领域的1000篇专利文献作为语料库。该语料库由上海知识产权公共服务平台提供的“题录文摘下载”功能直接导出,每件专利主要包含标题、摘要、分类号、主权项等信息。通过专业人员进行人工分类,将语料库中的专利文献分为油水分离技术、废水污水处理技术、织物水处理技术以及给排水技术4类。

实验采用C

本文发布于:2023-03-13 01:32:17,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68744.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图