一种专利文本相似度计算方法

阅读: 评论:0

著录项
  • CN201810310246.7
  • 20180409
  • CN108536677A
  • 20180914
  • 北京信息科技大学;吕学强
  • 吕学强;董志安
  • G06F17/27
  • G06F17/27

  • 北京市海淀区清河小营东路12号
  • 北京(11)
摘要
本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF?IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。
权利要求

1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:

步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;

步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;

步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;

步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专 利相似,否则不相似。

2.根据权利要求1所述的专利文本相似度计算方法,其特征在于,在所述步骤1)中,对 专利数据进行预处理包括:对专利数据进行分词、词性标注、去除停用词、命名实体识别和 新发现词的操作,并去除除了名词、动词或名词性短语以外的词性的词汇。

3.根据权利要求1-2所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中, 将词位置权重大小设置为W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。

4.根据权利要求1-3所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中, 通过设置不同的词频基数来体现词性权重的不同。

5.根据权利要求1-4所述的专利文本相似度计算方法,其特征在于,词性为动词的词汇 词频数设置为等于该词汇出现的实际次数,词性为名词性短语的词汇词频数设置为等于该 词汇出现的实际次数的3倍。

6.根据权利要求1-5所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中, 通过设置不同的词频基数来体现词位置权重的不同。

7.根据权利要求1-6所述的专利文本相似度计算方法,其特征在于,文本相似度计算公 式为:

C(x,y)代表两个词汇x和y语义信息接近程度,其计算公式为:

C(x,y)=cos(x,y)*W(x)*W(y),

W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重,S为两个专 利文本P 1,P 2的相似度计算公式,IPC 1,IPC 2分别代表专利文本P 1,P 2的IPC分类号,K 1,K 2分别 代表专利文本P 1,P 2的特征词集合,m,n分别代表特征词集合K 1,K 2中的特征词。

8.根据权利要求1-7所述的专利文本相似度计算方法,其特征在于,所述步骤3)是通过 word2vec实现的。

说明书
技术领域

本发明属于计算机文本信息处理技术领域,具体涉及一种专利文本相似度计算方 法。

专利文献具有相对固定的组织结构,其组织结构主要包括IPC分类号、标题、摘要、 说明书、权利要求书等。其中IPC分类号是国际通用分类号,根据IPC分类号可以判定专利类 别,权利要求书是发明或者实用新型专利要求保护的内容,是申请专利的核心。专利文献为 保持其新颖性以及避开专利雷区,在用词方面一般使用独特或不常用的词或短语来表达一 些常见性的语义,例如用“一种盛水的容器”来表达“水杯”的含义,再例如用“没有固定停放 地点的单车”替代“共享单车”的概念在专利文献中使用。因此专利文献相似度计算的准确 与否很大程度上取决于词语间语义相似度的计算。

根据研究方法的不同,词语间的语义相似度的研究大体上可以分为两大类:基于 知识的词语语义分析和基于统计的词语语义分析。基于知识的词语语义分析需要一个庞大 而丰富的知识库,库中包含了词语概念、上下位等逻辑关系,通过计算不同词语在知识库中 的语义距离来表示词语间的相似程度。基于统计的词语语义分析主要是在概率论,统计论 等数学理论的基础上,对大规模语料进行统计,通过判断词语的上下文语境是否相似来判 断词语之间的相似程度。

文本相似度的计算方法主要包括基于统计、基于语义信息、基于句法结构、基于编 辑距离的方法。在现有技术中,向量空间模型(VSM)作为最常用的一种文本表示方式,是由 Salton等人于20世纪70年代首次提出,并将此模型成功应用于SMART文本检索系统。向量空 间模型是将文本内容的处理转化为空间向量的运算,通过空间向量的距离表示文本内容的 相似程度,直观易懂。在构建向量空间模型的过程中,词频-逆文档频率(TF-IDF)是使用最 广泛的计算权重方法。词汇的TF-IDF值可以用来衡量词汇在文本中的重要程度,一个词在 某一文本中出现的次数越多也就是TF值越大(为了降低文本长短不同对TF值的影响一般在 计算TF值时需要做归一化处理),并且在同一语料库下的其他文本中包含该词的文本数越 小即IDF值越大,则该词越能反映该文本的主题。余弦相似度是计算文本相似度的一种重要 方法,其宗旨是将文本通过向量空间模型向量化后,计算向量之间的夹角,夹角余弦值越大 表示两个向量夹角越小则两个文本间相似度越高,当两个向量夹角余弦值为1即两个向量 重合,此时可以粗略认为两个向量表示的文本内容是一样的。通过上述TF-IDF的介绍可知, 以TF-IDF值作为权重计算文本相似度的方法,仅仅是把文本间出现的相同词汇作为参考指 标,并没有把词汇语义信息考虑在内。在实际中,只对词频进行统计而忽略词汇间语义信息 的文本相似度计算方法是远远不够的。例如一篇描述苹果的文本和一篇描述香蕉的文本, 基于词频统计的方式可能就会认为这是两篇完全不相关的文本。

Word2vec是在2013年由Google开发的一款将词表示成实数值向量的高效工具,其 中采用的模型有CBOW(连续词袋)模型和Skip-Gram模型(通过输入一个词向量来预测相邻 的词向量)。Word2vec通过训练,可以将文本内容的处理简化成n维空间向量的运算,而向量 空间上的相似度又可以表示文本内容语义上的相似度。Word2vec的高效性是被研究者广为 称赞的,一个优化的单机版本一天可以训练上千亿词,并且整个训练过程是无监督的。 Word2vec输出的词向量可以用来做许多NLP的相关工作。现有技术中,通过word2vec训练得 到词向量,然后通过词向量串联的方式表示文本并最终对文本进行情感分析,或者用 word2vec训练的词向量表示出来的文本用于深度学习模型来进行文本分类任务,上述技术 的缺陷在于在用词向量表示文本时,没有考虑文本本身的结构特点以及在文本不同位置词 本身的重要性不同的问题。现有技术的专利文本相似度计算方法的准确率和召回率不高, 不能满足实际应用的需要。

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的专利文本相似度计算方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种专利文本相似度计算方法,包括以下步骤:

步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;

步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;

步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;

步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两 篇专利相似,否则不相似。

进一步地,在所述步骤1)中,对专利数据进行预处理包括:对专利数据进行分词、 词性标注、去除停用词、命名实体识别和新发现词的操作,并去除除了名词、动词或名词性 短语以外的词性的词汇。

进一步地,在所述步骤2)中,将词位置权重大小设置为W(IPC分类号)>W(权利要 求书)>W(摘要)>W(标题)。

进一步地,在所述步骤2)中,通过设置不同的词频基数来体现词性权重的不同。

进一步地,词性为动词的词汇词频数设置为等于该词汇出现的实际次数,词性为 名词性短语的词汇词频数设置为等于该词汇出现的实际次数的3倍。

进一步地,在所述步骤2)中,通过设置不同的词频基数来体现词位置权重的不同。

进一步地,文本相似度计算公式为:

C(x,y)代表两个词汇x和y语义信息接近程度,其计算公式为:

C(x,y)=cos(x,y)*W(x)*W(y),

W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重,S为两 个专利文本P1,P2的相似度计算公式,IPC1,IPC2分别代表专利文本P1,P2的IPC分类号,K1,K2 分别代表专利文本P1,P2的特征词集合,m,n分别代表特征词集合K1,K2中的特征词。

进一步地,所述步骤3)是通过word2vec实现的。

本发明提供的专利文本相似度计算方法,综合考虑了专利结构特点和词汇间语义 关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法 当中,比一般文本相似度计算方法更加具有针对性,通过word2vec计算词汇间的语义关系, 不仅能够节省构建领域知识库所需花费的大量时间,而且还能保证较高的准确率和召回 率,同时又克服了传统词匹配方法中文本相似度大小主要取决于词汇重复率的缺陷,可以 很好地满足实际应用的需要。

图1为本发明的流程图。

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。

参考图1所示,一种专利文本相似度计算方法,包括以下步骤:

步骤1)提取要进行对比的两个专利文本中的专利数据,对专利数据进行预处理;

步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;

步骤3)分别将两个专利文本以向量空间模型(VSM)表示出来,得到两个分布式词 向量;

步骤4)利用改进的文本相似度计算公式计算两个专利的文本相似度,当得到的专 利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。

具体步骤如下:

对要进行对比的两篇专利文本分别进行专利数据提取,分别提取两篇专利文本中 的专利数据,然后对每个专利文本的专利数据进行分词、词性标注、去除停用词、命名实体 识别和新发现词等预处理操作。经过对专利数据的研究发现,专利文本中关键技术的描述 和核心词汇一般都是名词、动词或名词性短语,其中W(名词)>W(名词性短语)>W(动词),W 代表词权重。因此为避免噪音数据对改进专利文本相似度计算方法的影响,对专利数据进 行处理时去除了其他词性的词汇。

IPC分类号是国际通用专利分类号,如果两篇专利IPC分类号不一致则两篇专利隶 属于不同的类别,那么就可假设它们之间的相似程度极低。权利要求书揭示了专利文本中 需要受到法律保护的范围,也是申请人在撰写中篇幅最大描述最多的部分,是专利文本的 核心。专利摘要是专利说明书内容的概述,它指出了发明或实用新型名称、主要技术特征和 用途,描述了此专利所属的技术领域、需要解决的技术问题等,因此在重要性上仅次于权利 要求书。专利标题是对整篇专利文本的高度概括,它一般仅说明了该专利发明的名称,因此 在本发明的专利文本相似度计算方法中给予较小的权重。因此,在专利文本中不同部分出 现的词汇的权重大小设置为:W(权利要求书)>W(摘要)>W(标题),虽然IPC分类号中不包 含词汇,但是考虑IPC分类号的特殊性和重要性,在设置权重时给IPC分类号设置最大的权 重,即W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。

词性权重的不同可以通过设置不同的词频基数来体现,例如词性为动词的词汇词 频数等于该词汇出现的实际次数,而词性为名词性短语的词汇词频数等于该词汇出现的实 际次数的3倍,同理,根据词所在位置的不同在计算词位置权重时也采用相同的计算方法, 通过设置不同的词频基数来体现词位置权重的不同,即不同词位置的词的词汇词频数设置 为等于该词汇出现的实际次数的不同倍数。通过词性和词位置得到初步词权重后再融入 TF-IDF算法计算出最终的词权重。

分布式词向量的基本思想是:通过训练将文本中的每一个词表示成固定长度的向 量形式,将所有这些向量放在一起就组成一个词向量空间,每一个词即是该空间上的一个 点,在空间上引入“距离”的概念,通过计算距离就可得到两个词之间的语义关系。Word2vec 是将词表示成分布式词向量的一种常用工具,在本发明中也是利用word2vec将专利数据和 其他训练语料进行训练,最后得到词向量文件(本实施例中以维度为50的词向量文件为 例)。在得到两个专利文本的分布式词向量之后,通过余弦相似度公式计算该两个词向量x 和y之间的夹角余弦值,计算方法如公式(1):

余弦值越大则夹角越小,代表该两个词向量语义信息越接近。

经过以上操作,原始的专利文本数据P被转化为向量空间中点的集合(k1,k2, k3,...,kn)T,其中ki为专利文本P的特征词,n为专利文本P中含有的特征词个数。经过 word2vec模型训练,每个特征词对应向量空间上的一个点,向量空间上的每个点可以表示 成一个维度为50的向量形式(d1,d2,d3,...,d50)。虽然每个特征词可由固定的50维的词向量 表示,但是不同的专利文本包含的特征词个数不同,而且特征词之间没有明显对应关系,为 解决这两个问题,在本发明中提出了改进的文本相似度计算公式如下:

C(x,y)代表两个词汇x和y语义信息接近程度,其计算公式为:

C(x,y)=cos(x,y)*W(x)*W(y),

W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重,S为两 个专利文本P1,P2的相似度计算公式,IPC1,IPC2分别代表专利文本P1,P2的IPC分类号,K1,K2 分别代表专利文本P1,P2的特征词集合,m,n分别代表特征词集合K1,K2中的特征词。根据公 式(2)得到的两篇专利的文本相似度大于某个阈值t时,则认为该两篇专利相似,阈值t需要 根据具体情况进行设定。

从公式(2)中可以看出如果两篇专利文本的IPC分类号不一致,则它们的相似度记 为0,即其相似度可以忽略不计。如果两篇专利文本属于同一IPC分类号,则公式(2)中分子 是由专利文本P1的特征词分别和专利文本P2中的每个特征词计算词汇相似度,分母则是专 利文本P1和P2的特征词和其本身特征词集合中的每个特征词进行词汇相似度的计算。通过 公式可以看出无论两篇专利文本特征词数量是否一样,最终都是将两篇专利文本特征词集 合中的所有特征词计算一遍词汇相似度,而且这种计算方法也避免了一篇专利文本中的所 有特征词只与另外一篇文本中的某个或者少数特征词有对应关系。

本发明提供的专利文本相似度计算方法,综合考虑了专利结构特点和词汇间语义 关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法 当中,比一般文本相似度计算方法更加具有针对性,通过word2vec计算词汇间的语义关系, 不仅能够节省构建领域知识库所需花费的大量时间,而且还能保证较高的准确率和召回 率,同时又克服了传统词匹配方法中文本相似度大小主要取决于词汇重复率的缺陷,可以 很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范 围。因此,本发明专利的保护范围应以所附权利要求为准。

本文发布于:2023-03-13 00:34:14,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68618.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图