G06F17/27 G06K9/62
1.一种中文专利文本相似度计算方法,其特征在于,包括计算句子相似度的步骤。
2.根据权利要求1所述的中文专利文本相似度计算方法,其特征在于,所述计算方法包 括:
对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键词,定位关 键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每 个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本 的关键句。
3.根据权利要求1-2所述的中文专利文本相似度计算方法,其特征在于,将词语相似度 转化为概念在本体中的相似度来计算;概念在本体中的相似度计算公式为:
其中w 1和w 2表示两个词语,dis(w 1,w 2)表示w 1和w 2在领域本体中的语义距离。
4.根据权利要求1-3所述的中文专利文本相似度计算方法,其特征在于,加入最小公共 父节点位置和节点局部密度,概念在本体中的相似度计算公式为:
其中r表示树的根节点,com表示w 1和w 2的最小公共父节点,dis(r,com)表示最小公共父 节点的深度,num(w 1)表示w 1节点的兄弟节点个数。
5.根据权利要求1-4所述的中文专利文本相似度计算方法,其特征在于,基于word2vec 计算词语相似度,CBOW模型的输入层为当前词的前后n个词向量,通过中间的隐层对这2n个 词向量进行累加得到W x;输出层为一个Huffman树,是由语料库中的词作为叶子节点,各词 的频次作为权值来构建的;通过随机梯度算法对W x进行预测,使得p(w|context(w))值最大 化,context(w)指w的前后的n个词;通过word2vec对语料进行训练,得到所有词的词向量; 计算词语之间的相似度就转化为计算词语对应词向量的相似度,计算公式为:
其中w 1和w 2分别为两个词语经过训练后得到的词向量;x 1i和x 2i分别表示两个词语的词 向量对应的在向量空间中第i维的值。
6.根据权利要求1-5所述的中文专利文本相似度计算方法,其特征在于,利用本体和 word2vec分别计算出两种词语相似度sim ow(w 1,w 2)和sim rw(w 1,w 2),结合得到词语相似度,公 式为:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集合,则将利用 word2vec得到的相似度作为词语相似度,若两者均属于本体概念集合,则取本体词语相似 度和word2vec词语相似度平均值作为最终的词语相似度。
7.根据权利要求1-6所述的中文专利文本相似度计算方法,其特征在于,句子相似度计 算方法如下:
假设有两个句子分别为S 1=(w 11,w 12,...,w 1n)和S 2=(w 21,w 22,...,w 2m),其中w 11,w 12, w 21,w 22为句子经过分词并去停用词后得到的实词,定义(w 1i,w 2j)为句子S 1和S 2词的一个映 射,如果对于任意k、l,sim w(w 1i,w 2j)>sim w(w 1k,w 2l)恒成立,那么就认为在两个句子中w 1i和 w 2j是语义关系最为相近的词对,得到一组语义关系最为相近的词对后,分别从两个句子中 去除该词,并重新计算,直到其中一个句子词表中不存在词语,其计算公式为:
sim ws(S 1,S 2)表示S 2相对于S 1所得的实体词相似度。
8.根据权利要求1-7所述的中文专利文本相似度计算方法,其特征在于,利用专利领域 本体的非分类关系为基础计算句子中的关系相似度,步骤如下:
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅保留动词词 性、名词词性的词语,得到两个句子的有序词表,定义第一个句子的有序词表为S 1(w 11: pos 11,w 12:pos 12,...,w 1n:pos 1n),将另一个句子的有序词表定义为S 2(w 21:pos 21,w 22: pos 22,...,w 2m:pos 2m);对每一个句子的词表,选取其中的动词和在其前后的名词构成SAO结 构词组P(n 1,v,n 2);将每个句子的有序词表转化为词组集合S 1=(P 11,P 12,...,P 1n)和S 2= (P 21,P 22,...,P 2m),得到非分类关系集合,假设已有的非分类关系集合为NR(r 1,r 2,...,r l), r l为非分类集合中的一个具有SAO结构的词组;通过计算两个句子词组集合在非分类关系 集合NR中出现的次数计算句子的非分类关系相似度,其计算公式为:
其中,num(S 1)表示S 1集合中的词组属于非分类关系集合NR的个数,com(S 1,S 2)表示句子 词组集合S 1和S 2的交集,表示S 1和S 2的共有词组集合。
句子之间总体相似度的计算公式为
sim s(S 1,S 2)=βsim ws(S 1,S 2)+(1-β)sim ps(S 1,S 2),
其中β表示实体词相似度在句子相似度中所占的比重,sim s(S 1,S 2)表示S 2相对于S 1的句 子相似度。
9.根据权利要求1-8所述的中文专利文本相似度计算方法,其特征在于,在已有的词语 相似度和句子相似度的基础上计算文本相似度,步骤为:
首先对文本进行分词,之后对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键 词,定位关键词所在的句子作为关键句;计算每个关键句的对文本的权重;选取关键句所包 含的关键词集合中TF-IDF值最大的关键词,并将该词的权值作为关键句的权重w(S),最后 得到两个文本的句子集合,令
D 1(S 11:w(S 11),S 12:w(S 12),...,S 1n:w(S 1n))表示文本D 1的句子集合,D 2(S 21:w(S 21),S 22:w (S 22),...,S 2m:w(S 2m))表示D 2的句子集合;
定义(S 1i,S 2j)为两个文本中的一组句子对应,若对于任意的l、k,sim s(S 1i,S 2j)≥sim s (S 1l,S 2k)恒成立,则认为S 1i和S 2j是两个文本中关系最为紧密的句子,其中sim s(S 1i,S 2j)通 过句子相似度进行计算得出。
10.根据权利要求1-9所述的中文专利文本相似度计算方法,其特征在于,两个文本D 1和 D 2的相似度计算公式为:
其中,sim s(S 1i,S 1j)代表句子词组集合S 1i与句子词组集合S 1j之间的总体相似度,w(S 1i) 代表句子词组集合S 1i的关键句的权重,w(S 1j)代表句子词组集合S 1j的关键句的权重。
本发明属于文本信息处理技术领域,具体涉及一种中文专利文本相似度计 算方 法。
当今互联网时代,专利作为记录人类成果的载体,包含了大量的科技成果 和创新 技术。科学技术的快速发展使得每年的专利申请量急剧增加。传统的检 索方式通过检索词 进行匹配返回的结果,一般是以检索词出现的数量作为专利 的相关性,并没有考虑到专利 本身所包含的语义信息。专利审查的本质是审查 专利相似度高的相关专利,这其中,最重 要的一点就是计算专利文本相似度。 文本相似度,一般计算方法是利用向量空间模型对文 本表示,之后直接在向量 空间中计算向量相似度作为文本相似度。近些年,本体,作为一种 新的知识表 示和描述形式,被广泛应用到语义网、信息检索等各方面,越来越多的研究者 开始重视使用本体来进行语义分析。
文本相似度方法主要可以分为两类:一种是利用向量空间模型将文本转化 成向 量的形式,再进行计算,一种是利用语义词典法表示不同长短文本之间的 联系,通过关键 词匹配数量来反映文本间的相似度。现有技术的计算中文专利 文本的相似度的方法存在 语义信息丢失的问题,且现有技术对中文文本相似度 的计算不准确,计算结果的正确率和 召回率较低,不能准确反映专利文本的相 似度,不能满足实际应用的需要。
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述 技术缺陷的中文专利文本相似度计算方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种中文专利文本相似度计算方法,包括计算句子相似度的步骤。
进一步地,所述计算方法包括:
对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为 关键词, 定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值 作为关键句的权值, 得到每个文本的关键句集合;计算每个关键句的对文本的 权重,依次选取待对比文本和对 比文本的关键句。
进一步地,将词语相似度转化为概念在本体中的相似度来计算;概念在本 体中的 相似度计算公式为:
其中w1和w2表示两个词语,dis(w1,w2)表示w1和w2在领域本体中的语义距离。
进一步地,加入最小公共父节点位置和节点局部密度,概念在本体中的相 似度计 算公式为:
其中r表示树的根节点,com表示w1和w2的最小公共父节点,dis(r,com)表示 最小 公共父节点的深度,num(w1)表示w1节点的兄弟节点个数。
进一步地,基于word2vec计算词语相似度,CBOW模型的输入层为当前 词的前后n 个词向量,通过中间的隐层对这2n个词向量进行累加得到Wx;输 出层为一个Huffman树,是 由语料库中的词作为叶子节点,各词的频次作为权 值来构建的;通过随机梯度算法对Wx进 行预测,使得p(w|context(w))值最大化, context(w)指w的前后的n个词;通过word2vec对 语料进行训练,得到所有词的 词向量;计算词语之间的相似度就转化为计算词语对应词向 量的相似度,计算 公式为:
其中w1和w2分别为两个词语经过训练后得到的词向量;x1i和x2i分别表示 两个词 语的词向量对应的在向量空间中第i维的值。
进一步地,利用本体和word2vec分别计算出两种词语相似度simow(w1,w2)和 simrw (w1,w2),结合得到词语相似度,公式为:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集 合,则 将利用word2vec得到的相似度作为词语相似度,若两者均属于本体概念 集合,则取本体词 语相似度和word2vec词语相似度平均值作为最终的词语相似 度。
进一步地,句子相似度计算方法如下:
假设有两个句子分别为S1=(w11,w12,...,w1n)和S2=(w21,w22,...,w2m),其中w11, w12,w21,w22为句子经过分词并去停用词后得到的实词,定义(w1i,w2j)为句子S1和S2词的一个 映射,如果对于任意k、l,simw(w1i,w2j)>simw(w1k,w2l)恒成立, 那么就认为在两个句子中 w1i和w2j是语义关系最为相近的词对,得到一组语义关 系最为相近的词对后,分别从两个 句子中去除该词,并重新计算,直到其中一 个句子词表中不存在词语,其计算公式为:
simws(S1,S2)表示S2相对于S1所得的实体词相似度。
进一步地,利用专利领域本体的非分类关系为基础计算句子中的关系相似 度,步 骤如下:
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅 保留动 词词性、名词词性的词语,得到两个句子的有序词表,定义第一个句子 的有序词表为S1 (w11:pos11,w12:pos12,...,w1n:pos1n),将另一个句子的有序 词表定义为S2(w21:pos21,w22: pos22,...,w2m:pos2m);对每一个句子的词 表,选取其中的动词和在其前后的名词构成SAO 结构词组P(n1,v,n2);将每个 句子的有序词表转化为词组集合S1=(P11,P12,...,P1n)和S2 =(P21,P22,...,P2m),得到 非分类关系集合,假设已有的非分类关系集合为NR(r1,r2,..., rl),rl为非分类 集合中的一个具有SAO结构的词组;通过计算两个句子词组集合在非分类 关系 集合NR中出现的次数计算句子的非分类关系相似度,其计算公式为:
其中,num(S1)表示S1集合中的词组属于非分类关系集合NR的个数, com(S1,S2)表 示句子词组集合S1和S2的交集,表示S1和S2的共有词组集合。
句子之间总体相似度的计算公式为
sims(S1,S2)=βsimws(S1,S2)+(1-β)simps(S1,S2),
其中β表示实体词相似度在句子相似度中所占的比重,sims(S1,S2)表示S2相 对于 S1的句子相似度。
进一步地,在已有的词语相似度和句子相似度的基础上计算文本相似度, 步骤 为:
首先对文本进行分词,之后对分词结果计算TF-IDF值,抽取TF-IDF值较 高的作为 关键词,定位关键词所在的句子作为关键句;计算每个关键句的对文 本的权重;选取关键 句所包含的关键词集合中TF-IDF值最大的关键词,并将 该词的权值作为关键句的权重w (S),最后得到两个文本的句子集合,令
D1(S11:w(S11),S12:w(S12),...,S1n:w(S1n))表示文本D1的句子集合, D2(S21:w (S21),S22:w(S22),...,S2m:w(S2m))表示D2的句子集合;
定义(S1i,S2j)为两个文本中的一组句子对应,若对于任意的l、k, sims(S1i,S2j)≥ sims(S1l,S2k)恒成立,则认为S1i和S2j是两个文本中关系最为 紧密的句子,其中sims(S1i, S2j)通过句子相似度进行计算得出。
进一步地,两个文本D1和D2的相似度计算公式为:
其中,sims(S1i,S1j)代表句子词组集合S1i与句子词组集合S1j之间的总体相 似度, w(S1i)代表句子词组集合S1i的关键句的权重,w(S1j)代表句子词组集合 S1j的关键句的权 重。
本发明提供的中文专利文本相似度计算方法,提出了一种层次化计算文本 相似 度的方法,将文本相似度的计算分为词语、句子、文本三个层面,从下向 上进行计算,该方 法以句子为粒度对文本相似度进行计算,利用已有领域本体 和word2vec结合计算词语相 似度,并在计算句子相似度时加入了根据非分类关 系得到的关系相似度,最后根据不同句 子的权重来计算文本相似度;本发明利 用已有的专利领域本体,分析专利文本中的语义关 系,利用向量空间模型和领 域本体来进行专利文本相似度的计算,计算结果准确,计算结 果的正确率和召 回率较高,能够更准确地描述专利之间的相似程度,能够加快专利审查的 速度, 同时对用户来说也能够更加有效地对专利资源进行分析,可以很好地满足实际 应 用的需要。
图1为CBOW模型图;
图2为Skip-gram模型图。
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不 用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前 提下所获得的所有其他实施例,都属于本发明保 护的范围。
词语相似度是指词语之间语义相似性的一种度量。词语在领域本体中以概 念的 方式呈现出来,词语的相似度计算就可以转化为概念在本体中的相似度计 算。采用已有的 领域本体,为了避免领域本体中不包含的词语无法计算相似度 的问题,引入word2vec与本 体相结合计算词语的相似度。
(1)基于本体计算词语相似度
领域本体中包含的概念通过上下位的分类关系构成了一个树状的层次结 构,概 念间的相似度可以通过计算概念在本体树中的语义距离得到。寻两个 概念的最小公共 父节点,计算其最小公共父节点到两个概念之间的距离之和作 为概念在本体中的语义距 离。
相似度计算公式为:
其中w1和w2表示两个词语,dis(w1,w2)表示w1和w2在领域本体中的语义距离。
词语间的相似度,不仅仅与概念间语义距离有关,还与其最小公共父节点 在领域 本体构建的树中的位置和概念周围兄弟节点个数有关。在概念间语义距 离相同的情况下, 其最小公共父节点在树中的层次越深,词语的相似度就越大。 同样地,词语对应的概念周 围的兄弟节点越多,局部密度越大,那么说明该概 念节点细化程度越大,词语的相似度就 越大。加入最小公共父节点位置和节点 局部密度后计算公式如下:
其中r表示树的根节点,com表示w1和w2的最小公共父节点,dis(r,com)表示 最小 公共父节点的深度,num(w1)表示w1节点的兄弟节点个数。
(2)基于word2vec计算词语相似度
word2vec是Google的一款能够将词语转化为实数值向量的开源工具,其利 用深 度学习的思想,可以通过训练,把词语简化为K维向量空间中的一个向量, 这样词语语义上 的相似度就可以转化为词向量的运算。
word2vec使用的是Hinton在1986年提出的Distributed representation的词 向 量表示方式,其基本思想是利用训练模型将词语映射到一个K维的向量空间, 每个词语都 可以由一个K维的向量表示。K是超参数,需要提前指定。将词语 转化为向量表示后,就可以 利用计算向量间的距离来表示词语之间的语义相似 度。word2vec有CBOW模型(Continuous Bag-of-Words Model)和Skip-gram 模型,两种模型结构如图1和图2所示。其中CBOW模型利 用当前词的上下文 中的2n个词(图1中n为2)去预测当前词,Skip-gram模型则是利用当前 词 预测其上下文中的2n个词(图2中n为2)。
CBOW模型的输入层为当前词的前后n个词向量,通过中间的隐层对这2n 个词向量 进行累加得到Wx。输出层为一个Huffman树,是由语料库中的词作为 叶子节点,各词的频次 作为权值来构建的。通过随机梯度算法对Wx进行预测, 使得p(w|context(w))值最大化, context(w)指w的前后的n个词。当训练完成时, 便可以得到所有的词的词向量w。Skip- gram模型的训练过程与CBOW模型训 练过程类似。
通过word2vec对语料进行训练,得到所有词的词向量。计算词语之间的相 似度就 转化为计算词语对应词向量的相似度。一般对于空间向量相似度的计算 可以采用余弦相 似度算法,具体算法如下:
其中w1和w2分别为两个词语经过训练后得到的词向量。x1i和x2i分别表示 两个词 语的词向量对应的在向量空间中第i维的值。
(3)词语相似度
利用本体和word2vec分别计算出两种词语相似度simow(w1,w2)和 simrw(w1,w2),结 合得到词语相似度,公式如下:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集 合,则 将利用word2vec得到的相似度作为词语相似度,若两者均属于本体概念 集合,则取本体词 语相似度和word2vec词语相似度平均值作为最终的词语相似 度。
句子相似度计算,一般以文本中有意义的实词为主,通过计算实词间的词 语相似 度得到句子相似度。在本发明中以公式(4)描述的词语相似度与专利领域 本体的非分类关 系为基础来计算句子相似度。
假设有两个句子分别为S1=(w11,w12,...,w1n)和S2=(w21,w22,...,w2m)。其中w11, w12,w21,w22为句子经过分词并去停用词后得到的实词。定义(w1i,w2j)为句子S1和S2词的一个 映射,如果对于任意k、l,simw(w1i,w2j)>simw(w1k,w2l)恒成立, simw(w1i,w2j)由公式(4)计 算得到。那么就认为在两个句子中w1i和w2j是语义关系 最为相近的词对,得到一组语义关 系最为相近的词对后,分别从两个句子中去 除该词,并重新计算,直到其中一个句子词表 中不存在词语,其计算公式如下:
由于句子的长短不同,两个句子共有的相近词对组对于每个句子的相似度 是不 同的,本发明以simws(S1,S2)表示S2相对于S1所得的实体词相似度。
上式只关注了两个句子中最为相近的实体词的相似度,但并没有考虑句子 中语 义相近的词组的相似度。利用专利领域本体的非分类关系为基础,计算句 子中的关系相似 度。
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅 保留动 词词性,名词词性的词语。得到两个句子的有序词表,定义第一个句子 的有序词表为S1 (w11:pos11,w12:pos12,...,w1n:pos1n),同样地,将另一个句 子的有序词表定义为S2(w21: pos21,w22:pos22,...,w2m:pos2m)。对每一个 句子的词表,选取其中的动词和在其前后的名 词构成SAO结构词组 P(n1,v,n2)。将每个句子的有序词表转化为词组集合S1=(P11, P12,...,P1n)和 S2=(P21,P22,...,P2m)。得到非分类关系集合,假设已有的非分类关系集合 为 NR(r1,r2,...,rl),rl为非分类集合中的一个具有SAO结构的词组。通过计算 两个句子 词组集合在非分类关系集合NR中出现的次数计算句子的非分类关系 相似度。其计算公式 如下:
其中,num(S1)表示S1集合中的词组属于非分类关系集合NR的个数, com(S1,S2)表 示句子词组集合S1和S2的交集,表示S1和S2的共有词组集合。
根据公式(5)得到的实体词相似度和公式(6)得到的非分类关系相似度,得到 句 子之间总体相似度,计算方法如公式(7)所示。
sims(S1,S2)=βsimws(S1,S2)+(1-β)simps(S1,S2) (7),
其中β表示实体词相似度在句子相似度中所占的比重,sims(S1,S2)表示S2相 对于 S1的句子相似度。
在已有的词语相似度和句子相似度的基础上计算文本相似度。对于文本来 说,并 不是所有的词语和句子都与文本表达的主要含义相关,关键词和关键词 所在的关键句子 更能够表达文本的含义,其他的主要起到连接的功能。在计算 文本相似度的过程中,通过 计算关键词和关键句的相似度得到的结果,与两个 文档本身表达的含义有极其密切的联 系,能够更加准确地表示文本间的相似性。
选取文本中的关键词时,需要计算文本中每一个词对与文本的重要程度, 一般采 用词频-逆文档频率(Term frequency-Inverse document frequency),即 TF-IDF计算方 法,该方法计算相对较为简单且有较高的正确率和召回率,在计 算权重中被广泛使用。在 一个文本中某个词语出现的频率越高,该词在其他文 本中出现的频率越低,那么该词就越 能代表这个文本中的主题,对这个文本的 重要程度就越高。
计算文本相似度时,首先对文本进行分词,之后对分词结果计算TF-IDF值, 抽取 TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句。不同 的关键句包含不同 的关键词,由于包含关键词的数量和权重本身的不同,每个 关键句对文本的重要程度也不 一样,需要计算每个关键句的对文本的权重。每 个关键句对于文本的重要程度主要依赖于 其包含的关键词,选取关键句所包含 的关键词集合中TF-IDF值最大的关键词,并将该词的 权值作为关键句的权重 w(S)。最后得到两个文本的句子集合,令
D1(S11:w(S11),S12:w(S12),...,S1n:w(S1n))表示文本D1的句子集合,D2(S21:w(S21), S22:w(S22),...,S2m:w(S2m))表示D2的句子集合。
定义(S1i,S2j)为两个文本中的一组句子对应,若对于任意的l、k, sims(S1i,S2j)≥ sims(S1l,S2k)恒成立,则认为S1i和S2j是两个文本中关系最为 紧密的句子,其中sims(S1i, S2j)通过句子相似度进行计算得出。
与句子相似度计算相似,由于两个文本的句子数目不同,计算两个文本中 相似度 最相近的句子对集合对于不同的文本所得到的相似度是不同的,以 sim(D1,D2)表示以D1为 基准,D2相对于D1的文本相似度。
两个文本的相似度计算公式如下所示:
上式不仅涉及两个文本中所有的关键句,还考虑了关键句对于整个文档的 一个 重要程度,能够很好地反映文本之间的相似度。
本实施例采用已有的新能源汽车领域本体,采用的语料是新能源汽车领域 中文 专利同一类别下的50篇专利文本。
选取其中一篇专利作为待对比文本N,其他所有专利作为对比文本D,利 用本发明 的中文专利文本相似度计算方法,计算中文专利文本相似度,具体步 骤如下:
1)对所有专利文本进行分句处理;
2)通过Hanlp工具,加入新能源领域汽车领域词典,对分句后的结果进行 分词,并 保留每个词语的词性,利用停用词表去除停用词;
3)计算所有专利文本的TF-IDF值并将其由大到小排列,取排前20名的词 语作为 关键词,并根据关键词,标记关键词所在的关键句,并将关键句中关键 词最大的权值作为 关键句的权值,得到每个文本的关键句集合 D(S1:w(S1),S2:w(S2),...,Sn:w(Sn));
4)依次选取待对比文本N和对比文本D的关键句,并依照句子相似度算法 和词语 相似度算法计算实体词相似度和关系相似度;
5)利用已有的两个文本N和D的句子相似度计算两个文本的相似度。
对于文本相似度计算方法的性能评价一般采用正确率(P)、召回率(R)和F值作为 性能评价指标。定义T(t)表示标注值为t的数量,C(t)表示计算的文本 相似度的值在t所表 示的范围的数量,TC(t)表示标注值为t且计算值在t表示 范围内的数量。具体的评价指标 定义如下:
正确率P:
召回率R:
F值:
通过本发明的方法得到的中文专利文本相似度计算结果的正确率、召回率 和F值 都很高,远高于现有技术的计算结果的正确率、召回率和F值。
本发明提供的中文专利文本相似度计算方法,提出了一种层次化计算文本 相似 度的方法,将文本相似度的计算分为词语、句子、文本三个层面,从下向 上进行计算,该方 法以句子为粒度对文本相似度进行计算,利用已有领域本体 和word2vec结合计算词语相 似度,并在计算句子相似度时加入了根据非分类关 系得到的关系相似度,最后根据不同句 子的权重来计算文本相似度;本发明利 用已有的专利领域本体,分析专利文本中的语义关 系,利用向量空间模型和领 域本体来进行专利文本相似度的计算,计算结果准确,计算结 果的正确率和召 回率较高,使得文本间相关性的描述更加准确,能够更准确地描述专利之 间的 相似程度,能够加快专利审查的速度,同时对用户来说也能够更加有效地对专 利资 源进行分析,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来 说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保 护范围。因此,本发明专利的保护范围应以所附权 利要求为准。
本文发布于:2023-03-13 04:57:52,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69229.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |