一种专利技术预测方法及系统

阅读: 评论:0

著录项
  • CN201610067078.4
  • 20160129
  • CN105760946A
  • 20160713
  • 大连理工大学
  • 林鸿飞;赵虹杰
  • G06Q10/04
  • G06Q10/04 G06Q50/18 G06F17/27

  • 辽宁省大连市高新园区凌工路2号大连理工大学创新园大厦计算机科学与技术学院A0928房间
  • 辽宁(21)
  • 大连星海专利事务所
  • 徐雪莲
摘要
一种专利技术预测方法及系统,包括:S1、预处理、S2、获取词语重要程度、S3、构建高权词集、S4、计算时间因子、S5、获取关联强度、S6、构建词语关联图、S7、专利技术预测。本发明从专利摘要出发,通过对专利摘要的量化处理构建词语关联图,并通过从词语关联图的局部范围和全局范围衡量词语的重要程度,进行专利技术预测,挖掘出可能成为主流的专利技术,为公众提供一定的指导和参考。
权利要求

1.一种专利技术预测方法,其特征在于,包括以下步骤:

S1、预处理:

采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要 集中的专利摘要进行分词处理并去除停用词,得到摘要词语集;同时提取专利 摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;

S2、获取词语重要程度:

通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该 权重作为该词语对于该条专利摘要所对应专利的词语重要度:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tf i,d表示词语i在专利 摘要d中出现的频次;n i表示词语i在专利摘要集中出现的频次;N表示专利摘 要集中包含的专利摘要总数;

S3、构建高权词集:

预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高 权词集中的每个词语为高权词;

S4、计算时间因子:

根据时间集由时间函数f(y)获得每个专利的时间因子:

f(y)=e N(y)

其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利 摘要集中专利申请日的最大时间差,即相对的时间间隔;

S5、获取关联强度:

根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取 高权词间关联强度,包括:

a1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

a2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j ;

S6、构建词语关联图

以高权词作为顶点,根据步骤S5得到的高权词间的关联强度构成对应顶点 间边的权重,构建出带有权重的词语关联图;

S7、专利技术预测

基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度 和全局范围重要程度进行专利技术的预测,预测方法具体如下:

b1、局部范围的重要程度获取:在步骤S6获得的词语关联图上从局部范围 衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高 权词后,词语关联图中的剩余高权词所形成的相互独立的词语岛屿数量的多少 作为该高权词在词语关联图中局部范围的重要程度;所述词语岛屿为与其它词 语关联图之间无连接关系的词语连通图;

b2、全局范围词语的重要程度获取:在步骤S6获得的词语关联图上从全局 范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图 中任一高权词对整个词语关联图的重要程度,即在词语关联图中任选两个高权 词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词 语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长 度;具体方法是通过词语关联图的特征路径长度L与在词语关联图中删除某个 高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范 围词语的重要程度;

b3、预测结果输出:

根据步骤b1、b2求得的词语i对应的岛屿数Ni(Ii)和ΔL,分别作为词语的局 部重要程度和全局重要程度;利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作 为输出结果。

2.一种专利技术预测系统,其特征在于,包括以下部分:

预处理单元:

用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利 摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取 专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间 集;摘要词语集及时间集均保存至本地硬盘;

词语重要程度获取单元:

用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重, 将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tf i,d表示词语i在专利 摘要d中出现的频次;n i表示词语i在专利摘要集中出现的摘要频次;N表示专 利摘要集中包含的专利摘要总数;

高权词集构建单元:

用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集 中的每个词语为高权词;

时间因子计算单元:

用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利 的时间因子:

f(y)=e N(y)

其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利 摘要集中专利申请日的最大时间差,即相对的时间间隔;

关联强度获取单元:

用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获 取高权词间关联强度,包括:

C1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

C2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j ;

词语关联图构建单元

用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边 的权重,构建出带有权重的词语关联图;

专利技术预测单元

用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要 程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:

D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词 语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词 语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿 数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿 为与其它词语关联图之间无连接关系的词语连通图;

D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得 的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径 长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语 关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个 高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词 语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在 词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差 值的绝对值作为全局范围词语的重要程度;

D3、预测结果输出单元:

用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别对应高权词的局 部重要程度和全局重要程度。利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。

说明书
技术领域

本发明涉及对于专利文本的自然语言处理及专利预测领域,尤其是一种专 利技术预测方法及系统。

随着社会的快速发展,专利在国家科技、经济、和社会发展中起着越来越 重要的作用,专利技术也逐渐受到企业的重视。依靠专利技术,不仅可以提高 企业的整体竞争力,甚至可以促使企业的发展从无到有,从小到大,从弱到强, 所以怎样在海量的专利数据中,到日后可能成为主流的专利技术(也就是专 利机会),在激烈的市场竞争中抢占先机,获得领先优势,受到了社会各界的广 泛关注。因此,专利技术的预测是是富有价值的研究工作,但目前在中文专利 挖掘中专利技术预测的研究,包括等将数学分析中的形式概念分析法应用于专 利挖掘中,跟踪技术变化趋势或者通过时间区间的划分,考察专利数量的变化 趋势进行机会发现。前者是理论梳理,缺乏实证性研究,后者但是基于粒度是 分类号,很难对付更低层次的特征词级别的发现。

本发明的目的是提供一种可应用于大规模的非结构化专利数据,为公众提供 一定的指导和参考信息的专利技术预测方法及系统。

本发明解决现有技术问题所采用的技术方案:一种专利技术预测方法,其特 征在于,包括以下步骤:

S1、预处理:

采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要 集中的专利摘要进行分词处理并去除停用词,得到摘要词语集;同时提取专利 摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;

S2、获取词语重要程度:

通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将 该权重作为该词语对于该条专利摘要所对应专利的词语重要度:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利 摘要d中出现的频次;ni表示词语i在专利摘要集中出现的频次;N表示专利摘 要集中包含的专利摘要总数;

S3、构建高权词集:

预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高 权词集中的每个词语为高权词;

S4、计算时间因子:

根据时间集由时间函数f(y)获得每个专利的时间因子:

f(y)=eN(y)

其中,y表示专利摘要集中最早的专利的申请日,即起始时间,N(y)表示专 利摘要集中专利申请日的最大时间差,即相对的时间间隔;

S5、获取关联强度:

根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取 高权词间关联强度,包括:

a1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

a2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j

S6、构建词语关联图

以高权词作为顶点,根据步骤S5得到的高权词间的关联强度构成对应顶点 间边的权重,构建出带有权重的词语关联图;

S7、专利技术预测

基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度 和全局范围重要程度进行专利技术的预测,预测方法具体如下:

b1、局部范围的重要程度获取:在步骤S6获得的词语关联图上从局部范围 衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高 权词后,词语关联图中的剩余高权词所形成的相互独立的词语岛屿数量的多少 作为该高权词在词语关联图中局部范围的重要程度;所述词语岛屿为与其它词 语关联图之间无连接关系的词语连通图;

b2、全局范围词语的重要程度获取:在步骤S6获得的词语关联图上从全局 范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图 中任一高权词对整个词语关联图的重要程度,即在词语关联图中任选两个高权 词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词 语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长 度;具体方法是通过词语关联图的特征路径长度L与在词语关联图中删除某个 高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范 围词语的重要程度;

b3、预测结果输出:

根据步骤b1、b2求得的词语i对应的岛屿数Ni(Ii)和ΔL,分别对应词语的局 部重要程度和全局重要程度;利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作 为输出结果。

一种专利技术预测系统,包括以下部分:

预处理单元:

用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利 摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取 专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间 集;摘要词语集及时间集均保存至本地硬盘。

词语重要程度获取单元:

用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重, 将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利 摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专 利摘要集中包含的专利摘要总数;

高权词集构建单元:

用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集 中的每个词语为高权词;

时间因子计算单元:

用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利 的时间因子

f(y)=eN(y)。

其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利 摘要集中专利申请日的最大时间差,即相对的时间间隔;

关联强度获取单元:

用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获 取高权词间关联强度,包括:

C1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

C2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j

词语关联图构建单元

用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边 的权重,构建出带有权重的词语关联图。

专利技术预测单元

用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要 程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:

D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词 语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词 语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿 数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿 为与其它词语关联图之间无连接关系的词语连通图;

D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得 的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径 长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语 关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个 高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词 语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在 词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差 值的绝对值作为全局范围词语的重要程度。

D3、预测结果输出单元:

用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别作为高权词的局 部重要程度和全局重要程度。利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。

本发明的有益效果在于:本发明从专利摘要出发,通过对专利摘要的量化 处理构建词语关联图,并通过从词语关联图的局部范围和全局范围衡量词语的 重要程度,进行专利技术预测,挖掘出可能成为主流的专利技术,为公众提供 一定的指导和参考。

图1为本发明的总体流程示意图。

图2为本发明词语关联图中岛屿的示意图。

图3为本发明词语关联图的示意图。

图4为本发明预测系统的单元结构示意图。

以下结合附图及具体实施方式对本发明进行说明:

图1为本发明一种专利技术预测方法的总体流程示意图。一种专利技术预测 方法,包括以下步骤:

S1、预处理:

采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要 集中的专利摘要利用分词器进行分词处理并去除停用词,即去除语法词以及一 些虚词,连词等,得到摘要词语集,同时提取专利摘要集中每条专利摘要的专 利申请日,得到与专利摘要集相对应的时间集;

假设,现有1989-1999年的汽车领域的专利摘要集合,可将专利摘要集及时 间集按照每个专利唯一的专利号进行对应,以便确定专利摘要集与时间集的对 应关系,如表1所示:

表1待处理专利摘要内容格式

专利号 专利申请日 专利摘要内容

在预处理过程中,对汽车领域的专利摘要集合其进行分词和去除停用词等 预处理。对专利摘要内容进行分词,如:“装配在与吸气通道相连的集中油缸 和从所述集中油缸到各个相应油缸的独立的分吸气管之间的机电转换机构”, 分词后如结果:“装配在与吸气通道相连的集中油缸和从所述集中 油缸到各个相应油缸的独立的分吸气管之间的机电转换机构”;分词 后去除停用词,去除停用词后的结果:“装配吸气通道集中油缸集中油缸 相应油缸分吸气管机电转换机构”,即完成了汽车领域的专利摘要集合的预 处理过程。

S2、获取词语重要程度:

通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该 权重作为该词语对于该条专利摘要所对应专利的词语重要度:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利 摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专 利摘要集中包含的专利摘要总数;

该权重值不仅反映了词语i在专利摘要d中的重要性,同时也反映了该词语 在相应的专利中的重要性。

S3、构建高权词集:

预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高 权词集中的每个词语为高权词;

S4、计算时间因子:

根据时间集由时间函数f(y)获得每个专利的时间因子 f(y)=eN(y)。

其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利 摘要集中专利申请日的最大时间差,即相对的时间间隔。

S5、获取关联强度:

根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取 高权词间关联强度,包括:

a1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

a2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j

其中,Ei,j表示高权词i在专利摘要y中共现的频次。

S6、构建词语关联图

以高权词作为顶点,根据步骤S5得到的高权词间关联强度构成对应顶点间 边的权重,构建出带有权重的词语关联图;

S7、专利技术预测

基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度 和全局范围重要程度进行专利技术的预测,预测方法具体如下:

b1、在步骤S6获得的词语关联图上从局部范围衡量词语的重要程度:根据 词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩 余高权词所形成的相互独立的词语岛屿数量的多少作为该高权词在词语关联图 中局部范围的重要程度。其中,词语岛屿为与其它词语关联图之间无连接关系 的词语连通图。

b2、在步骤S6获得的词语关联图上从全局范围衡量词语的重要程度:通过 小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图 的重要程度,即在词语关联图中,任选两个高权词,连通这两个高权词的最少 边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路 径长度的平均值作为词语关联图的特征路径长度。具体做法是通过词语关联图 的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的 特征路径长度之间的差值的绝对值作为全局范围词语的重要程度。

b3、预测结果输出:

步骤b1、b2求得词语i对应的岛屿数Ni(Ii)和ΔL,分别作为词语的局部重要 程度和全局重要程度。利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作 为输出结果。

一种专利技术预测系统,包括以下部分:

预处理单元:

用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利 摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取 专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间 集;摘要词语集及时间集均保存至本地硬盘。

词语重要程度获取单元:

用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重, 将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:

w e i g h t ( i , d ) = tf i , d * l o g ( N n i + 0.01 ) Σ k d [ tf i , d * l o g ( N n k ) + 0.01 ] 2

其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利 摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专 利摘要集中包含的专利摘要总数;

高权词集构建单元:

用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集 中的每个词语为高权词;

时间因子计算单元:

用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利 的时间因子

f(y)=eN(y)。

其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利 摘要集中专利申请日的最大时间差,即相对的时间间隔;

关联强度获取单元:

用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获 取高权词间关联强度,包括:

C1、计算任两个高权词在某条专利摘要中共现频次,即:

E i , j = N ( i , j ) N ( i ) * N ( j )

其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频 数;N(j)表示高权词j出现的频数;

C2、计算高权词间关联强度:

TE i , j = Σ 1 N ( y ) f ( y ) * E i , j

词语关联图构建单元

用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边 的权重,构建出带有权重的词语关联图。

专利技术预测单元

用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要 程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:

D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词 语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词 语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿 数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿 为与其它词语关联图之间无连接关系的词语连通图;

D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得 的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径 长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语 关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个 高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词 语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在 词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差 值的绝对值作为全局范围词语的重要程度。

D3、预测结果输出单元:

用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别对应高权词的局 部重要程度和全局重要程度。利用如下公式得到专利技术预测值:

F t i = 2 * N i ( I i ) * Δ L N i ( I i ) + Δ L

将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不 能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通 技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替 换,都应当视为属于本发明的保护范围。

本文发布于:2023-03-12 20:00:33,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68009.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图