G06F16/21 G06F16/22 G06F16/2458 G06F16/248 G06F40/242 G06F40/284 G06N20/00
1.一种用于企业技术优化的专利大数据分析方法,其特征在于,包括:
S1.获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
S2.基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
S3.基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
S4.基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
S5.基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
2.根据权利要求1用于企业技术优化的专利大数据分析方法,其特征在于,获取企业技术方向包括获取企业专利文件、技术资料、产品信息、和公司研发方向信息或直接输入具体技术领域或技术方向。
3.根据权利要求1用于企业技术优化的专利大数据分析方法,其特征在于,申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
4.根据权利要求1用于企业技术优化的专利大数据分析方法,其特征在于,步骤S2中筛选技术热词包括:
对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
5.根据权利要求4用于企业技术优化的专利大数据分析方法,其特征在于,通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,包括:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
6.一种用于企业技术优化的专利大数据分析系统,其特征在于,包括:
专利数据库建立模块,用于获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
技术热词筛选计算模块,用于基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
技术热词排名库构建模块,基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
企业技术优化模型建立模块,基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
优化分析模块,基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
7.根据权利要求6用于企业技术优化的专利大数据分析系统,其特征在于,专利数据库建立模块包括企业技术方向获取单元,用于获取企业专利文件、技术资料、产品信息、和公司研发方向信息或直接输入具体技术领域或技术方向。
8.根据权利要求6用于企业技术优化的专利大数据分析系统,其特征在于,技术热词筛选计算模块包括申请人加权计算单元,用于计算申请人加权,申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
9.根据权利要求6用于企业技术优化的专利大数据分析系统,其特征在于,技术热词筛选计算模块还包括技术热词筛选单元,用于对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
10.根据权利要求9用于企业技术优化的专利大数据分析系统,其特征在于,技术热词筛选单元包括热度排序子单元,用于通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,包括:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
本发明涉及企业技术优化技术领域,具体涉及一种用于企业技术优化的专利大数据分析方法及系统。
科学技术是第一生产力,企业在其发展过程中都在通过各种手段不断推动自身技术的创新,形成自身的核心技术体系,以提升企业的核心竞争力,但是企业在发展过程中,对自身技术发展、研究方向把握不准确,而常规的技术调研大多都需要技术人员查和分析大量的技术文件,浪费技术人员资源;而如果技术调研结果不准确又往往浪费大量的时间以及资金投入。
针对上述现有技术的不足,本发明旨在提供一种用于企业技术优化的专利大数据分析方法及系统,以便于优化企业技术,节约时间和人力成本,避免资金浪费。
为了解决上述问题,本发明采用了如下的技术方案:
一种用于企业技术优化的专利大数据分析方法,包括:
S1.获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
S2.基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
S3.基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
S4.基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
S5.基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
进一步,获取企业技术方向包括获取企业专利文件、技术资料、产品信息、和公司研发方向信息或直接输入具体技术领域或技术方向。
进一步,申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
进一步,步骤S2中筛选技术热词包括:
对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
进一步,通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,包括:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
本发明还提供一种用于企业技术优化的专利大数据分析系统,包括:
专利数据库建立模块,用于获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
技术热词筛选计算模块,用于基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
技术热词排名库构建模块,基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
企业技术优化模型建立模块,基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
优化分析模块,基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
进一步,专利数据库建立模块包括企业技术方向获取单元,用于获取企业专利文件、技术资料、产品信息、和公司研发方向信息或直接输入具体技术领域或技术方向。
进一步,技术热词筛选计算模块包括申请人加权计算单元,用于计算申请人加权,申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
进一步,技术热词筛选计算模块还包括技术热词筛选单元,用于对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
进一步,技术热词筛选单元包括热度排序子单元,用于通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,包括:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
本发明的有益效果在于:本发明通过对企业相关的技术领域的专利大数据进行分析,对技术热词筛选处理构建出企业技术优化模型,利用现有的专利技术对企业自身的技术发展方向进行分析评估,便于企业确定技术优化方向,节约时间和解放分析劳动力,还能避免资金浪费。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明一种用于企业技术优化的专利大数据分析方法流程示意图;
图2为本发明一种用于企业技术优化的专利大数据分析系统示意图。
下面结合具体实施例对本发明作进一步的详细说明。
需要说明的是,这些实施例仅用于说明本发明,而不是对本发明的限制,在本发明的构思前提下本方法的简单改进,都属于本发明要求保护的范围。
参见图1,为一种用于企业技术优化的专利大数据分析方法,包括:
S1.获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
S2.基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
S3.基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
S4.基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
S5.基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
在步骤S1中,获取企业技术方向包括获取企业专利文件、技术资料、产品信息、和公司研发方向信息等或直接输入具体技术领域或技术方向或技术关键词。
在一个可实施方式中,步骤S2中申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
作为一种优选实施方式,步骤S2中筛选技术热词包括:
对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
作为一种具体的实施方式,通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合的具体步骤为:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
参见图2,本实施例还涉及一种用于企业技术优化的专利大数据分析系统,包括:
专利数据库建立模块100,用于获取企业技术方向,采集企业技术方向领域相关的专利数据信息,建立专利数据库;
技术热词筛选计算模块200,用于基于专利数据库,筛选技术热词,基于每个技术热词下的申请人数量和每个申请人的重要度得出申请人加权;
技术热词排名库构建模块300,基于专利数据库,得到每个技术热词数量以及专利分类号,基于分类号,将每个分类号下的技术热词进行排序,引入申请人加权,在每个分类号下的技术热词排序下进行再排序,得出技术热词排名库;
企业技术优化模型建立模块400,基于技术热词排名库,将技术热词与申请日进行关联,并根据申请日期将技术热词进行排序,得出时间技术热词,基于申请日以及每个技术热词数量,得出基于申请日的技术热词增长率,并基于技术热词增长率对技术热词进行排序,建立企业技术优化模型;
优化分析模块500,基于企业技术优化模型,利用技术热词排名库、时间技术热词和技术热词增长率对企业技术进行优化。
进一步,专利数据库建立模块100包括企业技术方向获取单元110,用于获取企业专利文件、技术资料、产品信息、和公司研发方向信息或直接输入具体技术领域或技术方向。
作为一个可实施方式,技术热词筛选计算模块200包括申请人加权计算单元220,用于计算申请人加权,申请人加权为申请人数量*申请人数量权重*综合申请人比重;综合申请人比重的计算包括:
基于专利数据库,分析数据库内专利文件的著录信息以及申请人情况;著录信息包括申请人名称、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量;申请人情况包括公司规模、产品种类、第一件专利申请日期和最后一件专利申请日期;基于公司规模、产品种类、第一件专利申请日期、最后一件专利申请日期、发明人数量、有效专利数量、发明专利数量、发明专利授权数量、实用新型专利数量和外观专利数量,并分别设置权重,计算得出申请人比重;
综合申请人比重为每个申请人比重相加再除以申请人数量。
为了一种优选实施方式,技术热词筛选计算模块200还包括技术热词筛选单元210,用于对基于CRF的技术术语抽取模型进行训练,以相关领域的技术词表为种子术语,以种子术语为检索词在相关领域专利库检索得到包含种子术语的句子,通过这些语句构建技术热词语料库,
导入相关领域的用户字典,用户字典包括技术词表、维基词条和文献关键词,
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理;
对技术热词语料库中的句子中按照BIO标记法进行序列标注,形成技术热词抽取模型的训练样本;其中,B表示一个热词的开始词,I表示热词除开始词以外的其他词汇,O表示其余的非热词词;B和I标注的是属于已有的技术词表的词,O表示不属于已有的技术词表的词,
提取每个训练样本的技术热词的特征,作为基于CRF的技术热词抽取模型的输入,以序列标注为期望的模型输出,训练基于CRF的技术热词抽取模型,
技术热词的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在技术词表中出现;
将专利数据库中的专利文件,输入基于CRF的技术热词抽取模型,输出技术热词候选集合,
通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,
将技术热词集合输入预先建立的技术热词分类模型,输出技术热词类别信息。
具体的,技术热词筛选单元210包括热度排序子单元211,用于通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序,输出技术热词集合,包括:
构建一个指数式衰减的过程,即:
冷却系数ε(a)为:其中,a为某个技术热词;
计算技术热词候选集合中的每个技术热词的冷却系数,按照降序排列根据冷却系数对技术热词候选集合中的技术热词进行热度排序;
取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词,组成技术热词集合。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
本文发布于:2023-03-13 02:36:23,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68905.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |