G06F16/335 G06F16/35
1.一种基于LDA和Apriori的专利主题挖掘方法,其特征在于,包括:
根据需求采集专利数据并建立专利数据集备用;
基于Apriori算法对语料库中的专利文本进行关联规则挖掘,对专利文本降维,得到强关联规则,并构建共享主题网络;
基于LDA主题模型对数据集中的专利文本进行建模,对专利文本进一步降维,得到K个主题,每个主题下分布有N个主题词,其中K和N均为正整数,并得出专利主题分布;
将使用Apriori算法和LDA主题模型分析出来的结果进一步挖掘;
将使用Apriori算法和LDA主题模型挖掘出来的结果用于专利推荐。
2.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“根据需求采集专利数据并建立专利数据集备用”还包括:
使用网络爬虫爬取专利数据,爬取的内容包括专利的名称、摘要和首项权利要求。
3.根据权利要求1至2任意一项所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“根据需求采集专利数据并建立专利数据集备用”还包括:
针对每一篇专利文献使用基于Python第三方库“jieba”的精确模式实现中文分词,所使用停用词表综合了基于哈工大、四川大学机器学习智能实验室和百度所发布的停用词表,并根据专利文本的特性将连接词和高频无用词加载到停用词表中,把所述每一篇专利文献作为一篇文档储存。
4.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“基于Apriori算法对语料库中的专利文本进行关联规则挖掘,得到强关联规则,并构建共享主题网络”,还包括:
针对每一篇预处理过后的专利文档,使用arules提供的read.transactions方法读取数据集并创建系数矩阵;
对整个数据集进行扫描,对每一篇专利文档都产生一个候选1项集的集合C1;
由C1产生不低于最小支持度阈值的频繁1项集L1;
对频繁项集Lk进行连接和剪枝操作,由此产生候选k+1项集的集合Ck+1;
有Ck+1产生不低于最小支持度阈值的频繁k+1项集Lk+1;
如果则k=k+1,继续对频繁项集Lk进行连接和剪枝操作,由此产生候选k+1项集的集合Ck+1,否则进行下一步;
根据最小置信度阈值,产生强关联规则,算法结束。
5.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“构建共享主题网络图”还包括:
以置信度作为评价主题出现频率的因素,把提升度作为评价主题影响力的因素。
6.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“基于LDA主题模型对数据集中的专利文本进行建模”包括:
对每一篇专利文档D都经由Dirichlet(α)进行抽样得到θ(d);
对每一篇文档D下的主题都经过由Dirichlet(β)进行抽样的到φ(z);
对每一个单词Wn及其所属主题Zn都从多项式θ中抽象得到Zn=P(Zn|θ),从多项式φ中抽样得到Wn=P(Wn|Zn,φ)。
7.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“基于LDA主题模型对数据集中的专利文本进行建模”还包括:
通过循环实验设置主题数为5个,特征词为5个。
8.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,“基于LDA主题模型对数据集中的专利文本进行建模”还包括:
定义先验狄利克雷参数α和β分别为0.1和0.01,总专利文档数为3000,总迭代次数为500次。
9.根据权利要求1所述的基于LDA和Apriori的专利主题挖掘方法,其特征在于,所述“将使用Apriori算法和LDA主题模型分析出来的结果进一步挖掘”包括
获取到专利的文本数据,包括专利的名称、摘要和首项权利要求,并对摘要部分进行分词等预处理;
将专利文本进行特征提取后加载到Apriori和LDA模型中分别进行训练;
将两个训练结果结合即可获得在领域内要推荐该相关发明人的专利主题词。
本申请涉及一种数据挖掘和文本分类方法,尤其涉及一种基于LDA和Apriori的专利主题挖掘方法。
近年来,我国的专利数量不断增加,截至2018年底,国内(不含港澳台)发明专利拥有量共计160.2万件,每万人口发明专利拥有量达到11.5件,专利文本呈现海量的特征。
数据挖掘(Data Mining)技术慢慢的被引入到了专利文献中来。如何通过挖掘海量的数据来获得相关联的专利主题特征,并将挖掘出的关联关系应用到实际中成为了当前研究者要深入研究的课题,而关联规则的兴起,让数据挖掘技术能够真正对数据库中不同数据项之间的关联关系进行有效的利用。目前大多数的研究工作都只考虑到了提升聚类的效率和关联规则的强度,而没有考虑到同一产业下的专利文本往往存在关联性,导致现有的研究没有将专利中的关联性和分类的结果应用起来。如何从海量的专利信息中挖掘出不同专利之间隐含的关联关系是很多专利管理系统迫切需要解决的问题。
本发明要解决的技术问题是提供一种数据挖掘和文本分类方法,用以解决上述问题。
本发明的技术方案是:一种基于LDA和Apriori的专利主题挖掘方法,包括:
根据需求采集专利数据并建立专利数据集备用;
基于Apriori算法对语料库中的专利文本进行关联规则挖掘,对专利文档进行降维,得到强关联规则,并构建共享主题网络;
基于LDA主题模型对数据集中的专利文本进行建模,对专利文档进一步降维,得到K个主题,每个主题下分布有N个主题词,其中K和N均为正整数,并得出专利主题分布;
将使用Apriori算法和LDA主题模型分析出来的结果进一步挖掘;
将使用Apriori算法和LDA主题模型挖掘出来的结果用于专利推荐。
其中,“根据需求采集专利数据并建立专利数据集备用”还包括:使用网络爬虫爬取专利数据,爬取的内容包括专利的名称、摘要和首项权利要求。
其中,“根据需求采集专利数据并建立专利数据集备用”还包括:针对每一篇专利文献使用基于Python第三方库“jieba”的精确模式实现中文分词,所使用停用词表综合了基于哈工大、四川大学机器学习智能实验室和百度所发布的停用词表,并根据专利文本的特性将连接词和高频无用词加载到停用词表中,把每一篇专利文献作为一篇文档储存。
其中,基于Apriori算法对语料库中的专利文本进行关联规则挖掘,得到强关联规则,并构建共享主题网络还包括:
针对每一篇预处理过后的专利文档,使用arules提供的read.transactions方法读取数据集并创建系数矩阵;
对整个数据集进行扫描,对每一篇专利文档都产生一个候选1项集的集合C1;
由C1产生不低于最小支持度阈值的频繁1项集L1;
对频繁项集Lk进行连接(join)和剪枝(prune)操作,由此产生候选(k+1)项集的集合Ck+1;
有Ck+1产生不低于最小支持度阈值的频繁(k+1)项集Lk+1;
如果则k=k+1,继续对频繁项集Lk进行连接(join)和剪枝(prune)操作,由此产生候选(k+1)项集的集合Ck+1,否则进行下一步;
根据最小置信度阈值,产生强关联规则,算法结束。
其中,“构建共享主题网络图”还包括:以置信度作为评价主题出现频率的因素,把提升度作为评价主题影响力的因素。
其中,“基于LDA主题模型对数据集中的专利文本进行建模”包括:
对每一篇专利文档D都经由Dirichlet(α)进行抽样得到θ(d);
对每一篇文档D下的主题都经过由Dirichlet(β)进行抽样的到φ(z);
对每一个单词Wn及其所属主题Zn都从多项式θ中抽象得到Zn=P(Zn|θ),从多项式φ中抽样得到Wn=P(Wn|Zn,φ);
其中,“基于LDA主题模型对数据集中的专利文本进行建模”还包括:通过循环实验设置主题数为5个,特征词为5个。
其中,“将使用Apriori算法和LDA主题模型分析出来的结果进一步挖掘”包括
获取到专利的文本数据,包括专利的名称、摘要和首项权利要求,并对摘要部分进行分词等预处理;
将专利文本进行特征提取后加载到Apriori和LDA模型中分别进行训练;
将两个训练结果结合即可获得在领域内要推荐该相关发明人的专利主题词。
本发明的有益效果是:本发明基于专利文本数据,创新性的结合利用LDA主题模型和Apriori算法对专利文本进行有效分类,具体描述如下:本发明创新性的将LDA主题模型和Apriori算法引入进专利文本中,并选择专利文本中最具有概括意义的摘要做为主要研究对象,对其进行离散化处理后,分别使用LDA主题模型和Apriori算法来进行模型训练,LDA主题模型能有效降低数据集的维度,高效的对专利-主题词矩阵进行聚类;Apriori算法可以通过迭代运算有效挖掘出专利中关键字和主题词之间的关联规则;最终通过训练结果联合分析对专利进行有效推荐。
图1是本发明实施例提供的方法流程图;
图2是本发明实施例提供的总体流程图;
图3是本发明实施例提供的物流产业专利共享主题网络图;
图4是本发明实施例提供的物流产业专利支持度-提升度散点图;
图5是本发明实施例提供的物流产业专利主题分布图;
图6是本发明实施例提供的转基因玉米产业专利共享主题网络图;
图7是本发明实施例提供的转基因玉米产业专利支持度-提升度散点图;
图8是本发明实施例提供的转基因玉米产业专利主题分布图。
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1和图2,S101,根据需求采集专利数据并建立专利数据集备用。
具体的,采集专利数据时使用爬虫爬取专利数据,爬取的内容包括专利的名称、摘要和首项权利要求。
可以理解的,建立专利数据集时,针对每一篇专利文献使用基于Python第三方库“jieba”的精确模式实现中文分词,所使用的停用词表综合了基于哈工大、四川大学机器学习智能实验室和百度所发布的停用词表,并根据专利文本的特性将连接词和高频无用词加载到停用词表中,把每一条专利作为一篇文档储存。
请参照图1,S103,基于Apriori算法对语料库中的专利文本进行关联规则挖掘,对专利文本降维,得到强关联规则,并构建共享主题网络。
具体的,具体得到强关联规则的步骤如下:
针对每一篇预处理过后的专利文档,使用arules提供的read.transactions方法读取数据集并创建系数矩阵;对整个数据集进行扫描,对每一篇专利文档都产生一个候选1项集的集合C1;由C1产生不低于最小支持度阈值的频繁1项集L1;对Lk进行连接(join)和剪枝(prune)操作,由此产生候选(k+1)项集的集合Ck+1;有Ck+1产生不低于最小支持度阈值的频繁(k+1)项集Lk+1;如果则k=k+1,继续对频繁项集Lk进行连接(join)和剪枝(prune)操作,由此产生候选(k+1)项集的集合Ck+1,否则进行下一步;根据最小置信度阈值,产生强关联规则,算法结束。
具体的,在构建共享主题网络图时,以置信度作为评价主题出现频率的因素,把提升度作为评价主题影响力的因素。
具体的,专利文本经过Apriori关联规则算法处理后被降至“文档-主题”维度。
请参照图1,S105,基于LDA主题模型对数据集中的专利文本进行建模,对专利文本进一步降维,得到K个主题,每个主题下分布有N个主题词,其中K和N均为正整数,并得出专利主题分类。
具体的,对专利数据集进行LDA建模时,根据出现频率最高的TOP-N个特征词,以人工标注的方式为其标注所属环节,如装配、旋转、设备、驱动和输送属于物流的搬运环节。
具体的,专利文本经过LDA主题模型进一步处理后被降至“主题-主题词”维度
具体的,在对专利数据集进行LDA建模时,通过循环实验设置主题数为5个,特征词为5个。
具体的,在专利数据集进行LDA建模时,定义先验狄利克雷参数α和β分别为0.1和0.01,总专利文档数为3000,总迭代次数为500次。
请参照图1,S107,将使用Apriori算法和LDA主题模型分析出来的结果进一步挖掘;
具体的,当一篇专利以“保鲜,存储”作为主题特征词时,则该专利的发明人就有90%的概率会对以“设备”为主题特征词的专利感兴趣。而设备这一主题特征词属于物流过程中的“搬运装卸”环节。则将两种方法得到的结果综合应用,即可挖掘出发明人最感兴趣的专利主题特征以及其在物流过程中所属的环节。
请参照图1,S109,将使用Apriori算法和LDA主题模型挖掘出来的结果用于专利推荐。
具体的,将Apriori算法和LDA主题模型挖掘出来的结果用于专利推荐的具体步骤如下:
获取到专利的文本数据,包括专利的名称、摘要和首项权利要求,并对摘要部分进行分词等预处理;
先用Apriori算法将预处理后的数据降至“文档-主题”维度,进行关联规则的挖掘,然后再将处理后的数据使用LDA主题模型处理后降至“主题-特征词”的维度,提取专利文本主题词;
将用Apriori算法和LDA主题模型挖掘出来的结果使用欧式距离计算发明人和专利之间的相似度,并采用Top-N算法将相似度较高的前N个专利推荐给发明人;
物流产业专利主题挖掘
通过爬取专利数据库中物流产业专利3000条,分词后共有词汇834246个,在使用Apriori算法进行强关联规则挖掘时,数据格式使用“basket”,minlen设置为2,最小支持度阈值和最小置信度阈值分别设置为0.006和0.05,共生成强关联规则552条。在LDA主题模型处理时,设置主题数K值为5,狄利克雷先验参数α和β分别为0.1和0.01,迭代次数设置为500次,在每个主题下选择概率最大的前5个特征词后的分类结果。
国内物流产业专利关联性挖掘分析,在一些实施例中,通过对爬取到的最近3000条国内物流产业专利进行关联规则挖掘分析:将强关联规则绘制成物流产业的共享主题网络如图3所示,关联规则之间的支持度-提升度散点图如图4所示。在网络图中,源头表示规则的左项,箭头指向的主题词表示规则的右项,圆圈的大小则代表该条规则置信度的大小,圆圈越大则置信度越大;圆圈颜的深度表示提升度的高低,圆圈颜越深则该规则提升度越高。基于此,可以直观的从图中看到,“环保”和“节能”这条规则的颜最深,提升度最大。而剩余的规则被分成了包括关于“物流运输”和“信息控制”的两大主题集,其中“物流运输”方面的主题集置信度都较大,说明以“运输”为主题的专利和以“运输系统”、“碰撞”、“保鲜”、“减震”等为主题的专利有很强的关联性,也可得出:在“物流运输”的过程中,发明人比较关心运输的安全问题;而在“信息控制”的主题集下,规则较多,主题为“数据”或“系统”的专利与主题为“服务”、“监控”、“识别”、“管理”等主题的专利关联性较强,也说明物流过程的信息化是当前物流产业内研究的热点领域。
进行国内物流产业专利主题挖掘分析,在一些实施例中,通过对爬取到的最近3000条国内物流产业专利进行LDA主题模型建模及分析:将专利主题、数量、特征词和所属环节制成专利主题分布图,如图5所示。通过分布结果可以看出,Topic0是物流产业中的“搬运装卸”环节的内容,Topic1是“仓储保管”环节的内容,Topic2是“配送”环节的内容,Topic3是“包装”环节的内容,Topic4是“运输”环节的内容。当前国内物流产业的热点研究领域集中在“运输”环节上,其专利申请的数量占了整个产业的29.4%,说明发明人对“运输”环节的专利最感兴趣。
进行国内物流产业专利关联性-主题联合分析,在一些实施例中,结合关联性挖掘分析和主题挖掘分析的结果,可以将某一类别中特征词出现概率较大的专利主题推荐给与其相关联的主题。如对于“仓储保管”环节的专利来说,出现频率最高的是以“保存”、“仓储”、“储存”、“缓冲”和“收集”为关键词的专利,根据置信度的定义,对以“箱”、“箱盖”和“箱体”为主题词的专利感兴趣的发明人有75%的可能性会对以“仓储”为主题的专利感兴趣,那么我们就可以将整个“仓储保管”大类的专利根据关联度排名推荐给此类发明人,对专利实行模糊推荐。也可以实现精确推荐,只对发明人推荐以高频特征词为主题的专利。
转基因玉米领域专利主题挖掘
在本发明的又一实施例中,使用相同的方法对国内转基因玉米育种领域的3000条专利进行挖掘,所有参数不变。
国内转基因玉米育种领域专利关联性挖掘分析,在一些实施例中,通过对爬取到的最近3000条国内转基因玉米育种领域专利进行关联规则挖掘分析:将强关联规则绘制成转基因玉米产业的共享主题网络如图6所示,关联规则之间的支持度-提升度散点图如图7所示。可以从网络图中看到,“选择”和“标记”这条规则的提升度最大。共有“性状改良”、“产量提高”、“育种手段”三大主题集,其中“性状改良”是置信度最大的主题集,以“转化”、“育种”、“选育”等为主题的专利与“改良”为主题的专利有很大的关联性,同时也可说明发明人最关心育种性状的好坏问题;在“产量提高”主题集下,“产量”、“提高”等为主题的专利与“效率”和“生长”等为主题的专利关联性较大,也说明如何提高转基因玉米的产量还是行业内主要研究的问题之一。
进行国内转基因玉米育种领域专利主题挖掘分析,在一些实施例中,通过对爬取到的最近3000条国内转基因玉米育种领域专利进行LDA主题模型建模及分析:专利主题分布图如图8所示,通过分布结果可以看出,Topic0是转基因玉米育种领域中的“育种手段”方面的内容,Topic1是“试验元素”方面的内容,Topic2是“基因鉴定”方面的内容,Topic3是“疾病预防”方面的内容,Topic4是“基因操作”方面的内容。当前国内转基因玉米领域的热点研究领域集中在“性状改良”主题上,申请的专利数量在所有转基因玉米育种专利中达到了56.6%,是目前研究最热门的新技术。
进行国内转基因玉米育种领域专利关联性-主题联合分析,在一些实施例中,结合关联性挖掘分析和主题挖掘分析。如对于“性状改良”方面的专利来说,出现频率最高的是以“诱导”、“转化”、“序列”、“杂交”为关键词的专利,根据置信度的定义,对以“诱导”、“转化”为主题词的专利感兴趣的发明人有80%的可能性会对以“性状改良”为主题的专利感兴趣,则可以将“育种手段”领域内的专利推荐给此类发明人,也可以只对发明人推荐以“诱导”、“转化”、“序列”、“杂交”为主题的专利。
以上是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
本文发布于:2023-03-12 22:33:52,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68364.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |