一种基于知识网络的创意自动生成方法与终端

阅读: 评论:0

著录项
  • CN201710173037.8
  • 20170322
  • CN106940726A
  • 20170711
  • 山东大学
  • 陈志勇;李耀坤;郭伟;鹿旭东;崔立真
  • G06F17/30
  • G06F17/30

  • 山东省济南市高新区舜华路中段
  • 山东(37)
  • 济南圣达知识产权代理有限公司
  • 黄海丽
摘要
本发明公开了一种基于知识网络的创意自动生成方法与终端,方法包括:首先构建发明知识网络,从专利数据中抽取出能表示专利特征的关键词,用欧氏距离计算向量空间模型中关键词的相似度,将相似度高的关键词用层次聚类的方式聚类,建立一种具有层次关联关系的创意关键词集合。通过定制的发明目标,根据定制目标与词云中关键词的关联度和词云集合中的层次紧密度,抽取出发明创意的关键词集合形成词云。标注所需要的创意信息,通过训练好的语言模型自动生成发明创意,从而完成创意引导过程。
权利要求

1.一种基于知识网络的创意自动生成方法,其特征是,所述方法由计算机程序控制计 算机设备来完成,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上 运行的计算机程序;所述处理器执行所述计算机程序时实现以下步骤:

步骤(1):建立知识网络:对专利数据进行爬取,对爬取后的数据进行预处理,对预处理 后的数据进行关键词抽取,然后利用层次聚类的方法将关键词进行聚类,最后建立具有层 次关联关系的知识网络;

步骤(2):接收输入的发明创意需求;发明创意需求是所要发明或创新领域内的关键 词,发明创意需求是关键词或一句话,如果是一句话,将所述一句话进行分词,然后根据用 户选择所需要的关键词完成发明创意需求的输入;

步骤(3):按照输入的发明创意需求,通过计算发明创意需求与知识网络中关键词的关 联度,推荐出关联度高的关键词,计算层次关联关系的紧密度,通过计算的层次关联关系的 紧密度抽取出创意关键词集合即词云;同时推荐出与词云中心词相关的关联信息,包括高 频词和专利文献信息;

步骤(4):用户根据发明创新需求更换词云中心词获取更多与需求相关的关键词,在词 云和关联信息中标记出相关信息,通过训练好的语言模型自动生成发明创意;

步骤(5):从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导过 程。

2.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤 (1)包括步骤(101)-步骤(105):

步骤(101):对专利数据进行爬取;

在万方数据知识服务网络上爬取专利信息,爬取专利的名称、类型、摘要、专利分类号 信息,以下步骤处理的专利都是指专利的摘要部分;

步骤(102):对爬取的数据进行预处理;

用中科院分词系统NLPIR对步骤(101)爬取的专利摘要信息进行分词,并依据停用词库 删除所爬取专利摘要信息中的停用词;

建立向量空间模型:把专利摘要信息中的分好的词统称为项Team,专利文档用项表示 为D(t 1,t 2,t 3…t n),不考虑t k在文档中的先后顺序和重复;把t 1,t 2,t 3…t n看成一个N维的坐 标系,而w 1,w 2,w 3…w n为相应的坐标值,因而D(w 1,w 2,w 3…w n)被看成是N维空间中的一个向 量,D(w 1,w 2,w 3…w n)为文档D的向量空间表示;

步骤(103):用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关键 词;

步骤(104):计算抽取出关键词的相似度,将相似度高的关键词筛选出来,利用层次聚 类的方法将抽取出来的关键词进行聚类,相似度高的关键词建立一种具有层次关联关系的 集合;

步骤(105):建立具有层次关联关系的知识网络;根据聚类成功的关键词集合和相应的 层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。

3.如权利要求2所述的一种基于知识网络的创意自动生成方法,其特征是,步骤(103) 的步骤为:

词频TF指的是一个词在专利中出现的次数;TF的英文全称是Term Frequency;

词频的计算公式如下:

专利的总词语数是指一篇专利分词后的词语个数;

逆向文件频率IDF是一个词语普遍重要性的度量;一个词语的IDF,由专利文献总文件 数目除以包含该词语的专利文献的数目,再将得到的商取对数得到;IDF的英文全称是 Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;

逆向文件频率IDF的计算公式如下:

TF-IDF的计算公式如下:

TF-IDF=词频TF×逆向文件频率IDF;

TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现次数 成反比;所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行排 列,取排在前面的设定个数的词。

4.如权利要求2所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤 (104)的步骤为:

在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来;

用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:

d i s tan c e ( t i , t j ) = Σ k = 1 k = n ( w k ( t i ) - w k ( t j ) ) 2

公式中的t i和t j分别表示两个抽取出来的不同的关键词、w k记录关键词在向量空间模 型中的位置信息、k指的是总的关键词的个数、distance(t i,t j)表示的是两个关键词之间的 欧式距离;

使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻欧式距离最近的两个关 键词,将两个关键词结合,有N个关键词的集合S n={t 1,t 2,…t n},聚成K个类。

5.如权利要求4所述的一种基于知识网络的创意自动生成方法,其特征是,所述凝聚层 次聚类的步骤如下:

(1041)建立一个关键词集合d i={t i}用来存放和t i相近的关键词,其中i=1,2,3,…k;

(1042)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;

(1043)到与t i距离最近的5个关键词t a、t b、t c、t d、t e,使t i作为父节点,将筛选出来的 关键词聚类成具有层次关联关系的双层结构,并存入d i={t i、t a、t b、t c、t d、t e}中;

(1044)再依次寻与t a、t b、t c、t d、t e距离最近的5个关键词,使t a、t b、t c、t d、t e分别作为 父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的 关键词有序地存入关键词集合d i中,并将具有三层关联关系的关键词集合标记成t i;

(1045)除去t i,令k=k-1,然后转到第(1042)步。

6.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤 (3)的步骤为:

步骤(31):按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和层次 聚类后关键词的关联度;

WSR语义关联度计算公式如下:

W S R ( a , b ) = Σ i = 1 N RelArtNet i × α i + Σ j = 1 , k = 1 , l = 1 M , P , Q RelCatTree l ( C a j , C b k ) × β l

公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需 要计算的节点;RelArtNet i是基于专利文本语义关联度计算方法,α i是不同层次节点的权 重;节点a和b至少分别隶属于一个分类a j和b k,其中 表示的是a j和b k的 语义关联度,β l是其权重;

步骤(32):经过计算后,寻出语义关联度最高的关键词,进而在知识网络中寻与关 联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合即词 云;

聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次紧密 度计算公式如下:

C l ( N i ) = 1 | N i | Σ d j N i S ( t j , C N i )

其中,Cl(N i)表示聚类N i内部的紧密度,t j则是聚类N i中的任意关键词, 是聚类N i的 中心,|N i|表示聚类N i中的关键词数目;

步骤(33):根据步骤(31)和步骤(32)计算关联度和层次紧密度后,将关联度高且层次 紧密度高的创意关键词集合抽取出来形成词云;

步骤(34):生成词云的同时还会推荐出相应的关联信息;推荐出中心词及关联词所在 的专利信息;通过计算专利中词频的方式,推荐出高频词。

7.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤 (4)的步骤为:

步骤(41):爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取的发 明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集;

对爬取到的任一语句首先进行分词,然后对词语进行预处理,得到的语句e∈S表示为:

e=(),k∈N

其中t i(i=1,2,3…,k)为发明创意信息分词后的词,w i(i=1,2,3…,k)为词语的语法 语义表示项,词语的语法语义表示项,包括:名词词语NOTH,应用动词词语VAPP,介词、副词 词语ATOH,数量词语UOTH;

词语的标识项构成的集合记为W:

W=(w 1,w 2,…,w k),w i∈W,i=1,2,3…,k

目标是为了生成一组语言模型:

语言模型=(rule 1,rule 2,…,rule k)

每一个规则rule i可表示为:rule=R 1×R 2×R 3×…×R k;

其中R i有三种取值:通配符$为任意词语或为空Null;词语标识项w以及词语t,即:R i∈ {$}+W+{t 1,t 2,t 3…,t k};

通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模型, 然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型;

步骤(42):搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词集合, 更换搜索中心词,得到更多与中心词具有关联关系的关键词;

步骤(43):查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信息以 选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。

8.一种基于知识网络的创意自动生成终端,其特征是,包括:

发明知识网络构建单元:爬取专利数据作为构建模块的数据集,对专利数据预处理,抽 取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形成一种 具有层次关联关系的发明知识网络;

创意引导单元:计算发明创意需求的关键词与发明知识网络中关键词的关联度,计算 层次关联紧密度,抽取出创意关键词集合即词云,同时推荐专利文本信息和高频词的关联 信息,查看相关信息引导创意的产生;

发明创意生成单元:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创 意的语言模型,根据标记信息自动生成创意;

创意输出单元:选择所需要的发明创意,完成创意引导过程。

9.如权利要求8所述的一种基于知识网络的创意自动生成终端,其特征是,发明知识网 络构建单元,包括:

预处理模块:首先对爬取到的专利信息进行分词,然后建立处理专利数据的停用词库, 对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备;

关键词抽取模块:将专利文本信息在向量空间模型中表示出来,选择信息检索和文本 挖掘中常用的加权技术抽取能表示专利信息的关键词;

相似度计算模块:计算抽取出关键词的相似度,将相似度高的关键词用凝聚层次聚类 的方式聚类,建立一种具有层次关联关系的关键词集合;

发明知识网络形成模块:根据聚类成功的关键词集合和相应的层次关联关系,形成具 有层次关联关系的三层模型,最终建立发明知识网络。

10.如权利要求8所述的一种基于知识网络的创意自动生成终端,其特征是,创意引导 单元,包括:

关联度计算模块:用语义关联度计算的方式计算发明创意需求与发明知识网络中关键 词的关联度,将关联度较高的关键词推荐出来;

紧密度计算模块:计算关键词和每个层次网络的紧密度;

词云形成模块:通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关键词 集合,形成词云;

关联信息推荐模块:关联信息不仅包含与词云中心词相关的专利文本信息,而且包含 专利文本中出现的高频词;

发明创意生成单元,包括:

标记模块:标记出词云中有关的关键词,更换词云中心词查看更多与中心词相关联的 信息,同时标记出专利文本信息和高频词信息;

语言模型生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创 意的语言模型;

创意自动生成模块:根据标记信息和已经训练好的语言模型,自动生成创意。

说明书
技术领域

本发明涉及一种基于知识网络的创意自动生成方法与终端。

当今,信息技术高速发展,文字、图片、视频等数据倍增,全球的数据总量已经达到 ZB级别,并且每年的增长速度都保持在40%左右,显然我们已经进入了大数据时代。大数据 给人们带来了机会的同时也增大了定向检索发明创意的难度,这会令一些创新者不胜其 烦,以往的检索发明创意信息的方式都是通过搜索引擎按需求搜索发明创意资料,查看专 利、论文或者进入某一科技博客、论坛逐一翻看与你发明创意主题相似的话题、评论,这样 会导致一些创新者在海量数据中检索有价值的发明创意信息难度加大,在检索过程中不仅 会消耗大量的时间,而且检索精度非常低。在国家“双创”政策发布以来,人们对于寻求发明 创意进行创新的热情越来越高涨,显然传统的方式已经满足不了新时代人们的需求。

为了解决现有技术的不足,本发明提供了一种基于知识网络的创意自动生成方法 与终端,其具有提供创意信息并自动生成创意的效果;

一种基于知识网络的创意自动生成方法,所述方法由计算机程序控制计算机设备 来完成,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计 算机程序;所述处理器执行所述计算机程序时实现以下步骤:

步骤(1):建立知识网络:对专利数据进行爬取,对爬取后的数据进行预处理,对预 处理后的数据进行关键词抽取,然后利用层次聚类的方法将关键词进行聚类,最后建立具 有层次关联关系的知识网络;

步骤(2):接收输入的发明创意需求;发明创意需求是所要发明或创新领域内的关 键词,发明创意需求是关键词或一句话,如果是一句话,将所述一句话进行分词,然后根据 用户选择所需要的关键词完成发明创意需求的输入;

步骤(3):按照输入的发明创意需求,通过计算发明创意需求与知识网络中关键词 的关联度,推荐出关联度高的关键词,计算层次关联关系的紧密度,通过计算的层次关联关 系的紧密度抽取出创意关键词集合即词云。同时推荐出与词云中心词相关的关联信息,包 括高频词和专利文献信息。

步骤(4):用户根据发明创新需求更换词云中心词获取更多与需求相关的关键词, 在词云和关联信息中标记出相关信息,通过训练好的语言模型自动生成发明创意。

步骤(5):从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导 过程。

所述步骤(1)包括步骤(101)-步骤(105):

步骤(101):对专利数据进行爬取;

在万方数据知识服务网络上爬取专利信息,爬取专利的名称、类型、摘要、专利分 类号信息,以下步骤处理的专利都是指专利的摘要部分;

步骤(102):对爬取的数据进行预处理;

用中科院分词系统NLPIR对步骤(101)爬取的专利摘要信息进行分词,并依据停用 词库删除所爬取专利摘要信息中的停用词。

建立向量空间模型:把专利摘要信息中的分好的词统称为项Team,专利文档用项 表示为D(t1,t2,t3…tn),不考虑tk在文档中的先后顺序和重复;把t1,t2,t3…tn看成一个N维 的坐标系,而w1,w2,w3…wn为相应的坐标值,因而D(w1,w2,w3…wn)被看成是N维空间中的一个 向量,D(w1,w2,w3…wn)为文档D的向量空间表示。

步骤(103):用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关 键词。

步骤(104):计算抽取出关键词的相似度,将相似度高的关键词筛选出来,利用层 次聚类的方法将抽取出来的关键词进行聚类,相似度高的关键词建立一种具有层次关联关 系的集合。

步骤(105):建立具有层次关联关系的知识网络;根据聚类成功的关键词集合和相 应的层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。

步骤(103)的步骤为:

词频TF指的是一个词在专利中出现的次数;TF的英文全称是Term Frequency;

词频的计算公式如下:

专利的总词语数是指一篇专利分词后的词语个数;

逆向文件频率IDF是一个词语普遍重要性的度量;一个词语的IDF,由专利文献总 文件数目除以包含该词语的专利文献的数目,再将得到的商取对数得到;IDF的英文全称是 Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;

逆向文件频率IDF的计算公式如下:

TF-IDF的计算公式如下:

TF-IDF=词频TF×逆向文件频率IDF;

TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现 次数成反比。所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行 排列,取排在前面的设定个数的词。

所述步骤(104)的步骤为:

在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来。

用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:

公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空 间模型中的位置信息、k指的是总的关键词的个数、distance(ti,tj)表示的是两个关键词之 间的欧式距离。

使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻欧式距离最近的两 个关键词,将两个关键词结合,有N个关键词的集合Sn={t1,t2,…tn},聚成K个类。

所述凝聚层次聚类的步骤如下:

(1041)建立一个关键词集合di={ti}用来存放和ti相近的关键词,其中i=1,2, 3,…k;

(1042)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;

(1043)到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出 来的关键词聚类成具有层次关联关系的双层结构,并存入di={ti、ta、tb、tc、td、te}中;

(1044)再依次寻与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别 作为父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结 构的关键词有序地存入关键词集合di中,并将具有三层关联关系的关键词集合标记成ti;

(1045)除去ti,令k=k-1,然后转到第(1042)步。

所述停用词库采用中科院统计的中文停用词库,另外将“该发明、该案例和涉及” 等词汇加入停用词库,避免此类词汇的词频过高影响最终关键词提取结果。

所述步骤(3)的步骤为:

步骤(31):按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和 层次聚类后关键词的关联度。

WSR语义关联度计算公式如下:

公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点。RelArtNeti是基于专利文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重。

步骤(32):经过计算后,寻出语义关联度最高的关键词,进而在知识网络中寻 与关联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合 即词云。

聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次 紧密度计算公式如下:

其中,Cl(Ni)表示聚类Ni内部的紧密度,tj则是聚类Ni中的任意关键词,是聚类Ni的中心,|Ni|表示聚类Ni中的关键词数目。

步骤(33):根据步骤(31)和步骤(32)计算关联度和层次紧密度后,将关联度高且 层次紧密度高的创意关键词集合抽取出来形成词云。

步骤(34):生成词云的同时还会推荐出相应的关联信息。推荐出中心词及关联词 所在的专利信息。通过计算专利中词频的方式,推荐出高频词。

所述步骤(4)的步骤为:

步骤(41):爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取 的发明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集。

对爬取到的任一语句首先进行分词,然后对词语进行预处理,得到的语句e∈S表 示为:

e=(),k∈N

其中ti(i=1,2,3…,k)为发明创意信息分词后的词,wi(i=1,2,3…,k)为词语的 语法语义表示项,词语的语法语义表示项,包括:名词词语NOTH,应用动词词语VAPP,介词、 副词词语ATOH,数量词语UOTH。

词语的标识项构成的集合记为W:

W=(w1,w2,…,wk),wi∈W,i=1,2,3…,k

目标是为了生成一组语言模型:

语言模型=(rule1,rule2,…,rulek)

每一个规则rulei可表示为:rule=R1×R2×R3×…×Rk;

其中Ri有三种取值:通配符$(可以为任意词语,或为空Null),词语标识项w以及词 语t,即:Ri∈{$}+W+{t1,t2,t3…,tk};

通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模 型,然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型。

步骤(42):搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词 集合,更换搜索中心词,得到更多与中心词具有关联关系的关键词。

步骤(43):查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信 息以选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。

一种基于知识网络的创意自动生成终端,包括:

发明知识网络构建单元:爬取专利数据作为构建模块的数据集,对专利数据预处 理,抽取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形 成一种具有层次关联关系的发明知识网络。

创意引导单元:计算发明创意需求的关键词与发明知识网络中关键词的关联度, 计算层次关联紧密度,抽取出创意关键词集合即词云,同时推荐专利文本信息和高频词的 关联信息,查看相关信息引导创意的产生。

发明创意生成单元:通过爬取到的发明创意信息进行训练,得到一种自动生成发 明创意的语言模型,根据标记信息自动生成创意。

创意输出单元:选择所需要的发明创意,完成创意引导过程。

发明知识网络构建单元,包括:

预处理模块:首先对爬取到的专利信息进行分词,然后建立处理专利数据的停用 词库,对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备。

关键词抽取模块:将专利文本信息在向量空间模型中表示出来,选择信息检索和 文本挖掘中常用的加权技术抽取能表示专利信息的关键词。

相似度计算模块:计算抽取出关键词的相似度,将相似度高的关键词用凝聚层次 聚类的方式聚类,建立一种具有层次关联关系的关键词集合。

发明知识网络形成模块:根据聚类成功的关键词集合和相应的层次关联关系,形 成具有层次关联关系的三层模型,最终建立发明知识网络。

创意引导单元,包括:

关联度计算模块:用语义关联度计算的方式计算发明创意需求与发明知识网络中 关键词的关联度,将关联度较高的关键词推荐出来。

紧密度计算模块:计算关键词和每个层次网络的紧密度。

词云形成模块:通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关 键词集合,形成词云。

关联信息推荐模块:关联信息不仅包含与词云中心词相关的专利文本信息,而且 包含专利文本中出现的高频词。

发明创意生成单元,包括:

标记模块:标记出词云中有关的关键词,更换词云中心词查看更多与中心词相关 联的信息,同时标记出专利文本信息和高频词信息。

语言模型生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发 明创意的语言模型。

创意自动生成模块:根据标记信息和已经训练好的语言模型,自动生成创意。

与现有技术相比,本发明的有益效果是:

建立了一个创意生成平台,用户只需明确自己发明创意的需求,系统就会推荐出 一个具有层次关联关系的词云,词云分层次展示出与需求最相关的发明创意的关键词集 合。例如,发明创意需求是“智能手机”,在词云中就会按层次展示出“无线通讯、蓝牙、app、 数据连接、通信协议”等关键词。为了使系统用户更加清楚的了解词云中的关键词,系统还 将推荐出与词云中心词相关的专利信息和专利中的高频词,根据发明创意需求深入浅出地 了解与你所感兴趣的各个方面,这样根据系统生成的发明创意信息,有理有据地为创新者 提供创意引导。如果这样还不能满足创新者的需求,我们还提供了发明创意自动生成的功 能。在词云、专利信息、高频词中标记出所关注的信息,根据预先训练好的语言模型和标注 出的信息,自动生成发明创意。

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示 意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明的系统调度示意图。

图2为本发明一个实施例的流程图。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另 有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常 理解的相同含义。

本发明提出了一种基于发明知识网络的创意自动生成方法与终端。

具体来说:

一是建立专用发明知识网络,为用户提供准确而有价值的发明创意信息。

二是建立一种训练好的语言模型,根据用户标记出来的关键词以及专利信息自动 生成发明创意。

为了实现上述目的,如图1所示,本发明采用的技术方案具体包括:

发明知识网络构建模块:爬取专利数据作为构建模块的数据集,对专利数据预处 理,抽取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形 成一种具有层次关联关系的专用发明知识网络。

创意引导模块:计算发明创意需求与发明知识网络中关键词的关联度,推荐出关 联度高的关键词,然后计算推荐出的关键词与层次网络的紧密度,抽取出创意关键词集合 即词云,同时推荐包含专利文本信息和高频词的关联信息,查看相关信息引导创意产生。

发明创意生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发 明创意的语言模型,根据标记信息自动生成发明创意。

创意输出:选择所需要的发明创意,完成创意引导过程。

具体的,发明知识网络构建模块包括以下实现步骤:

a.首先对爬取到的专利数据进行分词处理,然后建立处理专利数据的停用词库, 对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备。

b.将专利文本信息在向量空间模型中表示出来,选择信息检索和文本挖掘中常用 的加权技术抽取能表示专利信息的关键词。

c.计算抽取出关键词相似度,将相似度高的关键词用凝聚层次聚类的方式聚类, 建立一种具有层次关联关系的关键词集合。

d.根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的 三层模型,建立发明知识网络。

具体的,创意引导模块包括以下实现步骤:

a.用语义关联度计算的方式计算发明创意需求与发明知识网络中关键词的关联 度,将关联度较高的关键词推荐出来。

b.由于只计算关联度不能准确推荐出创意关键词集合,一个关键词可能同时属于 多个层次网络/关键词集合,继续计算此关键词和每个层次网络的紧密度。

c.通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关键词集合,形 成词云。

d.同时会推荐出一些关联信息,关联信息不仅包含与词云中心词相关的专利文本 信息,而且包含专利文本中出现的高频词。

具体的,发明创意生成模块包括以下实现步骤:

a.标记出词云中有关的关键词,更换词云中心词查看关键词的层次关联关系,同 时标记出专利文本信息和高频词信息。

b.通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模 型。

c.根据标记信息和已经训练好的语言模型,自动生成创意。

下面以一个实施例对创意自动生成方法与终端进行具体的阐述。如图2所示;

步骤201:建立发明知识网络;对爬取的专利数据预处理,然后抽取数据中的关键 词,用层次聚类的方法将关键词聚类,建立具有层次关联关系的发明知识网络。

分步骤1:首先对专利数据进行分词处理,然后建立专用的停用词库。由于专利数 据信息中含有较多的与要抽取关键词不相关的词汇,为了优化抽取关键词的结果,抽取关 键词前先对专利文献去停用词。停用词库则选择的是中科院统计的中文停用词库,另外,将 专利信息中“该发明、该案例、涉及”等词汇加入停用词库。

分步骤2:将专利文本用向量空间模型表示。把专利摘要中的分好的词统称为项 Team,专利文档用项表示为D(t1,t2,t3…tn),不考虑Tk在文档中的先后顺序和重复;把t1, t2,t3…tn看成一个N维的坐标系,而w1,w2,w3…wn为相应的坐标值,因而D(w1,w2,w3…wn) 被看成是N维空间中的一个向量,D(w1,w2,w3…wn)为文档D的向量空间表示

分步骤3:用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关键 词。

词频TF指的是某一个给定的词语在该文件中出现的次数;TF的英文全称是Term Frequency;

词频的计算公式如下:

逆向文件频率IDF是一个词语普遍重要性的度量。一个词语的IDF,由专利文献文 件总数目除以包含该词语的专利文献的数目,再将得到的商取对数得到。IDF的英文全称是 Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;

逆向文件频率的计算公式如下:

TF-IDF的计算公式如下:

TF–IDF=词频(TF)×逆文档频率(IDF)

TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现 次数成反比。所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行 排列,取排在前面的设定个数的词;

分步骤4:计算关键词之间的相似度,聚类关键词,相似度高的关键词建立一种层 次关联关系。

在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来。

用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:

公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空 间模型中的位置信息、k指的是总的关键词的个数、distance(ti,tj)表示的是两个关键词之 间的欧式距离。

使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻欧式距离最近的两 个关键词,将两个关键词结合,有N个关键词的集合Sn={t1,t2,…tn},聚成K个类。

凝聚层次聚类的步骤如下:

1)建立一个关键词集合di={ti}用来存放和ti相近的关键词,其中i=1,2,3,…k;

2)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;

3)到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出来的 关键词聚类成具有层次关联关系的双层结构,并存入di={ti、ta、tb、tc、td、te}中;

4)再依次寻与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别作为 父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的 关键词有序地存入关键词集合di中,并将具有三层关联关系的关键词集合标记成ti;

5)除去ti,令k=k-1,然后转到第2)步;

分步骤5:根据聚类成功的关键词集合和相应的层次关联关系,形成具有关联关系 的三层模型,建立发明知识网络。

步骤202:输入发明创意需求;发明创意需求即是所要发明或创新领域内的主要关 键词,可以是关键词或是一句完整的话,如果是一句话会自动将这一句话分词,然后选择你 所需要的关键词完成发明创意需求的输入。

步骤203:按照输入的发明创意需求,计算需求与发明知识网络中关键词的关联 度,推荐出关联度高的关键词,只计算关联度不能很好地抽取创意关键词集合,一个关键词 可能同时属于不同的层次关联模型,将语义关联度和层次关联关系的紧密度结合起来计 算,抽取出创意关键词集合即词云。同时推荐出与词云中心词相关的关联信息,包括高频词 和专利文本信息。

分步骤1:按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和层 次聚类后关键词的关联度。

WSR语义关联度计算公式如下:

公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点。RelArtNeti是基于专利文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重。

分步骤2:经过计算后,寻出语义关联度最高的关键词,进而在知识网络中寻 与关联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合 即词云。

聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次 紧密度计算公式如下:

其中,Cl(Ni)表示聚类Ni内部的紧密度,tj则是聚类Ni中的任意关键词,是聚类Ni的中心,|Ni|表示聚类Ni中的关键词数目。

分步骤3:根据上述方法计算关联度和层次紧密度后,将关联度高而且层次紧密度 高的创意关键词集合抽取出来形成词云。

分步骤4:生成词云的同时还会推荐出相应的关联信息。通过计算需求关键词和专 利文本信息的相似度,推荐出专利文本信息。通过计算专利中词频的方式,推荐出高频词, 引导创意的产生。

步骤204:更换词云中心词获取更多与需求相关的关键词,在词云和关联信息中标 记出相关信息,通过训练好的语言模型自动生成发明创意。

分步骤1:爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取的 发明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集。

对爬取到的任一语句首先进行分词,然后对词语进行简单的预处理,这样得到的 语句e∈S可表示为:

e=(),k∈N

其中ti(i=1,2,3…,k)为发明创意信息分词后的词,wi(i=1,2,3…,k)为词语的 语法语义表示项,如一般名词词语NOTH,应用动词词语VAPP,介词、副词词语ATOH,数量词语 UOTH等等。

这些词语的标识项构成的集合记为W:

W=(w1,w2,…,wk),wi∈W,i=1,2,3…,k

目标是为了生成一组语言模型:

语言模型=(rule1,rule2,…,rulek)

每一个规则rulei可表示为:rule=R1×R2×R3×…

其中Ri有三种取值:通配符$(可以为任意词语,或为空Null),词语标识项w以及词 语t,即:Ri∈{$}+W+{t1,t2,t3…}

通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模 型,然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型。

分步骤2:搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词集 合,更换搜索中心词,得到更多与中心词具有关联关系的关键词。

分步骤3:查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信息 以选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。

步骤205:从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导 过程。

以上所述仅为本发明的优先实施例,并不用于限制本发明,基于本发明中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于 本发明保护的范围。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本申请的保护范围之内。

本文发布于:2023-03-31 02:55:24,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/83320.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图