G06F16/335
1.一种专利推荐方法,其特征在于,包括以下步骤:
提供待推荐专利;
根据所述待推荐专利所具有的数据特征获取预推荐专利数据集合;
获取所述待推荐专利的第一特征向量,获取所述预推荐专利数据集合中专利的第二特征向量;
获取推荐专利数据集合,所述推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的所述预推荐专利数据集合中的专利。
2.根据权利要求1所述的专利推荐方法,其特征在于,获取所述待推荐专利的第一特征向量,获取所述预推荐专利数据集合中专利的第二特征向量包括:
构建所述待推荐专利的第一子特征向量、构建所述预推荐专利数据集合中每一件专利的第二子特征向量;
对所述第一子特征向量加权,获得所述第一特征向量;对每一所述第二子特征向量加权,获得所述预推荐专利数据集合中每一件专利的所述第二特征向量。
3.根据权利要求2所述的专利推荐方法,其特征在于,构建所述待推荐专利的第一子特征向量包括:
将所述待推荐专利的文本划分为多个子文本;
获取每一个所述子文本中包含的词条,将每一个所述子文本所包含的词条汇集,形成词条集合;将所述词条集合中所包括的每一个词条按照在所述待推荐专利的文本中出现的频率降序排列,得到所述推荐专利的文本的降序排列词条;
获取所述降序排列词条中前N个词条,将每一个所述子文本中的词条按照所述前N个词条的顺序进行编码,得到所述子文本对应的第一子特征向量编码;
确定每一个所述子文本对应的第一子特征向量权重;
根据每一个所述子文本对应的所述第一子特征向量编码和第一子特征向量权重确定所述待推荐专利的所述第一子特征向量。
5.根据权利要求3或4所述的专利推荐方法,其特征在于,所述子文本包括:
技术问题子文本、发明内容子文本和有益效果子文本。
4.根据权利要求2所述的专利推荐方法,其特征在于,构建所述预推荐专利数据集合中每一件专利的第二子特征向量包括:
将所述预推荐专利数据集合中每一件专利的文本划分为多个子文本;
获取每一个所述子文本中包含的词条,将每一个所述子文本所包含的词条汇集,形成词条集合;将所述词条集合中所包括的每一个词条按照在所述预推荐专利数据集合中每一件专利的文本中出现的频率降序排列,得到所述预推荐专利数据集合中每一件专利的文本的降序排列词条;
获取所述降序排列词条中前N个词条,将每一个所述子文本中的词条按照所述前N个词条的顺序进行编码,得到所述子文本对应的第二子特征向量编码;
确定每一个所述子文本对应的第二子特征向量权重;
根据每一个所述子文本对应的所述第二子特征向量编码和第二子特征向量权重确定所述待推荐专利的所述第二子特征向量。
6.根据权利要求1所述的专利推荐方法,其特征在于,所述数据特征包括:
国际分类号、关键词集合、申请人集合和发明人集合中的任意一种或任意至少两种的组合。
7.根据权利要求1所述的专利推荐方法,其特征在于,所述相关度包括:
所述第一特征向量与第二特征向量之间的距离,或,所述第一特征向量与第二特征向量之间的夹角。
8.一种专利推荐系统,其特征在于,包括:
提供单元,用于提供待推荐专利;
第一处理单元,用于根据所述待推荐专利所具有的数据特征获取预推荐专利数据集合;
第一获取单元,用于获取所述待推荐专利的第一特征向量,以及获取所述预推荐专利数据集合中专利的第二特征向量;
第二获取单元,用于获取推荐专利数据集合,所述推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的所述预推荐专利数据集合中的专利。
9.根据权利要求8所述的专利推荐系统,其特征在于,
第一获取单元还用于构建所述待推荐专利的第一子特征向量:
将所述待推荐专利的文本划分为多个子文本;
获取每一个所述子文本中包含的词条,将所述词条按照出现的频率降序排列,得到所述推荐专利的文本的降序排列词条;
获取所述降序排列词条中前N个词条,将每一个所述子文本中的词条按照所述前N个词条的顺序进行编码,得到所述子文本对应的第一子特征向量编码;
确定每一个所述子文本对应的第一子特征向量权重;
根据每一个所述子文本对应的所述第一子特征向量编码和第一子特征向量权重确定所述待推荐专利的所述第一子特征向量;
所述第一获取单元还用于构建所述预推荐专利数据集合中每一件专利的第二子特征向量:
将所述预推荐专利数据集合中每一件专利的文本划分为多个子文本;
获取每一个所述子文本中包含的词条,将所述词条按照出现的频率降序排列,得到所述推荐专利的文本的降序排列词条;
获取所述降序排列词条中前N个词条,将每一个所述子文本中的词条按照所述前N个词条的顺序进行编码,得到所述子文本对应的第二子特征向量编码;
确定每一个所述子文本对应的第二子特征向量权重;
根据每一个所述子文本对应的所述第二子特征向量编码和第二子特征向量权重确定所述待推荐专利的所述第二子特征向量;
并对所述第一子特征向量加权,获得所述第一特征向量;对每一所述第二子特征向量加权,获得所述预推荐专利数据集合中每一件专利的所述第二特征向量。
10.根据权利要求8所述的专利推荐系统,其特征在于,所述子文本包括:技术问题子文本、发明内容子文本和有益效果子文本。
本发明涉及数据处理技术领域,尤其涉及一种专利推荐方法及专利推荐系统。
近年来,随着中国知识产权事业发展,知识产权交易平台不断涌现,其中专利的运营为知识产权交易平台的重要内容。
在专利交易平台进行专利买卖时,用户往往需要对多件专利进行对比,选择一件专利或者专利数据包进行交易。此时需要在专利池中进行专利推荐,选择与目标专利相似度高的专利。而在进行专利推荐时,通常会基于同一IPC代码的推荐,但基于IPC推荐的专利数量较多,用户很难从海量的专利信息里快速地寻出高度相关目标专利,因此,亟待提出一种能够高效且精准推荐专利的专利推荐方法。
本发明的目的在于提供一种专利推荐方法及专利推荐系统,用于在专利买卖时向用户推荐专利,提高用户的工作效率,节省时间。
为了实现上述目的,本发明提供如下技术方案:
本发明提供一种专利推荐方法,该专利推荐方法包括以下步骤:
提供待推荐专利;
根据待推荐专利所具有的数据特征获取预推荐专利数据集合;
获取待推荐专利的第一特征向量,获取预推荐专利数据集合中专利的第二特征向量;
获取推荐专利数据集合,推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的预推荐专利数据集合中的专利。
优选地,获取待推荐专利的第一特征向量,获取预推荐专利数据集合中专利的第二特征向量包括:
构建待推荐专利的第一子特征向量、构建预推荐专利数据集合中每一件专利的第二子特征向量;
对第一子特征向量加权,获得第一特征向量;对每一第二子特征向量加权,获得预推荐专利数据集合中每一件专利的第二特征向量。
优选地,构建待推荐专利的第一子特征向量包括:
将待推荐专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将每一个子文本所包含的词条汇集,形成词条集合;将词条集合中所包括的每一个词条按照在待推荐专利的文本中出现的频率降序排列,得到推荐专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第一子特征向量编码;
确定每一个子文本对应的第一子特征向量权重;
根据每一个子文本对应的第一子特征向量编码和第一子特征向量权重确定待推荐专利的第一子特征向量。
优选地,构建预推荐专利数据集合中每一件专利的第二子特征向量包括:
将预推荐专利数据集合中每一件专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将每一个子文本所包含的词条汇集,形成词条集合;将词条集合中所包括的每一个词条按照在预推荐专利数据集合中每一件专利的文本中出现的频率降序排列,得到预推荐专利数据集合中每一件专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第二子特征向量编码;
确定每一个子文本对应的第二子特征向量权重;
根据每一个子文本对应的第二子特征向量编码和第二子特征向量权重确定待推荐专利的第二子特征向量。
优选地,子文本包括:技术问题子文本、发明内容子文本和有益效果子文本。
优选地,数据特征包括:国际分类号、关键词集合、申请人集合和发明人集合中的任意一种或任意至少两种的组合。
优选地,相关度包括:第一特征向量与第二特征向量之间的距离,或,第一特征向量与第二特征向量之间的夹角。
通过上述技术方案,本发明的专利推荐方法通过待推荐专利的数据特征获得预推荐专利数据集合,该数据集合中已经包括了与待推荐专利数据特征相同的专利,进一步通过获取待推荐专利和预推荐专利的特征向量,并对特征向量之间的相似度进行判断,小于阈值的专利为推荐专利。通过对预推荐专利中的每一专利进行特征向量的提取,并与预推荐专利的特征向量进行比较,由于特征向量表征了待推荐专利中的技术方案,通过本发明的专利推荐方法能够帮助用户快速获取与待推荐专利相似度高的专利,节省了用户的时间,提升了效率。
本发明还提供一种专利推荐系统,该专利推荐系统包括:
提供单元,用于提供待推荐专利;
第一处理单元,用于根据待推荐专利所具有的数据特征获取预推荐专利数据集合;
第一获取单元,用于获取待推荐专利的第一特征向量,以及获取预推荐专利数据集合中专利的第二特征向量;
第二获取单元,用于获取推荐专利数据集合,推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的预推荐专利数据集合中的专利。
优选地,第一获取单元还用于构建待推荐专利的第一子特征向量:
将待推荐专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将词条按照出现的频率降序排列,得到推荐专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第一子特征向量编码;
确定每一个子文本对应的第一子特征向量权重;
根据每一个子文本对应的第一子特征向量编码和第一子特征向量权重确定待推荐专利的第一子特征向量;
第一获取单元还用于构建预推荐专利数据集合中每一件专利的第二子特征向量:
将预推荐专利数据集合中每一件专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将词条按照出现的频率降序排列,得到推荐专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第二子特征向量编码;
确定每一个子文本对应的第二子特征向量权重;
根据每一个子文本对应的第二子特征向量编码和第二子特征向量权重确定待推荐专利的第二子特征向量;
并对第一子特征向量加权,获得第一特征向量;对每一第二子特征向量加权,获得预推荐专利数据集合中每一件专利的第二特征向量。
优选地,子文本包括:技术问题子文本、发明内容子文本和有益效果子文本。
本发明的专利推荐系统的有益效果与本发明的专利推荐方法的有益效果相同,在此不再赘述。
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的专利推荐方法的流程图;
图2为本发明另一实施例的专利推荐方法的流程图;
图3为本发明第三个实施例的专利推荐方法的流程图;
图4为本发明的第四个实施例的专利推荐方法的流程图;
图5为本发明实施例的专利推荐系统的流程图。
附图标记:
10-提供单元,20-第一处理单元,30-第一获取单元,40-第二获取单元。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在专利交易平台进行专利买卖时,用户往往需要对多件专利进行对比,选择一件专利或者专利数据包进行交易。此时需要在专利池中进行专利推荐,选择与目标专利相似度高的专利。用户从海量专利中获取目标专利,需要花费大量的时间进行人工阅读,工作效率低。
参考图1,本发明实施例提供一种专利推荐方法,包括以下步骤:
S101.提供待推荐专利。
需要说明的是,待推荐专利包括但不限于:专利名称、关键词集合、申请人信息、发明人信息、国际分类号以及引证信息。
S102.根据待推荐专利所具有的数据特征获取预推荐专利数据集合。
由于待推荐专利具有的数据特征包括专利名称、关键词集合、申请人信息、发明人信息、国际分类号以及引证信息,实际应用中可通过上述数据特征中的一项或者任意至少两种的组合获取预推荐专利数据集合。
示例性的,根据国际分类号获取预推荐专利数据。或者,通过关键词以及国际分类号获取预推荐专利数据集合。
S103.获取待推荐专利的第一特征向量,获取预推荐专利数据集合中专利的第二特征向量。
需要说明的是,第一特征向量用来表征待推荐专利的文本特征,第二特征向量用来表征预推荐专利数据集合中专利的文本特征。
S104.获取推荐专利数据集合,推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的预推荐专利数据集合中的专利。
推荐专利数据集合中的专利包括第一特征向量和第二特征向量之间的相关度小于阈值的专利数据,其中的相关度包括:第一特征向量与第二特征向量之间的距离,或者第一特征向量与第二特征向量之间的夹角。
示例性的,第一特征向量和第二特征向量之间的距离可以通过计算二者之间的欧氏距离,或曼哈顿距离,或切比雪夫距离作为二者之间的距离。当然,本发明实施例中的第一特征向量与第二特征向量之间距离的计算不限于上述计算方法。
作为一种可能的实现方式,获取待推荐专利的第一特征向量,获取预推荐专利数据集合中专利的第二特征向量包括:
S1031.构建待推荐专利的第一子特征向量、构建预推荐专利数据集合中每一件专利的第二子特征向量。
S1032.对第一子特征向量加权,获得第一特征向量。
需要说明的是,根据第一子特征向量所在的子文本进行加权。例如:第一特征向量包含三个第一子特征向量,三个子文本所占的权重分别是:0.1,0.7和0.2,则根据上述权重进行加权,得到第一特征向量。
S1033.对每一第二子特征向量加权,获得预推荐专利数据集合中每一件专利的第二特征向量。
需要说明的是,根据第二子特征向量所在的子文本进行加权。例如:第一特征向量包含三个第二子特征向量,三个子文本所占的权重分别是:0.1,0.7和0.2,则根据上述权重进行加权,得到第二特征向量。
示例性的,构建待推荐专利的第一子特征向量包括以下步骤:
S1031-a1.将待推荐专利的文本划分为多个子文本。
示例性的,将待推荐专利划分为:技术问题子文本、发明内容子文本和技术效果子文本。由于每一件专利数据均包括了上述三项内容,因此,将待推荐专利划分为上述三部分可全面反映待推荐专利的特征。
S1031-a2.获取每一个子文本中包含的词条,将每一个子文本所包含的词条汇集,形成词条集合;将词条集合中所包括的每一个词条按照在待推荐专利的文本中出现的频率降序排列,得到推荐专利的文本的降序排列词条。
需要说明的是,在对每一个子文本所包含的词条进行汇集得到词条集合时,需要将停用词删除。
S1031-a3.获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第一子特征向量编码。
需要说明的是,前N个词条为出现频率最高的词条。在对每一个子文本进行编码时,按照前N个词条的顺序进行编码,如果子文本中包含有前N个词条中的词条,则在对应位置编码为1,没有出现的词条的对应位置编码为0。例如:N为500,则对应生成的第一特征向量中包含500个变量,子文本中包含有上述500个词条中的第1个、第3个和第500个词条,则此子文本对应的第一特征子向量的编码的第1位、第3位和第500位为1,其余为0,即该子文本的第一特征子向量的编码为(1,0,1……,1)。
S1031-a4.确定每一个子文本对应的第一子特征向量权重。
需要说明的是,第一子特征向量的权重是根据词频以及逆文本频率指数进行确定的。其中词频为该词条在文本中出现的频率,逆文本频率指数是词条普遍重要性的度量。由所有子文本的数量除以包含该词条的子文件的数量,再将得到的商取以10为底的对数得到。将词频和逆文本频率指数之积作为第一子特征向量的权重。
S1031-a5.根据每一个子文本对应的第一子特征向量编码和第一子特征向量权重确定待推荐专利的第一子特征向量。
示例性的,计算得到第1个词条,第3个词条和第500个词条的词频和逆文本频率指数之积分别为:0.021,0.032和0.08,则第一特征子向量为(0.021,0,0.032,…0.008)。
作为一种可能的实现方式,构建预推荐专利数据集合中每一件专利的第二子特征向量包括:
S1031-b1.将预推荐专利数据集合中每一件专利的文本划分为多个子文本;
S1031-b2.获取每一个子文本中包含的词条,将每一个子文本所包含的词条汇集,形成词条集合;将词条集合中所包括的每一个词条按照在预推荐专利数据集合中每一件专利的文本中出现的频率降序排列,得到预推荐专利数据集合中每一件专利的文本的降序排列词条;
S1031-b3.获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第二子特征向量编码;
S1031-b4.确定每一个子文本对应的第二子特征向量权重;
S1031-b5.根据每一个子文本对应的第二子特征向量编码和第二子特征向量权重确定待推荐专利的第二子特征向量。
本发明实施例还提供一种专利推荐系统,包括:
提供单元10,用于提供待推荐专利;
第一处理单元20,用于根据待推荐专利所具有的数据特征获取预推荐专利数据集合;
第一获取单元30,用于获取待推荐专利的第一特征向量,以及获取预推荐专利数据集合中专利的第二特征向量;
第二获取单元40,用于获取推荐专利数据集合,推荐专利数据集合包括第二特征向量和第一特征向量之间的相关度小于阈值的预推荐专利数据集合中的专利。
作为一种可能的实现方式,第一获取单元30还用于构建待推荐专利的第一子特征向量:
将待推荐专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将词条按照出现的频率降序排列,得到推荐专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第一子特征向量编码;
确定每一个子文本对应的第一子特征向量权重;
根据每一个子文本对应的第一子特征向量编码和第一子特征向量权重确定待推荐专利的第一子特征向量;
第一获取单元30还用于构建预推荐专利数据集合中每一件专利的第二子特征向量:
将预推荐专利数据集合中每一件专利的文本划分为多个子文本;
获取每一个子文本中包含的词条,将词条按照出现的频率降序排列,得到推荐专利的文本的降序排列词条;
获取降序排列词条中前N个词条,将每一个子文本中的词条按照前N个词条的顺序进行编码,得到子文本对应的第二子特征向量编码;
确定每一个子文本对应的第二子特征向量权重;
根据每一个子文本对应的第二子特征向量编码和第二子特征向量权重确定待推荐专利的第二子特征向量;
并对第一子特征向量加权,获得第一特征向量;对每一第二子特征向量加权,获得预推荐专利数据集合中每一件专利的第二特征向量。
作为一种可能的实现方式,子文本包括:技术问题子文本、发明内容子文本和有益效果子文本。
在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
本文发布于:2023-03-12 19:03:33,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/67909.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |