G06F16/31 G06F16/33 G06F40/279
1.一种跨技术领域核心专利数据识别方法,该方法为内嵌在计算机内的程序,其特征在于,包括:
步骤1:获取检索关键词,使用关键词检索获得重要专利数据集;
步骤2:基于TRIZ理论构建核心专利指标模型;
步骤3:使用核心专利指标模型构建核心专利识别模型;
步骤4:使用核心专利识别模型识别核心专利数据。
2.根据权利要求1所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的步骤1具体为:
步骤1-1:获取用于专利检索的关键词;
步骤1-2:使用关键词在专利数据库中进行检索,获得重要专利数据集;
步骤1-3:对重要专利数据集进行去重降噪以及数据清洗处理,获得最终的重要专利数据集。
3.根据权利要求2所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的重要专利数据集包括经过检索所得专利中每个专利的被引用次数、引证专利数量、引证非专利文献数量、权利要求数量、IPC数量、发明人数量、专利类型、专利维持年限、专利权人数量、同族专利数量、同族专利地区数量、专利是否实施、专利是否有诉讼以及专利类型对应的专利有效年限。
4.根据权利要求3所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的核心专利指标子模型包括理想解准则层指标X1、进化准则层指标X2和矛盾准则层指标X3;
所述的理想解准则层指标X1包括:被引用次数X11、引证专利数量X12和引证非专利文献数量X13;
所述的进化准则层指标X2包括权利要求数量X21、IPC数量X22、发明人数量X23和专利维持年限率X24;
所述的矛盾准则层指标X3包括专利权人数量X31、同族专利数量X32、同族专利地区数量X33、专利实施指标X34和专利诉讼指标X35。
5.根据权利要求4所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的专利维持年限率X24的具体计算方法为:
根据专利类型获得专利的有效年限,专利类型与专利有效年限的具体对应关系为:发明专利的专利有效年限为20年,实用新型专利和外观设计专利的专利有限年限均为10年;
计算X24:
6.根据权利要求4所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的专利实施指标X34具体为:
所述的专利诉讼指标X35具体为:
7.根据权利要求1所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的步骤3具体为:
步骤3-1:对步骤2获取的核心专利指标模型中的指标数据进行预处理;
步骤3-2:使用三种熵值计算方法计算信息熵;
步骤3-3:选取最优熵值计算方法;
步骤3-4:通过步骤3-3选取的最优熵值计算方法获取核心专利识别模型中各指标的得分权重;
步骤3-5:使用步骤3-4获得的各指标得分权重构建核心专利识别模型。
8.根据权利要求7所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的步骤3-1具体为:
步骤1获取的数据集中包括的专利M={M1,M2,…,Mm},其中m为检索到的重要专利数量,核心专利指标模型中的指标为N={N1,N2,…,Nn},其中n为识别模型中指标的数量,被识别专利的指标值为aij(i=1,2,…,m,j=1,2,…,12),对原始数据进行非负数化处理,得到预处理后的指标值bij,计算方法为:
然后构建核心专利识别指标矩阵:
其中,bij为第j个指标下的第i个被识别专利的指标值。
9.根据权利要求7所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的步骤3-2具体为:
三种熵值计算方法包括原始熵权法和两种反熵权法;
设有n中不同状态的系统,每一种状态出现概率为pij,其计算公式为:
其中,0≤pij≤1且pij为第j项指标下第i个被识别专利的特征比重;
在熵权法的计算方法下,设hj1为第j项指标的信息熵,熵权法的熵值公式为:
设wj为第j项指标的权重,熵权法的熵权公式为:
第一反熵权法的反熵值公式为:
第一反熵权法的反熵权公式为:
第二反熵权法的反熵值公式为:
第二反熵权法的反熵权公式为:
其中,wj1为熵权法确定的权重,wj2为第一反熵权法确定的权重,wj3为第二反熵权法确定的权重,hj1、hj2和hj3分别为熵权法、第一反熵权法和第二反熵权法的信息熵熵值;
所述的步骤3-3具体为:使用上述方法计算获得每种方法的熵值或反熵值后,选取熵值最大或反熵值最小的一组作为最优熵值计算方法。
10.根据权利要求7所述的一种跨技术领域核心专利数据识别方法,其特征在于,所述的步骤3-5中核心专利识别模型的评分函数为:
其中,bij为经过预处理的指标值;wj为第j个核心识别指标的权重,wj由最优熵值计算方法下的熵权计算方法获得;
所述的核心专利的选取规则为:选取评分排名前10%的重要专利作为核心专利。
本发明涉及专利识别技术领域,尤其是涉及一种跨技术领域核心专利数据识别方法。
现阶段的大数据时代,数据量出现爆炸式增长,与之伴随的就是信息检索难度的提高。目前专利已经作为我国高科技技术的重要体现,核心专利数据识别是通过对专利的代表性特征的识别方法而将核心专利从技术竞争情报信息中提取出来。核心专利的重要地位在企业专利布局和专利战略的制定中是不可忽视的,更是对企业核心竞争力的提升有决定性意义。现有的核心专利识别方法主要以单纯指标计量为主,一般缺少理论支持和逻辑规律,也不能够适应专业领域复杂情况下的技术创新需要和现代化的市场竞合途径。因此,创建一种核心专利识别指标模型及方法对于复杂领域技术创新和企业经济活动有重要的影响。
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑范围更加全面、筛选专利更加准确的跨技术领域核心专利数据识别方法。
本发明的目的可以通过以下技术方案来实现:
一种跨技术领域核心专利数据识别方法,该方法为内嵌在计算机内的程序,包括:
步骤1:获取检索关键词,使用关键词检索获得重要专利数据集;
步骤2:基于TRIZ理论构建核心专利指标模型;
步骤3:使用核心专利指标模型构建核心专利识别模型;
步骤4:使用核心专利识别模型识别核心专利数据。
优选地,所述的步骤1具体为:
步骤1-1:获取用于专利检索的关键词;
步骤1-2:使用关键词在专利数据库中进行检索,获得重要专利数据集;
步骤1-3:对重要专利数据集进行去重降噪以及数据清洗处理,获得最终的重要专利数据集。
更加优选地,所述的重要专利数据集包括经过检索所得专利中每个专利的被引用次数、引证专利数量、引证非专利文献数量、权利要求数量、IPC数量、发明人数量、专利类型、专利维持年限、专利权人数量、同族专利数量、同族专利地区数量、专利是否实施、专利是否有诉讼以及专利类型对应的专利有效年限。
更加优选地,所述的核心专利指标子模型包括理想解准则层指标X1、进化准则层指标X2和矛盾准则层指标X3;
所述的理想解准则层指标X1包括:被引用次数X11、引证专利数量X12和引证非专利文献数量X13;
所述的进化准则层指标X2包括权利要求数量X21、IPC数量X22、发明人数量X23和专利维持年限率X24;
所述的矛盾准则层指标X3包括专利权人数量X31、同族专利数量X32、同族专利地区数量X33、专利实施指标X34和专利诉讼指标X35。
更加优选地,所述的专利维持年限率X24的具体计算方法为:
根据专利类型获得专利的有效年限,专利类型与专利有效年限的具体对应关系为:发明专利的专利有效年限为20年,实用新型专利和外观设计专利的专利有限年限均为10年;
计算X24:
更加优选地,所述的专利实施指标X34具体为:
所述的专利诉讼指标X35具体为:
优选地,所述的步骤3具体为:
步骤3-1:对步骤2获取的核心专利指标模型中的指标数据进行预处理;
步骤3-2:使用三种熵值计算方法计算信息熵;
步骤3-3:选取最优熵值计算方法;
步骤3-4:通过步骤3-3选取的最优熵值计算方法获取核心专利识别模型中各指标的得分权重;
步骤3-5:使用步骤3-4获得的各指标得分权重构建核心专利识别模型。
更加优选地,所述的步骤3-1具体为:
步骤1获取的数据集中包括的专利M={M1,M2,…,Mm},其中m为检索到的重要专利数量,核心专利指标模型中的指标为N={N1,N2,…,Nn},其中n为识别模型中指标的数量,被识别专利的指标值为aij(i=1,2,…,m,j=1,2,…,12),对原始数据进行非负数化处理,得到预处理后的指标值bij,计算方法为:
然后构建核心专利识别指标矩阵:
其中,bij为第j个指标下的第i个被识别专利的指标值。
更加优选地,所述的步骤3-2具体为:
三种熵值计算方法包括原始熵权法和两种反熵权法;
设有n中不同状态的系统,每一种状态出现概率为pij,其计算公式为:
其中,0≤pij≤1且pij为第j项指标下第i个被识别专利的特征比重;
在熵权法的计算方法下,设hj1为第j项指标的信息熵,熵权法的熵值公式为:
设wj为第j项指标的权重,熵权法的熵权公式为:
第一反熵权法的反熵值公式为:
第一反熵权法的反熵权公式为:
第二反熵权法的反熵值公式为:
第二反熵权法的反熵权公式为:
其中,wj1为熵权法确定的权重,wj2为第一反熵权法确定的权重,wj3为第二反熵权法确定的权重,hj1、hj2和hj3分别为熵权法、第一反熵权法和第二反熵权法的信息熵熵值;
所述的步骤3-3具体为:使用上述方法计算获得每种方法的熵值或反熵值后,选取熵值最大或反熵值最小的一组作为最优熵值计算方法。
更加优选地,所述的步骤3-5中核心专利识别模型的评分函数为:
其中,bij为经过预处理的指标值;wj为第j个核心识别指标的权重,wj由最优熵值计算方法下的熵权计算方法获得;
所述的核心专利的选取规则为:选取评分排名前10%的重要专利作为核心专利。
与现有技术相比,本发明具有以下优点:
本发明中的跨技术领域核心专利数据识别方法,设置了12个指标分别代表了核心专利在科技质量、经济价值和技术关联性上的优势特征,然后通过构建核心专利识别模型,以评价打分的形式获取评分最高的核心专利,选取出的核心专利所考虑的范围更加全面,也更加准确,识别的精度也更高;同时本发明中构建的核心专利识别模型以TRIZ理论为基础,为核心专利的选取增加了理论支持。
图1为本发明中核心专利识别方法的流程示意图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种跨技术领域核心专利数据识别方法,该方法为内嵌在计算机内的程序,其流程示意如图1所示,包括:
步骤1:获取检索关键词,使用关键词检索获得重要专利数据集;
具体包括以下步骤:
步骤1-1:获取用于专利检索的关键词;
关键词由操作人员键入,关键词的选取利用知识图谱和TRIZ理论等相关工具增强语义检索,选取最能够代表所需专利特点的关键词;
TRIZ理论由前苏联人G.S.Altshuller等人创立于1946年,是一种发明问题解决理论。现代TRIZ理论体系包括了TRIZ理论核心思想、技术系统进化法则、发明创造原理、创新问题标准解法、发明问题解决算法ARIZ、知识库和冲突矩阵等。TRIZ理论是科学方法和哲学思想的有机结合,是一种辩证的系统化的理论;TRIZ理论还成功地揭示了技术创新、技术进化的内在规律和原理,TRIZ理论不仅坚持了技术创新的过程概论,还能够提供系统性解决问题的理论方法和工具。在核心专利识别研究工作中,TRIZ理论提供了大量丰富的实用的理论性支撑。
步骤1-2:使用关键词在专利数据库中进行检索,获得重要专利数据集;
本实施例中专利数据来源于ISI Web of Knowledge数据库平台中的德温特创新专利索引数据库DII和智慧芽专利数据库。
本实施例中重要专利数据集包括检索所得每个专利的被引用次数、引证专利数量、引证非专利文献数量、权利要求数量、IPC数量、发明人数量、专利类型、专利维持年限、专利权人数量、同族专利数量、同族专利地区数量、专利是否实施、专利是否有诉讼以及专利类型对应的专利有效年限。
步骤1-3:对重要专利数据集进行去重降噪以及数据清洗处理,获得最终的重要专利数据集。
本实施例中去重降噪去除重复和不相关的数据,最终获得所需的待标引专利数据。
数据清洗主要去除或补全明显有错误或缺失的数据。
步骤2:基于TRIZ理论构建核心专利指标模型;
本实施例中的指标体系以TRIZ的核心思想和专利的三性的解读为基础,构建代表了理想解、进化和矛盾的12个指标;
核心专利指标子模型包括理想解准则层指标X1、进化准则层指标X2和矛盾准则层指标X3。
理想解准则层指标X1包括:被引用次数X11、引证专利数量X12和引证非专利文献数量X13,理想解准则层代表了核心技术研发中心的技术关联性,被引用次数X11表示后续专利引用次数越多,专利技术价值就越高;引证专利数量X12表示专利引用的专利文献数越多,对同类专利的改进就越多,技术发展就越持续;引证非专利文献数量X13表示专利引用的非专利文献数量越多,与科学的关联性越高。
进化准则层指标X2包括权利要求数量X21、IPC数量X22、发明人数量X23和专利维持年限率X24,进化准则层反映了核心专利自身的客观性质,权利要求数量X21体现了权利要求越多,技术保护范围越大,发明点也越多,专利创新度越高;IPC数量X22体现了专利IPC数量越多,技术覆盖范围较广,专利质量越高;指标发明人数量X23体现了专利研发投入的人员越多,专利质量越高;专利维持年限率X24体现了专利维持时间越长,维持费用越高,表明预期收益越高,专利竞争力越强。
矛盾准则层指标X3包括专利权人数量X31、同族专利数量X32、同族专利地区数量X33、专利实施指标X34和专利诉讼指标X35,矛盾准则层体现了核心专利的技术、经济效益。专利权人数量X31说明合作机构越多,合作开发的专利价值较高,技术转化效果越好;同族专利数量X32说明同族专利数越多,国际市场布局和技术保护范围越广,经济价值越高;同族专利地区数量X33说明同族专利国家/地区越多,代表专利的经济市场和价值越好;专利实施指标X34说明专利有许可、转让等实施成果的,代表专利具有较高的经济效益;专利诉讼指标X35说明有专利诉讼的专利往往具有较大的市场价值,只有对双方市场地位有影响才会进行专利诉讼。
各个准则层的含义如表1所示。
表1准则层的含义
专利维持年限率X24的具体计算方法为:
根据专利类型获得专利的有效年限,专利类型与专利有效年限的具体对应关系为:发明专利的专利有效年限为20年;实用新型专利和外观设计专利的专利有限年限均为10年;
计算X24:
专利实施指标X34具体为:
所述的专利诉讼指标X35具体为:
步骤3:使用核心专利指标模型构建核心专利识别模型;
具体步骤为:
步骤3-1:对步骤2获取的核心专利指标模型中的指标数据进行预处理;
步骤1获取的数据集中包括的专利M={M1,M2,…,Mm},其中m为检索到的重要专利数量,核心专利指标模型中的指标为N={N1,N2,…,Nn},其中n为识别模型中指标的数量,被识别专利的指标值为aij(i=1,2,…,m,j=1,2,…,12),对原始数据进行非负数化处理,得到预处理后的指标值bij,计算方法为:
然后构建核心专利识别指标矩阵:
其中,bij为第j个指标下的第i个被识别专利的指标值。
步骤3-2:使用三种熵值计算方法计算信息熵;
三种熵值计算方法包括原始熵权法和两种反熵权法;
设有n中不同状态的系统,每一种状态出现概率为pij,其计算公式为:
其中,0≤pij≤1且pij为第j项指标下第i个被识别专利的特征比重;
在熵权法的计算方法下,设hj1为第j项指标的信息熵,熵权法的熵值公式为:
设wj为第j项指标的权重,熵权法的熵权公式为:
第一反熵权法的反熵值公式为:
第一反熵权法的反熵权公式为:
第二反熵权法的反熵值公式为:
第二反熵权法的反熵权公式为:
其中,wj1为熵权法确定的权重,wj2为第一反熵权法确定的权重,wj3为第二反熵权法确定的权重,hj1、hj2和hj3分别为熵权法、第一反熵权法和第二反熵权法的信息熵熵值;
步骤3-3:选取最优的熵值计算方法,具体选取方法为:
使用上述方法计算获得每种方法的熵值或反熵值后,选取熵值最大或反熵值最小的一组作为最优熵值计算方法;
步骤3-4:获取核心专利识别模型中各指标的得分权重,即在步骤3-3选取的最优熵值计算方法下计算的熵权;
步骤3-5:使用步骤3-4获得的各指标得分权重构建核心专利识别模型,模型的评分函数为:
其中,bij为经过预处理的指标值;wj为第j个核心识别指标的权重,wj由最优熵值计算方法下的熵权计算方法获得;
步骤4:使用核心专利识别模型识别核心专利数据。
下面提供一种具体实施例:
步骤1:对与“智能传感器”相关的专利进行检索,专利数据来源于ISI Web ofKnowledge数据库平台中的德温特创新专利索引数据库DII和智慧芽专利数据库patsnap。通过检索,以及去重降噪、数据清洗,共完成标引4027件。进一步利用知识图谱和TRIZ理论相关工具,最终获取了26件智能传感器技术领域的重要专利。
基于现阶段的互联网大数据的特点,知识图谱以其强大的语义处理能力和开放组织能力,为复杂领域技术的专利检索质量奠定了基础。构建知识图谱,这一过程包含了信息提取、知识表示、知识融合、知识推理四个阶段。通过信息提取,可以采用一系列自动或者半自动的技术,从数据库中提取出实体、关系、属性等知识要素。知识表示则通过一定手段对提取的知识要素进行表示,便于进一步使用。通过知识融合,可以消除要素与事实对象之间的歧义。知识推理则是在已有的知识库基础上,进一步挖掘其隐性知识,深度检索在跨领域技术中的专利。现代TRIZ理论体系所包括的8个技术系统进化法则、40个发明创造原理、76个创新问题标准解法、发明问题解决算法ARIZ、冲突矩阵和物-场分析等理论工具,都能够为专利的深度挖掘提供基础和方向,从而为核心专利识别的实际应用提供条件。
步骤2:基于TRIZ理论构建核心专利指标模型,具体的指标模型如上述步骤2中的指标模型。
步骤3:使用核心专利指标模型构建核心专利识别模型。
智能传感器技术是新兴的高科技技术产业,本身就属于前沿热门技术。通过选取复杂领域技术下的patsnap专利价值排序的样本数据,进行预处理。
具体的,在本实施例中,根据这12个指标的预处理后数据矩阵,通过matlab进行熵权法和两个反熵权法的公式计算,得到三种信息熵值,并绘制熵值/反熵值的统计图。因为反熵值与指标的差异度成正比,熵值与指标的差异度成反比,可以发现指标X13、指标X33和指标X35的差异度都较大,意味着这类指标的信息量较大,权重较高。并且,第二反熵值法能够更加剧烈地反映了各指标的差异度大小。
其次,本实施例根据公式计算得到这三种信息熵的各指标权重,绘制统计图进行比较。熵权w1的X31和X34指标权重都存在极小的极端情况,这是由于熵权法对指标差异度的灵敏性远胜于反熵权法。若指标权重过小,就会导致其失去比较该指标进行核心专利识别的意义,这种情况应当避免。
进一步的,发现第一反熵权和第二反熵权的不同之处在于后者更加注重指标差异度。第二反熵权在指标X13、指标X33和指标X35的权重分配上显著地高于其他指标,能够更加鼓励我国智能传感器技术的发展积极性。因此,第二种反熵权法更适合本实施例具体研究的智能传感器技术领域,指标权重更合理可行。
本实施例的智能传感器技术领域的识别模型使用第二反熵权法,计算过程如下。
具体的,计算指标“被引频次X11”下专利M1的预处理后数据,所对应的特征比重
其次,计算指标“被引频次X11”的反熵值:
同样的,在本实施例中,可计算得到指标X11-X35的反熵值。
其次,计算指标“被引频次X11”的权重:
同样的,在本实施例中,可计算得到指标X11-X35的权重。
进一步的,将专利M1预处理后的识别指标,通过线性加权计算专利评分,可得专利M1的识别评分:
同样的,在本实施例中,可计算得到专利M1-M26的核心专利识别评分。
在计算出M1-M26所有重要专利的评分后,筛选出评分排名的前10%的专利,完成核心专利数据的识别。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
本文发布于:2023-03-13 00:08:46,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68572.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |