G06/K962
1.一种专利技术生命周期分析方法,其特征在于:
S1、收集专利文档数据;
S2、选取n个专利指标,将所有专利文档按照n个专利指标进行分析,得到如下原始数据X,m为年份,
S3、平滑处理,第一年和第m年数据保持不变,移动平均值法计算后的数据定义如下:
S4、归一化处理,将平滑处理后的数据分别除以其在各年中的最大值,归一化处理后的数据集定义为:
S5、计算归一化后数据的协方差矩阵:S=(s),其中
S6、求协方差矩阵S的特征值λ≥λ≥…λ>0及相应的标准化正交特征向量V:
特征向量V=(a,a,……,a),
S7、利用特征值计算方差贡献率t:每一个特征值除以特征值总和,
即:
S8、计算累积方差贡献率G(r):第一个方差贡献率、前两个方差贡献率之和,……,所有方差贡献率之和,
即:
S9、选取主成分个数r,并计算r个主成分中每个主成分得分:主成分对应的特征向量乘以标准化数据阵,
F=aY+a Y+…+aY,i=1,2,…,r。
2.如权利要求1所述的一种专利技术生命周期分析方法,其特征在于:
还包括步骤S10,根据主成分得分,利用K最近邻分类器对主成分得分分类,确定专利生命周期所处的阶段。
3.如权利要求1所述的一种专利技术生命周期分析方法,其特征在于:
所述还包括步骤S10,将选取的主成分得分画折线图,并根据技术生命周期的四阶段特征分析折线图。
4.如权利要求1所述的一种专利技术生命周期分析方法,其特征在于:
所述步骤S8选取主成分个数方法为:累积贡献率G(r)≥85%时,r的最小值。
本发明属于专利分析技术领域,更具体地涉及一种基于成分分析和K最近邻相结合的专利技术生命周期分析方法。
专利情报中包含有很多隐性技术信息,透露出通过对其进行挖掘分析,可以分析技术的发展脉络,科学确定企业技术创新的方向和有效提升专利运用效率,具有较好的可信性和准确性。利用专利信息判断技术所处生命周期并进行预测分析,是当前研究的热点。
技术生命周期是描述一项技术的使用,从基础应用科学衍生发展而来,一般将技术生命周期划分为四个阶段:萌芽期、成长期、成熟期和衰退期。每个阶段的专利信息都会显示出不同的特征,因此可以通过技术生命周期所处阶段掌握技术发展趋势做出科学决策。目前常用的技术生命周期分析方法有s曲线法、技术生命周期图示法、相对指标法、相对增长率法和TCT五种法,这五种方法均是基于单指标的分析,比如专利申请量或专利人的申请数量随时间的变化趋势,其实,事实上影响专利技术生命周期的指标不仅仅这两个指标,还有比如专利分类号、发明人数量、科技引文数量等等许多的指标,他们对专利技术生命周期的影响也不容忽视,而且对多指标的研究更具有合理性。
2011年西南交通大学的高利丹作出了多指标的专利技术生命周期研究,文中采用最近邻分类器分析技术生命周期信息,相对比较简单,但是最近邻分类算法属于惰性算法,内存开销大,对测试样本分类时计算量较大,会出现样本不平衡问题。
针对现有技术存在的不足之处,本发明提出了一种专利技术生命周期分类方法,该分类方法采用特征提取和分类算法相结合的方式,设计了基于主成分分析和最近邻算法的分类器,对技术生命周期的多个指标分析,有效判断技术创新程度,从而综合预测技术未来发展趋势。
为实现上述目的,本发明采用如下技术方案:
一种专利技术生命周期分析方法,其特征在于:
S1、收集专利文档数据;
S2、选取n个专利指标,将所有专利文档按照n个专利指标进行分析,得到如下原始数据X,m为年份,
S3、平滑处理,第一年和第m年数据保持不变,移动平均值法计算后的数据定义如下:
S4、归一化处理,将平滑处理后的数据分别除以其在各年中的最大值,归一化处理后的数据集定义为:
S5、计算归一化后数据的协方差矩阵:S=(s),其中
S6、求协方差矩阵S的特征值λ≥λ≥…λ>0及相应的标准化正交特征向量V:
特征向量V=(a,a,……,a),
S7、利用特征值计算方差贡献率t:每一个特征值除以特征值总和,
即:
S8、计算累积方差贡献率G(r):第一个方差贡献率、前两个方差贡献率之和,……,所有方差贡献率之和,
即:
S9、选取主成分个数r,并计算r个主成分中每个主成分得分:主成分对应的特征向量乘以标准化数据阵,
F=aY+a Y+…+aY,i=1,2,…,r。
本技术方案进一步的优化,还包括步骤S10,根据主成分得分,利用K最近邻分类器对主成分得分分类,确定专利生命周期所处的阶段。
本技术方案进一步的优化,所述还包括步骤S10,将选取的主成分得分画折线图,并根据技术生命周期的四阶段特征分析折线图。
本技术方案进一步的优化,所述步骤S8选取主成分个数方法为:累积贡献率G(r)≥85%时,r的最小值。
区别于现有技术,上述技术方案具有如下优点:
1.使用主成分分析法能把多指标降维为少数的综合指标,提高了专利生命周期分析的速度。
2.该分类方法使用K最近邻分类器对测试样本数据进行分类,提高了专利生命周期分析的精度。
图1为传统的专利多指标发展趋势折线图;
图2为纳米生物传感器主成分得分图;
图3为薄膜晶体管液晶显示技术主成分得分图;
图4为阴极射像管显示技术主成分得分图。
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明优选一实施例,一种专利技术声明周期分类方法,它包括以下步骤:
S1、收集专利文档数据,
收集数据:该实施例是对专利数据生命周期的分析研究,因此需要从合适的专利数据库中提取专利数据。专利数据库有免费和商业两类。但由于免费专利数据库的语言和结果格式多样,因此不能很好的提取指标变量,所以该文的指标数据主要来源于商业专利数据库——德温特创新索引数据库(简称DII)。
以纳米生物传感器(Nano-biosensor serves,简称NBS)为研究对象进行专利技术生命周期的研究,周期为1985-2008年。另外选取两个相似先验技术作为K-近邻分类器的训练集:薄膜晶体管液晶显示技术(Thin FilmTransistor Liquid Crystal Display,简称TFT-LCD):1978-1990年的萌芽期,1991-2007年的成长期;阴极射像管显示技术(CathodeRayTube,简称CRT):1973-2000年的成熟期,2001-2008年的衰退期。
S2、选取n个专利指标,将所有专利文档按照n个专利指标进行分析,得到如下原始数据X,m为年份,
参阅图1所示,为传统的专利多指标发展趋势折线图。图1基于专利文献的技术生命周期分析模式研究论文(高利丹,西南交通大学硕士学位论文,2011年)中采用专利传统多指标分析方法处理。
传统的专利技术生命周期多是对专利申请人和专利申请数量两个指标的研究,指标数据的较少提取影响实验结果的客观性,因此该文通过调研影响专利周期的因素,从DII中提取了13个专利指标用于专利技术生命周期的研究。13个指标分别是:专利申请量(indicator 1)、优先权专利申请量(indicator 2)、公司专利权人数量(indicator 3)、机构专利权人数量(indicator 4)、发明人数量(indicator 5)、科学引文数量(indicator6)、专利引文数量(indicator 7)、IPC数量(indicator 8)、IPC top5数量(indicator 9)、IPC top10数量(indicator 10)、MC(indicator 11)、MC top5数量(indicator 12)、MCtop10数量(indicator 13)。
本发明以纳米生物传感器数据为实施例一,该实施例中n为年份,m为专利指标,因此,n=24,m=13,得到原始数据矩阵X,如下:
S3、平滑处理,第一年和第n年数据保持不变,移动平均值法计算后的数据定义如下:
原始数据矩阵X平滑处理后得到数据矩阵如下:
S4、归一化处理,将平滑处理后的数据分别除以其在各年中的最大值,归一化处理后的数据集定义为:
数据矩阵归一化处理后得到数据矩阵如下:
S5、计算归一化后数据的协方差矩阵:S=(s),其中
计算数据矩阵的协方差矩阵S,得到如下值:
S6、求协方差矩阵S的特征值λ≥λ≥…λ>0及相应的标准化正交特征向量V:
特征向量V=(a,a,……,a),
该实施例协方差矩阵S的特征值[λ,λ,…,λ]=[1.424067108,0.043200726,0.003943523,0.000556867,0.000126844,0.000104319,0.000031284,0.000014929,0.000010130,0.000004721,0.000003165,0.000001953,0.000000626]
该实施例标准化正交特征向量V的值如下:
S7、利用特征值计算方差贡献率t:每一个特征值除以特征值总和,即:
该实施例[λ,λ,…,λ]对应的方差贡献率为[0.967393390788461,0.0293469992819856,0.0026789034687487,0.000378289555526965,0.00008616738865728,0.0000708655354652318,0.0000212519998825547,0.0000101413639684064,0.00000688135532971816,0.00000320704875106824,0.00000215026524039108,0.00000132644715443356,0.00000042550082805501]。
S8、计算累积方差贡献率G(r):第一个方差贡献率、前两个方差贡献率之和,……,所有方差贡献率之和,即:
该实施例计算累积方差贡献率:0.967393390788,0.996740390070,0.999419293539,0.999797583095,0.999883750483,0.999954616019,0.999975868019,0.999986009383,0.999992890738,0.999996097787,0.999998248052,0.999999574,1。
S9、选取主成分个数r,并计算r个主成分中每个主成分得分:主成分对应的特征向量乘以标准化数据阵,
F=aY+aY+…+aY,i=1,2,…,r。
主成分意思是用综合化的少数指标代表原始的多个指标,起到降维的作用,由于主成分得分是主成分的具体化,所以说主成分得分就是主成分的具体评估成绩。
选取主成分个数r:一般的使用累积贡献率来选取(累积贡献率≥85%)。
由于第一主成分贡献率为0.967393390788,显著大于0.85,因此该例中只需提取第一个主成即可,r=1。
实施例二
该实施例以薄膜晶体管液晶显示技术,实施例中n为年份,m为专利指标,因此,n=30,m=13,得到原始数据矩阵X,如下:
原始数据矩阵X平滑处理后得到数据矩阵如下:
数据矩阵归一化处理后得到数据矩阵如下:
计算数据矩阵的协方差矩阵S,得到如下值:
该实施例二协方差矩阵S的特征值[λ,λ,…,λ]=[0.0000000102,0.0000000406,0.0000048089,0.0000087108,0.0000109586,0.0000439284,0.0001075078,0.0002337249,0.0010010296,0.0017922160,0.0048910841,0.0441366666,1.1860855354]
该实施例二的标准化正交特征向量V的值如下:
该实施例二[λ,λ,…,λ]对应的方差贡献率为[0.9578212047,0.0356424844,0.0039497860,0.0014473007,0.0008083796,0.0001887441,0.0000868177,0.0000354743,0.0000088496,0.0000070344,0.0000038834,0.0000000328,0.0000000083]
该实施例二计算累积方差贡献率:0.957821205,0.993463689,0.997413475,0.998860776,0.999669155,0.9998579,0.999944717,0.999980192,0.999989041,0.999996076,0.999999959,0.999999992,1。
由于第一主成分贡献率为0.9578212047,显著大于0.85,因此该例中只需提取第一个主成即可,r=1。
实施例三
该实施例以阴极射像管显示技术,实施例中n为年份,m为专利指标,因此,n=36,m=13,得到原始数据矩阵X,如下:
原始数据矩阵X平滑处理后得到数据矩阵如下:
数据矩阵归一化处理后得到数据矩阵如下:
计算数据矩阵的协方差矩阵S,得到如下值:
该实施例三协方差矩阵S的特征值[λ,λ,…,λ]=[0.000002781,0.000022738,0.000096266,0.000177450,0.000291382,0.001175813,0.001776267,0.005921460,0.006516496,0.013468914,0.036388953,0.113305315,0.756048397]
该实施例三的标准化正交特征向量V的值如下:
该实施例三[λ,λ,…,λ]对应的方差贡献率为[0.808441700,0.121157246,0.038910666,0.014402295,0.006968082,0.006331810,0.001899360,0.001257295,0.000311574,0.000189747,0.000102938,0.000024313,0.000002974]
该实施例三计算累积方差贡献率:0.8084417,0.929598945,0.968509612,0.982911907,0.989879988,0.996211798,0.998111159,0.999368454,0.999680028,0.999869775,0.999972713,0.999997026,1。
由于第一和第二方差贡献率之和为0.929598945,显著大于0.85,因此该例中需提取二个主成即可,r=2。
根据特征值计算出第一个特征值的方差贡献率:薄膜晶体管液晶显示技术的第一特征值的贡献率约为95.78%,阴极射像管显示技术的第一特征值的贡献率约为:80.864%,纳米生物传感器的第一特征值的贡献率约为:96.74%。
为了较完整的提取原始指标的信息,一般在选取累计贡献率达到85%以上时的最少的主成分个数。当阴极射像管显示技术选取一个主成分时,贡献率不足85%,所以需要再选取第二主成分,此时累积贡献率达到92.98%符合要求。
为了构造K-近邻分类器,训练集和测试集要选取同样数量的主成分个数,所以也要对薄膜晶体管液晶显示技术和纳米生物传感器均提取两个主成分。
分别计算薄膜晶体管液晶显示技术、阴极射像管显示技术以及纳米生物传感器各自两个主成分的主成分得分,如下表1至表2所示。
表1薄膜晶体管液晶显示技术第一主成分得分1和第二主成分得分2
表2阴极射像管显示技术第一主成分得分1和第二主成分得分2
表3第一主成分得分1和第二主成分得分2
根据上表1至表3绘制出薄膜晶体管液晶显示技术、阴极射像管显示技术以及纳米生物传感器的折线图。如图2至图4所示,分别为纳米生物传感器主成分得分图、薄膜晶体管液晶显示技术主成分得分图和阴极射像管显示技术主成分得分图。每幅图中得分1和得分2分别为第一主成分得分和第二主成分得分。
以薄膜晶体管液晶显示技术和阴极射像管显示技术两个主成分得分构造66个训练集数据,根据薄膜晶体管液晶显示技术(TFT-LCD):1978-1990年萌芽期,1991-2007年成长期和阴极射像管显示技术(CRT):1973-2000年成熟期,2001-2008年衰退期的已有证明制作分66个训练集数据标签,如表4所示。其中1为萌芽期、2为成长期、3为成熟期和4为衰退期。
表4 66个训练集数据标签
根据以上训练集数据和训练集标签构建K-最近邻分类器后测试纳米生物传感器的24个得分数据,得出24年(1985-2008)的标签如下表5所示。
表5 24个测试集标签
该结果与西南交通大学的高利丹基于专利文献的技术生命周期分析模式研究一文的研究结果完全一致。说明通过主成分分析提取特征和K最近邻相结合的方法能合理反映实际情况。另外,该方法大大简少了指标的冗余性和问题的复杂性,从而提高了专利技术生命周期分析的精度和速度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
本文发布于:2023-03-13 03:55:17,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69090.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |