一种专利文献模型树构建方法

阅读：评论：0

著录项

申请号 CN201310313779.8
申请日 20130724
公开（公告）号 CN103336851A
公开日 20131002
申请（专利权）人江苏大学
发明人王秀红
主分类号 G06F17/30
分类号
G06F17/30
地址江苏省镇江市学府路301号
国省代码中国,CN,江苏(32)
代理机构南京正联知识产权代理有限公司
代理人卢霞

摘要

本发明公开了一种专利文献模型树构建方法，将专利文献的各组成部分的内容、多代引文和IPC相结合起来构建专利文献的模型树：将整个专利文献作为根节点；将摘要、说明书、权利要求书、IPC和引文作为中间节点；将独立权利要求，IPC的部、大组、小组、大类，以及引文中的1代引文至m-1代引文作为中间结点；将发明的名称、摘要中的技术方案和应用领域、权利要求中的从属权权利要求，以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例，IPC中小类，引文中的m0代引文作为叶结点。m为专利文献的第m代引文，1≤m≤m0。本发明使得专利文献的表示更加全面、深入和准确，可应用于专利文献的相似或相关计算。

权利要求

1.一种专利文献模型树构建方法，包括将专利文献作为根节点的步骤一，其特征在于还包括以下步骤：

步骤二，将摘要、说明书、权利要求书、IPC和引文作为中间节点,位于第二层；将被引用的独立权利要求、IPC的部、引文中的1代引文作为中间节点, 位于第三层；将直接引用独立权利要求的从属权利要求、IPC的大组、引文中的 2代引文作为中间节点,位于第四层；将从属权利要求作为其在先引用的权利要求的子结点；将IPC的小组作为IPC的大组的子结点，将IPC的大类作为IPC 的小组的子结点，将IPC的小类作为IPC的大类的子结点；将m‑1代引文及其所有前代引文作为中间结点；

步骤三，将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被引用的权利要求，以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例，IPC中小类，将引文中的取的最远一代的引文即m 0代引文作为叶结点；

将m代引文作为m‑1代引文的子结点；1≤m≤m 0；当m=1时，m‑1代引文即为所述专利文献本身；

以上步骤中，当专利文献只有独立权利要求而无从属权利要求时，此时的独立权利要求为叶结点，位于第三层；

以上步骤中，当所述专利文献的IPC号分到大类时，则IPC号的大类为叶结点,位于第六层。

2.一种专利文献模型树构建方法，其特征在于：所述的m 0=2，即优选至2 代引文。

3.一种专利文献模型树构建方法，其特征在于：当所述专利文献的IPC分类最详细类目不是小类或大类时，而是小组或大组中的一种时，以相应的小组或大组作为叶结点。

说明书

技术领域

本发明属于文本检索领域，具体涉及专利文献的表示方法。

利用引文分析法来来分析文献间的相似性的研究已久。Stuart T B等1996 年提出利用专利的共引关系测量日本10家半导体企业的技术相似度[1]；McGill 和Mowery等1998年提出采用互引率测量企业的专利相似度用以分析专利联盟内企业之间的关系[2]；Lai K K等2005提出利用共引分析法来测量专利的相似度[3]。引文分析法很好地体现了有引用关系的专利间的相似，但无法解决没有引文的专利文献相似度计算问题，且不能充分起现专利内容上的相似度。

近5‑6年来，利用专利内容分析计算专利相似度的方法得到很好的应用，基于专利文献的结构特征的专利相似研究方法主要有：意大利学者Cascini G等于 2008年提出发明功能树方法，通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度，反映的是专利概念上的相似度[4]；彭继东和谭宗颖2010 年提出以专利名称、摘要、权利要求和说明书的加权相似度作为专利相似度的计算方法[5]。

将专利文献中不同要素之间构成的树状层次结构叫作专利模型树，专利模型树上没有父节点的专利要素称为该模型树的根节点,没有子节点的专利要素称为该模型树的叶节点,其他专利要素称为中间节点。国内学者陈芨熙等2009年提出依据专利文献特征构建专利模型树和节点，基于现有的向量空间模型进行相似计算，以专利的名称和摘要信息加权相似度作为分类的依据[6]，该研究将专利名称、发明人、申请人、摘要、专利全文、中国分类号、以及该专利所在的IPC 分类号中的部、大类和小类作为叶子结点。

现有的研究在一定程度上挖掘利用了专利文献的某些结构特征，但未能综合考虑国际专利分类号IPC表达的专利技术领域概念层次关系和专利文献的多代引用关系；未能深入挖掘专利文献摘要、说明书以及权利要求书中各部分内容具有的各自结构特征在专利相似计算中的作用，从而使专利文献的表示不够全面、深入和准确，最终导致专利文献相似或相关计算的精准率和召回率。

[1] Stuart T B,Podoly J M,Local search and the evolution of technological capabilities [J], Strategic Management Journal,Vol.17,No.2,PP.12‑28,1996

[2] Mowery D C,Oxley J E,Silverman,B S,technological overlap and inter firm cooperation: implications for the resource‑based view of the firm [J],Research Policy,Vol.27,No.5, pp.507‑523,1998

[3] Lai K K,Wu S J,Using the patent co‑citation approach to establish a new patent classification system[J],Information Processing and Management,Vol.41,No.2,PP.313‑330,2005

[4] Cascini Gaetano,Zini Manuel,Measuring Patent Similarity by Comparing Inventions Functional Trees,Computer‑aided Innovation,丛书：International Federation for Information Processing,Vol.277,pp31‑42,2008

[5]彭继东，谭宗颖，一种基于文本挖掘的专利相似度测量方法及其应用[J]，情报理论与实践，第47卷，第10期，页码114‑118，2010

[6]陈芨熙，顾新建，陈国海，魏江，基于向量空间模型的专利文献特征的相似专利确定方法[J]，浙江大学学报（工学版），第43卷，第10期，页码1848‑1852，1869，2009

本发明的目的在于提供一种专利文献模型树构建方法，以提高专利文献表示的全面性、深入性和准确性，从而提交专利文献相似或相关计算的精准率和召回率。

为了解决以上技术问题，本发明将专利文献的各组成部分的内容、多代引文和IPC相结合起来构建专利文献的模型树，采用的具体技术方案如下：

一种专利文献模型树构建方法，包括以下步骤：

步骤一，将整个专利文献作为根节点；

步骤三，将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被引用的权利要求，以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例，IPC中小类，引文中的m0代引文作为叶结点；

将m代引文作为m‑1代引文的子结点；1≤m≤m0；当m=1时，m‑1代引文即为所述专利文献本身；

以上步骤中，当专利文献只有独立权利要求而无从属权利要求时，此时的独立权利要求为叶结点，位于第三层；

以上步骤中，当所述专利文献的IPC号分到大类时，则IPC号的大类为叶结点,位于第六层。

所述的m=2，即优选至2代引文。根据经验，通常运用到第3代引文，在3 代引用之外，其它相关性较小，考虑到计算开销，优选至2代引文。

当专利文献的IPC分类最详细类目不是小类时，而是大类、小组或大组中的一种时，以相应的大类、小组或大组作为叶结点。

本发明的应用过程。利用向量空间模型将待比对的两篇专利文献X和Z表示成向量x和z，再计算向量x和z之间的相似度即为专利文献X和Z相似度。

利用本发明的专利文献模型树，先针对X和Z在模型树中：1名称，2摘要， 3权利要求，4说明书，5国际专利分类IPC和6引文上的对应文本分别表示成向量为xi，zi（i＝1,...,6）。利用向量间夹角余弦计算两向量间的相似度，得各组成部分对应的相似度Si（i＝1,...,6），再将专利文献模型树各部分的相似度进行加权求和，其权系数分别记为：σi（i＝1,...,6）。所得待比对的专利文献X和 Z的相似度S计算公式如下：

$<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>σ</mi> <mi>i</mi> </msub> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>σ</mi> <mi>i</mi> </msub> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中，权系数

$<mrow> <mn>0</mn> <mo>≤</mo> <msub> <mi>σ</mi> <mi>i</mi> </msub> <mo>≤</mo> <mn>1</mn> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mn>6</mn> <mo>)</mo> </mrow> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>σ</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>$

σi（i＝1,...,6）的取值根据实际应用需求、专家经验和机器学习优化方法来优化和确定。

本发明具有有益效果。

本发明综合考虑了IPC分类号和多代引文，并挖掘摘要、说明书和权利要求书中的固定结构内容作为专利文献模型树的叶结点，而不只是将摘要、说明书和权利要求整体作为叶结点，使得专利文献的表示更加全面、深入和准确，从而提升后续的专利文献的相似计算的精准率和召回率。

图1为本发明的专利文献模型树示意图。

图中：独权表示独立权利要求，从权表示从属权利要求。

下面结合附图对本发明的技术方案作进一步详细说明。

实施例1：模型树构建

以专利号为US7,168,207的美国专利文献为例。

专利名称：Potato drip irrigation system and method

摘要：本实施例专利文献的摘要技术方案内容为“The arrangement includes…….A method is also provided.”。摘要中的应用领域内容为：“An arrangement is provided for improving the yield of potato crops.”

权利要求：本实施例中的专利共有27个权利要求，共有两个独权，独权1 有13个从权，从权数n1=13；独权2有12个从权，从权数n2=12；

说明书：技术领域TECHNICAL FIELD：“This invention pertains to plant husbandry.More particularly,the present invention relates to potato plant arrangements and methods of planting potatoes which improves crop yield and quality.”

本文发布于:2023-03-13 02:42:26，感谢您对本站的认可！

本文链接：https://patent.en369.cn/patent/3/68924.html

上一篇：一种带气阀的管道无残留卸料功能的送料装置的制作方法

下一篇：一种具有货叉取货功能的顶升式穿梭车的制作方法

标签：一种专利文献模型树构建方法

留言与评论（共有 0 条评论）