一种专利文献模型树构建方法

阅读: 评论:0

著录项
  • CN201310313779.8
  • 20130724
  • CN103336851A
  • 20131002
  • 江苏大学
  • 王秀红
  • G06F17/30
  • G06F17/30

  • 江苏省镇江市学府路301号
  • 中国,CN,江苏(32)
  • 南京正联知识产权代理有限公司
  • 卢霞
摘要
本发明公开了一种专利文献模型树构建方法,将专利文献的各组成部分的内容、多代引文和IPC相结合起来构建专利文献的模型树:将整个专利文献作为根节点;将摘要、说明书、权利要求书、IPC和引文作为中间节点;将独立权利要求,IPC的部、大组、小组、大类,以及引文中的1代引文至m-1代引文作为中间结点;将发明的名称、摘要中的技术方案和应用领域、权利要求中的从属权权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例,IPC中小类,引文中的m0代引文作为叶结点。m为专利文献的第m代引文,1≤m≤m0。本发明使得专利文献的表示更加全面、深入和准确,可应用于专利文献的相似或相关计算。
权利要求

1.一种专利文献模型树构建方法,包括将专利文献作为根节点的步骤一, 其特征在于还包括以下步骤:

步骤二,将摘要、说明书、权利要求书、IPC和引文作为中间节点,位于第 二层;将被引用的独立权利要求、IPC的部、引文中的1代引文作为中间节点, 位于第三层;将直接引用独立权利要求的从属权利要求、IPC的大组、引文中的 2代引文作为中间节点,位于第四层;将从属权利要求作为其在先引用的权利要 求的子结点;将IPC的小组作为IPC的大组的子结点,将IPC的大类作为IPC 的小组的子结点,将IPC的小类作为IPC的大类的子结点;将m‑1代引文及其所 有前代引文作为中间结点;

步骤三,将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被 引用的权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果 和实施例,IPC中小类,将引文中的取的最远一代的引文即m 0代引文作为叶结点;

将m代引文作为m‑1代引文的子结点;1≤m≤m 0;当m=1时,m‑1代引文即 为所述专利文献本身;

以上步骤中,当专利文献只有独立权利要求而无从属权利要求时,此时的独 立权利要求为叶结点,位于第三层;

以上步骤中,当所述专利文献的IPC号分到大类时,则IPC号的大类为叶结 点,位于第六层。

2.一种专利文献模型树构建方法,其特征在于:所述的m 0=2,即优选至2 代引文。

3.一种专利文献模型树构建方法,其特征在于:当所述专利文献的IPC分 类最详细类目不是小类或大类时,而是小组或大组中的一种时,以相应的小组或 大组作为叶结点。

说明书
技术领域

本发明属于文本检索领域,具体涉及专利文献的表示方法。

利用引文分析法来来分析文献间的相似性的研究已久。Stuart T B等1996 年提出利用专利的共引关系测量日本10家半导体企业的技术相似度[1];McGill 和Mowery等1998年提出采用互引率测量企业的专利相似度用以分析专利联盟内 企业之间的关系[2];Lai K K等2005提出利用共引分析法来测量专利的相似度[3]。 引文分析法很好地体现了有引用关系的专利间的相似,但无法解决没有引文的专 利文献相似度计算问题,且不能充分起现专利内容上的相似度。

近5‑6年来,利用专利内容分析计算专利相似度的方法得到很好的应用,基 于专利文献的结构特征的专利相似研究方法主要有:意大利学者Cascini G等于 2008年提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系 来确定专利的相似度,反映的是专利概念上的相似度[4];彭继东和谭宗颖2010 年提出以专利名称、摘要、权利要求和说明书的加权相似度作为专利相似度的计 算方法[5]。

将专利文献中不同要素之间构成的树状层次结构叫作专利模型树,专利模型 树上没有父节点的专利要素称为该模型树的根节点,没有子节点的专利要素称为 该模型树的叶节点,其他专利要素称为中间节点。国内学者陈芨熙等2009年提出 依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计 算,以专利的名称和摘要信息加权相似度作为分类的依据[6],该研究将专利名 称、发明人、申请人、摘要、专利全文、中国分类号、以及该专利所在的IPC 分类号中的部、大类和小类作为叶子结点。

现有的研究在一定程度上挖掘利用了专利文献的某些结构特征,但未能综合 考虑国际专利分类号IPC表达的专利技术领域概念层次关系和专利文献的多代 引用关系;未能深入挖掘专利文献摘要、说明书以及权利要求书中各部分内容具 有的各自结构特征在专利相似计算中的作用,从而使专利文献的表示不够全面、 深入和准确,最终导致专利文献相似或相关计算的精准率和召回率。

[1] Stuart T B,Podoly J M,Local search and the evolution of technological capabilities [J], Strategic Management Journal,Vol.17,No.2,PP.12‑28,1996

[2] Mowery D C,Oxley J E,Silverman,B S,technological overlap and inter firm cooperation: implications for the resource‑based view of the firm [J],Research Policy,Vol.27,No.5, pp.507‑523,1998

[3] Lai K K,Wu S J,Using the patent co‑citation approach to establish a new patent classification  system[J],Information Processing and Management,Vol.41,No.2,PP.313‑330,2005

[4] Cascini Gaetano,Zini Manuel,Measuring Patent Similarity by Comparing Inventions  Functional Trees,Computer‑aided Innovation,丛书:International Federation for  Information Processing,Vol.277,pp31‑42,2008

[5]彭继东,谭宗颖,一种基于文本挖掘的专利相似度测量方法及其应用[J],情报理论与实 践,第47卷,第10期,页码114‑118,2010

[6]陈芨熙,顾新建,陈国海,魏江,基于向量空间模型的专利文献特征的相似专利确定方 法[J],浙江大学学报(工学版),第43卷,第10期,页码1848‑1852,1869,2009

本发明的目的在于提供一种专利文献模型树构建方法,以提高专利文献表示 的全面性、深入性和准确性,从而提交专利文献相似或相关计算的精准率和召回 率。

为了解决以上技术问题,本发明将专利文献的各组成部分的内容、多代引文 和IPC相结合起来构建专利文献的模型树,采用的具体技术方案如下:

一种专利文献模型树构建方法,包括以下步骤:

步骤一,将整个专利文献作为根节点;

步骤二,将摘要、说明书、权利要求书、IPC和引文作为中间节点,位于第 二层;将被引用的独立权利要求、IPC的部、引文中的1代引文作为中间节点, 位于第三层;将直接引用独立权利要求的从属权利要求、IPC的大组、引文中的 2代引文作为中间节点,位于第四层;将从属权利要求作为其在先引用的权利要 求的子结点;将IPC的小组作为IPC的大组的子结点,将IPC的大类作为IPC 的小组的子结点,将IPC的小类作为IPC的大类的子结点;将m‑1代引文及其所 有前代引文作为中间结点;

步骤三,将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被 引用的权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果 和实施例,IPC中小类,引文中的m0代引文作为叶结点;

将m代引文作为m‑1代引文的子结点;1≤m≤m0;当m=1时,m‑1代引文即 为所述专利文献本身;

以上步骤中,当专利文献只有独立权利要求而无从属权利要求时,此时的独 立权利要求为叶结点,位于第三层;

以上步骤中,当所述专利文献的IPC号分到大类时,则IPC号的大类为叶结 点,位于第六层。

所述的m=2,即优选至2代引文。根据经验,通常运用到第3代引文,在3 代引用之外,其它相关性较小,考虑到计算开销,优选至2代引文。

当专利文献的IPC分类最详细类目不是小类时,而是大类、小组或大组中的 一种时,以相应的大类、小组或大组作为叶结点。

本发明的应用过程。利用向量空间模型将待比对的两篇专利文献X和Z表 示成向量x和z,再计算向量x和z之间的相似度即为专利文献X和Z相似度。

利用本发明的专利文献模型树,先针对X和Z在模型树中:1名称,2摘要, 3权利要求,4说明书,5国际专利分类IPC和6引文上的对应文本分别表示成 向量为xi,zi(i=1,...,6)。利用向量间夹角余弦计算两向量间的相似度,得各 组成部分对应的相似度Si(i=1,...,6),再将专利文献模型树各部分的相似度进 行加权求和,其权系数分别记为:σi(i=1,...,6)。所得待比对的专利文献X和 Z的相似度S计算公式如下:

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,权系数

<mrow> <mn>0</mn> <mo>&le;</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mn>1</mn> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mn>6</mn> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>

σi(i=1,...,6)的取值根据实际应用需求、专家经验和机器学习优化方法来 优化和确定。

本发明具有有益效果。

本发明综合考虑了IPC分类号和多代引文,并挖掘摘要、说明书和权利要求 书中的固定结构内容作为专利文献模型树的叶结点,而不只是将摘要、说明书和 权利要求整体作为叶结点,使得专利文献的表示更加全面、深入和准确,从而提 升后续的专利文献的相似计算的精准率和召回率。

图1为本发明的专利文献模型树示意图。

图中:独权表示独立权利要求,从权表示从属权利要求。

下面结合附图对本发明的技术方案作进一步详细说明。

实施例1:模型树构建

以专利号为US7,168,207的美国专利文献为例。

专利名称:Potato drip irrigation system and method

摘要:本实施例专利文献的摘要技术方案内容为“The arrangement  includes…….A method is also provided.”。摘要中的应用领域内容为:“An  arrangement is provided for improving the yield of potato crops.”

权利要求:本实施例中的专利共有27个权利要求,共有两个独权,独权1 有13个从权,从权数n1=13;独权2有12个从权,从权数n2=12;

说明书:技术领域TECHNICAL FIELD:“This invention pertains to plant  husbandry.More particularly,the present invention relates to potato  plant arrangements and methods of planting potatoes which improves crop  yield and quality.”

本文发布于:2023-03-13 02:42:26,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68924.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图