一种基于IPC分类号的机器翻译方法及其翻译系统

阅读: 评论:0

著录项
  • CN202111614305.8
  • 20211227
  • CN114358028A
  • 20220415
  • 苏州远卓科技信息有限公司
  • 王艳慧
  • G06F40/58
  • G06F40/58 G06F40/226

  • 江苏省苏州市高新区邓尉路109号
  • 江苏(32)
  • 北京远大卓悦知识产权代理有限公司
  • 李淑亚
摘要
本发明涉及机器翻译领域,公布了一种基于IPC分类号的机器翻译方法,包括如下步骤:获取专利文献IPC分类号;依据IPC分类号匹配相应译词翻译专利文献内的词组;其中,匹配相应词义翻译包括依据IPC分类号进行译词权重分配,当专利文献内的词组的译词属于IPC分类号时,提升其权重,匹配至待翻译专利文献内的词组。本发明通过获取专利文献的IPC分类号,然后依据IPC分类号匹配专业词义进行专利文献翻译;提高了专利文献的机器翻译精确度,提升机器翻译的效率。此外本发明还公布了上述方法的基于IPC分类号的机器翻译系统,通过该系统,提高了机器翻译的速度,提升了对于专利文献机器翻译的准确率。
权利要求

1.一种基于IPC分类号的机器翻译方法,其特征在于,包括如下步骤:

获取专利文献IPC分类号;

依据IPC分类号匹配相应译词翻译专利文献内的词组;

其中,所述匹配相应词义翻译包括依据IPC分类号进行译词权重分配,当专利文献内的词组的译词属于IPC分类号时,提升其权重,匹配至待翻译专利文献内的词组。

2.根据权利要求1所述的基于IPC分类号的机器翻译方法,其特征在于,所述获取专利文献IPC分类号包括获取IPC分类号的大类信息。

3.根据权利要求1所述的基于IPC分类号的机器翻译方法,其特征在于,所述机器翻译方法还包括对一篇专利文献中的若干个IPC分类号进行权重分配。

4.根据权利要求3所述的基于IPC分类号的机器翻译方法,其特征在于,所述权重分析包括抓取所述专利文献说明书中题目和/或背景技术和/或技术领域中的词组对IPC分类号进行权重分配。

5.根据权利要求1所述的基于IPC分类号的机器翻译方法,其特征在于,所述依据IPC分类号匹配相应词义翻译专利文献内的词组包括依据IPC分类号匹配相应专业词典翻译专利文献。

6.根据权利要求1所述的基于IPC分类号的机器翻译方法,其特征在于,所述机器翻译方法包括语句检查的步骤。

7.根据权利要求6所述的基于IPC分类号的机器翻译方法,其特征在于,所述语句检查后包括重新分配IPC分类号权重并重新匹配相应词义翻译专利文献的步骤。

8.一种基于IPC分类号的机器翻译系统,其特征在于,包括:

信息获取模块,被配置用于获取专利文献的IPC分类号;

权重分配模块,被配置用于依据信息获取模块获取的IPC分类号对待翻译译词进行权重分配;

匹配系统,被配置用于根据权重分配模块中的权重分配结果对专利文献内的待翻译词组进行译词匹配。

9.根据权利要求8所述的IPC分类号的机器翻译系统,其特征在于,所述权重分配系统还包括被配置用于对所述信息获取系统获得的IPC分类号进行权重分析。

10.根据权利要求8所述的IPC分类号的机器翻译系统,其特征在于,所述机器翻译系统还包括:

语句检测系统,被配置用于检测翻译后的专利文献的语句检查。

说明书
技术领域

本发明涉及机器翻译领域,特别涉及一种基于IPC分类号的机器翻译方法及其翻译系统。

专利文献作为技术信息传递重要的载体,囊括了全球90%以上的最新技术情报。随着时代的发展,专利申请量也在逐年增多,世界知识产权组织(WIPO)2019年3月19日发布的数据显示,2018年全球通过该组织申请的国际专利数量达到创记录的25.3万件,较2017年增长3.9%。随着国际申请的增多,现有技术也不断扩大,在评估国内专利文献新创性时,外文专利也成了不可获取的一部分。

外文专利文献翻译是获取外国现有技术的主要手段;一般的专利翻译常采用人工翻译和机器翻译,人工翻译耗时耗力,成本较高。而机器翻译由于词性词义较多,出错率较高,对于术语等转移知识的翻译存在较大问题,大多只是翻译出对应单词的表面意思而缺少句子的整体信息,导致对专业文献的翻译精度不足。因此,在专利文献中,针对不同专业领域,对相应专业进行精确的机器翻译,成为了当今专利文献中机器翻译的一个热点。

针对现有技术中存在的不足之处,本发明的目的是提供一种基于IPC分类号的机器翻译方法及其翻译系统,其能够提高专利文献的机器翻译精确度,提升机器翻译的效率。

为了实现根据本发明的上述目的和其他优点,本发明的第一目的是提供一种基于IPC分类号的机器翻译方法,包括如下步骤:

获取专利文献IPC分类号;

依据IPC分类号匹配相应译词翻译专利文献内的词组;

其中,匹配相应词义翻译包括依据IPC分类号进行译词权重分配,当专利文献内的词组的译词属于IPC分类号时,提升其权重,匹配至待翻译专利文献内的词组。

作为优选,获取专利文献IPC分类号包括获取IPC分类号的大类信息。

作为优选,机器翻译方法还包括对一篇专利文献中的若干个IPC分类号进行权重分配。

作为优选,权重分析包括抓取专利文献说明书中题目和/或背景技术和/或技术领域中的词组对IPC分类号进行权重分配。

作为优选,依据IPC分类号匹配相应词义翻译专利文献内的词组包括依据IPC分类号匹配相应专业词典翻译专利文献。

作为优选,机器翻译方法包括语句检查的步骤。

作为优选,语句检查后包括重新分配IPC分类号权重并重新匹配相应词义翻译专利文献的步骤。

本发明的第二目的是提供一种基于IPC分类号的机器翻译系统,包括:

信息获取系统,被配置用于获取专利文献的IPC分类号;

权重分配模块,被配置用于依据信息获取模块获取的IPC分类号对待翻译译词进行权重分配;

匹配系统,被配置用于根据权重分配模块中的权重分配结果对专利文献内的待翻译词组进行译词匹配。作为优选,权重分配系统还包括被配置用于对所述信息获取系统10获得的IPC分类号进行权重分析。

作为优选,机器翻译系统还包括:

语句检测系统,被配置用于检测翻译后的专利文献的语句检查。

与现有技术相比,本发明的有益效果是:

本发明通过获取专利文献的IPC分类号,依据分类号进行相关专业领域的划分与匹配,之后进行专利翻译,从而提升机器翻译的精确度与机器翻译的效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为根据本发明所述的基于IPC分类号的机器翻译方法的流程图;

图2为根据本发明所述的基于IPC分类号的机器翻译方法的实施例1的逻辑流程图;

图3为根据本发明所述的基于IPC分类号的机器翻译方法的实施例2的逻辑流程图;

图4为根据本发明所述的基于IPC分类号的机器翻译系统的结构框图。

图中:10、信息获取模块;20、权重分配系统模块;30、匹配模块;40、语句检测模块。

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

参照图1,基于IPC分类号的机器翻译方法,包括如下步骤:

S01:获取专利文献IPC分类号;

S02:依据IPC分类号匹配相应译词翻译专利文献内的词组。

其中,匹配相应词义翻译包括依据IPC分类号进行译词权重分配,当专利文献内的词组的译词属于IPC分类号时,提升其权重,匹配至待翻译专利文献内的词组。

本发明首先通过获取IPC分类号,然后依据IPC分类号对待翻译的专利文献内词汇匹配专业词汇翻译,其中,匹配方式为依据IPC分类号进行待翻译词汇译词权重分配,当专利文献中待翻译词组的译词属于获取的IPC分类号领域内,提升其权重,匹配至待翻译专利文献内的词组,完成翻译,依据IPC分类号进行词义匹配检索,专利文献翻译,其获得的词义准确率更高,通过IPC分类号进行专业分类,并进行专业词汇词义翻译,将获得准确率更高、精确度更好的翻译好的专利文献。

下文将通过具体实施例,对本发明作更详细的阐述,在具体实施例中,本发明的优点将更为显著。

实施例1

参照图2,该实施例提供了一种基于IPC分类号的机器翻译方法,具体包括如下步骤:

S11:获取专利文献IPC分类号的大类信息;

S12:依据IPC分类号对专利温文献内待翻译词组的译词进行权重分配;

S13:采用权重最高的译词陪陪翻译专利文献内的词组。

该实施例中,首先获取专利文献IPC分类号,具体到获取IPC分类号的大类信息,如获取到的IPC分类号的大类信息为A01,则表示该篇专利文献与农业、林业、畜牧业、狩猎、诱捕、捕鱼相关,则配置与之相关的专业词典,然后采用专业词典进行专利文献翻译。在一般的专利文献中,其大类信息为统一信息,且通过大类信息就可获取专利文献的专业技术领域,通过专业技术领域就能够匹配相应的专业词典进行专利翻译。而不用获取详细的IPC分类号信息,进行专利翻译。简化了步骤,避免了复杂情况的出现,保证了专利文献翻译时的准确率与速率。

此外,该实施例中,依据获取的IPC分类号对待翻译词组的译词进行了权重分配,之后采用权重分配最高的译词匹配翻译专利文献内的词组。依据IPC分类号进行词义匹配检索,专利文献翻译,提升了专利文献词组翻译时的准确率,提高了专利文献翻译的精确度。

实施例3

参照图3,该实施例提供了一种基于IPC分类号的机器翻译方法,具体包括如下步骤:

S21:获取专利文献的若干个IPC分类号;

S22:获取专利文献说明书中题目和/或背景技术和/或技术领域中的词组;

S23:依据步骤S22获取的词组对获取的若干个IPC分类号进行权重分配并获取权重最高的IPC分类号;

S24:依据权重最高的IPC分类号对待翻译词组的译词进行权重分配。

S25:采用权重最高的译词匹配专利文献内的词组;

S26:进行语句检查,判断翻译语句是否通顺;

S27:若翻译语句通顺,则判定为专利文献翻译完成;

S28:若翻译语句不通顺,则认为进行的专业词汇翻译不准确,选择的专业词汇不正确,IPC分类号权重分配不合理,重新对IPC分类号进行权重分配。

S29:依据重新分配的权重最高的IPC分类号对待翻译词组的译词进行权重分配。

S210:采用权重最高的译词匹配专利文献内的词组。

在该实施例中,对于一些IPC分类号较多,所属领域大类较多的专利文献,进行了IPC分类号权重分配,具体为抓取说明书中的题目和/或背景技术和/或技术领域中的词组来对IPC分类号进行权重分配。在专利文献中,其背景技术或题目中会涉及一定量的毫无疑义的专业词汇,通过专业词汇,能够判断专利文献的专业领域,通过所抓取的词汇和词汇频次,来以此对有若干个大类的IPC分类号进行权重分配,通过权重分配后IPC分类号来对后续的译词进行权重分配,然后进行专利翻译,进一步提升了专利文献的机器翻译的正确率。

在该实施例中,加入了语句检查的步骤,通过在专利文献第一次翻译完成后,进行语句检查,随后依据检查结果判断翻译是否完成,若语句检查中,发现语句不通顺,则认定为专业词典匹配不准确,之后重新进行IPC分类号的权重分配并匹配专业词典,进行专利文献翻译,随后再次检查语句通顺程度,直至语句通顺为止。通过语句检查,判断了第一次专利文献翻译后的准确率,进行了二次翻译与修改,进一步提升了专利文献的翻译准确率,实现了专利文献的精确翻译。

实施例3

参照图4,该实施例提供了一种基于IPC分类号的机器翻译系统,包括:

信息获取模块10,被配置用于获取专利文献的IPC分类号;

权重分配模块20,被配置用于依据信息获取模块10获取的IPC分类号对待翻译译词进行权重分配;

匹配系统30,被配置用于根据权重分配模块20中的权重分配结果对专利文献内的待翻译词组进行译词匹配。该系统的工作原理如下:机器翻译系统首先通过信息获取模块10获取被翻译专利文献的IPC分类号;随后依据信息获取模块10获取的IPC分类号对待翻译译词进行权重分配;最后依据权重分配结果对专利文献内的待翻译词组进行译词匹配。

进一步的,匹配模块30还包括被配置用于依据IPC分类号匹配相应领域的词典进行词义翻译后翻译专利文献。

进一步的,权重分配模块20还包括被配置用于对所述信息获取系统10获得的IPC分类号进行权重分析。具体包括通过抓取说明书题目和/或技术领域和/或背景技术中的词组对IPC分类号进行权重分配。

通过权重分配模块,对IPC分类号进行权重分析并分配,一方面,缩小了翻译检索词汇的范围,提升了专利翻译时的速度,另一方面,以更准确的领域进行翻译,提升了专利翻译时的准确度。

进一步的,该机器翻译系统还包括:

语句检测模块40,被配置用于检测翻译后的专利文献的语句检查。

通过语句检测模块40,保证了一次翻译后的专利文献的准确率,提升了翻译文献翻译的精确度。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。本说明书是参照根据本说明书实施例的方法或系统)、的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例。

本文发布于:2023-03-13 08:10:30,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/69568.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图