一种专利中命名实体的提取方法、装置及电子设备

阅读: 评论:0

著录项
  • CN202110796276.5
  • 20210714
  • CN115618874A
  • 20230117
  • 北京望石智慧科技有限公司
  • 白芳
  • G06F40/295
  • G06F40/295 G06F40/211 G06N3/045 G06N3/0499 G06N3/08 G06Q50/18

  • 北京市海淀区中关村19号新中关大厦B座1708南翼
  • 北京(11)
  • 北京三聚阳光知识产权代理有限公司
  • 李博洋
摘要
本发明提供一种专利中命名实体的提取方法、装置及电子设备,其中,方法包括:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。通过实施本方案,对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。
权利要求

1.一种专利中命名实体的提取方法,其特征在于,包括如下步骤:

获取专利文本;

对所述专利文本进行数据预处理,得到预处理后的文本信息;

将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。

2.根据权利要求1所述的方法,其特征在于,所述预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,所述第一网络模型为基于注意力机制建立的网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。

3.根据权利要求2所述的方法,其特征在于,所述命名实体提取模型的训练过程包括:

获取第一专利文本样本数据;

根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;

获取目标领域的第二专利文本样本数据;

根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;

对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;

将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;

将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网络模型为未完成训练的第二网络模型。

4.根据权利要求3所述的方法,其特征在于,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或多种。

7.根据权利要求3或4所述的方法,其特征在于,所述对所述标注语料进行分句及分词处理包括:通过分词工具和分句工具对所述标注语料进行分句及分词处理,所述分句工具为SpaCy,所述分词工具为Tokenizer。

5.根据权利要求1所述的方法,其特征在于,所述对所述专利文本进行数据预处理,得到预处理后的文本信息,包括:

判断所述专利文本的文本类型,根据所述文本类型选取对应的预处理方式,包括:

当所述文本类型为不可编辑文本时,将所述专利文件转换为可编辑文件。

6.根据权利要求5所述的方法,其特征在于,还包括:

当所述文本类型为可编辑文本时,判断所述可编辑文本的文本格式;

当所述文本格式为xml格式或rtf格式时,将所述格式转换为txt格式。

8.一种专利中命名实体的提取装置,其特征在于,包括:

专利文本获取模块,用于获取专利文本;

预处理模块,用于对所述专利文本进行数据预处理,得到预处理后的文本信息;

命名提取模块,用于将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一所述的专利中命名实体的提取方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任一所述的专利中命名实体的提取方法的步骤。

说明书
技术领域

本发明涉及自然语言处理技术领域,具体涉及一种专利中命名实体的提取方法、装置及电子设备。

专利数据是互联网中的一种重要的知识产权数据,研究表明,专利虽然只占文献总量的10%,却能提供全世界90%~95%的新技术信息。而在药物研发领域中尤为明显,大量的潜在成药的小分子数据分布在文献、专利等文档中。其中,化学专利是理解化合物用途、特性和新颖性的重要起点。通常情况下,新化合物最初是在专利文件中公开的,化学文献中提及这些化学物质可能需要1-3年的时间,这表明专利是一种有价值的但未充分利用的资源。随着每年新化学专利申请数量的急剧增加,如何有效的提取并利用这些数据,是企业界、学术界首要考虑的问题,而开发能够从这些专利中提取信息的工具是首要任务。

相关技术中,一般采用BioBERT在生物医学领域的论文中实现命名实体提取。在构建BioBERT时,使用BERT的权重初始化BioBERT,该BERT利用通用领域语料库(英语Wikipedia和BooksCorpus)进行预训练。然后,对BioBERT进行生物医学领域语料库(PubMed摘要和PMC全文文章)的训练。发明人发现,论文摘要语料以及句子表述与专利的文字表述存在一定的差异,若采用上述方法对专利文件进行命名实体提取,其提取效果较差。

有鉴于此,本发明实施例提供了一种专利中命名实体的提取方法、装置及电子设备,以解决现有技术中对专利文件进行命名实体提取,其提取效果较差的缺陷。

根据第一方面,本发明实施例提供一种专利中命名实体的提取方法,包括如下步骤:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。

可选地,所述预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,所述第一网络模型为基于注意力机制建立的网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。

可选地,所述命名实体提取模型的训练过程包括:获取第一专利文本样本数据;根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;获取目标领域的第二专利文本样本数据;根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网络模型为未完成训练的第二网络模型。

可选地,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或多种。

可选地,所述对所述专利文本进行数据预处理,得到预处理后的文本信息,包括:判断所述专利文本的文本类型,根据所述文本类型选取对应的预处理方式,包括:当所述文本类型为不可编辑文本时,将所述专利文件转换为可编辑文件。

可选地,还包括:当所述文本类型为可编辑文本时,判断所述可编辑文本的文本格式;当所述文本格式为xml格式或rtf格式时,将所述格式转换为txt格式。

可选地,所述对所述标注语料进行分句及分词处理包括:通过分词工具和分句工具对所述标注语料进行分句及分词处理,所述分句工具为SpaCy,所述分词工具为Tokenizer。

根据第二方面,本实施例提供一种专利中命名实体的提取装置,包括:专利文本获取模块,用于获取专利文本;预处理模块,用于对所述专利文本进行数据预处理,得到预处理后的文本信息;命名提取模块,用于将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。

根据第三方面,本实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的专利中命名实体的提取方法的步骤。

根据第四方面,本实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的专利中命名实体的提取方法的步骤。

本发明技术方案,具有如下优点:

1.本实施例提供的专利中命名实体的提取方法,通过对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。

2.本实施例提供的专利中命名实体的提取方法,根据第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练模型,然后通过对目标领域(生物医药领域)的第二专利文本样本数据进行实体标注,将标注后的数据作为样本,再次训练第一预训练模型以及第二预训练网络,得到由第一网络模型和第二网络模型共同构建的命名实体提取模型,通过该模型对专利文本进行命名实体提取,能够从而进一步提高目标领域(生物医药领域)的专利文件的命名实体提取准确率。

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中专利中命名实体的提取方法的一个具体示例的流程图;

图2为本发明实施例中专利中命名实体的提取方法的一个具体示例图;

图3为本发明实施例中专利中命名实体的提取方法的一个具体示例图;

图4为本发明实施例中专利中命名实体的提取方法的一个具体示例图;

图5为本发明实施例中专利中命名实体的提取方法的一个具体示例图;

图6为本发明实施例中专利中命名实体的提取装置的一个具体示例原理框图;

图7为本发明实施例中电子设备的一个具体示例的原理框图。

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种专利中命名实体的提取方法,如图1所示,包括如下步骤:

S101,获取专利文本;

示例性地,专利文本可以包括专利标题、摘要、说明书、权利要求、表格等文本范围。专利文本可以为各个领域的专利文本,比如,电学领域的专利文本、机械领域的专利文本、生物医药领域的专利文本等等。本实施例以专利文本为生物医药领域的为本为例进行说明。获取的专利文本类型可以是pdf或txt或rtf或xml格式,本实施例对获取专利文本的文本类型不做限定,本领域技术人员可以根据需要确定。

S102,对专利文本进行数据预处理,得到预处理后的文本信息;

示例性地,对专利文本进行数据预处理的方式可以是提取专利文本中的文本信息。当专利文本的文本类型为可编辑文件(比如xml格式、rtf格式)时,需要将其转化为txt格式,从而提取出文本信息。xml格式的文件需要取各个节点中的文本内容,将其他的格式信息(比如,字体大小信息、字体颜信息)丢弃,rtf格式的文件可以通过数据预处理去掉字体颜、格式、图片等信息,只保留纯文本内容。对于不可编辑的pdf以及图片信息,可利用OCR技术将其转化为可编辑的txt文本信息。

预处理的方式还可以是对文本进行分句、分词处理,得到各个句子以及对应句子中词语的令牌序列,将各个句子以及对应句子中词语的令牌序列作为预处理后的文本信息,分句处理的方式可以是使用SpaCy工具,分词处理的方式可以是使用Tokenizer工具。本实施例对预处理方法不做限定,不同的专利文本类型可以对应不同的处理方法,本领域技术人员可以根据需要确定。

S103,将文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,预先训练好的命名实体提取模型为根据专利文本训练得到。

示例性地,预先训练好的命名实体提取模型可以是根据10万生物医药专利语料库(包括美国、欧专局、国际局的专利文件),并基于现有的神经网络模型,进一步在10万专利语料库上进行命名实体提取训练得到。提取出的命名实体可以包括分子编号(ExampleID)、分子名称(IUPAC)、疾病(Disease)、靶点(Target)、取代基(Generic)、药物(Trademark)、分子式(Formula)、作用方式(Mode of Action,MOA)、化合物注册号(Registry Number)、试剂简写(Abbreviation)、分子SMILES(SMILES)以及CAS注册号(CASNumber)等。本实施例对预先训练好的命名实体提取模型的构架以及提取出的命名实体类型不做限定,本领域技术人员可以根据需要确定。

本实施例提供的专利中命名实体的提取方法,通过对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。

作为本实施例一种可选的实施方式,预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,第一网络模型为基于注意力机制建立的网络模型,第一网络模型的输出为文本特征向量,文本特征向量作为第二网络模型的输入。

示例性地,第一网络模型(基于化合物语料库的Transformer的双向编码器表示模型,即ChemBert模型)可以如图2所示,包括自注意力机制(Self-Attention)层以及前馈神经网络,其中,在自注意力机制(Self-Attention)层中有三种注意力矩阵——Q,K,V,根据三种注意力矩阵,可以得到Z矩阵,再经过前馈神经网络(Feed Forward Neural Network)层获得文本特征向量R。

第二网络模型可以如图3所示,包括线性层、Softmax层以及输出层。文本特征向量R作为第二网络模型的输入,经过线性层之后能够得到文本特征向量的非归一化对数几率,然后经过Softmax层得到归一化的对数几率,从而得到输出结果。

命名实体提取模型整体结构如图4所示,第一网络模型的输出R,作为第二网络模型的输入R,当第一网络模型的输入文本是“such as Diabetes”时,在将“such asDiabetes”输入之前,需要对文本进行预处理,获得句子和令牌(token),将令牌映射至BERT字典得到一系列字典ID,将字典ID作为X输入第一网络模型进行处理,输出R,再将R输入至第二网络模型处理,那么最终得到的输出结果针对“such”、“as”其标签都为“o”,表征不属于需要提取的命名实体,“Diabetes”标签为“Disease”,表征属于需要提取的疾病名称命名实体。

作为本实施例一种可选的实施方式,命名实体提取模型的训练过程包括:

首先,获取第一专利文本样本数据;

示例性地,第一专利文本样本数据可以选取美国、欧专局、国际局中的大量专利文本,比如,100000篇txt专利文本,本实施例对第一专利文本样本数据的数量不做限定,本领域技术人员可以根据需要确定。

其次,根据第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,第一预训练网络模型为未经过目标领域专利文件训练的第一网络模型;

示例性地,目标领域可以是任一技术领域,本实施例以生物医药领域为例进行说明。第一预训练网络模型根据专利文本训练BERT模型得到,第一预训练网络模型能有效针对专利文本的语言习惯进行学习。具体的训练过程包括:将txt语料进行SpaCy分句处理,得到的句子进行Tokenizer分词处理,得到每个句子对应的令牌序列,将以句子为单位的令牌序列输入BERT模型进行模型训练,获得第一预训练网络模型(ChemBert预训练模型)。

再次,获取目标领域的第二专利文本样本数据;

示例性地,获取生物医药领域的第二专利文本样本数据的方式可以是选取美国、欧专局、国际局中的500篇生物医药相关专利文本。

然后,根据标注工具对第二专利文本样本数据进行实体标注,得到标注语料,标注语料包括标注内容以及标注标签;

示例性地,实体标注工具可以为brat,实体标注的范围可以包括分子编号(Example ID)、分子名称(IUPAC)、疾病(Disease)、靶点(Target)、取代基(Generic)、药物(Trademark)、分子式(Formula)、作用方式(Mode of Action,MOA)、化合物注册号(Registry Number)、试剂简写(Abbreviation)、分子SMILES(SMILES)以及CAS注册号(CASNumber)等。标注工具对第一专利文本样本数据进行标注时,包括标注的内容以及标注的标签,比如,标注内容为“Diabetes”,标注标签为“Disease”。

再次,对标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;

示例性地,对标注语料进行分句的方式可以是采用SpaCy分句工具,对标注语料进行分词处理的方式可以是将句子输入BERT模型中的分词器Tokenizer进行分词处理,得到每个句子对应的令牌。

然后,将每个句子对应词语的令牌序列输入至第一预训练网络模型,得到文本特征向量;

示例性地,将标注的标签与分词后的令牌进行一一对应,得到处理好的训练数据,将处理好的训练数据以句子为单位输入第一预训练网络模型。第一预训练网络模型可以是预训练的BERT模型,通过第二专利文本样本数据对BERT模型进行训练,从而得到第一网络模型(ChemBert模型),第一网络模型的输出为生物医药领域专利文本的文本特征向量,也即图2中的R。

然后,将文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,第二预训练网络模型为未完成训练的第二网络模型。

示例性地,训练模型的过程就是调整参数的过程,以参数学习速率为例,在本实施例中当学习速率为0.1的时候,训练集的精度为0.8,验证集的精度为0.6,那么表明模型效果不好,然后再调整学习速率为0.001,训练集的精度为0.8,验证集的精度为0.78,这个时候把模型结果与其他文献中的结果进行比较,比较的时候可以统一用一个公认的数据集--外部验证集来评估,当本实施例的模型在公认的外部验证集上的精度是0.75,比现有的文献中的结果好,表明这个模型具有良好的可靠性,模型达到可用的状态。因此,目标条件可以是命名实体提取准确率到达目标比例,比如,0.75。因此,第二预训练网络模型在文本特征向量(图2中的R)的基础上进行参数更新训练,能够优化命名实体提取模型所适合的参数,构建提取模型,并评估模型的可靠性。

本实施例提供的专利中命名实体的提取方法,根据第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练模型,然后通过对目标领域(生物医药领域)的第二专利文本样本数据进行实体标注,将标注后的数据作为样本,再次训练第一预训练模型以及第二预训练网络,得到由第一网络模型和第二网络模型共同构建的命名实体提取模型,通过该模型对专利文本进行命名实体提取,能够从而进一步提高目标领域(生物医药领域)的专利文件的命名实体提取准确率。

根据上述的专利中命名实体的提取方法,对生物医药领域的专利文件进行命名实体提取,其提取效果以一篇英文专利文本为例,如图5所示,包括分子编号(Example ID)、分子名称(IUPAC)、疾病(Disease)、取代基(Generic)等,都被有效提取出。

本实施例提供一种专利中命名实体的提取装置,如图6所示,包括:

专利文本获取模块201,用于获取专利文本;具体内容参见上述实施例方法对应部分,在此不再赘述。

预处理模块202,用于对所述专利文本进行数据预处理,得到预处理后的文本信息;具体内容参见上述实施例方法对应部分,在此不再赘述。

命名提取模块203,用于将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,命名提取模块203包括:第一网络模型模块,用于构建第一网络模型,所述第一网络模型为基于注意力机制建立的网络模型;第二网络模型模块,用于构建第二网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,命名提取模块203包括:

第一专利文本样本数据获取模块,用于获取第一专利文本样本数据;具体内容参见上述实施例方法对应部分,在此不再赘述。

第一预训练网络模型确定模块,用于根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;具体内容参见上述实施例方法对应部分,在此不再赘述。

第二专利文本样本数据获取模块,用于获取目标领域的第二专利文本样本数据;具体内容参见上述实施例方法对应部分,在此不再赘述。

标注模块,用于根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;具体内容参见上述实施例方法对应部分,在此不再赘述。

分词分句模块,用于对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;具体内容参见上述实施例方法对应部分,在此不再赘述。

文本特征向量确定模块,用于将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;具体内容参见上述实施例方法对应部分,在此不再赘述。

命名实体提取模型确定模块,用于将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网络模型为未完成训练的第二网络模型。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或多种。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,预处理模块202,包括:

第一判断模块,用于判断所述专利文本的文本类型,根据所述文本类型选取对应的预处理方式,包括:第一转换模块,用于当所述文本类型为不可编辑文本时,将所述专利文件转换为可编辑文件。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,专利中命名实体的提取装置还包括:

可编辑转换模块,用于当所述文本类型为可编辑文本时,判断所述可编辑文本的文本格式;具体内容参见上述实施例方法对应部分,在此不再赘述。

格式转换模块,用于当所述文本格式为xml格式或rtf格式时,将所述格式转换为txt格式。具体内容参见上述实施例方法对应部分,在此不再赘述。

作为本实施例一种可选的实施方式,预处理模块202包括:分词句模块,用于通过分词工具和分句工具对所述标注语料进行分句及分词处理,所述分句工具为SpaCy,所述分词工具为Tokenizer。具体内容参见上述实施例方法对应部分,在此不再赘述。

本申请实施例还提供一种电子设备,如图7所示,处理器310和存储器320,其中处理器310和存储器320可以通过总线或者其他方式连接。

处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器320作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的专利中命名实体的提取方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理。

存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器320可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器320中,当被所述处理器310执行时,执行如图1所示实施例中的专利中命名实体的提取方法。

上述电子设备的具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

本实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例1中专利中命名实体的提取方法。其中,所述计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述计算机可读存储介质还可以包括上述种类的存储器的组合。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本文发布于:2023-03-13 02:01:34,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68816.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图