构建工程机械故障诊断知识图谱本体的方法及装置与流程

阅读: 评论:0



1.本技术涉及工程机械故障诊断技术领域,具体地涉及一种构建工程机械故障诊断知识图谱本体的方法及装置。


背景技术:



2.知识图谱技术日益成为人工智能的基础,它是机器理解自然语言和构建知识网络的核心方法。而知识图谱的构建往往需要一套构建的标准,称之为本体。本体理论属于人工智能的内容理论范畴,是共享概念模型的明确形式化规范说明,研究特定领域知识的对象分类、对象属性和对象间的关系,它为领域知识的描述提供术语。简单说,可以将本体理解为公共认同的关于领域知识的明确描述。“本体是关于某个主题的形式化和说明性表示,包括它的领域、论域中诸对象的名称、定义及相关关系”。
3.工程机械故障诊断知识包括服务工程师维修记录数据(crm)、工程机械设备如:泵车、搅拌车、搅拌站、塔吊、高空作业机器、应急设备等整机、部件、零件结构设计系统(bom)、故障诊断优质案例及专家库等,积累了大量的结构化数据及记录文本。如果实现这些知识的计算机表达,以便快速查询、智能搜索以及知识推理,对于规范工程设备及故障诊断知识的整理、理论及经验的运用,提高设备运维、检修及培训水平具有重要价值。
4.目前已建立的工程机械设备及故障诊断知识库大多来源不同结构知识的组合,通常按基础知识和应用需求进行描述、表达和结构组织,知识的表达形式包括图、表以及文字等。多个知识点间存在交叉、重叠,导致计算机处理知识时实现复杂,影响知识表示和推理的正确性。同时,零散信息之间的相关性较低,信息量大并且每个知识之间没有建立关联联系。


技术实现要素:



5.本技术实施例的目的是提供一种构建工程机械故障诊断知识图谱本体的方法及装置,用以解决现有技术中故障诊断知识库零散信息之间的相关性较低,知识表示和推理的正确性较低的问题。
6.为了实现上述目的,本技术第一方面提供一种构建工程机械故障诊断知识图谱本体的方法,其特征在于,该方法包括:
7.对工程机械故障诊断领域的结构化数据库进行抽取数据,将数据进行映射以得到多个第一实体集;
8.根据多个第一实体集确定第一数据集,以得到初始知识库;
9.获取工程机械故障诊断领域的非结构化数据库的文本数据;
10.对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集;
11.将第二数据集合并至初始知识库,以得到知识库;
12.将知识库和第二实体集进行标注以得到实体集;
13.将实体集按照预设条件进行处理,以确定实体集间的关系集;
14.根据实体集和关系集构建工程机械故障诊断知识图谱本体。
15.在本技术实施例中,根据多个第一实体集确定第一数据集,以得到初始知识库包括:
16.对多个第一实体集中的字段类别进行融合处理,以得到多个第一数据集;
17.根据多个第一数据集对第一实体集的字段进行合并,以得到初始知识库。
18.在本技术实施例中,该方法还包括:
19.在接收到新增加的开源数据的情况下,将新增加的开源数据补充至知识库。
20.在本技术实施例中,对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集包括:
21.构建多个词性集,词性集包括名词集和动词集;
22.对第二文本数据进行抽取,以得到第二数据集;
23.将第二数据集进行分词和词性分析,并分别提取到名词集和动词集。
24.在本技术实施例中,实体集包括:
25.实体和实体对应的属性。
26.在本技术实施例中,实体包括:
27.故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体。
28.在本技术实施例中,实体集包括短文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集包括:
29.根据短文本的文本数据确定实体对候选集;
30.根据实体对候选集确定满足预设条件的候选集;
31.对满足预设条件的候选集进行标注,以得到实体集间的关系集。
32.在本技术实施例中,实体集还包括长文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集还包括:
33.将长文本的文本数据输入关系抽取模型,以得到实体集间的关系集。
34.在本技术实施例中,实体集间的关系集包括:
35.相似性关系、层级关系、步骤关系和属于关系。
36.本技术第二方面提供一种构建工程机械故障诊断知识图谱本体的装置,包括:
37.存储器,被配置成存储指令;以及
38.处理器,被配置成从存储器调用指令以及在执行指令时能够实现根据上述的构建工程机械故障诊断知识图谱本体的方法。
39.本技术第三方面提供一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据上述的构建工程机械故障诊断知识图谱本体的方法。
40.通过上述技术方案,对工程机械故障诊断领域的结构化数据库进行抽取数据,并将数据进行映射以得到多个第一实体集;根据多个第一实体集确定第一数据集,以得到初始知识库;获取工程机械故障诊断领域的非结构化数据库的文本数据;对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集;将第二实体集合
并至初始知识库,以得到知识库;将知识库第二实体集进行标注以得到实体集;将实体集按照预设条件进行处理,以确定实体集间的关系集;根据实体集和关系集构建工程机械故障诊断知识图谱本体。本技术方案根据工程机械故障领域的知识进行构建知识图谱的本体,能够提高故障诊断知识库零散信息之间的相关性,提高知识表示和推理的正确性。
41.本技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
42.附图是用来提供对本技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本技术实施例,但并不构成对本技术实施例的限制。在附图中:
43.图1示意性示出了根据本技术实施例的一种构建工程机械故障诊断知识图谱本体的方法的流程图;
44.图2示意性示出了根据本技术实施例的一种本体的结构图;
45.图3示意性示出了根据本技术实施例的一种构建工程机械故障诊断知识图谱本体的装置的结构图。
具体实施方式
46.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本技术实施例,并不用于限制本技术实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.需要说明,若本技术实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
48.另外,若本技术实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
49.图1示意性示出了根据本技术实施例的一种构建工程机械故障诊断知识图谱本体的方法的流程图。如图1所示,本技术实施例提供一种构建工程机械故障诊断知识图谱本体的方法,该方法可以包括下列步骤:
50.步骤101、对工程机械故障诊断领域的结构化数据库进行抽取数据,将数据进行映射以得到多个第一实体集;
51.步骤102、根据多个第一实体集确定第一数据集,以得到初始知识库;
52.步骤103、获取工程机械故障诊断领域的非结构化数据库的文本数据;
53.步骤104、对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,
以得到第二实体集;
54.步骤105、将第二数据集合并至初始知识库,以得到知识库;
55.步骤106、将知识库和第二实体集进行标注以得到实体集;
56.步骤107、将实体集按照预设条件进行处理,以确定实体集间的关系集;
57.步骤108、根据实体集和关系集构建工程机械故障诊断知识图谱本体。
58.在本技术实施例中,工程机械故障诊断领域的数据库可以包括结构化数据库和非结构化数据库。结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。结构化的数据的特点可以包括但不限于:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。这类数据已经存在数据库中,已经达到可投入生产的标准,可以直接拿来使用。在构建过程中,数据可以来自于同源的结构化数据库,也可以来自于不同源的结构化数据库。在一个示例中,在数据来自于同源结构化数据库的情况下,对数据进行处理时,先从结构化数据库中抽取数据,再将抽取的数据进行映射,可以得到多个第一实体集。再根据多个第一实体集确定第一数据集,以得到初始知识库。在另一个示例中,在数据来自于不同源的结构化数据库的情况下,则需要对数据进行融合处理,以得到第一数据集,再根据第一数据集的规则对多个不同源的结构化数据库中的字段进行合并,以得到初始知识库。其中,实体集可以指同型实体的集合。实体可以指具体的事物。第一实体集可以指根据结构化数据库构建的实体集。多个第一实体集中可以包括多个数据,根据多个数据可以得到第一数据集。初始知识库中可以包含结构化数据库中的知识。通过上述操作,可以实现对结构化数据库中数据的抽取与处理,以便构建本体。
59.非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,非结构化数据库不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息)。在构建过程中,对非结构化数据库中的数据进行抽取,根据抽取的数据得到第二数据集。再对第二数据集中的数据进行预处理,以得到第二实体集。具体地,预处理可以包括对第二数据集中的数据进行分词、词性分析,提取到名词集或动词集。同时,再将第二实体集合并至初始知识库,以得到知识库。知识库中既包含结构化数据库中的数据,又包含非结构化数据库中的数据。
60.结合构建好的知识库预先定义如故障、现象、部件、零件等实体词,根据实体词来对数据标注处理得到实体集。例如,定义现象、故障发生部位、部件、整机等实体词,根据现象、故障发生部位、部件、整机对数据进行标注可以得到:现象i{憋缸、溢料等}、故障发生部位:部件p{臂架、出砼口等}、整机d{泵车、搅拌车等}等实体集。
61.将实体集按照预设条件进行处理,以确定实体集间的关系集。实体集可以包括短文本的文本数据,也可以包括长文本的文本数据。在对长文本的文本数据确定关系集的情况下,将长文本的文本数据输入关系抽取模型,以得到实体集间的关系集。例如,可以采用关系连个抽取模型来确定关系集。先对数据进行标注、再对模型进行训练,通过模型预测生成候选关系对,最后通过人工确定结果。在对短文本的文本数据确定关系集的情况下,先根据短文本的文本数据确定实体对候选集;根据实体对候选集确定满足预设条件的候选集,将不存在关系的候选集过滤掉,再通过人工对满足预设条件的候选集进行标注,以得到实体集间的关系集。在确定实体对候选集时,可以通过bigram模型来确定。在一个示例中,故
障现象说明:螺旋输送机下料布袋软连接破损,则对数据进行标注得到:['螺旋输送机','下料','布袋','软连接','破损']。通过bigram模型可以得到:{(螺旋输送机,下料)、(螺旋输送机,布袋)、(螺旋输送机,软连接)、(螺旋输送机,破损)、(下料,布袋)、(软连接,下料)、(软连接,破损)}。再将实体对候选集进行筛选,将不存在关系的候选集过滤掉可以得到:{(螺旋输送机,布袋)、(螺旋输送机,软连接)、{布袋、软连接}、(软连接,破损)}。最后对候选集进行定义关系可以得到:{从属关系、从属关系、从属关系、发生(故障)关系}。
[0062]
最后,可以根据实体集和关系集构建工程机械故障诊断知识图谱本体。本体指知识图谱的构建需要的构建标准。实体集中可以包含多项实体以及每项实体对应的属性。关系集可以包含实体集中每一项实体之间的关系。根据每一项实体结合其对应的关系构建工程机械故障诊断知识图谱本体。图2示意性示出了根据本技术实施例的一种本体的结构图,如图2所示,实体可以包括故障现象实体、故障排查实体、故障解决方案实体、故障发生原因实体、专家实体、集合词实体和术语(词汇)实体。故障现象实体的属性可以包括故障现象、故障现象描述、故障模式、故障系统、部件名称、零件名称和故障等级。故障排查实体的属性可以包括故障排查方法和故障排查方法描述。专家实体的属性可以包括专家姓名和专家。故障解决方案实体的属性可以包括解决方法、解决方法描述和解决心得。集合词实体的属性可以包括专业词汇、领域、所在领域分支和描述。术语(词汇)实体的属性可以包括专业词汇、所在领域、所在领域分支、类别、描述、词性、来源和是否是标准说法。故障发生原因的属性可以包括故障发生原因和故障发生原因描述。故障现象实体和故障排查实体之间存在步骤关系,先确定故障现象再进行故障排查。在故障现象实体、故障解决方案实体、故障发生原因实体、集合词实体和术语(词汇)实体内部可以存在相似性关系,用以确定属性之间的相似度。术语(词汇)实体内部存在层析关系,所在领域与所在领域的分支为不同层次。故障排查实体和专家实体之间可以存在来源关系,通过专家来确定故障排查方法。故障解决方案实体和专家实体之间也可以存在来源关系,通过专家来确定故障解决方案。术语(词汇)实体和集合词实体可以存在属于关系,用以描述专业词汇之间的概括关系。故障排查实体和故障发生原因实体可以存在查关系。通过对故障排查来查故障发生的原因。通过构建工程机械故障诊断知识图谱本体可以实现对工程机械故障诊断领域的知识构建关联与统一管理。
[0063]
通过上述技术方案,对工程机械故障诊断领域的结构化数据库进行抽取数据,并将数据进行映射以得到多个第一实体集;根据多个第一实体集确定第一数据集,以得到初始知识库;获取工程机械故障诊断领域的非结构化数据库的文本数据;对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集;将第二实体集合并至初始知识库,以得到知识库;将知识库第二实体集进行标注以得到实体集;将实体集按照预设条件进行处理,以确定实体集间的关系集;根据实体集和关系集构建工程机械故障诊断知识图谱本体。本技术方案根据工程机械故障领域的知识进行构建知识图谱的本体,能够提高故障诊断知识库零散信息之间的相关性,提高知识表示和推理的正确性。
[0064]
在本技术实施例中,根据多个第一实体集确定第一数据集,以得到初始知识库可以包括:
[0065]
对多个第一实体集中的字段类别进行融合处理,以得到多个第一数据集;
[0066]
根据多个第一数据集对第一实体集的字段进行合并,以得到初始知识库。
[0067]
具体地,在数据来自于不同源的结构化数据库的情况下,需要对数据进行融合处理,以得到第一数据集,再根据第一数据集的规则对多个不同源的结构化数据库中的字段进行合并,以得到初始知识库。其中,实体集可以指同型实体的集合。实体可以指具体的事物。第一实体集可以指根据结构化数据库构建的实体集。多个第一实体集中可以包括多个数据,根据多个数据可以得到第一数据集。初始知识库中可以包含结构化数据库中的知识。在一个示例中,a数据库中含有字段{部件、零件、故障模式},b数据库中含有字段{整机名称、部件名称、零件名称、故障模式}。则可通过人工(专家)确定后对a、b数据库进行字段融合,如字段合集x(部件名称)={部件、部件名称}、y(零件名称)={零件、零件名称}、z(故障模式)={故障模型}、m(整机名称)={整机名称},得到这些集合,即第一数据集后,利用第一数据集中的规则来对第一实体集中的字段进行合并,以得到初始知识库。通过构建初始知识库可以将结构化数据库中的数据进行整合,以实现数据的统一管理。
[0068]
在本技术实施例中,该方法还可以包括:
[0069]
在接收到新增加的开源数据的情况下,将新增加的开源数据补充至知识库。
[0070]
具体地,在构建好知识库后,在接收到新增加的开源数据的情况下,可以根据新增加的开源数据对知识库进行补充。开源的数据可以包括但不限于wordnet(中文开放词网)、cn-dbpedia(中文通用百科)等。开源意思是开放源代码,没有加密。开源数据库说明这个数据库没有加密的,代码就是开放的。这些开源数据也是结构化数据,同样可以通过对结构化数据库中的数据的处理方法进行抽取数据与知识融合的方式,将开源数据补充至知识库中。通过利用开源数据对知识库进行补充,可以使得知识库中的数据更加完善。
[0071]
在本技术实施例中,对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集可以包括:
[0072]
构建多个词性集,词性集包括名词集和动词集;
[0073]
对第二文本数据进行抽取,以得到第二数据集;
[0074]
将第二数据集进行分词和词性分析,并分别提取到名词集和动词集。
[0075]
具体地,在对非结构化数据库中的数据进行处理时,先利用半自动的方法从非结构化数据库中抽取数据,如故障原因、故障现象和故障解决方案等数据,以得到第二数据集。再将第二数据集进行分词和词性分析,并分别提取到对应的词性集。其中,词性集可以包括但不限于名词集和动词集。通过对第二数据集进行预处理以得到第二实体集,可以对非结构化数据库中的数据数据进行整合,以实现数据的统一管理。
[0076]
在本技术实施例中,实体可以包括:
[0077]
故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体。
[0078]
具体地,实体可以指具体的事物。实体可以包括但不限于:故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体等。故障现象实体可以指用于描述工程机械现象的实体。故障发生原因实体可以指用于描述工程机械故障发生原因的实体。故障排查实体可以指用于描述工程机械故障排查方法步骤的实体。故障解决方案实体可以指工程机械故障解决方案本身。专家实体可以指提供工程机械故障排查步骤和解决方案的专家。术语实体可以指指工程机械领域及其相关的专有词汇,也可以称为词汇实体。集合词实体可以指对工程机械领域及相关词汇的某一类的统称。
[0079]
在本技术实施例中,实体集可以包括:
[0080]
实体和实体对应的属性。
[0081]
具体地,实体的属性可以指事物的内部特征。实体可以包括但不限于:故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体。
[0082]
故障现象实体可以指用于描述工程机械故障现象的实体。故障现象实体的属性可以包括但不限于故障现象、故障现象描述、故障模式、故障系统、部件名称、零件名称和故障等级等。具体地,故障现象是工程机械故障现象本身,例如,沙仓振动电机跳闸。故障现象描述是指对某类工程机械故障进行总结,例如,漏料、堵塞、跳闸、接触不良、损坏等。故障模式是对某类工程机械故障进行总结,例如,漏料、堵塞、跳闸、接触不良、损坏等。故障系统是指工程机械故障现象发生所在的系统,例如,电气系统、粉料系统总成、供水系统等。部件名称是指工程机械故障现象发生所在的部件,例如,水泵,搅拌主机、粉称等。零件名称是指工程机械故障现象发生所在的零件,例如,gps卡、过滤器等。故障等级是指工程机械故障的等级,可以分为四类:低、中、高、紧急。低中高三种故障等级为别表示故障处理的难度,低中等级的故障主要表示现场能够解决或者更换设备,高等级的故障往往需要专家进行解决。
[0083]
故障发生原因实体可以指用于描述工程机械故障发生原因的实体。故障发生原因实体的属性可以包括但不限于故障发生原因和故障发生原因描述等。具体地,故障发生原因是工程机械故障发生原因本身,例如,主臂持续液压油漏出。故障发生原因描述是对此工程机械故障发生原因的详细说明,例如,出砼门液压马达起火。
[0084]
故障排查实体可以指用于描述工程机械故障排查方法步骤的实体。故障排查实体的属性可以包括但不限于故障排查和故障排查方法描述等。具体地,故障排查方法是工程机械故障排查方法本身,例如,判定平衡阀内泄方法。故障排查方法描述是对此工程机械故障排查方法的详细说明,例如,将主臂举升到一定高度,拆掉油缸平衡阀大腔油管,观察是否有持续液压油漏出,如有持续液压油漏出,可判定平衡阀内泄。
[0085]
故障解决方案实体可以指工程机械故障解决方案本身。故障解决方案实体的属性可以包括但不限于故障解决方案、故障解决方案描述和解决心得等。具体地,故障解决方案是工程机械故障解决方案本身,例如,更换主油缸。故障解决方案描述是对此工程机械故障解决方案的详细说明,例如,更换液压油。解决心得是服务工程师或者专家对此故障的解决心得或者经验分享。例如,若液压过少,则需添加液压油;若滤芯堵塞,则需更换滤芯;若按钮损坏,则需更换;接头松了,需重新拧紧;若控制油压力低,则检查补油泵、电磁比例减压阀、阻尼和控制电流大小;若电磁换向阀卡滞或内泄,则需清洗或更换;若主油泵压力过低,则需维修或更换。
[0086]
专家实体可以指提供工程机械故障排查步骤和解决方案的专家。专家实体的属性可以包括但不限于专家的姓名和等。
[0087]
术语实体可以指指工程机械领域及其相关的专有词汇,也可以称为词汇实体。术语实体的属性可以包括但不限于专业词汇、所在领域、所在领域分支、类别、描述、词性、来源和是否是标准说法等。具体地,专业词汇可以是专业词汇本身,例如,骨料称、蝶阀、臂架等。所在领域可以是此专业词汇所在的领域,例如,挖机机械、起重机械、路面机械等,若该词汇是工程机械领域通用词汇则划分到:工程机械,若该词汇是属于通用领域则划分到:通
用或其他。所在领域的分支可以是指词专业词汇所在的领域分支,例如,混凝土搅拌机、混凝土搅拌站、混凝土搅拌楼、塔式起重机、抓斗起重机,若无具体分类则可以为空。类别可以指词专业词汇的类别,如整机设备、部件、零件、动作、故障等。描述可以指对该词汇的具体描述,若无描述可以为空,例如,是一种结构简单的调节阀,可用于低压管道介质的开关控制的蝶阀是指关闭件(阀瓣或蝶板)为圆盘,围绕阀轴旋转来达到开启与关闭的一种阀。词性可以指该专业词汇的词性,例如,“称”可以是名词也可以是动词。来源可以指该专业词汇的来源、出处,例如,混凝土搅拌站crm系统,专家补充等。是否为标准说法,“是”可以表示该词是标准的说法,“否”则可以表示不是,同一词的不同说法中只允许一种标准说法。
[0088]
集合词实体可以指对工程机械领域及相关词汇的某一类的统称。集合词实体的属性可以包括但不限于专业词本身与描述。
[0089]
通过根据实体和其对应的属性构建实体集可以将在工程机械故障诊断领域的知识进行梳理并构建关联,增强各知识之间的关联性。
[0090]
在本技术实施例中,实体集包括短文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集可以包括:
[0091]
根据短文本的文本数据确定实体对候选集;
[0092]
根据实体对候选集确定满足预设条件的候选集;
[0093]
对满足预设条件的候选集进行标注,以得到实体集间的关系集。
[0094]
具体地,在对短文本的文本数据确定关系集的情况下,先根据短文本的文本数据确定实体对候选集;根据实体对候选集确定满足预设条件的候选集,将不存在关系的候选集过滤掉,再通过人工对满足预设条件的候选集进行标注,以得到实体集间的关系集。在确定实体对候选集时,可以通过bigram模型来确定。在一个示例中,故障现象说明:螺旋输送机下料布袋软连接破损,则对数据进行标注得到:['螺旋输送机','下料','布袋','软连接','破损']。通过bigram模型可以得到:{(螺旋输送机,下料)、(螺旋输送机,布袋)、(螺旋输送机,软连接)、(螺旋输送机,破损)、(下料,布袋)、(软连接,下料)、(软连接,破损)}。再将实体对候选集进行筛选,将不存在关系的候选集过滤掉可以得到:{(螺旋输送机,布袋)、(螺旋输送机,软连接)、{布袋、软连接}、(软连接,破损)}。最后对候选集进行定义关系可以得到:{从属关系、从属关系、从属关系、发生(故障)关系}。
[0095]
在本技术实施例中,实体集还包括长文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集还可以包括:
[0096]
将长文本的文本数据输入关系抽取模型,以得到实体集间的关系集。
[0097]
具体地,在对长文本的文本数据确定关系集的情况下,将长文本的文本数据输入关系抽取模型,以得到实体集间的关系集。例如,可以采用关系连个抽取模型来确定关系集。先对数据进行标注、再对模型进行训练,通过模型预测生成候选关系对,最后通过人工确定结果。
[0098]
在本技术实施例中,实体集间的关系集可以包括:
[0099]
相似性关系、层级关系、步骤关系和属于关系。
[0100]
具体地,相似性关系可以描述2个实体之间的相似情况,属性为相似度。在相似度为100%的情况下,则2个实体为同一实体。例如,出砼口
‑‑‑‑
相似性:100%
‑‑‑‑‑
出料口;臂架掉臂
‑‑‑‑
相似性:100%
‑‑‑‑‑
臂架下落。在存在相似情况,但相似度小于100%的情况下,
则2个实体为相似实体。相似实体可以通过专家或者语义相似度模型来确认。层级关系可以描述2个实体的上下级关系。例如,泵车-臂架-二节臂。步骤关系可以描述2个或多个实体之间的执行前后关系。例如,第一步:将整机吊起或者垫高,让四轮离地,观察四个轮子是否转动;第二步:检查行走分流阀,测试压力是否正常。属于关系可以描述专业词汇之间的概括关系。例如,称:水称、沙称、污水称等;仓门:中间仓门、骨料仓门等。
[0101]
图3示意性示出了根据本技术实施例的一种构建工程机械故障诊断知识图谱本体的装置的结构框图。如图3所示,本技术实施例提供一种构建工程机械故障诊断知识图谱本体的装置,可以包括:
[0102]
存储器310,被配置成存储指令;以及
[0103]
处理器320,被配置成从存储器310调用指令以及在执行指令时能够实现上述的构建工程机械故障诊断知识图谱本体的方法。
[0104]
具体地,在本技术实施例中,处理器320可以被配置成:
[0105]
对工程机械故障诊断领域的结构化数据库进行抽取数据,将数据进行映射以得到多个第一实体集;
[0106]
根据多个第一实体集确定第一数据集,以得到初始知识库;
[0107]
获取工程机械故障诊断领域的非结构化数据库的文本数据;
[0108]
对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集;
[0109]
将第二实体集合并至初始知识库,以得到知识库;
[0110]
将知识库和第二实体集进行标注以得到实体集;
[0111]
将实体集按照预设条件进行处理,以确定实体集间的关系集;
[0112]
根据实体集和关系集构建工程机械故障诊断知识图谱本体。
[0113]
进一步地,处理器320还可以被配置成:
[0114]
根据多个第一实体集确定第一数据集,以得到初始知识库包括:
[0115]
对多个第一实体集中的字段类别进行融合处理,以得到多个第一数据集;
[0116]
根据多个第一数据集对第一实体集的字段进行合并,以得到初始知识库。
[0117]
进一步地,处理器320还可以被配置成:
[0118]
在接收到新增加的开源数据的情况下,将新增加的开源数据补充至知识库。
[0119]
进一步地,处理器320还可以被配置成:
[0120]
对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集包括:
[0121]
构建多个词性集,词性集包括名词集和动词集;
[0122]
对第二文本数据进行抽取,以得到第二数据集;
[0123]
将第二数据集进行分词和词性分析,并分别提取到名词集和动词集。
[0124]
在本技术实施例中,实体集包括:
[0125]
实体和实体对应的属性。
[0126]
在本技术实施例中,实体包括:
[0127]
故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体。
[0128]
进一步地,处理器320还可以被配置成:
[0129]
实体集包括短文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集包括:
[0130]
根据短文本的文本数据确定实体对候选集;
[0131]
根据实体对候选集确定满足预设条件的候选集;
[0132]
对满足预设条件的候选集进行标注,以得到实体集间的关系集。
[0133]
进一步地,处理器320还可以被配置成:
[0134]
实体集还包括长文本的文本数据,将实体集按照预设条件进行处理,以确定实体集间的关系集还包括:
[0135]
将长文本的文本数据输入关系抽取模型,以得到实体集间的关系集。
[0136]
在本技术实施例中,实体集间的关系集包括:
[0137]
相似性关系、层级关系、步骤关系和属于关系。
[0138]
通过上述技术方案,对工程机械故障诊断领域的结构化数据库进行抽取数据,并将数据进行映射以得到多个第一实体集;根据多个第一实体集确定第一数据集,以得到初始知识库;获取工程机械故障诊断领域的非结构化数据库的文本数据;对文本数据进行抽取,以得到第二数据集,并对第二数据集进行预处理,以得到第二实体集;将第二实体集合并至初始知识库,以得到知识库;将知识库第二实体集进行标注以得到实体集;将实体集按照预设条件进行处理,以确定实体集间的关系集;根据实体集和关系集构建工程机械故障诊断知识图谱本体。本技术方案根据工程机械故障领域的知识进行构建知识图谱的本体,能够提高故障诊断知识库零散信息之间的相关性,提高知识表示和推理的正确性。
[0139]
本技术实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的构建工程机械故障诊断知识图谱本体的方法。
[0140]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0141]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0142]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0143]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0144]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0145]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0146]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0147]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0148]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:


1.一种构建工程机械故障诊断知识图谱本体的方法,其特征在于,所述方法包括:对工程机械故障诊断领域的结构化数据库进行抽取数据,将所述数据进行映射以得到多个第一实体集;根据所述多个第一实体集确定第一数据集,以得到初始知识库;获取所述工程机械故障诊断领域的非结构化数据库的文本数据;对所述文本数据进行抽取,以得到第二数据集,并对所述第二数据集进行预处理,以得到第二实体集;将所述第二数据集合并至所述初始知识库,以得到知识库;将所述知识库和所述第二实体集进行标注以得到实体集;将所述实体集按照预设条件进行处理,以确定所述实体集间的关系集;根据所述实体集和所述关系集构建工程机械故障诊断知识图谱本体。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一实体集确定第一数据集,以得到初始知识库包括:对所述多个第一实体集中的字段类别进行融合处理,以得到多个第一数据集;根据所述多个第一数据集对所述第一实体集的字段进行合并,以得到初始知识库。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在接收到新增加的开源数据的情况下,将所述新增加的开源数据补充至所述知识库。4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行抽取,以得到第二数据集,并对所述第二数据集进行预处理,以得到第二实体集包括:构建多个词性集,所述词性集包括名词集和动词集;对所述第二文本数据进行抽取,以得到第二数据集;将所述第二数据集进行分词和词性分析,并分别提取到所述名词集和所述动词集。5.根据权利要求1所述的方法,其特征在于,所述实体集包括:实体和所述实体对应的属性。6.根据权利要求4所述的方法,其特征在于,所述实体包括:故障现象实体、故障发生原因实体、故障排查实体、故障解决方案实体、专家实体、术语实体和集合词实体。7.根据权利要求1所述的方法,其特征在于,所述实体集包括短文本的文本数据,所述将所述实体集按照预设条件进行处理,以确定所述实体集间的关系集包括:根据所述短文本的文本数据确定实体对候选集;根据所述实体对候选集确定满足预设条件的候选集;对所述满足预设条件的候选集进行标注,以得到所述实体集间的关系集。8.根据权利要求1所述的方法,其特征在于,所述实体集还包括长文本的文本数据,所述将所述实体集按照预设条件进行处理,以确定所述实体集间的关系集还包括:将所述长文本的文本数据输入关系抽取模型,以得到所述实体集间的关系集。9.根据权利要求1所述的方法,其特征在于,所述实体集间的关系集包括:相似性关系、层级关系、步骤关系和属于关系。10.一种构建工程机械故障诊断知识图谱本体的装置,其特征在于,包括:存储器,被配置成存储指令;以及
处理器,被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现根据权利要求1至9中任一项所述的构建工程机械故障诊断知识图谱本体的方法。11.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据权利要求1至9中任一项所述的构建工程机械故障诊断知识图谱本体的方法。

技术总结


本申请公开了一种构建工程机械故障诊断知识图谱本体的方法及装置。该方法包括:对工程机械故障诊断领域的结构化数据库进行抽取数据,将数据进行映射以得到多个第一实体集,并确定第一数据集,以得到初始知识库;对非结构化数据库的文本数据进行抽取,以得到第二数据集,并进行预处理,以得到第二实体集;将第二数据集合并至初始知识库,以得到知识库;将知识库和第二实体集进行标注以得到实体集;将实体集按照预设条件进行处理,以确定实体集间的关系集;根据实体集和关系集构建工程机械故障诊断知识图谱本体。本申请通过构建工程机械故障诊断知识图谱本体,能够提高故障诊断知识库零散信息之间的相关性,提高知识表示和推理的正确性。正确性。正确性。


技术研发人员:

周阳 周志忠 童兴 何飞鸿 戈孔明

受保护的技术使用者:

中科云谷科技有限公司

技术研发日:

2022.11.29

技术公布日:

2023/3/3

本文发布于:2023-03-04 00:57:10,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/64292.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   数据   故障   工程机械
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图