1.本公开涉及数据处理领域,尤其涉及一种自动巡检方法和自动巡检装置。
背景技术:
2.随着对计算机算力的要求越来越高,采用计算机集为计算密集型应用提供服务是主流趋势。随着计算机集的不断壮大,对计算机集的管理和维护的难度日益增加。
3.本部分旨在为权利要求书中陈述的本公开实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现要素:
4.发明人发现,目前主要依靠人工对计算机集进行监测,还没有对计算机集进行自动巡检的工具。
5.为了解决上述问题中的至少一个或其他类似的问题,本公开实施例提供一种自动巡检方法和自动巡检装置。
6.本公开实施例提供一种自动巡检方法,
所述自动巡检方法包括:将包含
多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个
子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。
7.本公开实施例还提供一种自动巡检装置,所述自动巡检装置包括:区域管理单元,其将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;巡检单元,其根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。
8.本公开实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述自动巡检方法。
9.本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述自动巡检方法。
10.本公开实施例中,通过对目标系统进行区域划分并按照巡检计划进行巡检,能够对目标系统进行定期监测。
附图说明
11.为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
12.图1是本公开第一方面的实施例的自动巡检方法的一个示意图。
13.图2是本公开第一方面的实施例的巡检规则的一个示意图。
14.图3是本公开第一方面的实施例的自动巡检方法的另一示意图。
15.图4是本公开第一方面的实施例的自动巡检方法的另一示意图。
16.图5是本公开第一方面的实施例的隐患检测规则的一个示意图。
17.图6是本公开第一方面的实施例的自动巡检方法的另一示意图。
18.图7是本公开第二方面的实施例的自动巡检装置的一个示意图。
具体实施方式
19.为使本公开实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本公开实施例做进一步详细说明。在此,本公开的示意性实施例及其说明用于解释本公开,但并不作为对本公开的限定。
20.第一方面的实施例
21.本公开第一方面的实施例提供一种自动巡检方法,图1是本公开第一方面的实施例的自动巡检方法的一个示意图。
22.如图1所示,方法100包括:
23.步骤101:将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;
24.步骤103:根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。
25.由此,通过对目标系统进行区域划分并按照巡检计划进行巡检,能够对目标系统进行定期监测。
26.在本公开实施例中,巡检计划可以预先根据用户需求制定,也可以根据实际情况实时调整,本公开实施例对此不作限制。另外,巡检时机例如可以是预定的开始巡检的时间,例如,每个月的第1天等;也可以是预先设定的进行巡检的触发条件,例如,在满足预定条件的情况下自动执行对应的巡检计划,例如,在修改比较大的版本发布后触发相关巡检计划,由此确保版本正确和安全,并且能够扫描是否存在隐患等问题。
27.另外,在本公开实施例中,目标系统例如可以是任何包含处理器的系统,例如,可以是图形处理器集。另外,例如,目标系统可以是属于某个机构内部的系统,也可以是某片区域(例如,华北地区、某省、某市等)内的预定数量的系统组成的系统,本公开实施例对此不作限制。另外,处理器例如为中央处理器和/或图形处理器。
28.图2是本公开第一方面的实施例的巡检规则的一个示意图。
29.如图2所示,巡检规则200例如包括至少一个数据类型,例如,系统日志、固件日志、故障日志等;至少一个预定数据,例如环境参数、固件等的版本信息、硬件信息等,目标数据例如为目标系统的环境参数、固件版本等数据。
30.另外,如图2所示,巡检规则200还可以包括至少一个操作序列,操作序列例如规定了提取预定数据的顺序,例如,按照数据类型(1)的预定数据(2)
→
数据类型(1)的预定数据(1)
→
数据类型(2)的预定数据(3)的顺序提取相应数据。但本公开实施例不以此为限制,例如,对于版本升级情况的巡检,也可以仅获取版本信息。另外,对于风险情况的巡检,根据不同的巡检规则,获取的巡检内容可以不一样。
31.在至少一个实施例中,在步骤101中,可以根据预定参数将所述目标系统划分为所述多个管理区域,所述预定参数包括以下至少一个:所述多个处理器所处的位置、所述多个处理器的类型、所述多个处理器的出厂时间或批次、用户的预定需求。
32.在一些实施例中,所述处理器为图形处理器gpu。
33.在本公开实施例中,预定参数可以根据实际需要进行设计,本公开实施例对此不作限定。另外,预定参数例如可以仅包括处理器所处的位置,也可以包括处理器所处的位置以及用户的预定需求等,本公开实施例不限于此。
34.在至少一个实施例中,在步骤101中,可以按照所述多个处理器所处的地理位置、空间位置和网络位置中的至少一个对所述目标系统进行划分。在本公开实施例中,地理位置例如为华北地区、华南地区、某省、某市、某街道、某大厦等;空间位置例如为某机房的某排、某栋楼的某层等;网络位置例如为某个局域网、某些预定的网络地址等,本公开实施例对此不作限制。
35.在至少一个实施例中,所述多个处理器的类型例如包括功能类型和/或市场类型,处理器的功能类型例如为ai计算、常用办公等;处理器的市场类型例如为高配置处理器、低配置处理器、高端产品、低端产品等,本公开实施例对此不作限制。
36.在至少一个实施例中,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的提供的服务和所述多个处理器对应的使用者。在本公开实施例中,处理器的算力例如可以根据相关技术进行评估,本公开实施例对此不作限制;处理器的出厂时间或批次例如可以根据相关技术获取,本公开实施例对此不作限制;处理器对应的提供的服务例如为视频服务、游戏服务等;处理器对应的使用者例如为汽车工厂、服装销售商等。
37.本领域技术人员应知晓,上面仅仅是为了使本公开更加清楚而进行的举例说明,不应解释为对本公开实施例的限制。
38.图3是本公开第一方面的实施例的自动巡检方法的另一示意图。
39.在至少一个实施例中,如图3所示,方法300可以包括:
40.步骤301:根据用户的预定需求将所述管理区域划分为多个子管理区域;
41.步骤303:选择至少一个子管理区域或者选择所述子管理区域中的至少一个处理器所在的系统进行巡检。
42.由此,能够方便用户进行更加细化的管理。
43.另外,本公开实施例例如还可以包括按照预定需求对子管理区域进行进一步划分
等。
44.在步骤301中,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的提供的服务和所述多个处理器对应的使用者。
45.图4是本公开第一方面的实施例的自动巡检方法的另一示意图。
46.在至少一个实施例中,如图4所示,方法400可以包括:
47.步骤401:根据获取的所述巡检信息判断对应的子系统的巡检状态。巡检状态例如包括正常、故障等。本公开实施例对具体的判断过程不作限制,例如,在巡检信息中包含了故障提示的情况下,判断为子系统的巡检状态为故障状态,在巡检信息中不包含故障提示的情况下,判断为子系统为正常状态。
48.在至少一个实施例中,如图4所示,方法400还可以包括:
49.步骤403:在所述子系统的巡检状态为故障状态的情况下,收集所述子系统的故障信息。例如,收集子系统的故障日志等信息,但本公开实施例不限于此,例如,还可以根据预定需要收集环境参数、版本信息、硬件信息等信息。
50.在至少一个实施例中,如图4所示,方法400还可以包括:
51.步骤405:在所述子系统的巡检状态为正常状态的情况下,判断所述巡检计划中是否存在表示对所述子系统的隐患进行巡检的信息;
52.步骤407:在所述巡检计划中存在表示对所述子系统的隐患进行巡检的信息的情况下,根据隐患检测规则对所述子系统的隐患进行巡检,获取隐患信息,所述隐患检测规则包括数据的预定类型、与所述预定类型对应的预定数据、判断规则、提取数据的操作序列和数据的时序序列;
53.步骤409:根据所述隐患信息和所述隐患检测规则输出所述子系统可能存在的隐患的列表。
54.在本公开实施例中,隐患信息例如可以包括硬件情况,厂家情况,软件配套情况,特殊用途情况,特殊版本情况、生产批次和日期等,本公开实施例对此不作限制,只要是可能发生隐患的信息或数据都可以作为隐患信息被获取。
55.图5是本公开第一方面的实施例的隐患检测规则的一个示意图。
56.隐患检测规则500例如可以包括至少一个预定的数据类型,例如,系统日志、固件日志、故障日志等;至少一个预定数据,例如环境参数、固件等的版本信息、硬件信息、厂家情况,软件配套情况,特殊用途情况,特殊版本情况、生产批次和日期等。
57.另外,如图5所示,隐患检测规则500还可以包括至少一个操作序列、至少一个时序序列、至少一个判断规则等。
58.例如,判断规则(1)用于判断隐患(1),判断规则(1)例如规定按照操作序列(1)规定的顺序执行相应操作,按照时序序列(2)规定的时序获得对应的条件,操作序列(1)例如规定了提取预定数据的顺序,例如,数据类型z的预定数据y
→
数据类型x的预定数据x
→
数据类型y的预定数据z
……
等,时序序列(2)例如规定了条件顺序:数据类型z的预定数据y在预定范围
→
数据类型x的预定数据x不在预定范围
→
数据类型y的预定数据z等于预定值
……
等。如果按照操作序列(1)执行了相应操作且能够满足时序序列(2)的条件,那么判断存在例如隐患(1)。
59.再例如,判断规则(2)用于判断隐患(2),判断规则(2)例如规定按照操作序列(2)规定的顺序执行相应操作,按照时序序列(n)规定的时序获得对应的条件,操作序列(2)例如规定了提取预定数据的顺序,例如,数据类型m的预定数据m
→
数据类型n的预定数据n
→
数据类型z的预定数据x
……
等,时序序列(n)例如规定了条件顺序:数据类型m的预定数据m等于预定值
→
没有获取到预定数据n
→
数据类型z的预定数据x在预定范围
……
等。如果按照操作序列(2)执行了相应操作且能够满足时序序列(n)的条件,那么判断存在例如隐患(2)。
60.在至少一个实施例中,如图4所示,方法400还可以包括:
61.步骤411:更新所述隐患检测规则。
62.在步骤411中,例如,增加和/或删减和/或修改所述隐患检测规则。例如,可以通过导入隐患检测规则或对隐患检测规则进行编辑实现,本公开实施例对如何更新隐患检测规则不作限制。
63.在至少一个实施例中,如图4所示,方法400还可以包括:
64.步骤413:查询所述隐患检测规则。由此,方便用户快速获取到感兴趣的隐患检测规则。
65.图6是本公开第一方面的实施例的自动巡检方法的另一示意图。
66.在至少一个实施例中,如图6所示,方法600可以包括:
67.步骤601:根据用户的权限等级限制用户能够访问和/或能够操作的巡检区域;和/或
68.步骤603:根据用户的权限等级限制用户能够访问和/或能够操作的巡检计划和/或巡检规则。
69.由此,方便对巡检区域、巡检计划和巡检规则进行分级管理。
70.在本公开实施例中,例如,设置预定数量的权限等级,在创建用户时,同时为用户赋予相应的权限等级。另外,还可以预先定义各权限等级能够访问和/或能够操作的巡检区域、巡检计划和巡检规则。
71.在至少一个实施例中,如图6所示,方法600还可以包括:
72.步骤605:接收用户的登录请求;
73.步骤607:在所述登录请求符合登录条件的情况下,获取所述用户的权限等级。
74.另外,在本公开实施例中,还可以包括用户管理和用户登录查询,用户管理例如可以包括用户创建,用户删除,用户修改等,具体可以参考相关技术,本公开实施例对此不作限制。
75.在至少一个实施例中,在步骤103中,根据与所述用户的权限等级对应的巡检计划和/或巡检规则对对应的巡检区域内的子系统进行巡检,获取所述子系统的巡检信息。
76.在至少一个实施例中,如图6所示,方法600还可以包括:
77.步骤609:更新所述巡检计划和/或所述巡检规则。
78.在步骤609中,例如,增加和/或删减和/或修改所述巡检计划和/或所述巡检规则。例如,可以通过导入巡检计划和/或巡检规则或对巡检计划和/或巡检规则进行编辑实现,本公开实施例对如何更新巡检计划和/或巡检规则不作限制。
79.在至少一个实施例中,如图6所示,方法600还可以包括:
80.步骤611:查询所述巡检计划和/或所述巡检规则。由此,方便用户快速获取到感兴趣的巡检计划和/或巡检规则。
81.在至少一个实施例中,如图6所示,方法600还可以包括:
82.步骤613:将与所述至少一个子系统的巡检信息相关的信息按照预定路径进行推送。
83.在至少一个实施例中,与所述至少一个子系统的巡检信息相关的信息包括以下信息中的至少一个:所述至少一个子系统的巡检信息、所述至少一个子系统的巡检状态、所述至少一个子系统的故障信息、所述至少一个子系统的隐患信息。例如,推送表示“正常”“故障”等结果的信息,或者推送故障或隐患的列表,本公开实施例对此不作限制。
84.在至少一个实施例中,所述预定路径包括由显示装置显示、、和短信中的至少一个。由此,方便用户及时获取巡检结果,从而能够对目标系统存在的故障、隐患和风险及时应对。
85.根据本公开第一方面的实施例,通过对目标系统进行区域划分并按照巡检计划进行巡检,能够对目标系统进行定期监测。
86.第二方面的实施例
87.本公开第二方面的实施例提供一种自动巡检装置。本公开实施例的自动巡检装置解决问题的原理与上述自动巡检方法相似,因此该自动巡检装置的实施可以参见上述自动巡检方法的实施,重复之处不再赘述。
88.图7是本公开第二方面的实施例的自动巡检装置的一个示意图。
89.如图7所示,自动巡检装置700包括区域管理单元701和巡检单元702,区域管理单元701将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;巡检单元702根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。
90.在至少一个实施例中,区域管理单元701根据预定参数将所述目标系统划分为所述多个管理区域,所述预定参数包括以下至少一个:所述多个处理器所处的位置、所述多个处理器的类型、所述多个处理器的出厂时间或批次、用户的预定需求。
91.在至少一个实施例中,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的提供的服务和所述多个处理器对应的使用者。
92.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括子区域管理单元703和选择单元704,子区域管理单元703根据用户的预定需求将所述管理区域划分为多个子管理区域,选择单元704选择至少一个子管理区域或者选择所述子管理区域中的至少一个处理器所在的系统进行巡检。
93.在至少一个实施例中,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的
提供的服务和所述多个处理器对应的使用者。
94.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第一判断单元705,第一判断单元705根据获取的所述巡检信息判断对应的子系统的巡检状态。
95.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括故障收集单元706,故障收集单元706在所述子系统的巡检状态为故障状态的情况下,收集所述子系统的故障信息。
96.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第二判断单元707、隐患检测单元708和输出单元709,在所述子系统的巡检状态为正常状态的情况下,第二判断单元707判断所述巡检计划中是否存在表示对所述子系统的隐患进行巡检的信息;在所述巡检计划中存在表示对所述子系统的隐患进行巡检的信息的情况下,隐患检测单元708根据隐患检测规则对所述子系统的隐患进行巡检,获取隐患信息,所述隐患检测规则包括数据的预定类型、与所述预定类型对应的预定数据、判断规则、提取数据的操作序列和数据的时序序列;输出单元709根据所述隐患信息和所述隐患检测规则输出所述子系统可能存在的隐患的列表。
97.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第一更新单元710,第一更新单元710更新所述隐患检测规则。
98.在至少一个实施例中,第一更新单元710增加和/或删减和/或修改所述隐患检测规则。
99.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第一查询单元711,第一查询单元711查询所述隐患检测规则。
100.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第一权限管理单元712和/或第二权限管理单元713,第一权限管理单元712根据用户的权限等级限制用户能够访问和/或能够操作的巡检区域;第二权限管理单元713根据用户的权限等级限制用户能够访问和/或能够操作的巡检计划和/或巡检规则。
101.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括登录单元714和权限获取单元715,登录单元714接收用户的登录请求;在所述登录请求符合登录条件的情况下,权限获取单元715获取所述用户的权限等级。
102.在至少一个实施例中,巡检单元702根据与所述用户的权限等级对应的巡检计划和/或巡检规则对对应的巡检区域内的子系统进行巡检,获取所述子系统的巡检信息。
103.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第二更新单元716,第二更新单元716更新所述巡检计划和/或所述巡检规则。
104.在至少一个实施例中,第二更新单元716增加和/或删减和/或修改所述巡检计划和/或所述巡检规则。
105.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括第二查询单元717,第二查询单元717查询所述巡检计划和/或所述巡检规则。
106.在至少一个实施例中,如图7所示,自动巡检装置700还可以包括推送单元718,推送单元718将与所述至少一个子系统的巡检信息相关的信息按照预定路径进行推送。
107.在至少一个实施例中,与所述至少一个子系统的巡检信息相关的信息包括以下信息中的至少一个:所述至少一个子系统的巡检信息、所述至少一个子系统的巡检状态、所述
至少一个子系统的故障信息、所述至少一个子系统的隐患信息。
108.在至少一个实施例中,所述预定路径包括由显示装置显示、、和短信中的至少一个。
109.在至少一个实施例中,区域管理单元701按照所述多个处理器所处的地理位置、空间位置和网络位置中的至少一个对所述目标系统进行划分。
110.根据本公开第二方面的实施例,通过对目标系统进行区域划分并按照巡检计划进行巡检,能够对目标系统进行定期监测。
111.本公开实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的实施例的自动巡检方法。
112.本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的实施例的自动巡检方法。
113.本公开实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述第一方面的实施例的自动巡检方法。
114.本公开实施例在自动巡检方法的各步骤中标注了各步骤的编号,但编号的顺序并不代表各步骤的执行顺序,各步骤的执行顺序可以根据实际情况任意组合,本公开实施例不以此为限制。
115.本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
116.本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
117.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
118.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
119.以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限定本公开的保
护范围,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
技术特征:
1.一种自动巡检方法,其特征在于,所述自动巡检方法包括:将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。2.根据权利要求1所述的自动巡检方法,其特征在于,在将包含多个处理器的目标系统划分为多个管理区域的步骤中,根据预定参数将所述目标系统划分为所述多个管理区域,所述预定参数包括以下至少一个:所述多个处理器所处的位置、所述多个处理器的类型、所述多个处理器的出厂时间或批次、用户的预定需求。3.根据权利要求2所述的自动巡检方法,其特征在于,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的提供的服务和所述多个处理器对应的使用者。4.根据权利要求1所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:根据用户的预定需求将所述管理区域划分为多个子管理区域,选择至少一个子管理区域或者选择所述子管理区域中的至少一个处理器所在的系统进行巡检。5.根据权利要求4所述的自动巡检方法,其特征在于,所述用户的预定需求包括以下至少一个:所述多个处理器对应的地理位置、所述多个处理器的算力、所述多个处理器的批次、所述多个处理器对应的提供的服务和所述多个处理器对应的使用者。6.根据权利要求1所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:根据获取的所述巡检信息判断对应的子系统的巡检状态。7.根据权利要求6所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:在所述子系统的巡检状态为故障状态的情况下,收集所述子系统的故障信息。8.根据权利要求6所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:在所述子系统的巡检状态为正常状态的情况下,判断所述巡检计划中是否存在表示对所述子系统的隐患进行巡检的信息;在所述巡检计划中存在表示对所述子系统的隐患进行巡检的信息的情况下,根据隐患检测规则对所述子系统的隐患进行巡检,获取隐患信息,所述隐患检测规则包括数据的预定类型、与所述预定类型对应的预定数据、判断规则、提取数据的操作序列和数据的时序序列;根据所述隐患信息和所述隐患检测规则输出所述子系统可能存在的隐患的列表。9.根据权利要求8所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:更新所述隐患检测规则。10.根据权利要求9所述的自动巡检方法,其特征在于,所述更新所述隐患检测规则的步骤包括:增加和/或删减和/或修改所述隐患检测规则。
11.根据权利要求8所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:查询所述隐患检测规则。12.根据权利要求1至11任一项所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:根据用户的权限等级限制用户能够访问和/或能够操作的巡检区域;和/或根据用户的权限等级限制用户能够访问和/或能够操作的巡检计划和/或巡检规则。13.根据权利要求12所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:接收用户的登录请求;在所述登录请求符合登录条件的情况下,获取所述用户的权限等级。14.根据权利要求13所述的自动巡检方法,其特征在于,在根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息的步骤中,根据与所述用户的权限等级对应的巡检计划和/或巡检规则对对应的巡检区域内的子系统进行巡检,获取所述子系统的巡检信息。15.根据权利要求1至11任一项所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:更新所述巡检计划和/或所述巡检规则。16.根据权利要求15所述的自动巡检方法,其特征在于,所述更新所述巡检计划和/或所述巡检规则的步骤包括:增加和/或删减和/或修改所述巡检计划和/或所述巡检规则。17.根据权利要求1至11任一项所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:查询所述巡检计划和/或所述巡检规则。18.根据权利要求1至11任一项所述的自动巡检方法,其特征在于,所述自动巡检方法还包括:将与所述至少一个子系统的巡检信息相关的信息按照预定路径进行推送。19.根据权利要求18所述的自动巡检方法,其特征在于,与所述至少一个子系统的巡检信息相关的信息包括以下信息中的至少一个:所述至少一个子系统的巡检信息、所述至少一个子系统的巡检状态、所述至少一个子系统的故障信息、所述至少一个子系统的隐患信息。20.根据权利要求18所述的自动巡检方法,其特征在于,所述预定路径包括由显示装置显示、、和短信中的至少一个。21.根据权利要求1至11任一项所述的自动巡检方法,其特征在于,在所述将包含多个处理器的目标系统划分为多个管理区域的步骤中,按照所述多个处理器所处的地理位置、空间位置和网络位置中的至少一个对所述目标系统进行划分。22.一种自动巡检装置,其特征在于,所述自动巡检装置包括:区域管理单元,其将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;巡检单元,其根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划
包括至少一个巡检区域、与所述至少一个巡检区域对应的巡检时机、与所述至少一个巡检区域对应的巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。23.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至21中任意一项所述的自动巡检方法。24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至21中任意一项所述的自动巡检方法。
技术总结
本公开涉及数据处理领域并公开了一种自动巡检方法和自动巡检装置。所述自动巡检方法包括:将包含多个处理器的目标系统划分为多个管理区域,每个管理区域包含至少一个子系统,所述子系统为所述管理区域中的包含至少一个处理器的系统;根据巡检计划和巡检规则对巡检区域内的至少一个子系统进行巡检,获取所述至少一个子系统的巡检信息,所述巡检区域包括至少一个管理区域,所述巡检计划包括至少一个巡检区域、巡检时机、巡检周期中的至少一个,所述巡检规则包含获取所述子系统的相关信息的操作序列、数据类型、与所述数据类型对应的数据。通过对目标系统进行区域划分并按照巡检计划进行巡检,能够对目标系统进行定期监测。能够对目标系统进行定期监测。能够对目标系统进行定期监测。
技术研发人员:
请求不公布姓名
受保护的技术使用者:
摩尔线程智能科技(北京)有限责任公司
技术研发日:
2022.12.23
技术公布日:
2023/3/27