智能运维平台的建设实践

阅读: 评论:0

Application 闕酺毋J
智能运维平台的建设实践
文II光大证券股份有限公司信息技术总部副总经理杨超
光大证券股份有限公司信息技术部吴浩孙伟
〜p几年证券业务创新快速发展,如设 立科创板并试点注册制、股转新三 板改革、创业板改革等对技术系统的快速 响应提出了更高的需求,业务的灵活多变、版本的快速迭代、系统的频繁变更升 级给系统的安全稳定高效运行带来了很大 挑战。另一方面,新一代信息技术正在被 应用到行业的各个领域,智能运维旨在通 过对海量运维数据进行挖掘分析,提升运 维水平,这正是科技赋能运维,提升行业 运行保障能力的典型应用。光大证券积极 探索智能运维落地使用,2018年上线了 智能运维平台并荣获第七届证券期货科学 技术奖三等奖,经过持续的优化迭代,该 平台已经在运维工作中发挥出越来越重要 的作用。
智能运维平台功能框架
目前我司建设的智能运维平台核心 包括异常检测和异常定位两类场景。异常 检测能力包括业务指标异常检测和日志异 常检测场景,异常定位能力包括业务明细 多维定位和机器指标定位场景,底层以运 维数
据工厂和运维图谱作为支撑,覆盖了 应用层以及基础层(见右图)。
在应用层,主要以业务以及用户体验为视角,专注于响应时间、响应率、成 功率等指标的检测.有助于及时发现系统 异常,提前揭示潜在风险。同时在应用层, 会对关键的模块日志进行实时主动异常检 测,通过运行指标和运行日志可以揭示绝 大部分应用异常。在平台检测出运行指标或日志异常之后,会自动触发异常定位即
异常原因定位,在应用层面会触发对交易
明细的多个维度进行分析,自动遍历所有
业务维度组合,大幅提升异常定位效率和
广度。多维定位的结果可以为我们揭示一
些根因的表象和线索,比如成功率下降是
否集中在某些版本或者某些返回码,成功
率下降是不是集中在某个线路、某一类型
交易等,排查结果可以帮组运维人员快速
判断异常排查方向。
在基础设施层,平台会利用C N1DB
龙芯3b到该应用所依赖的基础组件如包括主
机、数据库、网络、存储等,对这些组件
的关键指标以及日志进行分析,得出存在
异常波动的指标,降低运维人员检查基础
层异常的时间。
此外.无论是在应用层还是基础层,
传统的监控工具,特别是专业组件监控工
具仍然发挥着很重要的作用,专业工具产
生的告警也会自动纳入到异常原因列表进
行汇聚分析,算法据异常程度以及人工运
维经验设置的权重、调用关系、进行可能
原因排名,从而帮助运维人员快速确认导
致异常的可能原因。
智能运维平台核心落地饧景分析
1.单指标异常检测
在单个指标检测方面,主要有静态
阈值、统计性算法、时序性检测算法等。
这几种算法适用于不同的数据,在我们生楼层呼叫器
产环境中往往是结合起来使用的,核心是
根据数据特征的不同采用不同的算法或
者组合来进行异常检测。另外在实践中表
明,交易系统的主要运行指标一般都是以
天为周期,这为检测提供了有力条件。针
对数据特征的不同,选择的检测算法包括
SARIMA、K-Sigma、TSD、GBRT^0
另外我们也积累了一些经验,如10
heff•W应率低
• «应挪
•应用报镝• *汛失敗 •版本B U G•网《问* •主机间B■根》系统•根*机器
•....后台.…..
指标丨!曰志!!SW::指标::曰志!:吿*::指标丨:曰志!:S*::宿标!:曰志丨:告赘:工单
二......
.活.......'ping不a、、、、..、•/.•ipps;i»8*.変®
.酞/』吓足........m\关譬抑蝤•m m
.RJi库若机•H络31逢.主机H A>R?•>、、'、,,’ .….…
J
11?图平台功能图
塞础组件日志
异常检测
网络
应用系统
应用曰志
mp3机
异常棚
业务斷
异常险«
69
陳豳詞Application
秒汇聚出来的指标相比较i分钟级别,不 但进一步提高了故障发现效率,数据特征 也更明显,效果也更好。由于券商有固定 交易时间,我们发现在交易时间各个运行 指标检测的效果更好,反之在非交易时间 由于受到一些不确定的变更、重启等操 作影响,检测效果不佳。目前已在光大 证券接入了 10000多个业务运行指标,覆盖了集中交易、两融、网上交易等核心 交易系统。
2.曰志异常检测
曰志数据中往往隐藏着很多有价值 的信息,甚至直接是异常的根本原因。通 常情况下,对于重要的
运行日志,传统的 方法是设置关键字监控或配置正则表达式。但是关键字监控的实际使用效果并不 理想,如日志种类太多,很难将全部异常 关键字全部覆盖。另外一种方法就是正则 解析,即对某一种类型的日志实施精准结 构化解析,这种方法更适合针对特定格式 的曰志提取业务或者关键指标,并不适合 直接做日志异常检测,最重要的原因是正 则表达式配置复杂,一种日志有时需要要 写几十个正则,而且历史上未出现过的日 志是无法使用现有的正则完成解析的。为 了解决关键字和正则表达式检测方式的不 足,我们通过自动智能的日志模板解析算 法从日志中自动提取出不同的模板和变量,进而针对模板所覆盖的日志数量进行 智能的异常检测,帮助运维人员实时在海 量曰志中发现异常日志。我们在实践中发 现,日志的异常检测不能全部依赖于算法, 同样需要结合运维经验,比如运维人员来 设置哪些模板对于运行是有意义的需要检 测的,哪些可以忽略,甚至直接设置关键 字等。通过运维经验即规则的设置加上算 法的检测,日志的异常检测才能取得预期 效果。目前生产上我们已经实现了对交易 系统的核心运行日志以及操作系统、数据库等通用组件的日志监控,多次发现异常。
3.业务明细多维定位
对于核心系统交易量、响应时间、
成功率、响应率等指标,往往是通过
SparkStreaming或Flink等流计算而来,
基础数据是每一笔交易流水。而每一笔交
易往往存在多个维度属性,当这类业务指
标出现问题时,快速判断异常程度最高的
维度属性通常能帮助管理员迅速缩小排障
范围,进而提升故障处置效率。一笔典型
的股票交易明细包括交易的来源省份、城
市、证券交易的客户端版本、客户端所在
的系统类型、主机IP等多种维度,每一
种维度都包括若干个属性取值。例如IP、
客户号等的取值就很多且分散,逐个维度
进行人工计算对比,耗时很长,而对于有
些现象往往出现在多个维度的组合。当前
某个功能耗时增加,可能是集中出现在使
点火装置用了 APP6.00 (客户交易端版本)且手
机为安卓操作系统,维度组合越多计算将
越困难,耗时越长。因此,手工枚举所有
的维度进行维度定位往往耗时较长。
业务明细多维定位场景采用基于蒙
特卡洛树剪枝等算法,可以在业务指标发
生异常时,自动从多个维度属性组合中分
析出异常维度组合。目前在实际落地中,
已经实时接入了核心交易系统包括集中交
易、两融、网上交易等系统的业务明细数
据。当业务指标出现异常时,可以准确快
速地对异常前后的交易明细数据进行定位
分析,自动出异常的维度或者维度组合,
为应用管理员提供导致异常的线索,相比
较人工的方式,大幅度提高了定位的速度。
4.异常机器指标定位
在遇到了业务异常,特别是遇到性能
问题时,通常会去检查相关组件如操作系
统、数据库、网络等关键的指标是否有变
化。以主机为例,通常用CPU、MEM、
I/O几方面的指标,如C PU利用率、内
存利用率、磁盘繁忙率、网络进出流量、
机器负载等几十个基础性能指标,往往需
要耗费大量精力去检查。通过运用聚类、
核密度估计、极值理论等算法,可以快速
判断并定位到哪些指标与自己的历史、其
他机器的波动情况不同。
例如当智能运维平台检测出某个交
滑动水口易指标响应时间异常之后,多维度分析表
明来自某两台处理机请求响应时间异常导
致整个功能号延时增加,同时通过异常机
器指标定位到这两台处理机的CPU指标
出现异常。从检测到功能号异常,再到定
位问题,并进行具体处理,整个过程可以
在1分钟内完成。
平台建设收益
近年来,我们在智能运维领域持续耕
耘,特别是异常检测和根因定位在我们的
生产环境取得了良好效果。主要表现在以
下方面:首先,智能运维平台数据包括了
从业务到基础层数据,如日志、指标、工
单等,在提升数据治理能力的同时,打破
了数据壁垒,监测的范围更广,多次发现
了传统监控没有监测到的异常,特别是一
些潜在风险、瓶颈。其次,由于大数据技
术特别是实时流计算以及算法的运用,使
得检测速度更快、颗粒度更细,而且更加
准确,生产上对于业务指标以及日志的实
时监测达到了秒级别。最后,得益于算法
的应用和基于运维经验的规则设置,在检
测到异常之后,可以更加快速地排查到异
常原因,有效降低了 M TTR,提升排障
效率。此外,通过开源技术替代商业软件,
直接节约了经济成本数百万元,有效降低
了运维成本。随着智能运维的不断深入建
设,该平台已成为光大证券从1T运维的
稳定、安全、可靠向IT运营的体验、效益、
效率转型的重要抓手。□
70

本文发布于:2023-07-26 05:18:56,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/192611.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:运维   指标   检测   日志   智能
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图