Technology Study
技术研究
DCW
3
数字通信世界
2021.04
1 O LT 退服
在运营商故障监控工作中,集中故障系统产生的OLT 退服告警对宽带业务影响范围、家宽实际影响用户数一直是家宽业务关联影响的重要环节,明确OLT 退服影响是告警监控重要的目标;而OLT 退服业务影响所造成的用户投诉、投诉与退服的关联分析工作也是监控任务的重中之重。当前,仅通过故障告警等粗放式故障分析模式使运维人员无法有效进行OLT 退服精确故障分析,OLT 故障无法快速有效解决,导致用户投诉率高居不下,在投入大量运维工作但用户满意度仍未改善。 基于上述问题,究其原因是没有一种切实有效的技术对OLT 业务退服影响范围、影响用户等关键指标深入分析并指导运维工作。本文提出一种基于家宽网络故障与业务精准关联技术,当OLT 退服故障发生时,通过获取OLT 在线用户数及其跌落关系信息,准确判断OLT 退服后的业务影响,然后进行分层分级故障处理调度,尽可能缩减影响面积大的故障处理时长;并通过故障与投诉工单关联算法准确匹配到投诉客户实施投诉关怀业务,最终达到快速定位解决故障、减少用户投诉及提升用户满意度的目的。
2 基于家宽网络故障与业务的精准关联技术
基于家宽网络故障与业务精准关联技术实现分为三个阶段来实现OLT 退服故障影响范围分析、影响用户数分析、分析结果的实施应用,其组成如图1
所示。
图1 家宽网络故障与业务精准关联技术实现阶段及步骤
2.1 阶段一:基础数据改造阶段
该阶段主要是完成OLT 退服影响范围、影响用户数等基础数据支撑的改造,该阶段可划分为四个步骤:
步骤一:首先进行OLT/BAS 设备PPPoE+改造,通过在OLT 设备上部署PPPoE+,同时从Radius/3A 中得到的CID (用户关联)信息进行用户账号与BRAS 及接
一种基于家宽网络故障与业务的精准关联技术
李庭煜,倪家醒,王恩燕,徐 超,关 涛,吕珍贻
(贵州移动,贵州 贵阳 550000)
摘要:在运营商故障监控工作中,OLT 退服告警对宽带业务影响范围、家宽实际影响用户数一直是家宽业务关联影响的重要环节,明确OLT 退服影响是告警监控重要的目标。提出一种基于家宽网络故障与业务的精准关联技术,将家宽用户信息与告警相结合,实现故障与影响客业务的网络指标自动关联,完成对OLT 退服对业务的影响、影响用户精准分析和用户投诉的分析关联,减少用户投诉,提升用户满意度,实现经济效益的提升。
关键词:故障监控;家宽故障与业务关联;用户投诉分析;Radius doi :10.3969/J.ISSN.1672-7274.2021.04.002中图分类号:TN91,TP393.4 文献标示码:A 文章编码:1672-7274(2021)04-0003-03
A Precise Correlation Technology Based on Home Broadband
Network Faults and Services
LI Tingyu, NI Jiaxing, WANG Enyan, XU Chao, GUAN Tao Lv Zhenyi
(Guizhou Mobile, Guiyang 550000, China)
Abstract :In the operator's fault monitoring work, the scope of impact of OLT decommissioning alarms on broadband services and the actual number of users affected by home width have always
been an important link in the impact of home broadband services. It is important to clarify the impact of OLT decommissioning is an important goal of alarm monitoring. This paper proposes a precise correlation technology based on home-wide network faults and services, which combines home-wide user information with alarms to realize automatic correlation between faults and network indicators that affect customer services, and complete the impact of OLT decommissioning on services and users Accurate analysis is associated with the analysis of user complaints, reducing user complaints, improving user satisfaction, and realizing the improvement of economic bene fi ts.
Keywords :fault monitoring; home wide fault is related to business; user complaint analysis; radius
研究
Technology Study
I G I T C W 技术
4DIGITCW
2021.04
入部分数据分析,包括用户账号与类型,带宽,BRAS 名称与IP ,BRAS 端口,OLTIP ,PON 口,ONU 的SN 或LOID ,及业务的内外层VLAN 等,该环节主要用于对底层关键数据获取的改造。
步骤二:增加Radius 系统用户位置信息存储,在OLT 退服告警发生前和发生后一段时间内,Radius
钱德勒一直都存有实时的OLT 在线用户数;Radius 系统将OLT 实时在线用户数存储后推送至集中监控系统,当OLT 退服告警发生时,集中监控系统可通过OLT 告警退服前后一定范围周期内的用户数变化情况来确认影响范围,其判断流程如图2
所示。
图2 OLT 在线用户文件定时推送接口
步骤三:增加集中故障至Radius 系统用户信息查询接口,通过在监控流程中新增Radius 系统OLT 在线用户查询接口,可在OLT 发出告警时调用该接口,确认OLT 上是否还存在使用用户,进而确定OLT 的退服告警
是系统中断还是业务中断。
图3 OLT 退服时OLT 在线用户查询接口
基础数据及接口改造阶段完成后数据交互流程如图3所示。
步骤四:集中故障用户信息查询改造,当OLT 发生退服后,Radius 系统上的用户数会在较短时间内掉完;为避免过早查询Radius 系统用户因未完全掉线而影响分析效果,集中监控系统将在收到OLT 退服
告警后,根据告警发生时间延时阈值后再进行查询(如:延时5min );同时增加Radius 主动告警接口,该接口采用“OLT 用户跌落阈值算法”,通过判断OLT 在线用户数小于OLT 存量在线用户数的20%时,发送告警至集中故障管理平台,算法判断规则如下:(1)告警规则:OLT 在线用户数小于OLT 存量在线用户数的20%时(表示该OLT 在线用户数相距上一个5min 用户数下降80%),则会触发OLT 在线用户告警消息发送至数据网管,并将该OLT 标识为告警状态,如果OLT 正处于告警状态下又触发告警,则不会将该告警发给集中故障管理平台。
(2)解除告警规则:当OLT 在线用户数大于OLT 存量在线用户数的80%时,且OLT 处于告警状态时,结构设计
则会触发解除告警消息发送至数据网管,同时将该OLT 标识为正常状态;当OLT 正处于正常状态又触发解除告警消息时,则不会触发解除告警消息发送至数据网管。
通过Radius 系统新增OLT 查询接口与Radius 主动告警接口,可以多方面准确定位OLT 故障。其结果如图4
所示。
图4 用户掉线分析结果
2.2 阶段二:故障与业务关联呈现及调度阶段
该阶段主要根据故障和业务关联结果进行业务的呈现,并根据“业务影响判断算法”判断后进行分层分级调度,该阶段可划分为两个步骤:
步骤五:通过OLT 退服后在线用户数的获取,准确地判断了OLT 退服后的业务影响;其业务影响采用了“业务影响判断算法”,该业务算法规则为:前10min 用户数均大于某个阈值(如:5个用户),且后10min 用户数为前10min 用户数20%,则判断该告警存在业务影响。获取的数据已在省端家客场景中呈现监控如图5
所示。
图5 故障与业务关联呈现界面
步骤六:分层分级故障处理调度。通过OLT 故障后在线用户数的获取,准确的判断了OLT 退服后的业务影响;并将业务影响范围推送电子运维平台,对OLT 故障进行分层分级处理调度,尽可能缩减影响面积大的故障处理时长,提高用户满意度。
2.3 阶段三:业务与投诉关联应用阶段
业务影响与投诉关怀应用,该阶段在完成业务精确关联的基础上,将于投诉信息进行关联,该阶段可划分为两个步骤:
Technology Study
技术研究
DCW
训狼记5
数字通信世界
2021.04
步骤七:OLT 退服后,当确认OLT 退服时间点对业
务有影响,且得到全部用户账号的明细;但产生用户的
投诉一般会有延时,确认OLT 退服时间点后,统计1h
内(按用户账号明细)产生了相应投诉工单的记录总数,以及统计相应时段的投诉占比;并采用“用户投诉短信
关怀算法”进行用户短信关怀,该算法具体如下:(1)当产生OLT 退服告警时,通过OLT 退服的业务影响算法判断业务影响范围后,涉及业务影响范围的OLT 退服告警再与对应的家宽系统提供的OLT 用户小区关联关系表进行匹配,获取到影响的用户明细。(2)最后利用上述的影响用户明细与投诉数据进行匹配,确认是否存在投诉用户;如果有则进行标记,并通知家宽侧进行用户关怀的短信提醒;减少用户重复投诉的概率。具体流程如图6
所示。图6 业务影响与投诉关怀业务处理流程
步骤八:家宽业务投诉故障协查。通过OLT 退服后在线用户数的获取,准确的判断了OLT 退服后的业务影响;当产生用户投诉时,可以查询投诉的用户账号,通过宽带用户到MB 全路径信息的宽表,及展示宽带业务路径拓朴和故障点信息,进行用户投诉原因的协助定位;同时可通过ONU 在线用户的光功率查询及PON 口状态性能等查询,协助展示实时用户宽带使用情况。故障协查结果如图7
所示。
图7 家宽业务投诉故障协查实现结果
2.4 技术创新性
结合实际中的使用,基于家宽网络故障与业务精准
关联技术具有如下三个创新点:
(1)通过Radius 系统中“OLT 在线用户数”这个关键参数,将故障与OLT 业务关联起来:一是通过OLT 在线用户定时推送接口和OLT 故障告警用户查询接口,
能够明确每个现网故障的影响业务范围和业务中断情况;二是增加OLT 用户查询时延机制:为避免查询时Radius 系统故障OLT 设备用户未完全掉线而影响分析结果,该技术增加OLT 用户查询时延机制,即集中监控系
统在收到告警后,根据告警发生时间在经历延时阈值后再进行查询(如:延时5min ),从而使分析结果更准确;三是根据故障与业务关联分析结果,通过对故障分层分级调度处理,优先处理业务影响范围大的故障,实现用户满意度的提升。(2)通过判断OLT 退服后的业务影响用户明细后,
如果影响用户明细中存在以往有投诉历史的用户,使用“用户投诉短信关怀算法”,通过提前发送故障影响通知短信,进行用户关怀提醒,减少用户再次投诉机率,提高用户满意度。
畜牧兽医在线(3)采用“OLT 用户跌落阈值算法”,可以与其他接口多方面准确定位OLT 故障。
3 结束语
采用基于家宽网络故障与业务精准关联技术应用后,取得成效如下:
(1)业务影响关联准确度极大提升:通过OLT 退服后在线用户数的获取,准确的判断了OLT 退服后的业务影响,为家宽告警监控提供了有效支撑。PON 网络业务中OLT 退服告警对业务影响的判断准确率由改造前的63%提高至改造后的97%,明确了业务影响范围与影响的用户明细,也为宽带用户业务投诉提供业务判断的依据。
(2)用户故障原因定位更精确:当产生用户投诉时,可以查询投诉的用户账号,通过宽带用户到MB 全路径信息的宽表,及展示宽带业务路径拓扑和故障点信息,进行用户投诉原因的协助定位;同时可通过ONU 在线用户的光功率查询及PON 口状态性能等查询,协助展示实时用户宽带使用情况。
(3)降低用户重复投诉率:用户重复投诉率由改造前的73%下降至改造后36%,该技术实施后极大减少用户重复投诉概率。
参考文献
安亭事件
[1] 邓琼,钟鼎,郭志林,廖振松.基于家宽的投诉预处理支撑能力提升研究[J].信息通信,2016(03):270-271.
[2] 陶乃勇.家庭宽带质量提升研究[J].山东通信技术,2019(01):39-41.[3] 李燕.家庭宽带常见故障及处理技术方式研究[J].中国新通信,2018(14):63-64.
第四类情感
[4] 李季.降低宽带用户故障投诉率[D].数字通信世界,2018(11).
[5] 雷虹.浅谈提高家宽端到端故障定位准确率[D].科技展望,2017(27):10.