随着网络规模的扩大,集约化的推行,网络中产生海量告警,大量无效工单影响运维效率。在此背景下,各运营商提出告警压降的目标,希望通过告警相关性分析减少工单数量,大幅降低无效告警,提升故障处理效率、降低运营成本。国内三大运营商以及多个国际主流运营商均对此功能有着非常迫切的需求。
基于此背景,烽火通信成立技术攻关项目,率先实现了OTN设备告警相关性分析功能。烽火人工智能团队成功研发了一款智能告警处理引擎,该引擎旨在解决网络故障诊断这个OSS领域的老难题,应用大数据分析技术和机器学习算法,在告警关联分析和根衍推理方面取得了重要突破。
图一 烽火告警相关性分析系统系统图
烽火智能告警处理引擎由学习引擎和执行引擎两部分组成,学习引擎通过对多现场的历史告警进行迭代训练和学习,归纳出告警关联规则,并运用领域知识或专家知识对规则进行提炼与验证,形成有效的告警规则库。执行引擎利用告警规则库,对网络告警进行实时的根因分析,识别出根告警,过滤掉由此衍生的告警。
图二 烽火告警相关性分析系统组成
目前,该引擎在OTN网络的告警处理上取得了令人满意的效果,通过实验室验证和现场数据测试,准确率指标超过90%,告警压缩率峰值高达50%。后续将进一步拓展到无线(4G/5G)、核心网、接入网等领域使用,为运营商运维部门和设备厂商的工程维护人员提供强有力的故障诊断工具,提高网络故障的处理效率。 目前该解决方案已经在全国多个省份的不同运营商完成试点,均取得了理想效果。以杭州移动为例,杭州覆盖到的45条规则经验证正确率为100%,可满足杭州移动现网的使用场景。
烽火智能告警处理解决方案的成功推出,大大提高了运营商网络运维阶段的工作效率,也标志着烽火在网络运维方面人工智能化进一步深化布局,全力推进!