2022年5月,观安信息人工智能研究院 idss 战队凭借过硬的技术实力及出色的比赛表现,在众多同业竞争对手中脱颖而出,成功拿下山东省第三届数据应用创新创业大赛二等奖。
01大赛背景
山东省第三届数据应用创新创业大赛主赛场以“协同创新 强省惠民”为主题,致力加快推动公共数据资源开发利用,充分释放公共数据资源的经济价值和社会价值,集聚了一大批数据应用相关企业、团队、爱好者,旨在打造出具有创新性的数据产品、数据服务,促进发挥数据“优政、惠民、兴业”作用。
02赛题挑战
基础设施监控及告警分析一直是运维行业的痛点,随着云计算、物联网等技术的成熟和基础设施以上搭建的云平台、容器化平台等技术的广泛应用,通过多源多端数据采集,收集到海量、多样的告警数据,其中有效告警经常被噪音淹没,这就给运维行业提出了更高的要求。当遇到突发故障时,如何从大规模告警中找到真正故障根源并进行决策处理,是现阶段传统运维面临的一个难题。
03核心目标
● 提高告警准确率
传统业务规则引擎会产生多次误报,基于AI告警检测,利用机器学习、异常算法等,进行自适应学习,实现动态异常检测,降低传统规则引擎误报,提升告警准确度。
● 缩短故障发现时间
分析大量历史告警日志,总结告警事件之间关系,发现告警原因、关键告警进行,形成告警知识库。利用不断更新完善知识库,进行实时告警检测,迅速定位告警根因,及时处置相应告警事件,进行故障处理。
● 系统告警指标智能检测
针对不同业务系统,随着数据不断增加,对于多范围业务指标,人力跟踪无法满足业务异常检测,利用异常算法等自适应学习算法,分析不同范围内业务指标波动情况,发现波动异常指标,实现自主识别,智能异常发现。
● 降低运维管理成本
AI智能运维以机器学习、深度学习、异常检测算法形成自适应模型,减少告警事件溯源人力,减少告警策略维护人力,降低因告警不准所引起的经营管理风险。通过观安智能运维平台,提高了告警准确率,降低了运维成本,同时利用关键事件组及知识图谱,预测告警的发生,降低严重运维故障的发生率。
04应对策略
观安智能运维平台方案首先利用文本相似、Drain算法等提取告警内容模板,统一告警类型,实现了告警降维,挖掘告警事件间的关联性,归并成告警关联事件组,从而完成告警事件的压缩;其次采用动态告警时间窗口,利用无监督异常检测算法、图分析技术,定位根因;最后利用风险评分算法,从多个维度对告警事件进行评分,修正原有告警等级,突出“根因”告警等。
通过观安智能运维平台,提高了告警准确率,并同步降低了运维成本,同时利用关键事件组及知识图谱,预测告警的发生,最大程度降低了严重运维故障的发生率。