五一前夕,喜报传来!4月26日,中国信通院主办了“稳保计划”首届云系统稳定性大会。会上,“稳保计划”云系统稳定性领域的最新评估结果、混沌工程先锋实践者优秀案例评选结果正式公布。
中电金信凭借在混沌工程领域的研发积累和丰富的工程实践,与恒丰银行携手建设的“恒丰银行红蓝对抗演练”获得了首届“混沌工程先锋实践者”优秀案例奖”。
混沌工程
混沌工程作为分布式系统稳定性的重要保障,近年来成为推动企业IT韧性系统建设的强大力量。
2021年中国信通院以混沌工程为切入点开展了一系列工作,历时4个月,对国内一批成熟度高、具有示范标杆作用的优秀混沌工程实践案例进行了调研和评选。恒丰银行与中电金信合作的“红蓝对抗演练”,极大地提升了运维团队应对故障处置的能力,成功入围了首届“混沌工程先锋实践者”优秀案例奖评选。
近几年,分布式架构引入银行体系后,分布式微服务架构的应用让基础设施复杂度日益增高,系统不稳定性也增多,且传统运维演练成本高、费时费力。
恒丰银行烟台数据中心开放场景,与中电金信分阶段开展“红蓝对抗演练”,通过系统常态化的故障演练,红方和蓝方在对抗过程中提前发现并修复系统中的潜在问题,从而提升了系统的稳定及可靠性,有效地提升了运维团队应对故障处置的能力。
红蓝对抗演练平台
中电金信所设计的混沌工程实验平台由基础设施和扰动注入模块、任务调度模块、平台管理模块、平台核心功能等多个模块组成,为红蓝对抗演练提供环境搭建、故障复现、演练事件管理、发起演练等相关功能。
平台不仅包含ChaosBlade常见的故障类型,而且扩充了部分中间件异常以及银行关注的交易一致性场景案例,结合银行系统的特点,打造适用于银行系统的混沌案例库,通过实验管理的方式进行红蓝对抗演练。
混沌工程实验平台落地实践过程中,采用了一系列创新性方法和方式。如将银行关注的高可用案例封装成混沌案例库,其中包含高可用相关停应用、停服务、宕网卡、宕机、假死等案例,以及从生产事件、应急预案中抽象的如存储占满、损坏,交易一致性相关等案例。
此外,演练还联动应急预案与线上告警系统,该系统可以在发生系统问题时,快速定位问题并找到对应的处置方法,有力地提升事件的处置效率。
“红蓝对抗演练”主要在准生产环境进行,应用范围覆盖251个系统,共计1533个部署单元,2605台服务器,涵盖核心系统、手机银行、支付结算、电子银行等重要系统。
下一阶段,恒丰银行还将与中电金信合作,在落地混沌工程实验方面进行更加深远的探索,为行方带来更加完善且高效可行的演练解决方案。