云原生时代下
随着分布式技术的发展和广泛应用
云上云下的应用服务逐渐丰富和深化
IT系统建设迎来了新的难题
就是说,新发展伴随着新风险
具体来看
一方面,IT系统架构在从传统的单体集中式架构转变为云原生分布式架构的过程中,IT系统的架构复杂度在不断上涨;
另一方面,就金融业而言,随着金融机构处理的业务日趋多样、复杂,需要更加安全稳定、自主创新的云原生分布式系统来确保业务的连续性与稳定性。
So,传统的测试已不能满足
当前复杂的系统可能产生的不可预知的故障
金融机构:肿么破?
中电金信:这题我会!
混沌工程测试成为首选
它能够通过主动制造可控的故障
来检测、验证、分析
分布式应用环境的健壮性和边界
(Ps:混沌工程测试通过为系统“打疫苗”,来不断提升系统运行的稳定性与韧性,保障系统的高安全、高可靠、高可用,从而帮助客户实现混沌测试的自主可控和系统架构的全栈国产化创新。)
需要注意的是,目前市面上已知的混沌工程平台产品,大部分是直接封装开源工具作为底层混沌故障引擎,通过二次开发完成企业级平台落地,这在自主创新的大背景下显然不是优选。
金融机构:在线蹲一个高手……
结合多年金融业混沌工程实践经验
源启混沌工程平台申请出战
该平台以混沌工程技术为核心,能力涵盖混沌工程实施制度流程、故障设计方案、指标依据体系以及工具平台建设等方面,能够适配主流的国产软硬件设备,并与金融行业系统特点相结合,灵活实现硬件级、操作系统级、应用级、K8s、容器级等故障注入能力。
通过源启混沌工程平台,可以模拟绝大多数软硬件故障场景,结合压测组件、监控组件,还可以针对整个系统、分布式应用状态进行探测和监控,从而更加准确地分析各类不同的故障对于分布式系统运行的影响,了解系统稳定运行的边界。
划重点:
在混沌工程测试实施过程中,中电金信还总结出了混沌实施七步法:包括目标确定、稳态指标制定、故障设计、流程编排、实验执行、结果分析和修复验证。
其中,“故障设计”作为七步中最关键的环节
难点是:
故障方案设计过程有一定门槛:一是比较耗时耗力,二是对人员的技术水平和知识储备有相应要求。
好消息是:
中电金信已经通过进一步研发,实现了故障设计的自动化——即把“故障设计”环节中的大部分流程做成自动化的功能模块,内置到源启混沌工程测试平台中。
近年来,中电金信已通过
分阶段、多样性的混沌工程测试方式
为多家金融机构引入源启混沌工程平台
并实施了故障演练
华南某银行个人手机银行系统项目:
由于客户量增长、客户需求快速变化等原因,该行于2023年决定启动“基于全栈信创金融交易云底座的新一代手机银行系统”的建设,新一代手机银行系统作为实际业务操作中的重要对客系统,保证系统稳定性是其重中之重。
基于此,中电金信决定采用两步走的方法
帮助行方进行系统测试
一是平台搭建,主要包括建立混沌测试系统化的流程,旨在为系统上线沉淀经验。
(如图为源启混沌工程平台部署架构,涵盖基础设施、平台、应用各层等,演练时进行故障注入,同时实现测试过程、结果可视化)
二是故障模拟,主要工作为模拟各类故障,暴露隐患和缺陷。
通过对部署于K8s容器云平台的新一代分布式架构手机银行的完备的可用性测试,中电金信快速编制形成了符合高可用等要求的项目上线规定,有效保障了该银行新一代手机系统的平稳运行。
截至目前,源启混沌工程平台已执行实验场景150余项,累计实验500多次,编制混沌测试结果分析明细报告12份,总计1000页+,编制混沌测试汇总报告1份,发现系统问题58项,并给出相应的优化建议或解决方案。
系统稳定是风险管理的底线
过去一年,中电金信在混沌工程领域深耕探索,为系统运行的稳定性与韧性提供了坚实的保障。
?? 获评中国信通院稳定性保障实验室副理事长单位。
?? 参与的《分布式数据库混沌能力建设》获评北京金融科技产业联盟创新应用专委会“2023年研究攻关优秀课题”。
?? 参编了《一云多芯稳定性度量评估模型》、《分布式系统稳定性成熟度模型》、《证券基金期货重要系统稳定性保障模型》等多项标准制定。
?? 主导的混沌工程实践案例获评“中国信通院云服务稳定安全运行优秀实践案例”。
?? 混沌工程项目组的多名项目组成员获评行业和技术专家。
面向未来
中电金信将继续推进
源启混沌工程平台创新调优
助力产业升级、技术创新
赋能千行百业在云原生时代行稳致远
为推动我国数字经济发展贡献力量
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/33353.html