腾讯云披露 4 月 8 日服务故障原因: 云 API 异常持续近 87 分钟

IT之家2024-04-14 09:28:30  53

IT之家4月14日消息,腾讯云官方公众号今日发文,披露了4月8日服务大范围故障的原因及细节。

官方表示,经过故障定位发现,客户登录不上控制台正是由云API异常所导致。云API是云上统一的开放接口集合,客户可通过API以编程方式管理和操控云端资源,云控制台通过组合云API提供交互式的网页功能。

故障发生后,依赖云API提供产品能力的部分公有云服务也因此出现无法使用的情况,包括云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。

腾讯云方面称,若将云服务比作“酒店”,控制台就相当于“前台”,是统一的服务入口。“酒店前台发生故障会导致入住、续住等管理能力不可用,但已入住的客房不受影响。”这次故障中客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。

官方披露了这次故障根本原因及改进措施如下:

综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来将从以下几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。

第一,提升系统韧性

1、定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间。

2、优化服务部署架构,通过分层架构、代码审查和监控等手段,避免API服务中潜在的循环依赖问题。

3、提供API服务逃生通道,当故障发生时,可供调用方快速切换。

第二,强化变更管理与保护措施

1、完善自动化测试用例库,在系统变更前通过沙箱环境对变更内容进行严格验证。

2、实施灰度发布策略,逐步推广新功能或配置更改,按集群、可用区、地域逐步生效,以便在发现问题时能够迅速回滚。

3、引入异常自动熔断机制,当检测到系统异常时,能够立即中断变更过程。

第三,增强故障响应与沟通能力

1、对故障处理流程进行全面升级,确保实时更新故障处理进度和预计恢复时间点,提升故障报告发布效率。

2、在对外发布的故障通知中,清晰阐述受影响的业务范围、故障根因及预计修复时长,保持透明度。

3、优化腾讯云健康状态看板(StatusPage)的信息展示逻辑,解除对云API等云服务的依赖,通过引入缓存和容灾机制,确保即使在云服务出现故障时,能准确、及时地传递故障信息。

据IT之家4月8日报道,当日下午腾讯云出现服务故障,接口响应报错、内部服务错误,网页显示504错误。腾讯云官方微博下也有网友反馈服务故障,IP来自全国多地。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/212984.html
0
随机主题
出道似整容! 天庭饱满地阁方圆的金晨, 原来12年前和现在判若两人莱希坠机原因找到了?或离不开这一国,细节罕见公布,局势恐变天特高压多条储备项目披露, 电网行业景气度有望持续!第20届中国(深圳)国际文化产业博览交易会开幕加工销售象牙……团伙被控危害珍贵、濒危野生动物罪他们愤怒,并不是因为你说错了!恰恰是你说对了,春秋故事真我GT Neo6: 骁龙8s三代+ 6000nit无双屏 +120W光速秒充隐藏身份很辛苦吧? 小兰替大神担忧, 新一能明白他的想法塞拉利昂总统出席中铁十局唐克里里铁矿项目主体竣工仪式宋轶, 好好爱你范巴斯滕: 说实话, 在足坛比我还要厉害的前锋, 可能只有这4人!如果北约跟俄罗斯开火了,中国怎么办什么值得买618年中大促开启, 首4小时GMV同比增长214%2024年, 灵活就业和企退人员同样缴费15年, 谁的养老金更有优势?中国中化参与建成全球最大单套产能丙烷脱氢项目一口价6.99万起,标配1.5T+双大屏+独悬,探店2024款瑞虎7如何选择适合你的CPU?一分钟教会你认识CPU!派林生物: 子公司获得静注人免疫球蛋白(10%)临床试验批准肯辛顿宫拐弯抹角更新凯特最新健康状况, 透露其已在带病工作欧阳夏丹采访尴尬记: 离职后现身山西小馆, 遭遇冷漠回应美国涨新能源车关税因为拆了海鸥?中国新能源车崛起老美挡不住
最新回复(0)