亚马逊旗下云计算部门AWS是全球最大的云基础设施服务提供商,根据Gartner 2023年全球云基础设施服务市场报告,其市场份额达32.1%,远超微软Azure(23.0%)和谷歌云(10.0%)。如今,云服务已成为全球企业数字化转型的核心支撑,头部厂商的基础设施稳定性更是直接关系到数万客户的业务连续性。
5月7日,AWS位于弗吉尼亚州北部的US-EAST-1区域数据中心发生服务中断,官方通报指出,此次中断是由数据中心内部过热问题导致的。该区域作为AWS运营时间最长、客户量最大的区域之一,承载着包括加密货币交易所Coinbase在内的多家企业核心业务。
此次中断导致Coinbase的部分交易功能暂时无法使用,该公司通过社交媒体表示,其服务受AWS基础设施故障影响,已启动应急措施。AWS则在5月8日通过官方状态页面宣布,该区域的云服务已基本恢复正常,大部分客户的业务也已恢复运行。
数据中心的稳定运行离不开精密的温度控制,通常服务器运行环境需维持在18至27摄氏度之间,过热不仅会导致服务器硬件性能下降,甚至可能引发强制关机。虽然AWS此次过热事件的具体技术细节尚未披露,但推测可能与冷却系统局部故障有关,这一事件也暴露了单一区域基础设施故障对客户业务的潜在风险。
对企业客户来说,此次事件再次凸显了多区域冗余部署的必要性。麦肯锡2024年云安全报告显示,采用多区域部署的企业在遭遇单一区域故障时,业务恢复时间可缩短80%以上。作为行业领导者,AWS也需进一步加强基础设施的冗余设计,尤其是冷却系统的备份机制,以提升服务可靠性。
近期,云厂商纷纷加大对数据中心冷却技术的投入——比如微软Azure在2024年4月宣布,将在新建的数据中心中全面采用浸没式液冷技术,该技术可将冷却效率提升30%以上。此外,Gartner预测,到2025年,全球采用液冷技术的数据中心占比将从当前的5%提升至15%,这将显著降低因过热引发的数据中心故障风险。






快报