人为指令错误导致亚马逊云大宕机,云上未来真的那么靠谱吗?
美国东部时间本周二下午,亚马逊在东海岸的一个云数据中心发生故障后导致大规模的互联网中断,历经4小时,美国太平洋时间14: 08,亚马逊才宣布S3恢复正常。 这一故障导致数千个网站和应用程序完全无法使用,全球大量的用户和公司因此陷入混乱。
根据亚马逊在线状态报告,亚马逊的简易存储服务(Amazon S3, Simple Storge Service)有超过3.5小时无法发送和接收客户的数据。
网络公司similartech称,近15万个网站在这一事故中受到影响。虽然很少有公司的服务彻底停掉,但是大量的公司的文件共享被中断,网页馈送加载存储在Amazo S3云上的数据遇到麻烦。
在这次事故中,大流量网站Slack,Trello, Soundcloud、Medium、Quora、 Spotify、 Pinterest、Buzzfeed等都受到影响。Soundcloud、Business Insider、imgur、Mashable和科技网站Verge 也中招,一些网站甚至因该事故完全消失了。
美国Top100的网络零售商中,有54个在网页打开速度上降低20%以上。苹果公司在其官方网站上报告了其应用商店,音乐流服务和其他产品因此次网络中断可能出现的问题。美国证券交易委员会网站也受到了影响,亚马逊自营的电商平台反而逃过一劫。由于时差原因,使用亚马逊云服务的中国厂商并没有受到波及。
据悉,亚马逊在北弗吉尼亚州的一个数据中心是该事故的源头。
据彭博社消息,这是由于员工操作不当造成的。该员工从S3子系统中,向一台远程服务器输入了一个“常规命令”。本来他是要停掉S3子系统中一些小型服务器,结果数字出错,误伤了一大批主力关键服务器,而后者分管索引和全区的存储元数据。亚马逊公布调查结果的同时承诺,将作出调整,优化S3关键子系统的恢复时间。
亚马逊的云计算服务平台AWS为亚马逊创造了大量的收入来源,它已使这个曾经只是靠网络售书而出名的零售商转型成了技术平台。
Amazon的简易存储服务(S3)为远端服务器上的公司存储文件和数据,它是亚马逊最大的服务项目。使用S3 Web 应用程序开发人员可以使用它存储数字资产,包括图片、视频、音乐和文档。根据SimilarTech.com的数据,S3存储了3到4万亿多条数据,被近15万家网站使用,有超过50万的客户,包括ESPN和AOL等。
这次网络故障问题影响了“前端”操作(即用户可以看到的网站和应用程序的界面)以及发生在看不见的后端数据处理。一些较小的在线服务,如Trello,Scribd和IFTTT,因为网络中断彻底停掉了一段时间, 而一些用户报告显示,最严重的问题出现在文件共享环节。
亚马逊云不是第一次出问题了。2015年,亚马逊的DynamoDB服务(一个基于云的数据库)就遇到了类似问题,给Netflix和Medium造成了影响。2011年,亚马逊位于北弗吉尼亚一个数据中心也曾出现故障。 但对于这类问题,一般云服务提供商都有解决方法可以使事情快速恢复。
Moor Insights&Strategy公司的分析师Patrick Moorhead评论本周事件时表示:“真正令我惊讶的是,他们没有后备计划。通常,备份服务器能转移数据,故障发生后的几分钟内,服务可以在备份的服务器上继续进行。”
根据亚马逊截至2016年12月31日的第四季度财报,亚马逊占据了云计算市场40%以上的市场。2016年AWS全年营收达122亿美元,比去年同期增长了55%,超过了原定100亿美元销售额目标。此外,它的运营利润为31亿美元,也超出亚马逊预期。
云市场硕大无比的体量及它未来可能的发展无疑令人振奋,但本周的意外提醒了用户, 连在业内人士眼中向来可靠的亚马逊云服务产品都会出错,市面上没有哪家云是完全可靠的。
最明智的作法是,将数据存储在亚马逊服务器上的多个位置,甚至转移到其他云端服务提供商,或是企业采用混合云或私有云的方案,分担可能的风险。
对其它提供云服务的竞争者来说,这也是个学习的黄金机会, 很多更大的公司可以看看他们的应用架构,并问问自己:怎么可以让自己服务更可靠一点?(本文首发钛媒体,综合自外网,编译/元婕、王昊)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App