一线| 亚马逊购物节首日系统崩溃:手动添加服务器应对流量峰值
一年一度的亚马逊会员Prime Day购物节在今年遭遇尴尬,在Prime Day开放15分钟内,由于瞬时流量过大,亚马逊准备不足,导致许多用户无法载入页面。近日,一份亚马逊内部文件显示,由于亚马逊内部系统自动调节服务器资源的功能失灵,技术人员不得不手动添加服务器资源以应对瞬时峰值流量,甚至一度掐断了国际流量以缓解服务器压力,当时办公室一度陷入混乱。
美国当地时间7月16日中午12点,2018年亚马逊会员Prime Day购物节正式启动,就在许多消费者摩拳擦掌准备在亚马逊Prime Day中好好抢一番打折商品时,部分用户却遇到无法打开购物页面的技术故障。
亚马逊的Prime Day是亚马逊为Prime会员提供的购物节活动,通常在每年的7月中旬开始,今年的Prime Day从7月16日开始持续36小时,在这段时间内,用户可以在亚马逊平台上买到许多打折力度很大的商品。
但当许多用户在电脑或手机上试图打开亚马逊的页面时,却看到了如下错误页面。
对此,亚马逊在其官方推特账号中发布推文称,“部分用户在购物时遇到问题,亚马逊方面正在解决这些问题,许多用户能够成功购物,在Prime Day在美国开始的第一个小时,用户下单的总数已经比去年同期要多,依然有成千上万的打折商品到来。”
就在用户发生大规模无法打开页面的情况时,亚马逊内部技术人员已经陷入了紧急应对,一度陷入混乱。亚马逊技术人员开始发现,由于瞬时流量过大,整个站点出现故障,为了应对,亚马逊紧急启动了预备方案,将首页切换成信息呈现更为简单化的简版页面,以降低带宽压力。
到中午12点15分,亚马逊决定直接暂时停掉全部的国际流量以减少对系统的压力,到12点37分,亚马逊对全部流量的25%开放了全部默认页面,12点40分,亚马逊对内部系统Sable进行了优化措施,但仅仅2分钟以后,又重新考虑阻止“流向美国的不明流量”的5%。
但即便是采取了上述措施后,亚马逊站点的“错误率”仍在不断恶化并持续至中午1点05分,但在5分钟之后,情况有了显著好转。亚马逊的部分系统发现订单率“远远高于预期”。
一位内部人士称,整个办公室当时陷入”一片混乱”(Chaotic),甚至一度有超过300个人被接入紧急电话会议。
美国联邦通讯委员会前首席技术官Henning Schulzrinne认为,亚马逊当时显然陷入了准备不足的问题,这些问题会因为用户行为而变得更糟糕,因为如果用户无法打开界面,他会再进一步刷新重新载入,致使服务器压力更大。
“所以短暂关闭服务通常是更好,也明显是一个坏的选项。”Schulzrinne说。
事实上,亚马逊没有采取这一方案,而是通过手动添加服务器的方式,逐步改善对流量的消化能力。一位内部人员在这份记录文件中写道,他增加了“50至150个虚拟服务器”。
有专业人士认为,造成问题的根本原因或许是亚马逊内部系统自动调整服务器规模的功能出了故障,该功能通常能够自动识别流量的波动以配置合适的服务器资源。亚马逊在应对问题时,所采取的先掐掉国际流量,而不是立即增加服务器数量,同时手动添加服务器而非自动添加,这些都证实了自动调整服务器资源的功能失效。
由于服务器资源的暂时性匮乏,亚马逊内部系统Sable承受了更大的压力。根据内部文件显示,去年的Prime Day,该系统被亚马逊内部400个团队使用,能够处理5.623万亿的服务请求,每秒处理6350万请求。
今年的Prime Day是由亚马逊全球市场和Prime的副总裁Neil Lindsay首次负责,今年年初,原先负责Prime Day的副总裁Greg Greeley离开亚马逊加入Airbnb,Neil Linday随即接过了他负责的Prime团队。
根据市场研究机构的初步预测,亚马逊今年的Prime Day总销售额为42亿美元,较去年增长33%。亚马逊早先公布了初步数据,称Prime Day首个24小时内总共发送了超过1亿件商品,售出商品总额超过10亿美元。