(连载)王坚:阿里巴巴为什么“去IOE”(二) | 《商业价值》杂志
2012年的“双十一”,阿里巴巴创造了191亿的日交易额神话。阿里云计算平台处理了淘宝和天猫20%商家的订单,并且实现了流量巨增零故障、零订单遗漏。在云平台上,更有日订单数近60万的天猫商家,其交易量已经达到当时中国除淘宝以外其他B2C市场一天的订单量。
在“双十一”活动前,一些商家并不完全相信阿里云平台,他们仍然部署在自有的IT基础设施上,当活动中交易量暴涨,突然出现服务器能力不够时,阿里立即协助商家在十几分钟内迅速迁移至阿里云计算平台,保证其交易顺利继续,有几家企业就是这样在半夜12点的时间段完成迁移的。
本文是《商业价值》出版人刘湘明在杭州阿里云总部与阿里巴巴首席技术官、阿里云总裁王坚对话的第二篇——
阿里巴巴双十一的秘密
Q:淘宝顺利挺过“双十一”的大流量和交易,有哪些关键的问题必须解决?
A:淘宝双十一关键要解决三个问题:支付问题,淘宝自身的问题和淘宝客户的问题。
支付的问题难点在银行,淘宝和天猫的总交易额有191亿,交易笔数是1亿零280万笔,对于淘宝来说,一共有多少笔结算是非常重要的,因为在银行承担不了的前提下,需要尽可能在支付宝完成交易,支付宝的技术能力决定了系统的承载能力。
以前,交易量过大时银行支持会出现问题,支付宝就会对交易进行排队,延迟交易。但双十一的交易量太大,延迟时间太长会产生很大的用户体验问题,所以支付宝提前做了鼓励用户先充值进支付宝的活动,这笔钱的规模当时达到了几十亿,一定程度上缓解了银行的压力,把对银行系统的压力直接转嫁到了支付宝系统上,使得双十一当天的交易顺利进行。“双十一”表明了支付宝的支付系统是世界一流的。
第二,淘宝自身的挑战在于面对突然出现的并发流量和意外情况发生时,如何保持系统的稳定性并完成天文数字的交易量。就像电影院虽然修了安全通道,但有意外观众仍然可能不按紧急通道的提示行动,而伤到人,紧急情况下用户的行为是没有办法预测的。淘宝也是一样,在意外情况下,任然无法预测用户行为,本来没有流量的地方,可能会突然跑出一个吓人的流量,任何一个局部的问题都有可能演变成为一个全局的问题,这个就是困难的地方。“双十一”当天阿里巴巴集团近千名技术和业务人员坐在一层,用一个指挥体系处理问题,准备了近五百种预案,因为现场出现问题再去解决肯定来不及,一个回车键敲错了,可能那个系统就瘫痪了。“双十一”也表明了淘宝和天猫的交易系统是世界一流的。
第三,解决淘宝客户的问题主要是通过阿里自身的技术力量去解决客户面临的问题,比如 “聚石塔”项目,将天猫和淘宝卖家的全部交易流程都部署在阿里云计算平台上,保证他们交易系统的稳定性,从而保证他们的交易顺利完成。
过去,交易从淘宝链接到卖家后台系统的过程中,如果卖家IT基础设施薄弱,系统交换数据会因为网络等各种原因不通都可能会使交易失败。“双十一”有一句话是说“20%的交易量是在云上完成”,这其实是说有20%交易量其卖家的后台系统是部署在阿里云上的。以往买家买一个东西只需要点击购买,然后进行支付,这个动作会指向两条IT路径:一是连接支付宝,保证有钱可以完成支付;另一条则是进入卖家的ERP,卖家需要知道自己是否有库存,并减掉相应的货品数量。把卖家的ERP系统完全架设在云上,这件事的难度和意义比只解决网站流量扩容要大,因为从发票打印到发货都要通过这个系统,不同的ISV(独立软件开发商)也在其中起了关健的作用,让人们体会到一个生态的价值。
卖家把ERP搬到云上,也证明了对云计算的信任,我们今年的目标是让70%-80%的交易在云上完成,这不仅仅是为客户节约成本,更是帮助卖家提升赚钱的几率。这件事的本质反映了:云计算是一场改革,给客户创造业务价值的意义,远远超过了成本本身。
(本文李静怡亦有贡献)
连载一:我为什么反对有些企业的“去IOE”运动?
连载二:阿里巴巴双十一的秘密