ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常-天下网商-赋能网商,成就网商
摘要:秒级自愈能力的幕后功臣,是支付宝沉淀多年的城市级故障自动容灾系统,它将彻底开放给越来越多的合作伙伴。
9月20日,杭州云栖大会ATEC主论坛现场上演了一场特别的技术秀。蚂蚁金服副CTO胡喜现场模拟挖断支付宝近一半服务器的光缆。结果只过了26秒,模拟环境中的支付宝就完全恢复了正常。
这是由支付宝工程师策划的一次特别技术演练,他们基于支付宝的真实机房,在两个城市各单独搭建了两个模拟机房,以测试当两个机房同时下线后的系统稳定性。
现场大屏有个二维码,观众扫码就能登陆一个虚拟账号体验。两个机房断网后的约20秒内,账户页面显示系统异常,20秒后,观众全部都能顺利转账了。
蚂蚁金服副CTO胡喜解释,这次是演习。而在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户恢复正常的速度是分钟级。
据了解,这一机房架构叫“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,支付宝的底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。
记者了解到,目前互联网和金融科技行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。
胡喜强调,这个架构,绝不仅仅是多设立了两个机房那么简单,它非常考验一家公司分布式架构、数据库、中间件及相关金融核心技术的能力。而这正是支付宝创立前十年修炼技术内功的结果。“支付宝的技术目标之一就是保证金融级别的系统稳定和安全能力。”
曾有行业人士做过概率计算,两个城市多个机房同时故障的概率极低,基本不会发生。而即便发生了,现场的演习也展示出支付宝强大的容灾能力。胡喜在现场和大家开起了玩笑:“这次演练,告诉了大家一个好消息,一个坏消息。好消息是,支付宝很安全,很稳定,至少要陪大家再过102年,坏消息是,不管剪多少光缆,花呗还是要还的。”