三地五中心 蚂蚁金服金融行业安全最高标准技术开放 光缆挖断业务照样用
可能还有一些人记得 3 年前发生了一件被微博刷屏的事件,2015 年 5 月 27 日下午 5 点,很多用户发现支付宝不能用了,不仅查不到自己存在支付宝的余额情况,也无法办理任何转账业务,当时支付宝官方也没有对此情况作出及时回应,导致一部分用户出现恐慌,直到晚上 7 点半左右才开始逐步恢复正常。支付宝官方微博对此的解释是:
由于杭州市萧山区某地光纤被挖断……
虽然这件事情并没有影响到用户的资金安全,也并没有对支付宝造成太大的影响,但却成为网民调侃互联网公司的素材,不管那些互联网公司怎么厉害,抵挡不住蓝翔毕业生挖掘机的一铲子……
尽管光缆被挖断并不是支付宝的责任和问题,却给支付宝深深地思考,在当年都可以支撑住双 11 高达 571 亿元的交易额, 但却败在一条实实在在的光缆之下,更有好事者质问既然有支付宝有那么厉害的技术,但容灾处理和修复却耗费了那么长的时间呢。
一位支付宝的技术人员在事后也私下和记者表示,尽管支付宝已经对类似的情况进行过多次容灾演练,而且也已经开始具备异地部署的工作,但碍于当时的技术限制,不仅成本高而且还可能会出现数据不同步的情况,反而会造成更多的麻烦。
不过,现在再也不用担心这样的问题了。
在 2018 年的云栖大会 ATEC 峰会现场,蚂蚁金服 CTO 胡喜当着现场 2000 多人的注视下,主动剪短支付宝多个机房的光缆,在 40% 的服务器在突然无法工作的情况下,只用了 26 秒,系统就完成智能切换,实现自愈,用户资金、数据 0 丢失。
一雪前耻。
这是由支付宝工程师策划的一次特别技术演练,他们基于支付宝的真实机房,在两个城市各单独搭建了两个模拟机房,以测试当两个机房同时下线后的系统稳定性。
现场大屏有个二维码,观众扫码就能登陆一个虚拟账号体验。两个机房断网后的约 20 秒内,账户页面显示系统异常,20 秒后,观众全部都能顺利转账了。
胡喜解释,这次是演习。而在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户恢复正常的速度是分钟级。
据了解,这一机房架构叫「三地五中心」,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,支付宝的底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。
记者了解到,目前互联网和金融科技行业普遍采用的是比此低一级「两地三中心」部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。
胡喜强调,这个架构,绝不仅仅是多设立了两个机房那么简单,它非常考验一家公司分布式架构、数据库、中间件及相关金融核心技术的能力。而这正是支付宝创立前十年修炼技术内功的结果。「支付宝的技术目标之一就是保证金融级别的系统稳定和安全能力。」
曾有行业人士做过概率计算,两个城市多个机房同时故障的概率极低,基本不会发生。
开放能力
互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,还是可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。如果没有完善的容灾系统,不能及时恢复,就会出现用户信息丢失、资金损失的情况,后果不堪设想。
此次现场演示的容灾系统,这也是蚂蚁金融科技开放的技术解决方案之一。根据刚刚上线的蚂蚁金融科技官网显示,全面开放的技术菜单多达数百种,包括金融安全技术、海量金融交易技术,金融风控技术等;行业解决方案则包括数字银行解决方案、数字保险解决方案。
而一些前沿创新的技术能力也同样在开放「菜单」内,比如区块链技术。据知识产权产业媒体 IPRdaily 2018 年的最新统计,蚂蚁的区块链专利申请数蝉联第一。目前这些技术被用于房屋租赁、商品溯源等领域,「均是为了解决现实问题」,胡喜说,「这也体现了蚂蚁暖科技的技术价值观」。
据介绍,蚂蚁金服及支付宝的技术开放可分为三阶段:2004 年成立之初,支付宝便致力于用技术解决实际问题。随着业务突飞猛进,技术不断修炼内功,达到行业领先,这是 1.0 时代。
2015 年开始,蚂蚁金服提出互联网推进器计划,发布蚂蚁金融云,并「成熟一个,开放一个」,将成熟的技术加速开放给合作伙伴,这是 2.0 时代。
2017 年 9 月,蚂蚁金服董事长兼 CEO 井贤栋在阿里投资者大会上宣布,蚂蚁金服已经实现自营业务的 100% 开放。
而现在,蚂蚁金融科技正式宣布进入了 3.0 时代:支付宝对内延续 BASIC 战略,对外开放的技术越来越完整、越来越核心,是成建制、有体系的全面开放,并实现了技术商业化。支付宝与 200 多家合作伙伴一起,为行业提供通用和行业解决方案。