支付宝扛得住双十一 为何扛不住一个机房故障?

投资潮  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

吃完饭付不了款、抢到特价商品却眼睁睁看着交易关闭、公共自行车扫码支付失败,只好走着去上班……7月22日上午,不少用户发现,支付宝出现故障,不管是买火车票、网上订餐还是转账、提现均无法实现,更不可思议的是,上午明明显示转账失败,通过其他方式转账后,下午支付宝就变成了转账成功。看着页面 “网络不给力,请稍后再试”的提示,不管你怎么切换网络,重启路由器,结果还是一样。

作为全球最大的第三方支付机构,这不是支付宝第一次不给力,2015年5月28日,支付宝因杭州萧山的光纤被挖断出现全国范围系统瘫痪长达2.5小时。14个月后,在阿里巴巴宣称攻克了“服务器资源弹性部署”和“数据中心异地双活”两项技术难题后,此次发生的故障依然持续2个多小时。

当支付宝逐渐替代钱包成为人们的随身支付工具时,两个小时的网络中断所影响的人群和支付事项越来越多,而且再度引发专家对支付宝灾备能力的质疑。

   深圳机房发生故障

7月22日上午10点10分左右,有用户开始在网上吐槽支付宝不可使用。11点44分,支付宝官方微博表示,上午10时多,由于支付宝在华南的一处机房出现故障,技术团队紧急将业务逐步切流到其他机房,过程中影响了部分用户对部分功能的使用,用户的资金和信息安全不受影响。直到12点36分,支付宝再次回应称,系统已经恢复正常。

“以目前阿里云的处理能力,在假想极端情况下,即便杭州的数据中心全部宕掉,依然能够平稳度过双十一,不影响用户的购物体验。”阿里备战2015年双十一时的豪言犹在耳边。很难想象,在一个既非双十一也非节假日的周五,支付宝一个机房的故障竟然导致服务中断持续了两个小时。

“出问题的机房在深圳,切流时间长且恢复慢,是有点不太正常。”一位接近支付宝深圳机房的知情人士向《IT时报》记者透露,这次事故的原因是多方面的,既有机房机件等硬件设施的原因,也有网络故障方面的因素。他举了个例子,支付宝就像是一辆小汽车,运营商提供的高速公路是通的,但小汽车内部出了问题卡在了半路,数据从一个地方送不到另外一个地方。

   “异地多活”架构没起充分作用

在2015年全球架构师峰会上,阿里巴巴高级系统工程师曾欢(阿里花名为善衡)结合互联网金融业务及系统特性,分享了支付宝的高可用与容灾架构演进,表示支付宝在该方面已进入成熟的青年时期,有快速恢复的容灾能力,可做到同城内数据中心之间,甚至城市和城市之间在故障发生时自如地进行应急切换,使得支付宝实现“异地多活”的架构能力。

“所谓异地多活是指数据中心在机房基础设施、地理空间、网络资源、软硬件部署上是分布的,多中心之间可以并行为业务访问提供服务,互为备份,地位均等。一个数据中心出问题,其他数据中心可对业务接管实现无缝切换,用户无感知。支付宝双十一能撑起8.59万笔/秒的交易峰值及支付宝平时的处理速度也是得益于异地多活,只是不知道为什么这次异地多活没起太大作用。”一位业内人士向《IT时报》记者表示,正是因为异地多活所需的设备量,阿里机房摒弃了昂贵的专业高端设备,选用X86服务器和国产的开源软件。支付宝这次的故障很可能是因为网络出口有单点故障,瓶颈堵塞,导致引流出现问题。

据了解,国内商业银行采用的多是“两地三中心”模式。以交通银行为例,交通银行的中心机房在上海,同城及1000公里外的地方各设一个灾备中心,当中心机房出现故障,ATM、POS等72小时不间断的重要业务要做到秒级切换,无缝连接,即使考虑到通信延迟,这个时间也要控制在30秒内。根据信息系统的时间敏感性,交通银行把应用系统的灾难恢复分成三个等级,亦将灾备的不同场景分为十个等级,六等级以上支付终端,中断服务持续两小时要上报银监会和央行,区域发生瘫痪四小时上报国务院。

一位交通银行的内部人士告诉《IT时报》记者,交通银行要求各分行至数据中心的网络采用多运营商通道,以防止某一家运营商网络出问题,同时会与运营商达成协议,把网络收敛时间控制在一定时间内,所谓“网络收敛”,是指当A机房彻底瘫痪,网络中所有结点全部更新它们的路由表,将网络指向B机房的时间,在这段时间内,银行的其他业务会被相继切换。

中国银联在京沪两地也是三个数据中心,两城三地之间的数据一致,切换速度在分钟以内,当任何一个数据中心发生问题,丝毫不会影响消费者的刷卡交易。

相较于开放、灵活的异地多活模式,“两地三中心”投资巨大,所采用的设备大多是IBM、ORACLE(甲骨文)、EMC等高端设备,价格惊人,这几年国内尽管一直在要求“去IOE”,但出于对安全的考虑,很多银行都不敢轻举妄动。

   第三方支付缺少灾备监管

故障修复后,支付宝强调,用户的资金安全和信息安全不会受到任何影响。但不少用户担忧,自己充手机话费、叫外卖、网购、银行转账、还贷,都习惯在支付宝上进行,如果以后类似故障再次发生,给生活造成的影响可能会更大。

据中国支付清算协会统计,截至2015年底,完成实名认证的支付账户共有13.46亿个,占总支付账户总量的51.07%。在今年4月举行的哥本哈根Money2020大会上,蚂蚁金服国际事业部总裁彭翼捷预测,蚂蚁金服旗下的支付宝未来10年的用户量将增加至20亿。

当第三方支付与人们的生活越来越息息相关,使用频次甚至超过银行卡时,对于信息数据和交易的安全要求,是否享受和银行同样的“待遇”呢?

2008年,中国人民银行出台的行业标准《银行业信息系统灾难恢复管理规范》中,将信息系统按时间敏感性分为三类需求等级,确定了每类信息系统灾难恢复的时间。2015年,银监会发布的《商业银行业务连续性监管指引》中,要求商业银行应当在银行集团内建立内部重大事项报告制度,附属机构要及时报告经营活动中的重大事项、重大风险以及境内外监管机构采取的重大监管行动和监管措施。商业银行还应当就各类风险分不同情景定期开展银行集团层面的压力测试,充分考虑各种情景的相互作用,并根据结果制定相应预案,确保银行集团能够有效应对各类不利情景。特别是对于重度压力情景下的测试结果,商业银行应当在银行集团内建立详细、完备的应对预案。

2015年3月30日,证监会证券基金监管部开出一份罚单:由于2015年1月5日上午工商银行三方存管系统出现异常,影响90家证券公司54709名客户、48.8亿元的银证转账操作,造成部分投资者无法资金转账,9家证券公司出现客户资金账户汇总余额虚增1237万元。证监会要求,工行需在2015年4月30日前予以改正,完善技术系统,规范应急处理,杜绝此类问题再次发生,同时应当在2015年5月10日前,向证监会提交书面报告,证监会将组织检查验收。

但对于第三方支付机构的灾备方案,《IT时报》记者仅在今年7月1日起施行、由中国人民银行发布的《非银行支付机构网络支付业务管理办法》的第三十二条和三十八条中看到这样的表述:支付机构应当制定突发事件应急预案,建立灾备系统,保障业务连续性和系统安全性;支付机构应当于每年1月31日前,将前一年度发生的风险事件、客户风险损失、客户损失赔付等情况在网站对外公告。记者并未查阅到监管部门对第三方支付更细致的指引。

7月26日,支付宝内部人士向《IT时报》记者表示,故障具体原因已向监管机构及合作伙伴说明,不便向媒体透露。

本文被转载2次

首发媒体 投资潮 | 转发媒体

随意打赏

支付宝大面积故障支付宝机房故障支付宝出现故障支付宝支付故障支付宝咻一咻咻一咻支付宝支付宝官网支付宝故障支付宝机房
提交建议
微信扫一扫,分享给好友吧。