Facebook宕机事故，暴露了上云不是唯一的答案

人人都是产品经理 • 3年前扫码分享

编辑导语：前几天，互联网巨头之一Facebook经历了一次长达6小时宕机事故，这不禁引发了人们的深思：为什么互联网巨头们都没有把鸡蛋放在一朵云上？本篇文章里，作者为我们详细介绍了互联网的云服务以及Facebook这次宕机事故所带了的启示，一起来看看吧。

当国内人民欢度假期的时候，互联网巨头Facebook却收获了“负面新闻大礼包”。

负面之一，就是长达6小时的全球大宕机。

据说，这是Facebook创办以来最严重的一次网络访问事故，除了Instagram、Whatsapp、Messenger这几大海外冲浪必备平台，虚拟现实平台Oculus的游戏，部分企业端服务以及很多需要Facebook账号登录的平台都上不去了，就连Facebook公司的内网也受到影响。要知道，这里可汇聚了全球最厉害、薪酬最高的一大批程序员啊！

互联网公司宕机，并不是一件很稀奇的事。

今年早些时候，国内某视频平台就因为服务器突然故障，一度崩溃，大量用户“流浪”到其他网站，巨大的流量洪峰又让其他平台也连锁式瘫痪了，各厂程序员们都感受到了被宕机统治的恐惧，一度登上微博热搜，被网友戏称为——互联网内卷之《谁也别想睡觉》。

同样是宕机，为什么Facebook就面临着“非死不可”的吐槽声，而不是一笑了之呢？

这可能是因为，Facebook庞大的产品生态，已经不再是娱乐冲浪的一部分，而成为了数字生活的基础设施。

尤其是在疫情之后，许多企业服务、办公教育等都依赖互联网来完成，服务中断会直接导致严重的经济损失。

在WhatsApp（Facebook旗下一款类似微信的软件）的官网就显示，巴黎的医疗人员会在WhatsApp 群组内更新医院病床、资源等信息；印度企业依靠WhatsApp售卖产品；巴西政府、医疗和教育系统都通过WhatsApp提供C端服务，比如接收考试成绩、远程预约挂号等等。

可想而知，作为数字化底座的互联网服务，一旦中断，将连带产生不少次生灾害。

而面对宕机，我们第一时间总会想到云服务商，云中断导致的问题，互联网企业自然也是受害者。

不过，像Facebook这样的巨头，往往核心业务和数据都放在自家数据中心的服务器上。这次宕机之后，就有不少工程师“打飞的”到位于加州的主数据中心参与维修，科技媒体The Verge还曾爆料，因为门禁卡失效，工程师们使用切割机，锯开了数据中心的服务器铁笼。

Facebook面临的挑战，也是许多互联网巨头的缩影：一方面，作为数字化底座，最大程度地保证基础设施的稳定性、可靠性，是巨头们应尽的社会责任；同时，又不能将希望全部都放在云服务上，增加了IT系统的复杂度和运维难度。

这次大型宕机事件也掀开了全面上云的另一面，为什么互联网巨头们都没有把鸡蛋放在一朵云上？

一、不是唯一的答案：云服务的另一面

互联网公司，可谓是云服务的先遣部队。在传统行业还不知道什么是互联网浪潮、什么是云的时候，互联网公司就成了云厂商的高价值客户。

常规情况下，互联网企业会将移动应用、电商之类前端流量业务放到云上，以节省自建机房的高昂成本。

不过，别看互联网企业上云这么积极，它们可是“狡兔三窟”，一边迁移上云，一边也有本地数字基础设施。2018年，Facebook斥资10亿美元在新加坡打造了亚洲首个数据中心，这也是它在全世界的第15个数据中心。相当于一边从发电厂买商业用电，但也在造自己的发电机。

这两年来，上云浪潮如火如荼，出现了一些观点，认为云服务会彻底消除数据中心，但事实上，越来越多的企业在尝试让部署数据中心上的旧应用升级，而不是将一切业务都云化。

甚至有企业IT人员告诉我，他们可能会让自家的数据中心永远运转下去。

要知道，数据中心几乎占据了企业网络支出的最大组成部分，每年需要支付不小的租金和改造、维护费用，这无疑会增加额外的成本，为什么互联网企业依然坚持这么做呢？

第一，传统机房可能会宕机，但上云也未必完全稳定。

云服务虽然不需要维护传统机房，数据存储、计算都在云端，但几乎没有哪个云服务厂商实现过100%的连续性，都出现过计划外的停机。2017年，IBM、AWS、谷歌、苹果等主要云服务提供商也都经历过云中断，将Netflix、Quora、Reddit和 Foursquare等热门应用“一波带走”，影响了大大小小的企业。

第二，成本效益很重要，但数据资产安全更重要。

云服务能够避免维护机房带来的麻烦，但除非付费搭建私有云，否则依然要与其他云用户共享硬件资源，这就使得企业无法对远程硬件拥有足够的控制权。任何拥有凭据的人可以从任何有网络连接的地方访问云端数据，也意味着广泛的接入点，如果不能在每个位置都部署安全措施，那么传输的数据风险也很大。

要论最安全、最可控，还是要属自建数据中心，只允许拥有凭证和设备的人才能访问本地网络，可以让企业完全控制数据，以及基础硬件，更适合那些业务复杂多元的组织。

第三，多云/混合云有帮助，但无法彻底解决顾虑。

既然这样，不把鸡蛋放在一个篮子里，一次用两个甚至两个以上的云，不就可以在出现故障时快速启动“备胎”吗？道理虽然如此，但多云部署的成本很高，并且依然不能完全防止短期终中断，有时还需要人工参与，并不像我们想象的那样能够瞬间丝滑切换。

比如Gov.uk 就在亚马逊的 CloudFront服务上运行了备份 CDN，但需要人工干预才能切换到备份。

而适合建设云基础设施的环境也常常会出现扎堆的情况，从而导致几家云服务商要停机就一起停的尴尬。此前，亚马逊和微软在爱尔兰都柏林的云基础设施，就因为遭遇雷暴天气，让使用亚马逊EC2和微软BPOS服务的客户都宕机了。

另外，并不是所有的云都是完全开放、可互操作的，这时候为了用好每一个云平台，企业还需要通过多个系统来配合，增加了额外的支出和运维难题。

所以说，只有足够可靠的云服务，才能打消客户的顾虑，从本地容灾备份、混合云等其他方案，转变为全面依赖云，并且只依赖某一朵云。

当许多人呼吁着，把云看作万能神药的时候，必须考虑一个前提：云服务怎样才能变得足够稳定和安全？而这一点，似乎跟现实还有点距离。

二、安全力Max：Facebook的冗余启示录

归根结底，想要业务更可靠，每个组织都没有“一刀切”的解决方案。

公共云、私有云、混合云或传统数据中心，如何选择应该按照不同企业、不同数据隐私敏感度、成本预算等来综合考量。

简单来说，传统数据中心成本高，控制强，很适合那些已经在IT方面进行了大量投资，对数据隐私要求谨慎的组织，所以像Facebook这样涉及到全球几十亿用户信息的互联网企业，数据中心是必须配置的。

而大多数企业，完全没有必要自己搭建服务器。直接上云省心又省力，可以快速搭建起网络业务，但过程中必须对隐私访问进行密切监控。

而即拥有IT 基础设施的大型组织，但也希望开始云之旅的大型企业和组织，可以同时尝试混合云，将云平台的所有优势都“一网打尽”。不过，跟踪多个云可能会比较棘手，往往需要第三方仪表板等协助。

看到这里，你可能会发现数字时代业务安全的核心密码：冗余思维。分别来自：

硬件的冗余，有充足的服务器保障，如果整个数据中心受到冲击，数据可以复制到其他地理位置的数据中心上；

服务的冗余，利用多个云服务商的服务耦合，比如主要云服务商停电期间，二级供应商的云服务可以作为补救措施，确保业务继续；

视角的冗余，更多数据源头也被纳入考量中来，比如工业部门常见的边缘设备，传感器、监视器和控制/驱动设备等，就正在成为云时代的“新数据源”，需要被纳入到主动管理中来，比如增加DNS（域名解析服务）解决方案，避免单一DNS中断或减速。

VMware的一些统计数据表明，未来五年内，许多组织的工作负载将按 30% 数据中心、40%公有云，以及 30% 的边缘计算来分布。

从这个角度来说，云市场还有不少空间可待挖掘，厂商之间的明争暗斗还将持续一段时间。

而企业在数字化过程中考虑云服务时，也需要重视三个基本前提。

将云安全作为优先事项。互联网充满了机会，也意味着无法继续躲在防火墙背后得到充分的保护，因此安全必须作为重中之重。
引入多云和混合云策略。如果对云端安全不了解，那么引入多个云供应商可以有效降低被单一云锁定的风险，为云策略的后续优化留下空间。
优先将前端流量处理业务迁移上云。尤其是大量视频和音乐流量的业务，可以迁移到云上，灵活扩展带宽，避免网络使用高峰时响应不及时的情况发生。而一些放在原本数据中心的应用，仍然留在本地设施上。

Facebook的故事背面，是互联网巨头托举起国家和社会服务的现实景象，这也使我们反思，一味强调云，是不是将数字化想得过于简单。

云服务产生的变革固然让人兴奋不已，但这并不代表，云就会干掉传统数据中心，或者某朵云“独霸天下”。

容纳共存，在这个基础上重新定义云和网络服务，或许会帮我们看清新信息技术的新模式，以及云市场的新机会。