“数据丢失事件”续集:腾讯云还原“人为失误”全过程

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

雷锋网消息,8月7日晚,腾讯云官方微信公众号发布了《关于客户“前沿数控”数据完整性受损的技术复盘》,对“数据丢失事件”全过程进行了还原。

“数据丢失事件”指的是北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致文件系统元数据损坏这一事件,而该公司购买的正是腾讯云的服务。

据了解,这是腾讯云继8月6日上午《关于用户“前沿数控”数据完整性受损及腾讯云补偿措施的说明》之后的第二次官方回应。此前声明见文章: 腾讯云回应“数据丢失事件”

据雷锋网 (公众号:雷锋网) 观察,此次腾讯云发布的“复盘通知”主要有4点信息:

1、还原了故障过程

2、解释了故障原因

3、公布了改进措施

4、提出了客户建议

腾讯云指出,“前沿数控”平台数据丢失除了物理因素外, 人为失误是重要原因, 腾讯云为此做了深刻检讨:

复盘发现,该故障缘起于因 磁盘静默错误 导致的单副本数据错误,再加上数据迁移过程中的 两次不规范的操作 ,导致云盘的 三副本安全机制失效 ,并最终导致客户数据完整性受损。

“前沿数控”平台数据丢失,发生在2018年7月20日,当天腾讯云运维人员是如何发现,又是如何尝试组织技术专家修复的呢?

还原故障过程及故障原因

且看腾讯云还原的全过程:

当天(7月20日)上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;

在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁, 手动关闭 了迁移过程中的数据校验;

在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据 发起了回收操作

到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

这个过程中涉及多次人为操作步骤,但“磁盘静默错误导致的单副本数据错误”这一物理过程,运维人员是无法操控的,只有当中两次操作是出了“大问题”的:

第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务, 违规关闭了数据校验

第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率, 违规对源仓库进行了数据回收

后续如何改进?降低人工干预、优化巡检机制

实际上,这件事给腾讯云带来了不小的公关负担,市场形象颇受影响。在复盘通知里,腾讯云诚恳地给出了一些加强和改进措施:

首先,我们将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升我们常规运维自动化和流程化,降低人工干预。同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。

其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,我们优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

公告最后,腾讯云提示客户,实际上,腾讯云自2016年3月以来一直在提供免费的 快照功能 ,可以对重要数据进行定期备份。同时出于对客户数据隐私性和安全性的考虑,客户可以自由选择开启或者不开启这一免费功能。腾讯云呼吁客户开启这一功能,进一步提升自身数据的安全性。

双方商量恢复运营方案:和解金额未透露,未公布责任员工名单

此前,“前沿数控”平台基于自身评估就此次故障对腾讯云提出了高达11016000元的索赔要求,腾讯云认为这明显高于他们能够提供的方案——这也是此次双方此前未能达成一致的主要原因之一。

眼下,据腾讯云方面透露,他们正在“积极与前沿数控方商量恢复运营的方案”。

雷锋网看来,关键的一点是,他们最终会达成多少金额的赔偿方案,此前腾讯云14万的赔偿+补偿方案遭拒(客户消费额的37倍),这次会是多少?

因为,这不是个例,后期其他云厂商也会遇到类似的问题,市场都会关注腾讯云的处理方式,毕竟,被“碰瓷”总不是件好事。

值得注意的是,对于这次事件中误操作的工作人员,腾讯云没有点名,也没有公布处罚方式,预计已做内部处理。

“数据丢失事件”续集:腾讯云还原“人为失误”全过程

随意打赏

腾讯云服务器腾讯云实验室腾讯云认证腾讯云校园腾讯云小微
提交建议
微信扫一扫,分享给好友吧。