揭穿大数据备份和恢复方面的最常见误区
大数据已成为大多数企业组织的优先事项,它们日益意识到数据对于自己取得成功所起到的核心作用。但是许多公司继续在为如何最有效地保护、管理和分析如今现代架构中的数据而焦头烂额。不做好这项工作会导致停机时间延长、可能丢失数据,从而让企业组织蒙受巨额损失。
不像传统的数据平台( 甲骨文 、SQL Server等)由IT专业人员来管理,大数据平台(Hadoop、Cassandra、Couchbase和HPE Vertica等)通常由工程师或开发运维团队来管理,大数据备份和恢复方面存在一些常见的误解,需要加以澄清。
一些最常见的误区包括如下:
第一个误区:数据有多个副本,就不需要单独的大数据备份/恢复工具。
大多数大数据平台创建数据的多个副本,并将这些副本分布在不同的服务器或机架上。万一出现硬件故障,这种类型的数据冗余机制可保护数据。然而,其他任何情况(比如用户错误、意外删除或数据损坏等)都会导致数据丢失,因为这些错误或损坏会迅速蔓延到所有数据副本。
第二个误区:丢失的数据可以通过原始数据快速而轻松地重建。
如果你仍拥有重建丢失数据的所有原始数据,这也许切实可行。但在大多数情况下,原始数据被删除或不容易访问。就算原始数据可用,重建丢失的大数据可能也需要好几周,消耗大量的技术资源,而且对大数据用户来说延长了停机时间。
第三个误区:备份PB级大数据是不经济或不实际的。
PB级数据的定期完整备份需要数周时间,还需要至少50万美元的基础设施投入。然而,你可以采取几个办法来缓解这些问题。你可以找出对贵企业来说很宝贵的一小部分数据,然后只备份这部分数据。采用重复数据删除等较新的备份技术来高效地存储备份内容,永久增量备份以传输变化的内容,使用商用服务器,这些同样有助于降低成本、缩短备份时间。
第四个误区:远程灾难恢复副本可以充当备份副本。
谨慎的做法是,将数据副本放在远程数据中心,防止火灾和地震之类的大规模灾害。这通常通过定期将数据从生产数据中心复制到灾难恢复数据中心来实现。然而,对生产数据中心所作的所有变化会蔓延到灾难恢复站点,包括意外删除、数据库损坏、应用程序损坏等。因此,灾难恢复副本不能充当备份副本,因为它没有你可以用来回滚的时间点副本。
第五个误区:编写大数据的备份/恢复脚本很容易。
如果你拥有技术资源,数据量不大,又只有一种大数据平台,那么编写脚本切实可行。大多数企业组织通常有数十TB、乃至数百TB的大数据散布在多个大数据平台上。针对这种类型的环境编写、测试和维护脚本并非易事。需要为得到支持的每种平台编写脚本(比如Hadoop需要一个脚本,Cassandra需要另一个脚本)。脚本必须大规模进行测试;平台版本变化(从Cassandra 2.1升级到2.2)后,还得重新测试。在某些情况下,脚本可能需要定期更新,以便支持平台的新功能、新API、新的数据类型等。
大多数企业组织没有认识到,针对 大数据平台 编写好的备份脚本面临大笔的隐性成本,还需要相应专长。恢复过程难得多,而且容易出错,因为它涉及诸多环节:找到合适的备份副本,将数据拷回到相应节点,运用针对特定平台的恢复程序以恢复数据。
第六个误区:大数据备份/恢复操作成本很低。
除了定期维护和测试脚本外,还有与备份和恢复有关的额外成本。额外成本包括如下:
• 人员成本:有人得负责运行脚本,确保备份成功,需要时进行调试,执行临时恢复等。
• 存储成本:存储备份内容需要花钱。
• 停机成本:在这段时间内,管理员要找到备份副本,并将数据恢复到理想状态。
尤其是在大数据环境变得更庞大、更复杂后,这些成本可能会大幅增加。
第七个误区:快照是大数据的一种有效的备份机制。
快照(在特定时间点冻结的数据状态)有时用作备份副本,以防止用户错误或应用程序损坏。使用平台或存储快照用于备份时要考虑几点。
首先,快照可以用来使备份过程实现自动化。然而,使用存储快照时,需要额外的手动步骤,确保备份数据和元数据的一致性。其次,数据不快速变化时,快照才有效。就大数据平台而言,数据变化速度很快,而压缩等技术只会加快数据变化速度。因而,快照需要庞大的存储开销(高达50%)来保留几个时间点拷贝。
最后,通过快照恢复数据将是非常繁琐的手动过程。管理员或数据库管理员不得不找出与需要恢复的数据(比如密钥空间或表)相对应的快照文件,然后通过快照恢复到集群中的相应节点。恢复过程中一旦出现错误,就会导致数据永久丢失。
总之,正在部署大数据平台和应用软件的企业组织要认识到备份数据的重要性。副本和快照等由平台提供的机制不足以确保适当的数据保护,并尽量缩短停机时间。适当的备份和恢复需要一定的投入,但是考虑到大数据在带来业务价值方面扮演的角色,这笔投入是非常值得的。
企业 组织应该意识到自主开发解决方案方面的隐性成本,应部署合适的技术,以满足自己的恢复点目标(RPO)和恢复时间目标(RTO)。大数据方面没有备份/恢复解决方案可不行,因为人为错误和数据损坏等事件早晚会发生。这不是是否会发生的问题,而是何时会发生的问题。
作者:布加迪编译
责任编辑:王培