深信服超融合卡慢盘识别准确率高达99%
随着各行各业数字化转型升级的加速,数据存储容量和硬盘数量也在不断增加,数据丢失事件时有发生,特别是硬盘故障事件,一旦发生,对于业务的影响不可估量。
超融合在磁盘故障提前检测及处置方面是如何做的?今天就跟大家揭秘信服云的卡慢盘监控和隔离机制。
深信服超融合持续对主机上的硬盘进行IO级监控,如发现有卡盘或者慢盘,就会对硬盘进行隔离处理,避免继续有IO落入该硬盘导致业务卡死或者变慢。超融合卡慢盘检测隔离机制在应用过程中分为监控、识别和处置三个阶段。
一、监控
针对磁盘卡慢故障模式复杂的问题,多维度检测确诊。
超融合采用了Linux通用的工具和信息,包括内核日志分析、smart信息分析、硬盘IO监控数据分析等从多个维度精确定位故障硬盘,真正实现不依赖特定硬件工具、兼容性广的软件定义可靠性。
二、识别
对识别卡慢盘的模型进行细致打磨:超融合卡慢盘检测机制在识别阶段,使用了《卡慢盘识别与处理方案》《一种卡慢盘识别处理方法、装置以及存储介质》《一种慢盘故障精准识别和诊断方法》等专利技术,制定出了更加精准的卡慢盘识别模型,使卡慢盘的识别准确率在99%以上。最终将卡慢盘分为三种类型:卡慢、严重慢盘、轻微慢盘。
三、处置
超融合针对不同类型的卡慢盘采用不同的处置方法,避免业务数据落在卡慢盘上,保障业务数据安全。在上述前提下,尽可能保障业务正常对外提供服务。
超融合针对不同类型卡慢盘处置流程如下:
(1)轻微慢盘
轻微卡慢对业务性能影响较小,优先保障业务运行。超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。人工处置操作包括手动隔离、替换硬盘等。
(2)严重慢盘
在对端副本正常时,将该硬盘从系统中隔离。新数据多副本写入时,写入到其他健康的硬盘上,业务读取该盘数据时,主动切换到另一副本读取。同时触发数据重建,保障数据的安全性。
在对端副本业务异常时,优先保障业务运行,超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。
(3)卡盘
在对端副本正常时,将该硬盘从系统中隔离,新数据多副本写入时,写入到其他健康的硬盘上,业务读取该盘数据时,主动切换到另一副本读取,同时触发数据重建,保障数据的安全性。
在对端副本异常时,第一次出现卡慢场景优先保障业务运行。超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。1小时内出现3次硬盘卡慢时保障数据安全,将该硬盘从系统中隔离。
综合实际测试效果,在未开启卡慢盘检测及处置功能前,在硬盘出现卡慢时,IO多次出现断崖式下降,业务持续受到影响。开启功能后超融合在硬盘卡慢亚健康状态出现后能够在1分钟内检测到并进行隔离处置,隔离后业务IO恢复稳定,整个过程虚拟机不出现HA,降低了卡慢盘对业务性能的影响。根据深信服统计,2021年卡慢盘引发的业务中断问题数下降60%。