从人工分析到智能分析,如何快速上手智维数据流量分析?
国内各行业的IT信息化建设正处于高速发展阶段,业务量与日剧增,伴随着数据大集中,以及业务系统的快速上线,运维部门作为业务网络保障部门面临着巨大挑战和压力。由于各种关键业务和应用都被承载在基础架构、WEB应用、中间件和数据库上,同时业务系统上线需实现快速、灵活、按需的可插入式部署能力,这使得业务的复杂性和维护难度大幅增加。如何对这些复杂的业务系统进行有效监控和风险防范,保障关键业务的高性能和高可用性,以及如何对现有的运维流程进行优化,不断提升管理和运维水平已经成为新的难题。
以某企业为例,该企业的数据中心部署了大量负载均衡设备,经常出现大量Limiting closed port RST Respond 告警信息,由于没有流量分析能力以及标准运维工作流程,每次出现该问题时运维人员不知道是如何引起,对业务有没有影响。因此定位故障总是需要耗费大量时间,造成排查效率较低。具体难点如下:
业务运行环境越来越复杂,故障定位慢,各种业务系统越来越多,系统对相关资源的依赖性高,系统一但出现任何问题,需要逐个排查,故障定位难;
运维工作繁重,缺少工具和手段,维护人员每天面临大量的重复性、手工性的故障排查工作,不仅费时费力,而且容易出错,亟需新的手段帮助提升效率;
日常运维工作流程混乱,或者没有标准流程,造成工作效率低下,同时客户抱怨、投诉不减;
为解决以上运维痛点,nCompass流量分析平台从用户的实际情况出发,以数据作为切入点进行面向业务的数据可视化智能分析,从智能告警-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六方面解决目前运维管理中面临的一些实际问题。
告警出现
F5设备出现大量Limiting closed port RST Respond 告警信息。
【告警示意图】
由上图可以看出,某企业F5设备出现了大量Limiting closed port RST Respond告警信息,并且告警信息一直在持续,运维人员无从下手。
数据回溯
nCompass通过数据可视化手段,将维度指标的组合过滤进行问题回溯,可查询各个VLAN中Reset包信息以及Reset包数量。经过过滤后的表格可以看到是哪一个VLAN的 Reset数量最高。
【维度选择示意图】
【指标选择示意图】
【数据表格示意图】
通过上图“数据表格示意图”,可以看出,在nCompass数据表格选择好维度与指标后,可以将相关数据全部在数据表格中得以展现,通过展示出的数据得出VLAN2007 REST数量最高。
数据分析
接下来对表格中通过添加维度的方式对Reset数量最高的VLAN进行下钻分析,可以看出客户侧Reset包无明显异常IP,服务侧Reset列发现0.16服务端Reset占比超过80%。
【客户端下钻示意图】
【服务端下钻示意图】
在得出VLAN2007 REST数量最高后,我们要对其进行下钻分析,首先进行客户端下钻,通过上图“客户端下钻示意图”可以看出,客户端REST数量虽然总数过高,但是平均在每一个客户端上之后,只有几个或者几十个,所以可以先排除客户端异常。我们接下来在对服务端进行下钻分析,通过上图“服务端下钻示意图”发现服务端REST指标列最高达到了1,565,194个,他对应的IP为*.*.0.16,可以得出结论,服务端*.*.0.16为异常IP。
再通过nCompass DNS解析发现0.16对应域名telemetry.*******.com非公司域名。
【DNS解析示意图】
得出异常IP后,我们可以将其带入至nCompass内置视图DNS解析中,通过“DNS解析示意图”中可以看出,异常IP*.*.0.16对应域名为telemetry.*******.com,经过DNS与CMDB的排查得出telemetry.*******.com非本公司正常域名。
故障定位
通过F5将0.16加入黑名单进行拦截后,整体服务端Reset下降明显,Limiting closed port RST Respond相关告警趋势明显下降。由此可见,造成Limiting closed port RST Respond相关告警量突增的原因就是由0.16导致。
【告警趋势示意图】
将异常IP的访问进行拦截后,可以通过上图“告警趋势示意图”看出,告警趋势明显下降。
分析流程代码化
nCompass作为新一代数据可视化智能分析平台,不仅拥有可视化分析能力,可以快速定位故障所在,同时,系统还支持将运维人员分析问题的经验代码化,将个体经验留存至系统知识库中,此后再有类似告警产生,系统将自动调用先前录入的智能分析脚本。
【代码化示意图】
如上图“代码化示意图”所示,在每一次解决问题之后,nCompass可以将分析经验进行代码化,当在出现类似问题时,可以直接进行调用,一键分析问题,提高运维效率。如果您是一位编程高手或是遇有复杂的分析场景,产品也提供Python编辑器,来实现复杂的数据分析脚本。
智能分析
当告警产生,系统将自动调用智能知识库,给出故障的详细分析报告。报告内容包括分析对象、异常现象、分析结论、排错具体命令、后续建议等,同时报告中还会提供详尽的数据分析过程数据,以支撑分析结论,为运维人员下一步处置提供决策支持。
【智能分析报告示意图】
nCompass采用多源数据的采集方式,不仅可以基于流量进行分析,还支持与DNS、CMDB等进行对接,实现更深层次的关联分析。如上图“智能分析报告示意图”所示可以看出,分析对象为VLAN2007,在8月22日,发生了异常REST日志现象,我们不仅通过流量对其进行分析,还通过DNS与CMDB的自动调用来确定域名为异常域名,并且针对现象给出合理建议。
nCompass 流量分析平台从告警出现-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六个方面为运维人员实现了从人工分析到智能分析的转变,在提供大量数据支撑的同时,还为运维人员提供一键式的故障分析能力,大幅降低了运维数据分析时对某些特定领域内专业经验的依赖,提升了团队的整体排障效率。为运维人员真正解决了日常运维故障定位难、运维工作繁重、重复性高、没有标准流程的困扰,实现运维故障“简单、快速,一键输出分析结果”。