智维数据:应用交付可视化助力金融科技企业应用服务质量及效率提升
1.应用监控痛点
金融 科技 企业A,是国内行业领导企业,作为一家持续盈利并保持高增速的上市公司,A公司每年在金融科技建设上投入较大,全公司建设了数百套科技系统,金融科技的投入重在推动业务效率提升。随着A公司双活应用架构落地,负载均衡成为A公司关键的基础服务,其可用性及灾难恢复能力必须得到第一优先保障,但由于数量庞大的负载均衡设备缺乏统一管控平台,因此面临一些棘手的运维难题:
第一,配置层面,负载设备多配置也多,人工梳理难度大且变更不及时,会出现由于错配、漏配等导致的异常;
第二,巡检层面,日常人工巡检工作量大,无法覆盖全部负载设备,监控盲区带来了不可控的运维风险;
第三,用户体验层面,如何早发现影响用户体验的因素,快速判断和解决,减少由于业务故障对用户体验的负面影响;
第四,在排障过程中,由于负载前后端地址进行了随机转换,运维人员不清楚负载前后地址动态对应关系,因此在业务发生故障时无法第一时间溯源找到问题点,排障效率难以保证;
第五,在监控层面,多个告警平台各自独立,数据不互通,无法实现综合分析,因此只知故障却难以深入了解故障原因,无法满足业务端对运维效率的要求。
2.智维数据解决方案
为提升A公司对负载设备的监控能力,减少网络可视化盲区,提高应用故障协查能力,智维数据作为技术合作伙伴,通过前期对项目的调研,设计并落地了负载对接灵珑应用交付管理平台的解决方案,该方案可实现对负载数据的采集,包含 iControl、HSL等,实现负载设备统计、配置集中查询、配置定期优化、状态实时监控、自动化巡检、业务访问关系梳理、应用优化、智能告警、自动化报表等功能,通过灵珑的应用交付可视化能力,提升运维团队应用服务能力。
与传统的基于镜像流量的HTTP监控的方式相比,“灵珑”基于HSL实现HTTP监控,优势明显:
1、部署成本很低,HSL被设计成高容量、低开销的日志记录技术,只需要网络可达即可收集,更加“轻量”方便;
2、本地计算,时效性高,每秒支持吐出几十万条日志,并对系统开销极低,所有通讯对指标计算都由设备自身直接输出结果,不存在数据重新缝合计算的过程,时效性与准确度最高;
3、灵活度高,分析场景可结合负载自身配置信息,除了输出业务性能之外,还可以输出负载失败的记录(例如DNS没有走智能DNS、会话保持异常分析等)。结合iRules,可以定向对特定业务做解码处理,获取业务信息;
4、对于加密流量数据的分析,无需额外的解密;
5、分析模式为应用交付模式,贴合全代理架构展示,实现负载连接表持久化,更好地展示应用交付中的业务场景。
该方案通过“灵珑”智能识别应用交付设备及应用自身运行过程中出现的隐患,可将影响业务的风险最小化,解决A公司在配置、巡检、用户体验、排障、监控五个方面的难题。
3.应用场景
配置优化,设备风险严格管控
此前A公司网络部门曾遇到业务报错,在业务端查找不到原因,后来经过人工排查发现,是健康检查配置不优,导致负载配置问题未及时发现所致。由于全公司有数量众多的负载设备,要全部筛查工作量巨大,为运维端带来较大压力。现在通过使用“灵珑”,运维人员可随时对所有负载设备上的数百个业务进行配置检查,有多少个业务在什么时间点健康检查失效了变得一目了然。
【灵珑配置优化界面】
由于一些历史原因,负载上还存在一些闲置的业务和配置仍在运行,增加了运维风险和负载消耗。现在运维人员可以通过“灵珑”主动发现哪些业务是从来没有被访问过但业务仍在负载上,那么这个业务其实是完全闲置的业务,应该删除对应负载配置,从而做到回收垃圾配置,有效避免垃圾配置引起的业务隐患。
此外,“灵珑”还可以自动化统计软硬件数量、设备序列号、软件版本等信息统计,提前规避排障时由于软件/硬件版本停止服务带来的风险隐患。
人工巡检到智能巡检,提升巡检效率和准确性
此前,A公司的负载定期巡检需要请外部技术人员协助,逐一查看设备运行状况和报错情况,整个工期一个月左右,巡检报告多达几百页,报告人工梳理难度较大,包括解读报告的难度也很高,而针对巡检的质量,难以及时有效的核实。
现在通过“灵珑”的智能巡检功能,运维人员一小时内就能完成之前人工巡检一个月的工作量,还可以根据需求设定巡检周期,比如每月一次或者每周一次设备巡检。由于是机器巡检,巡检效率和准确性都能得到有效保证。
【灵珑智能巡检报告】
在巡检结果上,过去几百份报告阅读量大且难以抓住重要信息,现在“灵珑”的智能巡检报告会在前面重点列出需要高度关注的事项,再附上分析报告详情,为运维团队节省了大量的阅读时间。在发现问题设备时,运维人员可点击问题获得对应的故障原因。此前由于设备量大无法有效核实巡检结果,只能对核心设备进行复查,而未复查的其余设备有可能会存在一些人为判断未检出的问题而带来一定的业务风险。现在通过机器自动巡检,可以很好的解决这些问题,通过对全量设备的周期性巡检,对硬件状态、配置分析、性能容量、日志分析、安全性分析等信息全面掌控,规避了设备层面的各类管控风险。
DNS监控,关注用户访问体验
用户体验是A公司评价IT服务的核心指标,DNS解析问题也是运维与业务都非常关注的问题。经常遇到的一种情况是,业务端反馈某业务不可用,运维人员搜索域名时发现该域名类型为PTR,反向DNS查找域名但返回记录均为REFUSED,说明业务端异常。此时,运维人员需要先查找这个业务是在哪台负载上,然后登录负载管理端,一一查看设备状态及域名配置等信息,最终确认问题是负载上缺少对应域名配置导致的。
【灵珑平台一步到位,确认DNS解析异常原因】
现在,这一繁琐流程可以通过灵珑平台一步到位,“灵珑”通过DNS监控与配置监控联动,当发现DNS解析异常时,对比本地解析和智能解析,可主动发现配置规则问题,实时判断是否由于F5漏配导致,减少处置时间,提升用户访问体验。
业务交互视图,理清故障排查思路
过去A公司发现某项业务无法正常访问时,首先是由业务端反馈,此时运维团队需要从头开始排摸这个问题到底出在哪里,是负载硬件设备问题,负载后端的服务器问题,还是网络链路的问题,用排除法去逐步排除。
【灵珑业务画像视图,可同步分析设备异常情况】
现在,通过“灵珑”的业务画像功能,可以将A公司整个业务链基于负载信息进行整合并做自上而下的展现,形成该业务的交互视图。以上面的问题为例,针对某个业务域名,视图信息会清晰展现是哪些服务去支持这个业务,业务途经哪些负载设备、哪些服务器的节点和链路。当出现故障时,平台会显示告警标签,并实时判断服务器是否正常,负载设备是否正常,让运维人员了解具体是由于哪台服务器及设备导致的问题,快速确定故障域,化被动运维为主动运维。
运维平台的整合,一个监控全搞定
过去A公司为了全面监控业务情况,陆续部署了几套不同的监控平台,由于每套平台的功能不同,整合起来非常复杂,需要一个小组专门收集负载日志类告警。现在,通过“灵珑”可以将所有负载相关的告警的类型统一展现出来,实现的能力要比之前多个平台的功能还要全面。
另外,由于每套平台系统体系不一,因此也无法进行平台联动的综合分析,当出现业务端反馈使用异常时,可以看到哪一个时间点访问不了,哪一个客户端访问不了,但是具体原因只能人工排查。
【灵珑360度全面监控负载设备】
现在,使用灵珑平台,能够展示所有设备的异常信息集合,包含设备、日志、审计、应用,4个维度、150 + 监控分析指标,360度监控负载设备。传统告警方式无法实现或者是实现效果不佳的方面,可以通过“灵珑”一个平台全部展现,实现多维度、多视角的异常事件统计,平台内置智能算法,可自动识别指标的异常变化,例如CPU的突增、应用延时的突增等。
【 灵珑设备告警视图】
系统还内置了智能知识库,对设备日志实现了场景化分类,明确的故障场景分类,包括:设备异常、主备异常、系统异常、资源异常、iRules异常、安全异常等,结合日志知识库给出对应触发原因与建议,让运维人员大幅提升故障处置效率。
4.总结
A公司通过部署灵珑平台,实现了应用交付管理能力的全面提升,并在配置、巡检、用户体验、排障、监控五个方面取得了显著的实践成果,使应用服务质量和效率得到大幅提升。以上场景具备较强的金融行业通用性,相信会为有类似情况的金融企业带来一定参考价值。