阿里信息平台智能监控大盘助力双11 看智能医生如何快速对症下药

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

当你突然感到头痛去看病时,医生会如何帮你做检查?一般来说大概会是这样的步骤:医生会先询问病症,了解之前病史(比如有过高血压),推算出最有可能的原因(是否由高血压引起)进行检查。如果不是再看看其他可能的原因(感冒或其他病变)直到找出最后的病源,甚至还需要预防病症引发出其他问题来。

阿里巴巴的工程师们每天也会进行这样的工作。只是他们检查的对象不是“人”,而是一套套同样复杂的应用与系统。应用为什么会发生报警?到底是什么原因导致?这个报警是否会引起其他关联系统的故障……这些都是工程师们每天需解决的问题。

如何才能让预警的排查更加高效和准确,尤其是面对着成千上万不同的应用?

今年双11,阿里巴巴信息平台上线“智能监控大盘”,实现了1人就可全盘监控所有应用与系统的运行状态。

一屏全监控 双11内部保障再升级

阿里巴巴信息平台是阿里巴巴集团协同办公和运营平台的建设者。为满足阿里巴巴员工的各种需求,信息平台上线了众多应用,从工作、沟通、出行、网络等各个方面全面服务阿里员工。

尤其是在双11这个全员备战的重要节点,如果这些内部应用或网络设备出现问题而无法及时排查原因,耽误维修,对于整个双11都将会产生非常严重的影响。这就需要信息平台的工程师们对核心应用和系统进行实时监控。

阿里信息平台智能监控大盘助力双11 看智能医生如何快速对症下药

(智能监控大盘实时监控 媒体 大屏运行状态)

但由于信息平台应用众多,监控点分散,以往的监控手段无法做到全局观察。并且排查主要依赖人力,进行排查的同学无法快速定位问题原因,需要投入大量时间精力来寻找问题源。

智能监控大盘的上线,能帮助信息平台完美解决上述问题。目前智能监控大盘已经做到在一个监控界面上,同时对系统层和应用层的运行状态进行可视化监控,形成信息平台整体核心应用动态拓扑网。

同时,大盘上可显示出各个应用之间的调用关系,自动捕捉Root Cause,帮助工程师快速定位问题根源。

智能捕捉Root Cause 瞬间锁定问题根源

以前,各监控点数据无法自动通过应用间调用关系形成关联,每个监控点如同“孤岛”信息无法互通,工程师只能先从问题应用着手,通过不同的分析工具对可能的问题一一进行排查,过程中还需要其他工程师的配合与联动,这就大大增加了排查的难度与周期。

但现在,信息平台智能监控大盘的RootCause通过自动分析应用运行依赖和应用间调用关系,可快速将报警信息进行归类、分层、关联。自动生成的RootCause不仅在调用链上位于“根部”,也在运行依赖重要性上位于“根部”,快速有效地定位问题。从发现报警到定位原因,大幅缩短排查步骤,整个排查过程短时间内就能轻松完成。

通过Root Cause,不仅能查看到每个被监控应用的详细报警内容,同时还能通过Root Cause快速积累历史报警数据,为后续应用的改善提供珍贵数据资料。

打通网络环境限制 盒马鲜生已实现全面监控

双11期间,智能监控大盘为双11晚会现场与指挥作战室的网络状态、智能大屏提供监控保障。目前,监控拓扑图和报警信息已达到秒级更新频次。即便是在监控量级特别大的情况下,也能保证监控数据的时效性与检测计算结果的准确率。

除了为阿里巴巴集团提供保障外,智能监控大盘已经开始服务于阿里生态企业,为盒马鲜生提供全面的网络监控与保障。

阿里信息平台智能监控大盘助力双11 看智能医生如何快速对症下药

(盒马鲜生所有网络设备由智能监控大盘保障)

作为生鲜新零售业态的代表,盒马鲜生运用了许多移动互联、智能物联技术,这也决定其对网络环境的极高要求。为保证盒马鲜生良好的网络状态,智能监控大盘通过使用自研探测源,实现了对盒马门店防火墙、交换机等网络设备状态数据的实时收集,让后台能快速部署,有效节省硬件及部署成本。加上流计算技术处理上报日志,确保数据准确、实时,监控范围覆盖至盒马门店的每一台有线/无线网络设备。

对盒马鲜生的全面网络保障,也意味着智能监控大盘已实现可在不同网络环境下,对网络设备与应用进行报警监控与实时响应。接下来,智能监控大盘将接入更多应用设备,不仅做好阿里巴巴集团的网络保障,更成为阿里生态企业及外部企业客户最可靠的支持后盾。

随意打赏

阿里汽车 双112017双11阿里双11直播阿里京东双11阿里信息平台双11是什么阿里智能平台助力双11阿里双11阿里大盘
提交建议
微信扫一扫,分享给好友吧。