构建网络知识图谱 混合云网络监控诊断需要这样的利器
在国内,云计算经过十多年的发展,企业在IT基础设施以及云原生的业务应用上稳步推进,上云业务规模大幅增加。但企业面对复杂的虚拟网络,越来越难以保障业务的安全性和监管的要求。企业监控诊断的工具手段亟需提升,以满足IT基础设施逐渐向混合云架构演变的过程中不断涌现的业务需求。
企业上云的网络挑战
企业上云过程中,基础设施在不断云化,随着容器技术的快速发展,上云后的应用架构逐渐微服务化。云服务高频动态变化的特性满足了业务快速变化的需求,但更多的业务上云使得东西向网络流量激增,基础设施的云化进一步模糊了网络的边界,种种因素叠加在一起使得上云后业务的安全和运维难度陡增。
网络的监控诊断伴着网络的发展始终存在,网络的边界随着基础设施的云化尤其是网络虚拟化层次的延伸而不断扩大。相应地,网络监控诊断的触手也需要随之增加。但在混合云环境中,网络监控诊断遇到了新的挑战。企业现有的监控诊断方案无法覆盖日益增加的东西向流量,由此形成的网络“黑盒”已成为企业上云的一大障碍。
混合云网络的八卦图
古人用八卦图表示一切自然现象的动静状态,从事生产活动时参考卦象以趋利避害。与网络而言,最重要的表象无非是网元的配置信息和运行状态。要解决混合云网络的监控诊断难题,需要对网元的配置信息和运行状态进行望闻问切。一幅刻画云网络的“八卦图”呼之欲出。
网络的点、线、面
在网络监控诊断的场景下,如果我们将具体数据包看做是“点”,完整的业务访问路径(一条流)则是由多个“点”连成的“线”。流信息包含了关键的网络元数据,但在多地数据中心、资源池化,并且涉及公有云资源、专线链路的IT环境中,市场上的方案缺少全局的网络状态视角,即一张关联IaaS资源、PaaS资源、服务应用的知识图谱——混合云网络的全景图。
云杉网络的DeepFlow提供了针对云网络的点、线、面操作逻辑,为混合云的监控诊断提供了全面的信息保障。知识图谱(网络全景图)包含网络所涉及的对象实体映射关系,显示结构拓扑与现网流量的一系列不同视角的视图展示,应用可视化技术和搜索技术描述资源实体全面、丰富的运行信息,为云中业务的监控诊断提供按图索骥的指导。
云网络八卦图的绘制
要绘制一幅混合云网络的全(八)景(卦)图,首先要获取的是生产网络的拓扑,其次是全网的流量信息,最后是根据流量与网元的映射关系,梳理出与业务有关的知识图谱并识别出异常或恶意的流量,为企业上云后的监控诊断提供可靠的依据。
云杉网络DeepFlow监控诊断方案由DeepFlow的采集器、控制器以及数据节点组成,满足KVM、ESXi、容器、公有云等各类资源池的网络监控诊断需求;并支持IPv4、IPv6协议环境。获取混合云环境的网络流、数据包并非易事,需要兼顾性能和侵入性,方案的设计要充分考虑企业已有的生产环境。
DeepFlow控制器首先通过与生产环境尤其是云平台的对接,自动学习云中的资源和网络拓扑信息。通过对接关键物理设备,DeepFlow完成全(八)景(卦)图绘制的第一步。
考虑到网络监控框架的可扩展性,流量采集与后端监控诊断工具必须解耦,在采集侧,各类型号的DeepFlow采集器为全网流量采集方案提供基础信息的捕获能力,支持物理网络、KVM、ESXi、容器、公有云等资源池网络环境。对于多数据中心、多云异构的混合云基础设施,DeepFlow控制器以集群方式实现对不同平台下众多采集器的管理。控制器能秒级启停海量采集器,采集器通过接收控制器的指令,在本地对流量做预处理。至此,DeepFlow完成全(八)景(卦)图绘制的第二步。
控制器作为整个系统的中枢大脑,结合采集到的流量和已经对接的生产环境网络拓扑,借助机器学习和大数据等技术,自动对全网流量进行梳理,结合数据类型、监控指标、资源属性、展示方式等多个维度,生成全局业务真实的网络流量知识图谱,亦即DeepFlow全(八)景(卦)图绘制的第三步。
云网络八卦图的展示
不同角色的使用者对全景图的展示各有偏好,全面覆盖这些需求并提供统一的呈现,是满足各方对网络卦象解读的重要前提。
企业通过DeepFlow平台已经掌握了混合云环境中的网络数据。核心的监控指标是用以描述网络状态、性能的各类指标,主要包括吞吐量、时延、异常、传输状态等;展示方式根据使用场景主要有分布、关联、对比及回溯等。网络流量数据又是典型的时间序列数据,同时具备相应的网络特性。因此DeepFlow提供了分布式的网络时序数据库服务,在满足快速写入、数据持久化的同时,不断优化多维度的聚合查询能力。平台不同角色用户可以在核心视图的基础上,定制自己更关心的监控面板并设置告警策略。
混合云网络监控诊断方案的部署
整体方案包括DeepFlow采集器、DeepFlow控制器、DeepFlow数据节点三部分。对于整体规划的方案,建议对整体混合云规划独立的网络监控平面,对于混合云的监管流量统一、独立地进行管理。在完成整体方案规划后,可分区域、分资源池、按阶段投入建设,最终使企业具备对混合云基础设施全网络监控诊断能力,保障应用业务稳定运行。
由于大部分企业已经具备对传统物理网络的监控能力,通常重点选择KVM、容器资源池网络为第一阶段建设,重点解决资源池内网络东西向流量“黑盒”不可见的问题,实现资源池网络可视化,提高运维排障效率,保证网络服务等级协议。
第二阶段纳入更多资源池,与新建扩容的资源池同步部署,接入物理网络中分光镜像流量,实现对整体数据中心网络监控。
第三阶段面向混合云中的公有云资源,对运行其上的网络进行监控,部署采集器,具备对Workload或其上容器流量采集能力,完成对混合云IT环境网络整体监控管理。
对于已经运行的混合云环境,可以在不影响生产环境运行的情况下部署实施,网络规划上将DeepFlow平台所涉及的管理、监控分发平面复用在已有的网络平面中,通常可以复用已经存在的网络管理平面。
云网络八(全)卦(景)图总结
DeepFlow混合云网络监控诊断解决方案通过有效的网络流量采集、数据分类存储以及网络点、线、面的紧密结合,为企业在混合云、云原生等新型IT基础设施环境演进过程中,补齐网络监控的空白,避免重复建设;应对云原生特点,紧密结合业务,解决实际网络监控难题,支撑企业基础设施向网络智能化迈进。