监控易:从设备监控到设备运维,再到故障告警,全面剖析运维流程的关键环节!
本次直播的主要内容是介绍监控易一体化监控平台的两个主要功能:设备监控纳管和故障告警。监控易平台是一个综合性的监控管理工具,可以对IT基础监控设备和物联网设备进行统一的监控纳管。通过使用监控易,用户可以方便地监测设备的状态和数据,并即时收到针对设备故障和异常情况的告警通知。如果您错过了本次直播,可以搜索视频号:监控易,观看直播回放,了解更多关于监控易平台的功能和使用方法。
首先,我们需要登录到统一监控平台。在功能菜单的左侧,有一个 “综合监控”选项,用于管理监控平台的纳管功能。在该模块中,我们可以输入、查看和配置与监控相关的信息。
监控易术语及概要介绍
我们将介绍一些常用的监控平台术语,以帮助用户更好地理解和使用监控平台。
监控方式 :我们将说明监控是通过什么方式和连接形式进行的,以便用户更清楚地了解监控的实现方式。
监控设备配置 :我们将简要介绍监控设备的配置,包括基本配置项和设置方法,以及如何对设备进行监控和管理。
设备指标和展示 :我们将介绍设备的指标和展示信息,这些指标和信息可以帮助用户更全面、直观地了解设备的运行状态。
接下来,我们将介绍告警中心。告警中心是用于告警发送和配置的功能模块。 我们将通过以下两个点来介绍告警中心的使用:
告警中心配置 :我们将详细介绍如何设置告警规则和条件,并将这些规则与设备的监控数据进行关联。
告警方式: 我们将介绍不同的告警方式,如短信、邮件、电话等,并详细介绍如何配置和管理这些告警方式。
此外,我们还将讨论告警的优先级设置和处理方式, 以便更好地应对不同级别的告警事件,并及时采取相应的措施进行处理。
通过本次直播,我们希望能让大家更深入地了解一体化监控平台的功能和使用方法,以便更好地应对和管理监控和告警事务。如果在介绍过程中有任何问题,请随时在聊天窗口提问,我们会尽力解答。谢谢大家!
告警中心是一种集中推送告警信息的平台, 以下是对告警中心的介绍:
管理对象: 管理对象是指IT平台中的软件或硬件实体,如服务器、操作系统、网络、数据库、中间件等。这些管理对象是需要进行监管和监控的对象。
监测点: 监测点是指管理对象下的特定监测点,它包含了有关CPU、内存、磁盘等监测项内容。监测点用于提供监测对象的具体信息。
监测指标: 监测指标是指监测点内的详细信息,用于细化监测点的状态。例如,对于监测点"CPU",监测指标可以包括CPU使用率、CPU温度等。
组: 组类似于Windows中的文件夹,用于管理和组织设备和监测对象。用户可以在组中添加设备和监测点。
监测点依赖: 监测点依赖是一种规则或策略,用于控制告警信息的展示,避免告警信息泛滥。用户可以设置告警依赖规则,使得只有关联的监测点异常时才会触发告警。
通过综合监控设备纳管的位置功能信息,用户可以实现对管理对象的监管和监控,同时利用告警中心的功能来推送准确 且及时 的告警信息,以保障系统的正常运行和安全性。
故障状态: 指设备或监测点出现故障或异常的状态。
依赖监测: 根据故障状态去检测所依赖的点,如果满足设定的依赖条件,则触发自动停止禁止的状态。
告警: 监控平台根据设定的告警条件触发告警信息,并通过相应的告警方式向用户发送告警信息。
计划任务:监控平台内的时间安排,用于轮询监测和告警的执行时间 。可以通过后台配置设置任务时间,例如每周7天2次。
禁止: 通过手动或计划任务的方式,在监控平台内对组、监测对象和监测点进行禁止操作。禁止后,设备或监测点呈现黑色状态,并停止监测。
允许: 在设备禁止状态下,通过操作按钮点击允许,使设备恢复监测状态。状态也会根据允许后的监测返回数据进行变化,恢复到正常状态。
综上所述,我们的平台内共有6种监测状态,分别为未知、正常、警告、故障、禁止等状态。 每种状态对应的颜色如下:
未知状态:灰色
正常状态:绿色
警告状态:黄色
故障状态:红色
禁止状态:黑色
在告警事件中,我们会推送日志消息,并提供告警事件的详细信息,包括告警错误重试次数。 我们提供了设置告警重试次数的功能,可以根据网络抖动或不稳定的情况来避免因不稳定导致的故障推送和显示。告警错误重试频率默认为监测频率的5秒。如果需要调整监测频率的时间间隔,可以通过设置错误频率来触发相应的错误重试轮询时间间隔。
在添加设备或监测对象时,可以设置设备的标识 性名 称作为标题。 阈值是通过配置设备和添加监测点来设置的,用于确定危险或故障的阈值。当前设备的状态会根据匹配的危险或故障阈值进行判断。
添加设备监控
当我们登录到平台后,在页面的左侧,有一个树形结构,用于展示设备的组分类和标签。 这些主要信息可以根据不同的应用场景进行添加和展示。它们能够帮助我们快速定位和管理需要监控的设备,并设置需要查看的信息,方便我们进行后续的运维工作。
分类方式是指通过不同的设备类型进行分组管理和展示。 可以根据设备的不同特性来进行分类,以便更好地组织和管理设备。
标签方式是指针对设备可以打上多个标签,通过这些标签可以快速定位到具有相同标签的设备。 这样可以方便地查看和应用这些设备的信息。
在页面的中间位置,我们可以看到一个监测列表。 这个列表包括设备的状态信息,设备列表,监测点列表和视图列表。这些列表以表格的形式展现,方便查看设备的监测情况。
在页面的右侧,我们可以看到添加设备的相关信息。 我们可以手动添加单个设备,也可以通过批量添加的方式一次性添加多个设备 。此外,页面右上角还有一个搜索框,可以通过关键词快速搜索设备信息。
在设备列表下面,我们可以看到监测点列表。 对于每个设备,我们可以设置多个监测点, 以监测不同的指标或参数。每个监测点都具有对应的状态信息和监测结果。
最后,页面的底部是视图列表。我们 可以根据需要自定义不同的视图,并将设备或监测点添加到这些视图中。 这样可以更方便地查看和管理相关信息。
通过综合监控页面,我们能够快速浏览和查看设备的状态信息,并设置相应的告警规则。 当设备出现危险或故障状态时,系统会自动发送告警通知,以便及时处理和维修。这种监控方式能够实现对设备的全面监测和管理,提高设备的可靠性和工作效率。
添加监控的方法主要有以下几种:
1. 使用插件:对于服务器操作系统的监控,可以通过安装插件的方式进行监控。在被监测的服务器上安装对应的应用插件,然后监控系统将通过插件与被监测的服务器建立连接,并获取服务器的资源信息。
2. 使用连接协议:对于服务器操作系统和应用中间件的监控,可以通过不同的连接协议进行监控。比如使用WMIS、PSSH、SMB等连接协议,通过连接被监测的服务器或数据库进行监控和信息获取。
3. 使用硬件管理协议:对于服务器硬件的监控,可以通过IPMI(Intelligent Platform Management Interface)或SNMP等硬件管理协议连接服务器的管理口,获取风扇、电源等硬件信息的资源监控。
4. 使用远程连接或协议:对于数据库和中间件的监控,可以通过远程连接或特定的协议进行监控。比如使用远程连接或ODBC等多种方式连接数据库,获取数据库的性能指标和运行状态。
5. 使用Agent:通过在被监控设备上安装Agent程序,可以实现对设备的监控。Agent会收集设备的各种信息,并将信息发送到监控系统进行分析和处理。在监控系统中配置Agent的连接信息和监控项,即可实现对设备的监控。
在添加监控时,需要配置设备的连接信息、并选择需要监控的项,如CPU、内存、磁盘、网络等,设置相应的阈值和告警规则,以便在超出阈值时及时发出告警通知。
综上所述,通过安装插件、使用连接协议、配置 Agent 等方式,可以实现对不同类型设备的监控。根据设备的类型和需求,选择适合的方法进行配置和管理。
以下是不同方面监控方法的总结:
业务网络监控:通过SNMP等方式获取业务网络的属性信息,添加录入并设置指标进行监控。
网络设备监控:使用已适配的模板,选择网络设备并录入信息进行监控。可通过驱动连接或SNMP方式进行数据采集。
存储监控:一般使用驱动连接或SNMP方式采集存储设备的数据,并进行监控。
虚拟化监控:通过API、WMI等方式连接虚拟化设备,获取数据进行监控。
物联网监控:分为两种方式:a) 使用SNMP网络协议,通过网络设备获取被监测的IoT设备数据信息进行监控纳管;b) 使用窗口协议,动环类设备通过窗口协议发送监测信息,转换为TCP协议,通过Modbus等进行监控。
总之,根据不同方面和需求,可以选择合适的监控方式和协议进行数据采集和监控。
在添加设备时,我们提供了模板的方式来更方便地进行配置。您可以在模板中选择与 您设备 相匹配的配置,或自定义添加设备的配置信息。
对于新的设备型号或品牌,我们会进行适配和实现 ,以确保您可以在平台上进行监控和管理。通过持续的迭代更新,我们将保持平台的易用性和功能完整性。
如果您还有其他关于设备配置和添加的问题,请随时与我们沟通。我们将竭诚为您提供支持和帮助。
服务器监控的配置可以根据具体设备的配置和厂家提供的标准手册进行匹配。
综上所述,无论是服务器类型还是网络类型,都可以通过对应的连接配置进行平台的纳管和监控。
设备监控和设备运维
在监控纳管之后,展示的效果取决于监控的指标。 主要分为几个类型,包括服务器应用和业务网络设备、安全存储、虚拟化、物联网以及其他虚拟设备。
对于服务器 ,我们可以在平台的概览信息中查看资源信息的整体趋势,方便使用和维护时定位问题的原因。例如,当CPU超过设置的阈值时,可通过监控平台及时发现并进行相应处理。
对于业务网络设备 ,可以监测设备的运行状态、带宽使用情况和网络延迟等指标,以便及时发现和解决网络故障。
安全存储方面, 可以监测存储空间的使用情况、读写速度和数据备份情况,确保数据的安全和可靠。
虚拟化和 物联网 设备方面 ,可以监测虚拟机的运行状态、资源利用率和传感器数据等指标,以优化资源配置和提供智能化服务。
通过汇总和展示这些监测指标,监控平台能够提供整体情况的概览,并提供细节信息来定位问题的原因。 这有助于提高系统的稳定性和性能,并降低故障发生的概率和影响。
监 控状态和监控数据在服务器类型 上体现为,可以提供概览信息和监控情况,包括资源监测、异常监控和监控数据。通过这些信息,用户可以及时了解服务器的运行状态和问题情况。
在网络设备上 ,监控状态和监控数据主要通过资源信息和流量信息展示和体现。如果出现接口down或流量超出阈值的情况,系统可以进行预警和提醒,同时根据问题的严重程度进行颜色状态的变化显示,如黄色危险和红色故障。
对于安全防 火墙,通过SNMP连接获取相关信息,并展示和体现用户关注的数据。可以通过图表等方式展示安全防火墙的使用状态,是否可用以及资源使用情况。
对于存储类型 ,监控状态和监控数据的体现方式与其他类型类似。可以通过展示存储的当前使用状态和资源使用情况,以及提供视图和状态的展现,方便用户了解存储环境的运行情况。
对于虚拟化环境 ,监控状态和监控数据可以展示各种虚拟化类型的使用状态、可用性和资源使用情况。通过视图和状态的展现,用户可以清楚地了解和监控虚拟化环境,帮助优化性能、排查故障,并确保环境稳定可靠。
综上所述,监控状态和监控数据统一体现在各个类型的服务器、应用、网络设备、安全防火墙、存储和虚拟化环境中,以展示图表和视图等方式提供全面的监控信息,帮助用户实时了解系统运行情况,并进行性能优化和故障排查。
物联网监控的一体化监控平台,涵盖了基础监控设备和 物联网 设备的监控纳管 。基础监控设备包括UPS、温湿度、水浸空调等动态设备,其监控信息可以统一展示在监控平台上,实现对监控指标的展示。此外,还可以对PING和端口进行统一监控和展示,包括设备管理内的监控平台信息纳管,支持添加监控配置和展示功能。
告警中心是监控平台中常用的功能,用于匹配监控设备的危险或故障状态,并通过预设的策略规则进行告警。 在告警设置中,可以新增告警策略,并通过资源组或设备类型的方式选择需要发送告警的策略范围,保证告警的准确性和及时性。同时,在告警策略中还设有屏蔽规则,用于防止频繁发送告警信息,提高告警的可用性。
总之,该一体化监控平台可以实现对基础监控设备和 物联网 设备的统一展示和监控纳管,包括监控指标的展示、告警中心的设置和告警功能的实现。这样可以确保设备的正常运行,并有效处理设备的危险或故障状态。
设备故障告警
在 告警 设置中 , 我们还可以进行以下操作:
1. 告警频率控制:可以设置一段时间内的最大告警次数,防止告警风暴的发生。
2. 告警通知跳过:可以设置某些特殊情况下的告警跳过发送,以避免无用的告警信息。
3. 告警恢复通知:可以设置在故障处理完成后发送一个恢复通知,以及通知的接收人和发送方式。
4. 告警提醒模板:可以设置不同级别的告警对应的提醒模板,包括邮件模板、 微信 模板等。
5. 告警日志记录:系统会记录每一次告警,包括告警类型、级别、发送时间等,方便查阅和分析。
6. 告警策略管理:可以对已配置的告警策略进行修改、删除或添加新的策略。
通过上述的设置和配置,我们可以灵活地管理告警发送 ,包括设置告警级别、告警频率控制、告警通知方式、告警恢复通知等,确保及时准确地将故障或危险情况通知到相关人员,同时避免告警风暴的发生。
收件和发 件信息 的策略 ,可以在告警策略中进行配置。在我们的平台内,有一个告警中心,您可以在其中查看和处理所有告警信息。这个告警中心提供了一个直观的视图展示,您可以清楚地看到是否有告警发生,以及告警的原因是什么。您可以在这里配置收发策略,并且对告警进行查看、处理和忽略等操作。
在告警中心中,您可以查看发送历史和当前的告警情况 。如果有告警发生,您可以快速了解到相关情况,并采取相应的措施。同时,我们的平台还提供了故障定位功能,可以帮助您找到设备故障的原因,进一步进行排查和修复。
以上就是关于告警中心和告警信息的一些内容和功能介绍。 如果您对这两个功能有任何问题或需要进一步了解,欢迎您提出,我们一起讨论。非常感谢大家的支持和参与!如果在后续过程中有任何问题或需求,请随时联系监控易官网,以获取帮助。我们期待与大家继续交流,并将根据大家的需求准备下一次的直播内容。谢谢大家!
下次直播预告
云平台在监控和运维方面发挥着非常重要的作用。它可以帮助用户实时监控云上的各项服务,包括服务器状态、网络流量、存储空间等,以确保云平台的稳定运行。同时,云平台还提供了丰富的运维工具和功能,如日志分析、异常检测、自动化运维等,以简化运维流程,提升效率。用户可以轻松地管理和维护云上的各项资源,及时发现和解决问题,提高运维效能。
接下来的“监控易”直播将于8月24日举行,观看平台为视频号和抖音。本次直播的主题将聚焦于多云架构平台的监控运维,我们将分享多云架构的特点和挑战,以及如何通过监控和运维手段来优化云平台的性能和可靠性。热烈欢迎大家关注和积极参与,感谢您的支持!