利用人工智能技术 数智慧为企业打造智能运维平台
4月1日报道
提起运维工程师,很多人都会想到“救火队员”这个词。的确,当系统(尤其是业务系统)出现问题时,运维人员必须第一时间进行处理。并且由于白天是业务高峰,所以很多日常的系统维护还需要在半夜进行,艰苦程度可想而知。
与此同时,随着近几年IT技术的发展,很多企业系统开始从传统架构向云计算调整,接入公有云或搭建私有云环境,这就使得IT系统架构逐渐复杂;服务器、网络、存储等资源也随着业务和数据量的增长而快速增加;另外在移动互联网的冲击下,很多传统企业开始拥抱改变,业务也发生了重大调整并快速迭代……等等这些,都让传统运维的难度和工作量陡然增加。
“在这种情况下,传统运维工具已无法满足工程师的实际需求,同时也没有更好的新工具出现。但是, 人工智能 技术的不断成熟,给运维人员带来的新的转机。”郑华贵向表示。
郑华贵是“数智慧”项目的创始人。2009年3月从上海交大研究生毕业之后,他便加入招商银行总行信息技术部,负责信息系统运维相关工作。
曾经历过一线运维的他,在工作中发现了上述痛点和大环境的变化,开始在公司内部尝试利用AI技术解决运维问题。经过两年验证,2016年3月1日,郑华贵正式离开招行成立数智慧。
他介绍, 数智慧是一个基于人工智能技术的IT智能运维平台 ,希望通过AI的能力改变以往运维工作。用他的话说就是“企业IT运维领域的AI-as-a-Service”。
在系统运维中,预防问题和处理问题是非常重要的两个工作。以往的运维方式都是部署一套监控软件并设置一些阈值和告警机制,出现异常数据之后触发告警,再由运维人员进行故障排查。
“但是这种方式效率非常低,因为监控只能告诉我们哪个数值有异常,但并不能直接指出问题的症结所在。我们还要进行人工排查和定位。”郑华贵说。
而数智慧平台则是另一种思路:让AI直接对系统进行全盘监控,并在出现故障时直接指出故障原因。这其中:
预警方面: 在运行过程中,平台会通过实时监控系统各项运维指标,进行系统画像建模,并在第一时间获取到系统的异动,自动识别异动是正常还是故障情况导致,及时提醒运维人员关注,做到防患于未然。
故障排查方面: 有些突发状况系统无法通过监控预警,当故障发生时,平台可以为运维人员直接定位故障原因,提高工程师的排查效率。
郑华贵直言,之所以能实现这些功能, 数智慧的核心正是他们经过长期的经验积累,对系统运维的理解以及经过长期训练的一套完整的算法模型,使其能够根据各数值的异动,最终计算出故障原因。 在准确性上,郑华贵直言“暂时还没有误报”。
据了解,由于系统运维监控需要 极 高的实时性,并且系统数据也较为敏感,所以数智慧采用本地部署方式,即直接部署到客户所需监控的系统环境中,包括公有云、私有云等。另外平台还提供API和操作界面,可直接集成到客户的监控系统。
值得一提的是,数智慧可以实现“一键部署”和“自学习“配置,自动识别监控对象,不需运维人员做任何配置或定制。目前其支持的操作系统有Linux和Unix,Windows版本正在开发。
在商业模式方面,数智慧有些类似SaaS产品,收费方式为按所监控的节点数和使用时长收费。另外其社区版(免费版)预计将在今年推出。
自今年初发布首个版本以来,目前已有招行、广东移动等多家大型客户使用。据了解,数智慧的目标客户将重点聚焦在传统金融公司和互金企业。
2017年郑华贵透露,他们将继续进行算法优化,继续训练模型;其次将会拓展平台的适用性,包括Docker容器云的支持部署;另外,数智慧将会深入打造“智能DBA”产品,深入运维的细分领域。