华为云:量化分析打造高可用架构,确定性运维保障云上稳定可靠
日前,GOPS全球运维大会在深圳正式召开。GOPS 全球运维大会由高效运维社区(GreatOPS)、开放运维联盟(OOPSA)和 DevOps 时代社区联合主办,面向 互联网 、 金融 、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。
会上, 华为云 SRE 首席架构师李浩 发表题为“ 基于量化分析设计高可用架构,构建确定性运维能力”的主题 演讲 , 深入 分享确定性运维 能力 如何为 行业 业务构建稳定可靠的云底座 。 同期,华为云还举办了“维享会”精英沙龙,携手趣玩、丹姿、金蝶、小鹅网络等企业的运维总监、技术负责人,共同针对不同行业、不同规模、不同数字化转型阶段的企业运维经验进行交流分享。
维享会·精英沙龙(GOPS专场)
庞大、复杂 、 快速变化 ,成为系统 运维 的关键 挑 战
在千行百业的数字化转型中,软硬件迭代加速,企业的业务系统越来越庞大、复杂且处于快速变化中,保障系统的稳定可靠,是企业业务最基本的“生命线”。
为此 , 华为云 SRE 提出 “ 确定性 运维”能力 体系, 这是 面向云时代的高效能、高质量的运维体系 ,也 是 融合 “高可用架构”、“动态风险治理”、“高度智能运维框架”形成的有机结合体。 通过“确定性运维”,华为云将业务高速发展带来的“不确定性”变成SLO的“确定性”。 其中,通过高可用设计消除风险因素,是达成确定性的前提。
华为云主张的确定性运维能力体系
“运维也许被认为是默默干活的‘骆驼’,但是未来不能总是‘骆驼’,因此要正本清源,在前端架构上把交付产品设计好。一个高可用的架构才有现网好的质量结果,现网的高质量结果,不是仅靠简单运维出来的,而是前端设计和后端运维一起努力得到的效果。”李浩在演讲时表示。
“ 用数学工具解决工程问题 ” , 建立云系统 和云应用 的高可用模型
设计确定性高可用架构,首先要解决的就是如何度量的问题。在架构设计中,华为云使用了系统可用度评估模型,该模型是由三个决定性因素构成:失效率,即中断次数;恢复时长,包括发现时间、定界时间、恢复时长;故障影响,即每次中断影响的租户数量。通过这三个因素,可计算出系统最终的可用度 , 基于这一评估模型,运维团队可更有 针对性 地 进行高可用设计,追求系统整体可用度的最优 。
华为云SRE首席架构师李浩
“SLO的优秀结果绝对不是靠运气实现,系统的可用性一定需要靠前端设计出来”。李浩表示,系统的可用度如何,并不是现网通过事件度量出来的,而是通过前端设计,在架构设计阶段就保障SLO是可信的。在这个过程中,还可能遇到各种挑战,如质量要素的非线性导致的结果不确定性、质量要素的数量爆炸、质量要素之间存在相关性等问题。
为了解决这些问题,华为云以RBD(Reliability Block Diagram)模型和马尔科夫模型作为理论基础,对华为云现网长时间运转产生数据进行分析,围绕硬件故障、软件故障、变更问题、过载/安全这四大中断因素,将这些故障的中断次数、中断时长等数据作为模型的基础参数。基于这些方法,可进一步准确统计服务器的可用度,软件bug概率等,从而构建出华为云架构可用度评估模型和技术规范。
华为云通过这样一套工程体系,建立每个云服务的SLO档案,并通过数据分析和量化计算的方式找到系统的短板,支撑高可用方案选型。据介绍,当前华为云已基于该模型解决了大量实际问题,包括集群节点数量设定、多组件复杂分布式系统的组件连接方式等。
面向未来,量化分析模型完整系统还有很多路要走。李浩表示,华为云将持续创新,把各种子模型合并,实现更加完备的、更准确的计算系统可用度。
一切皆服务, 帮助 企业 构建确定性运维能力
为了帮助更多企业构建稳定可靠的云上业务,华为云将自身确定性运维实践经验沉淀,以服务的形式提供给千行百业,让运维变革成为企业数字化转型的加速器。
首先,华为云根据与众多企业交流经验梳理出“确定性运维能力成熟度模型”,支撑企业评估自身运维的成熟度并识别短板,从而制定符合其需求的运维变革目标和转型、进阶措施,加快提升企业整体运维能力。
确定性运维成熟度模型
其次,华为云SRE提供了规划与设计服务,可协助企业应用开发及运维团队规划运维体系蓝图及演进路标 , 使得企业运维在能力上向确定性升级、在组织上向SRE模式转型、在流程上持续优化、在工具上加快智能化,从而持续优化SLO指标、人均维护基线、故障恢复时长,达到高度确定性结果。
最后,华为云SRE还提供确定性运维专家培训课程,采用理论+案例实战的方式,为企业运维人员深度解读国内外SRE实践的发展方向,分享如何构建与提升软件及系统工程能力,从而帮助企业进行组织与团队能力建设。
从2022年开始,华为云加快携手客户、业界伙伴共创确定性运维能力,在全国开展“维享会”(确定性运维经验交流分享会)活动。目前,维享会已经开展了30余期,覆盖不同的城市、行业、客户,打造了行业分享运维最佳实践和创新技术的优秀平台。
高效一站式运维, 支撑 高可用架构量化分析及能力构建
本次大会,华为云还首次对外展示了云运维中心(Cloud Operations Center)。作为一体化运维平台,该平台可助力企业用户更好实现确定性运维,打造高度集中化的运维和管控能力;同时,平台支持混合云及多云管理,并沉淀SRE最佳实践,实现场景智能化运维全局最优决策推荐等,实现“一站式”的操作能力。
站点健康监测大屏演示效果
面对行业数字化转型和确定下运维需求,华为云 云运维中心将主要助力企业构建 6 大运维能力:
故障快速恢复:沉淀多年SRE故障领域知识库,实现故障恢复最优决策和自愈;
变更风险管控:变更风险智能识别和拦截,确保变更过程安全可信;
资源运维管理:高效的资源自动化运维,智能分批灰度,极大提升效率;
韧性评估优化:应用高可用架构自动评估,及时发现问题驱动改进;
全栈可观测性:应用资源全场景视角的数据层现,按需自定义看板;
统一运维门户:运维风险、事件、任务等集中可视和操作,一站式完成处理;
在产品架构设计上,华为云以集成促统一,以统一促简化,以数字化使能运维主动管理和优化改进,通过持续治理与敏捷并重,在安全合规的基础上不断提升效率,实现运维竞争力突破。
面向数字化未来,企业的IT运维将迎来更多新变革和新挑战。华为云SRE基于自身数字化转型实践经验,携手客户、伙伴持续开展运维变革与创新,助力运维成为企业业务发展加速器,加速千行百业数字化转型,共同构建“确定”的数字世界。