“100强”制造业企业的VMware迁移实战
作为中国电子信息100强企业,某制造业企业是一家在 PCB、PCBA、SUB、SIP 等领域具有出色实力的高新技术企业,在电子电路行业起着举足轻重的作用。
在集团数字化转型过程中,传统架构无法满足业务连续性需求,面临着业务发展与技术创新的挑战。为了实现新型数字化业务的需求,集团决定使用深信服超融合基础设施替换原有的VMware,以适应用户业务的动态变化和增长需求。
老旧的 VMware 虚拟化平台已无法满足业务需求,主要存在以下问题:
缺乏维护: 现有的VMware vSphere 5.1 虚拟化平台已使用超过10年之久,目前已不再享有官方的维护服务,这意味着平台可能面临安全漏洞、兼容性问题以及性能瓶颈,同时缺乏必要的技术支持,这将会对业务和数据带来风险。
成本问题: VMware对中国大陆用户的政策调整导致续费和转向订阅模式的成本显著增加。且VMware平台的相关组件扩容和秒级备份解决方案的成本也相对较高。
业务瓶颈: 随着业务的持续增长,对计算、存储和网络资源的需求日益增加,原有的VMware平台在处理高并发业务时显得力不从心。这不仅影响了业务的扩展性和灵活性,还可能导致性能瓶颈,影响用户体验和业务效率。
一、 建设方案概述
( 一 ) 建设方案
1. 整体架构升级
本次项目拟采用深信服超融合基础设施来替换原有的VMware虚拟化平台,使用超融合建设普通混闪存储和高性能混闪存储两个资源池,同时对接用户现有的 DELL FC 外置存储空间,形成一平台多存储的融合资源池。从传统的单一虚拟化升级为私有云资源池架构,优化业务信息系统架构,更好地适应企业业务的动态变化和增长需求。
原 VMware 配置清单如下:
CPU 配置:20×44 C
内存:20×768 G
磁盘信息:Dell FC 存储约 100T
备注:ESXI 5.1
本次项目深信服配置清单如下:
CPU 配置:77×32 C
内存:77×768 G
磁盘信息:普通混闪集群 1.2P(缓存比 10%)、高性能混闪集群 600T(缓存比 24%)、全闪集群 600T。多套集群用于业务区分(HCI 6.8.0R2)
2. 业务系统迁移策略关键业务系统针对性迁移
在进行业务系统迁移时,确保业务连续性和稳定性至关重要。针对SRM、CRM、EKP和PCB_MES等关键业务系统进行详细的业务影响分析来评估每个系统在业务中断时的潜在影响,并确定它们的RTO和RPO要求,以便制定迁移优先级和资源分配。为了最小化业务中断,在非高峰时段进行迁移,并采用增量迁移技术来减少对业务的影响,确保迁移过程能够最大程度地保障业务的连续性和稳定性。
3. 强大的备份机制CDP模块实现秒级备份
在可靠性方面,本次项目拟采用数据冗余架构,在两个相距约五公里的数据中心之间搭建起一座数据冗余的桥梁,实现双活。确保当数据中心出现故障时,业务仍然能够不间断运行。同时基于深信服超融合的无代理CDP模块,实现对重要业务系统的秒级备份。规划将1T的 IO 日志存放于虚拟存储,备份数据存放于外置存储EDS上,在面对突发故障时,能够迅速从备份中恢复数据,做到RPO =1s。
( 二 ) 方案优势
1. 高性能与高效能提升系统表现
超融合基础设施在软硬件层面深度优化,在计算资源层面更有效地应对企业业务系统的高并发处理需求,加速复杂生产管理系统、设计模拟软件以及数据分析工具的响应速度,从而极大提高工作效率。存储方面使用高性能混闪卷和全闪卷来满足高IO的性能承载需求。
2. 优化资源利用率
通过精细化的资源整合和智能调度机制,显著提升了资源利用效率,确保了业务系统的灵活性和高效性。这种优化允许不同业务系统根据自身的具体需求动态分配资源,有效避免了资源的闲置和浪费。特别是在业务高峰期,系统能够自动识别并优先分配资源给关键业务,保障其性能稳定和响应迅速。而在业务低谷期,系统则能够智能回收闲置资源,从而减少能源消耗和降低运营成本。
3. 成本效益优势,降低软硬件成本
采用超融合资源池架构简化数据中心的基础设施,减少了对多种独立硬件设备的需求。企业不再需要依赖于传统的、由单独服务器、存储设备和网络设备构成的复杂组合。这样的集成化设计不仅降低了硬件采购成本,还减少了因设备多样性而产生的维护工作和相关费用,不仅降低了企业的总体拥有成本(TCO),还增强了系统的可扩展性和灵活性。
4. 安全保障提升,数据安全增强
内置的安全防护机制和完善的备份策略,确保了企业数据的安全性和完整性。CDP 备份保护机制、数据冗余和双活架构等措施,有效地防止了数据丢失和损坏,有效解决了用户在数据保护与安全防护方面的后顾之忧。这对于制造业企业而言,保护了其研发数据、用户信息、生产工艺数据等重要资产,确保企业的核心竞争力不受影响。
二、 迁移过程
本次迁移工程始于 2023 年初,持续至 2024 年 10 月,历经近两年的时间跨度,是一项复杂而艰巨的任务。整个过程可以分为以下几个主要阶段:
( 一 ) 前期准备阶段
1. 业务分层设计
在正式开始迁移之前,深信服进行了全面而细致的准备工作。首先,对用户的业务进行了深入梳理,共识别出 369 台业务虚机, 并根据业务重要性和可中断性将其分为三类:
一类业务 42 台,仅在 重大节假日 窗口可中断;
二类业务 59 台,可在 周六日 窗口中断;
三类业务 268 台,可在 工作日 窗口中断。
2. 平台风险分析
VMware源端
深信服对原 VMware 配置进行了详细分析,识别潜在的风险,制定了科学合理的迁移方案。
迁移前期风险及规避措施
在迁移前期,发现以下问题并提前通知用户进行风险规避:
(1)部分业务软件授权与 MAC 地址强关联,迁移创建时需将网卡 MAC 地址设置一致后再进行迁移。
(2)源业务虚机内部安装杀毒软件可能导致 SCMT 的 agent 进程无法运行,迁移时建议退出杀毒软件后再安装 agent。
(3)部分老旧业务系统由于系统内核较低无法安装 agent,需进行无代理迁移。且迁移至目的端后可能出现 SCMT 切换失败,此时需源端关机进行最后一次增量同步后,再在 HCI 目标端拉起。建议先取消 virtio,正常开机后尝试安装 tools。
超融合目的端
提前会进行主动服务adeploy巡检和资源查看,提前发现和规避风险,确保迁移资源充裕,如果资源不够,会及时跟用户以及市场同事进行相应沟通,保障整体迁移。
( 二 ) 分阶段迁移阶段
1. 三类业务迁移
迁移前期,深信服优先将三类业务迁移至混闪集群。整体采用 SCMT 迁移工具进行点对点迁移,在迁移过程中不影响原有业务并同步增量数据。大多数业务系统采用有代理→免代理业务迁移,迁移稳定、数据传输速度快,少部分无法安装agent的业务采用免代理→免代理业务迁移。在这个阶段,需要密切关注迁移进度和资源使用情况,通过主动服务 aDeploy 巡检并查看资源,确保迁移过程顺利进行。若发现资源不足,及时与用户及市场同事沟通,保障整体迁移顺利进行。
2. 二类业务迁移
待三类业务迁移稳定后,深信服开始将二类业务迁移至高性能混闪集群。同样采用 SCMT 迁移工具,遵循相同的迁移原则和风险规避措施。在这个阶段,需要更加注重业务的稳定性和可靠性,确保在迁移过程中不会对用户的业务造成任何不良影响。
3. 一类业务迁移
在五一、国庆等重大节假日时,深信服将一类业务迁移至全闪集群。由于一类业务的重要性和不可中断性,在迁移过程中需要格外谨慎,提前做好充分的准备工作,包括与用户的沟通协调、资源的优化配置以及风险的再次评估和规避。
迁移过程的部分截图如下:
( 三 ) 重点业务迁移阶段
—— 以 PCB_MES 业务系统为例
PCB_MES 业务系统作为用户的核心业务系统,于 2016 年左右新建,运行着 Oracle 11.2 1T 的核心数据库单机,采用 Linux 5.0 内核 2.6.18。由于系统无法安装 SCMT 的迁移代理 agent,只能采用免代理方式进行业务迁移。
整个虚机空间约为 1T,迁移速度约为 80MB/s。在迁移过程中,需要密切关注数据的完整性和一致性,确保不会出现数据丢失或损坏的情况。经过约两天的时间,完成了大部分数据的迁移。
中午11时33分,执行停库操作,进行最后一次增量同步后切换。切换至业务拉起验证时间约为 30 分钟。在此期间,遭遇了因 Linux 内核版本过低而无法在工具上完成切换的问题。依据前期风险排查与规避手段,深信服在 HCI 中取消 virtio 磁盘后拉起,并进行低版本内核的 tools 安装,最终成功完成业务迁移。
三、 迁移后的验证
在完成所有业务的迁移后,深信服对迁移后的系统进行了全面的验证和优化。
( 一 ) 功能验证
系统启动与运行: 确保迁移后的系统能够正常启动,各个服务和进程能够稳定运行,没有出现死机、崩溃等异常情况。例如,对于服务器,检查其操作系统是否能够顺利加载,各种服务是否能够正常启动,如 Web 服务器、数据库服务器等。
业务应用功能业务流程完整性: 验证业务系统的各个功能模块是否完整,业务流程是否顺畅,是否能够满足用户的实际需求。
功能响应速度: 测试业务功能的响应速度,包括页面加载速度、数据查询和处理速度等,确保用户能够获得良好的使用体验。
( 二 ) 数据验证
数据完整性: 检查迁移后的数据是否完整,包括数据库中的表数据、文件数据等,确保数据没有丢失或损坏。比如,对比迁移前后数据库中表的记录数量、数据内容是否一致。
数据一致性: 验证数据的一致性,确保不同业务系统之间的数据能够正确交互和共享,没有出现数据不一致的情况。例如,在涉及多个系统的业务场景中,检查数据的一致性,如订单数据在不同系统中的一致性。
四、 业务持续稳定运行
深信服对迁移到HCI的业务应用,通过 云端智能大脑 等智能运维工具,结合线上线下服务协同人机共智的模式实现智能监控,相较于VMware承载,主要优化并解决如下关键点:
( 一 ) 构建全栈监控体系
建立涵盖硬件、云平台、云主机、数据库、应用等全栈的监控体系,实现对 IT 基础设施和业务系统的全方位监测。通过多种监控指标和告警规则,及时发现潜在问题和异常情况。有效减少生产中断事件发生次数,保障业务连续性,以全年不发生业务中断为目标进行建设。
( 二 ) 配备专属服务团队
为用户配备专属线上线下服务经理,建立线上线下协同的故障处置机制,7*24H及时响应用户问题,协同进行故障排除和恢复。能够在事件发生前期提前发出预警,识别风险,达到提前介入处理,事先消除风险,规避事件发生。
自2023年初启动,历经近两年的精心规划与实施,于 2024年10月成功完成业务迁移任务,满足了用户存储双活和数据保护的核心诉求。该企业业务成功迁移,是深信服在制造业打磨技术方案的有效实践证明。深信服始终关注各行业用户替代升级的需求,持续打造有效、稳定的解决方案,为用户构建自主创新的数字化基础设施。