每一天便利超市:把核心业务系统的承载,交给托管云
西安每一天便利超市连锁有限公司(简称“每一天便利超市”)是西安知名的综合性零售型企业,成立于2010年,现拥有超2000家门店。在发展过程中,公司积极推动信息化与数字化建设,涵盖移动支付、电子会员卡、在线购物及送货服务等,致力于成为持续创新的数字化企业。
每一天便利超市正加速其数字化转型步伐,运用BI系统( 商业 智能BI分析系统)全方位构建精细化运营、数字化 营销 、数字化服务等数字化经营能力。但面临原有BI分析系统性能瓶颈、系统过保且缺乏专业支持、日常报表处理效率低下、难以满足业务时效要求等问题,为进一步优化企业信息流通,提升生产效率与决策效率,并有效控制成本与风险,公司决定使用深信服托管云替换现有IT基础设施,承载核心BI分析系统。
一、 每一天便利超市 BI 建设现状及 IT 困境
( 一 ) BI 当前架构
每一天便利超市全面推进企业数字化转型变革,运用数字化技术,全方位构建精细化运营、数字化营销、数字化服务等数字化经营能力,建立具有持续创新能力的自进化型的数字化企业,为顾客持续创造价值,优化顾客体验。公司当前企业信息化系统已建立完善包含ERP、OA、财务等,各业务系统数据较为分散,为提高便利店的营收和降低企业生产成本,公司于18年引入BI系统,以优化数据集成与分析能力,提升生产效率与管理水平。通过BI系统的部署,集团期望能够实现数据的集中管理和分析,增强决策支持,进一步推进整体数字化转型进程。
如图所示,该架构为每一天便利超市初始建设的BI系统,IT基础资源采用IDC托管服务器和某国外品牌超融合形式承载。
( 二 ) BI 当前 IT 资源
如图所示,用户原先采用的国外品牌超融合承载,单台虚拟机配置为78核CPU,145GB内存,总磁盘存储空间为1700GB。
( 三 ) 现有 IT 架构面临的挑战
1. 门店数量持续增加,现有 BI 承载方案面临挑战, BI 系统已过保,缺乏专业的运维人员
公司门店数量超2000家,采供销经营等需要分析的数据有1.1TB,随着业务后续发展,迫切需要一套能够根据实时需求动态调整资源分配的解决方案,以保障数据处理的高效性和准确性。
2. BI 本地超融合承载服务器磁盘采用 SATA 盘,性能不足,出报表时间较长,严重影响营销决策工作
日增数据10GB,原有BI系统性能不足,每日报表任务执行时间过长,无法满足业务分析的时效性要求。
3. 资源扩展有限,业务上线慢
本地机房托管导致资源灵活扩展性不高,没有购买多余机柜空间,业务扩展从采购服务器、租赁机柜空间到上线交付周期长,无法满足BI业务快速扩容需求。
4. 原先国外品牌超融合面临续费价格昂贵,需要更加 经济 的 IT 承载方案
二、 托管云解决方案
1. 网络方案
远程运维: 本地运维人员与托管云机房采用IPSec VPN加密互联,保障运维安全。
带宽: 采用云上200M带宽,可根据业务所需流量值弹性扩容。
2. 云资源选型
专属服务器: CPU:Intel 6342 @ 2.80GHz 24核*2路,内存:256.00 GB,磁盘:3.2TB NVMe SSD硬盘;高性能服务器配置满足用户对磁盘IO和计算资源的需求。
弹性基础设施资源: 托管云提供A/T3+级机房,用户无需购买机柜空间,仅购买专属服务器、带宽等云服务即可;基础资源由托管云管家运维并交付上线,用户只负责应用部署上线,满足用户快速扩容和业务上线需求。
3. 服务方案
提供贴心服务。托管云配备专属管家、专属群、专属项目经理,减轻用户运维压力,用户可以更好地聚焦业务应用开发与创新。
三、 托管云测试记录
( 一 ) 标准配置测试结论
首先根据现有BI服务器配置(现有BI系统虚拟机配置为78核145GB,使用某国外品牌超融合承载),使用与之配置相似的标准托管云服务器进行测试,获取系统基线性能需求和特征,测试内容如下:
1. 测试服务器配置: CPU:Intel 622R @ 2.90GHz 16核,磁盘混闪:SATA盘
2. 测试场景: 根据出报表的数据类型进行并发计算任务测试
测试时间: 计算每个数据类型产出报表时长
测试结果: 根据每次测试的计算任务总用时,得出平均计算任务跑完用时790分钟左右说明磁盘性能有瓶颈导致查询数据较慢,计算过程CPU iowait:35%左右。
3. 测试场景: 根据并发用户数测试CPU资源瓶颈
测试并发用户数: 7
测试结果 :并发用户为7,同时打开报表,用户反馈打开报表缓慢,各资源负载如下图CPU各核心负载偏高,磁盘、内存、网络均正常,说明计算资源没有得到充分利用或计算CPU核数不足。
根据用户提出的性能不足以及测试结果,得出 影响 BI 系统的三个核心指标 如下:
多核 CPU 高主频: BI系统通常需要多核CPU以支持并行处理任务,例如数据提取、转换和加载(ETL)、实时查询处理以及复杂的分析算法。高主频:更高的CPU主频意味着更快的单线程性能,这对于执行密集型的分析任务比较重要。
高性能存储: 为了加速数据访问及分析速度,通常会采用固态硬盘(SSD)而非传统机械硬盘(HDD),尤其是在需要频繁读写操作的情况下。
大内存需求: BI系统在运行时需要加载大量数据到内存中进行处理,因此对内存的要求较高。足够的内存可以减少数据加载的时间,提高系统的响应速度和数据处理能力。
基于测试结果进行云上资源选型和架构设计如下:
( 二 ) 托管云架构设计、选型、调优
1. 云架构设计
根据前期测试结果及总结结论,在规划新的云上承载平台时,考虑到BI系统的性能需要提升,以及资源独享和安全性等因素,因此在托管云平台上云服务器采用一台专属计算服务器承载BI,两台托管私有云承载其他业务系统。考虑到BI需要高主频CPU、高IO存储性能,因此采用硬件环境:CPU:Intel 6342 @ 2.80GHz 24核*2路,内存:256.00 GB,磁盘:3.2TB NVMe SSD硬盘,机房选择就近机房接入,具体如下:
(1)选择在陕西深信服托管云T3+机房,建设3节点专属私有云。其中BI系统独占1节点计算资源,使用NVMe全闪卷。
(2)通过IPSec VPN与本地网络环境组网打通,实现托管云与本地进行安全可靠的内网访问。
(3)网络采用多运营商网络,解决跨网访问延迟问题。
2. 云资源选型列表
3. BI 系统运行过程调优
BI数据库运行时出现BI系统连接数据库报错,从下图可以看出数据库初始化连接数为空。
BI 数据库参数调优
参数调优前:
因数据库参数问题,导致部分数据运行不起来,从而使承载BI服务器的硬件资源利用率较低:
参数调优后如下:
调优参数说明
( 1 ) 初始化连接数: 数据库系统在启动时预先建立的一定数量的连接。
调参目的: 应对数据库连接失败,快速响应用户请求。
当BI程序首次尝试连接到数据库时,如果没有初始化连接,需要创建新的连接,这个过程可能会耗费一定的时间甚至连接失败。而有了初始化连接数,应用程序可以立即获取到可用的连接,从而快速响应业务请求,减少用户等待时间。
( 2 ) 最小空闲连接数: 指在数据库连接池中始终保持的最小数量的空闲连接
调参目的: 在数据库正常连接的基础上,应对突发的用户流量。
最小空闲连接数可以为数据库系统提供一定的缓冲,以应对突发的流量高峰。当大量的用户同时访问系统时,数据库需要处理更多的连接请求。如果没有足够的空闲连接,可能会导致连接排队等待,甚至出现连接超时的情况。
( 3 ) 归还连接前检查: 在BI程序使用完数据库连接后,将连接归还给连接池之前进行检查。
调参目的: 减少BI程序在下次与数据库交互时使用数据库连接时减少出现错误的可能性。
归还连接前检查目的是确认连接的状态是否正常,是否仍然能够有效地与数据库进行交互。如果连接在使用过程中出现了问题,如网络中断、数据库服务器故障等,那么这个连接可能就无法再次被安全地使用。通过检查,可以避免将无效连接放回连接池。
实际调整如下:
数据库参数调优后:
用户反馈整体数据库连接及响应时间有改善,计算资源利用率显著提升。
4. 确定选型及 BI 数据库参数调优之后运行记录
根据托管云选型之后的资源测试以及参数调优之后得出结论:
磁盘配置: NVMe SSD磁盘;
CPU : Intel 6342 @ 2.80GHz 24核 * 2路;
数据计算任务场景: 使用高性能磁盘(NVMe SSD)效率提升效果明显,较大幅度提升系统IO上限,缩短计算任务时长,由原来790分钟计算缩短至390分钟左右,综合缩短50%左右;
用户并发访问场景,由于进程并发度较高,且主要消耗多核CPU资源。总算力(主频*核数)提升,多核使并发效率大幅度提升,CPU iowait:2%以内,综合降低33%左右。
本次运行测试之后,出报表时间整体符合预期,用户直接将此运行环境转为正式运行环境
5. BI 系统上线后业务运行情况
实际运行效果如下图:
磁盘IO最高速率在1.71GB/s左右。
BI系统稳定运行过程CPU平均负载56.94%,内存平均负载63.88%。
四、 用户价值
1. 高性能 IaaS 资源: 满足每一天便利超市对BI系统高性能需求,报表处理时间提高50%,通过低时延、高性能确保数据处理和分析的连续性与效率,支撑公司商业决策的精准性和快速响应市场变化的能力。
2. 专属物理资源: 提供独立的物理资源,构建安全、高性能专属云。同时,提供弹性云资源服务,弹性扩展带宽、云存储等资源。
3. 业务上云架构优化服务: 在BI业务迁移至云环境后,为了确保数据库性能达到最优状态,托管云管家对数据库参数进行细致的调整。如调整数据库初始化连接数,连接池检查等以确保数据库初次连接正常以及频繁访问的数据能快速被读取,提升BI业务上云后的整体性能、稳定性和响应速度,为业务的高效运行提供有力保障。
4. 业务快速上线: 由原来线下采购物理服务器或超融合一体机且需要租赁IDC机柜位置,整体上线周期几周甚至数月。而今,借助托管云服务,业务可在短短几天内迅速上线运行。
5. 贴心服务: 深信服管家主动式的服务,配备专属服务经理和快速响应机制,为用户提供高效的支持。
6. 降低成本: 制定详细迁移计划,提供免费上云、迁移服务,消除用户对迁移过程中可能产生的额外成本的担忧,保障了业务的自由转移。