京东技术体系全面备战618 用“大考”促进平台成长
6月16日,300多名京东核心技术人员开始进驻集中备战区,618指挥中心的监控大屏幕上也显示出京东实时订单收订数据和各个技术系统的运行信息,这意味着京东的618购物大趴即将进入最高潮。经过全面系统的备战,京东技术体系已经为即将到来的订单大潮做好了准备。
京东集团高级副总裁张晨表示,“6.18和11.11就像是年中和年末的两次电商大考,对京东的技术体系有特殊的意义。京东不仅可以在备战、应战中全面提升系统性能和运维水平,同时更是技术体系锻炼队伍,让大家能全面协作、共同解决问题的宝贵时机,让我们为未来的成长打下基础。”618对京东更意味着系统的全面梳理和升级,以及更有效的团队协作和人才培养机会。
迎接一次成竹在胸的战役
来自京东商城、京东金融、京东到家、京东智能四个子公司的100多个备战小组,700多名研发人员参加了618备战。从6月1日开始,各个部门就正式进入24小时值守的备战状态。
“与去年618相比,京东的技术水平又实现了稳步成长,各系统的稳定性、可用性及并发性能全面提升,”担任此次618技术总指挥的京东副总裁马松说,“保证618期间用户在京东出色的购物体验,是京东技术人的信心和承诺,也是我们的担当。”
为了更好地顺应用户在移动端下单选购的趋势,今年618技术体系在移动领域加强了资源和基础设施投入,保障和支持力度更大。从去年618至今,京东的技术系统已经进行了全面的平台化改造,商品中心、用户中心、交易中心等都完成了平台化的升级。基础服务下沉让系统核心更加稳定,即使面临618这样的考验,也可以有针对性地保障基础平台的稳定和性能。京东的弹性云建设在这一年间也取得了长足的进步,系统逐步成熟,目前大量应用已经接入弹性云,带来了更迅捷的资源切换和水平扩展能力。此外,京东技术体系在消息中间件、服务中间件、缓存集群、大数据平台等方面都进行了全面升级,为618的挑战做好了准备。
提前进行的数次线上压力测试,有效评估了京东关键节点上各个系统的承压能力,同时锻炼了团队快速定位问题、评估影响和解决问题的能力。“每个系统都有应急预案,恢复时间不会超过60秒”,马松充满信心地说,“即使有通讯光缆中断等极端情况发生,京东也可以通过平台的跨机房多活、流量入口的转移、应用系统的跨机房切换、以及有效的限流和降级等机制,来保证用户的购物体验。”
成为技术和人才发展动力的618
马松曾经将京东技术体系演进总结为初期的救火,中期的驱动业务发展,未来的引领企业成长。618对于京东的意义也有类似的变化,从曾经如履薄冰的技术挑战,变成一次次全面推动技术平台和团队成长的机会。
为了应对挑战,京东各技术部门提前完成了系统改造,让618成为一个梳理和升级系统的好机会。同时,备战锻炼了技术团队的合作精神。从备战开始,每周的例会给大家提供了一个交流、协调、解决问题的场所,很多平时看似复杂的跨部门沟通都得以顺畅完成。通过备战和应战,京东的技术系统优化得更加稳定,能从容应对突发的压力,同时积累的大量运维经验和应急预案也让整个技术部门受益匪浅。
从7次备战例会及上百次各类专题会、预案评审会,2次全体研发部门参与的大型演练,几百场部门内部演习、压测及切换,到已经完成搭建的618指挥中心和各系统备战中心,京东技术人眼中的618更像是一场有条不紊的狂欢,让大家无比期待。
马松说:“很多京东的技术新人经历过一次618就会脱胎换骨,一方面对京东的技术体系有了更全面和深入的了解;同时,他们也能更深入地感受京东实干的技术文化,更好地融入团队。”确实,经历过618已经成为京东技术人的一个标志,甚至在互联网技术行业中都有独特的品牌效应。
“让618的订单来得更猛烈些吧!”马松微笑着说。