阿里巴巴使用AI分配数据中心资源,最多省出一半服务器
为了能有更多时间在双 11 期间买买买,阿里巴巴的工程师研发出了一款 AI 来解放自己。
11 月 6 日,阿里巴巴数据中心 AI 调度官“达灵”正式上任。在实习期间,达灵打破了人类工程师的多项纪录:将数据中心资源分配率拉升到了 90% 以上,在部分业务中节省了一半服务器,并且可以 2 秒钟锁定异常机器,命中率 94% 。
“伴随双 11 规模的逐年暴涨,管理、调度上万台服务器这样的工作已经不适合人来做了。” 阿里巴巴 资深搜索研发专家郑南 说,达灵这套算法能够快速给出最优的计算资源部署方案,并且根据访问量不断搬运应用和数据,确保没有一台机器偷懒。
今年工程师的职责变成如何用数据去喂养 “达灵”。 郑南 说,我们要做的就是提供 表格数据大小 、应用历史 访问量以及目前的部署方案 等信息,省下的就是喝着茶看她的表演。 “她甚至可以在线上克隆一个真实的服务,自己进行压力测试,以判断方案是否最优。”
除了对计算资源的不断调度、应用的不断搬运外,达灵还有一个职责是及时发现异常机器,快速隔离。要知道,双 11 期间一台机器的异常,可能带来百万级用户的下单失败。
但对工程师来说,从机器出现异常、被发现到处理完成,整个过程有时会长达数分钟。而这已经是人类能做到的极限。达灵能够把时间、负载、服务状态等不确定因素通过数据算法关联,最终快速锁定异常机器。
日常工作中,达灵 每天会采集 29 亿条机器运营状态, 日均隔离异常机器 1000 次左右,在大促期间调度准确率达到 94% ,时间只需要 2 秒钟。
阿 里巴巴 iDST 团队是达灵的创造者。项目负责人 朱胜火博士 说, 达灵的工作首先是在集群监控数据之上,建立起很多个深度学习、在线学习的模型,由此对集群内每一台机器、每一个应用,当前和未来的状态都了然于胸。在此基础上,达灵通过应用强化学习、组合优化等技术,可以在复杂环境中自行学习判断,作出一系列比如错峰排布、碎片规整等聪明的决策,从而全局最优化集群的资源 分配 率以及稳定性。
除了 “达灵”以外,机器运营小二、机器导购员、智能客服、 AI 设计师、机器拣货员、机房巡逻员等一系列新物种已在天猫双 11 前夕集中上岗。