AlphaZero制胜解读,通用强化学习算法自我对弈

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

雷锋网:雷锋字幕组出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

本期论文:用通用强化学习算法自我对弈,掌握国际象棋和将棋

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

▷ 观看论文解读大概需要 6 分钟

回顾AlphaZero

回望2017,DeepMind的AlphaGo是不可跳过的关键词。在这一年,AlphaGo没有止步不前,还实现了惊人的飞跃。

在打败几乎所有高段位围棋专业选手后,谷歌DeepMind现在开始进军象棋领域。12月,DeepMind在NIPS大会期间发布了AlpahZero,这是一个通用棋类AI,不仅轻松击败了最强国际象棋AI和将棋AI,训练34小时的AlphaZero也胜过了训练72小时的AlphaGo Zero。

AlphaZero 完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化,只需要几个小时的训练时间,就可以超越此前最好的算法甚至人类世界冠军,这是算法和计算资源的胜利,更是人类的顶尖研究成果。

完全自主练习的AlphaZero

AlphaZero是以神经网络和强化学习为基础的,在给定比赛规则后,完全通过自主练习进行训练。

这不同于让AlphaGo Zero下围棋,AlphaZero涉及到全新的算法,它和AlphaGo Zero区别在于:第一,象棋的规则是不对称的,比如,卒只能向前移动,国王和王后一侧的王车易位不同,这意味着基于神经网络的技术效率会变差;第二,落子时,算法不仅要预测二进制的输赢几率,还可能出现平局,这也要考虑在内。实际上,有时平局是能实现的最好结果。AlphaZero对之前的算法有诸多改进。

要想理解AlphaZero的制胜方式,这里简要介绍一下ENO评分,ENO评分是一个评估选手技术水平的数字。目前Magnus Karlssen是ENO评分最高的人类选手,分数在2800左右。几年前,他在维也纳蒙住眼睛同时对战10名选手并赢得了多数比赛。而Stockfish是目前最好的围棋引擎之一,ELO评分超过3300分。两者间500 ELO点数的差距意味着Stockfish和Magnus Karlssen比赛,100场能赢95场。需要注意的是,规则规定相差400点就会取消比赛。

算法对决:AlphaZero VS Stockfish

AlphaZero 和 Stockfish进行了100场比赛。AlphaZero 赢 28场,平72场,输0场。AlphaZero与Stockfish的对弈过程中,每一步棋都有60秒进行思考,因为两种算法每走一步最多需要10秒时间,所以时间完全够用。在硬件配置同为含4个Tenzer处理器的机器的情况下,

AlphaZero仅仅花了4个小时的学习就拿了个大满贯。

需要注意,Stockfish采用的不是机器学习,而是手写算法。人们喜欢类比电脑游戏中的AI,但它们没有做任何类型的学习。最让人称道的是,AlphaZero是一种更通用的算法,还能以极高的水准玩将棋,也就是所谓的日本象棋。这才是最有趣的。因为所用的是通用学习算法,能够在不投入显著人力的情况下完成任务,所以相比Stockfish,AlphaZero实用性更强。

论文花絮

关于论文还有两个更有趣的花絮:一是该算法得出的所有领域知识,都是明确给出的;二是有人可能认为随着计算机和运算能力的提高,我们所要做的只是提高算法的强度,增加更多要评估的点。我们注意到AlphaZero能稳定击败Stockfish的关键在于,也许在于AI等效直觉,也就是AlphaZero能够确认少量的有效走法并且专注其中。

雷锋网 (公众号:雷锋网) 本篇视频解释运用了大量材料,里面有Danny Okink大师和国际象棋大师Daniel Ranch的有趣分析,以及YouTube频道、网络围棋等高质量材料。DeepMind告诉我们,这只是论文的最初版本,所以现在我们先做一个初步观察,也许在最终论文完成后,再制作第二段视频反映最新结果。

雷锋网的学霸们还请自行阅读论文以获得更多细节

论文原址:arxiv.org/pdf/1712.01815.pdf

来源 / Two Minute Papers

翻译 / 安妍

校对 / 凡江

整理 / 孙云 AlphaZero制胜解读,通用强化学习算法自我对弈

AlphaZero制胜解读,通用强化学习算法自我对弈

随意打赏

提交建议
微信扫一扫,分享给好友吧。