60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

威腾网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

16年3月AlphaGo1.0同韩国棋手李世石展开了五轮惊世较量。最终这场人机大战总比分定格在1:4,AlphaGo1.0获得比赛胜利。2017年初,AlphaGo化身Master后创造了连续60场对人类不败的恐怖战绩!

60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

首先,看看AlphaGo1.0用到了哪些核心技术?


  1. 走子网络(Policy Network):走子网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。走子网络有两个选择,一个是通过KGS高水平对局训练出来的走子网络(SL),另一个是在此基础上通过reinforcement learning训练出来的走子网络(RL)。两个网络结构差不多,但参数不一样,RL是左右互搏来提高自己水平的。(可参考图b)

    60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

  2. 快速走子(Fast rollout),目标和走子网络是一样的,但在适当牺牲走棋质量的条件下,速度却要比走子网络快1000倍。  另外,AlphaGo有了快速走子之后,不需要走子网络和估值网络,就算没有任何深度学习和GPU帮助,不使用增强学习,单机上就能达到3d水平(见Extended Table 7倒数第二行)。知道有多厉害吗?任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。

    60连胜的AlphaGo将再战柯洁 人类能否战胜机器?


  3. 估值网络(Value Network),基于全局输赢估算目前局势好不好。如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),但是如果将两个合起来就会提高到(2890);话说估值网络是整个系统中最难训练的部分(需要三千万局自我对局),很厉害吧! 60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

  4. 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),作用就是上面三个部分连起来形成一个完整的系统,用来搜索并且确切的挑出下一手是什么的算法。运行机制:MCTS先挑几个有希望的下一手,然后在这些手的基础上再展开几手,这样就有一个树形结构,到达第L层时,不再用走子网络展开搜索而是直接用快速展开网络展开到底。这样就把一次模拟做完,这样重复很多次,MCTS可以通过自己的算法挑一个最好的下法,然后落子。什么意思?就是在无数种下法在算时间搜索出来最后找一个最有可能赢的下法落子,厉害吧!

60连胜的AlphaGo将再战柯洁 人类能否战胜机器?


总结:1.0的阿尔法狗通过以上四个技术战胜李世石,活的超过2.8亿人的观看绝对是一场最有价值的营销(注释:这正是今年2.0选择在中国和柯洁对战原因吧)!但是1.0的阿尔法狗其实有一些技术缺陷,它严重依赖人类图谱和蒙特卡洛树搜索:有点比拼谁的大脑容量大的感觉!!


60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

5月23日(明天)至27日,AlphaGo将正式对人类围棋界的目前最高排名的选手柯洁(Goratings最新世界排名 柯洁目前仍然以3625分高居第一,领先第二名韩国朴廷桓45分)发起挑战。双方将进行3番棋战,每方3小时,5次1分钟读秒。另外,还有配对赛和团体赛,古力与连笑分别搭配AlphaGo组队的配对赛;团体赛,五位围棋世界冠军合力战AlphaGo!


AlphaGo 2.0 会放弃 1.0 的人类棋谱和蒙特卡洛树搜索吗?

我们要了解2.0的阿尔法狗这场大战有什么目的?目的1.新技术验证:他们内部肯定已经验证,这个目的不存在!目的2.新技术宣传推广:没错,就像deepmind官网所说去年1.0与韩国棋手的比赛活的2.8亿人的直播围观,今年选择和中国棋手对决,肯定想获得更多关注!那么,2.0的狗会有哪些新技术!

2.0的阿尔法狗会放弃人类棋谱和蒙特卡洛树搜索,哪些新技术呢?我们来看看清华大学计算机系马少平教授的新浪博客文章:

60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

标题:AlphaGo将再战柯洁

柯洁与AlphaGo的比赛又要开始了,这次有什么看点呢?想了几天还没有想出来。并不是没有看点,而是 谷歌 一直没有透漏,或者说我没有看到,今天的AlphaGo与去年的AlphaGo有什么不同,不知道有什么不同,就不知道看什么。

以前在文章中我曾经猜想过,也许新的AlphaGo会尝试从零学习,也即抛弃从人类棋谱中学习,完全靠自我互博,逐步提升自己的能力,但是一直得不到证实或者正否。我一直觉得这是有可能的,不过可能需要的计算资源要大的多,虽然一直有朋友反对我这种看法。

前几天和另外的朋友聊天时,得到了更加激进的消息,说新的AlphaGo不仅是从零学习,而且还舍弃了蒙特卡洛树搜索,让我大吃一惊,如果真是这样,那么将是又一次大的进步。不过我总有点不太相信,从零开始是有可能的,但是舍弃蒙特卡洛树搜索,还是有点不可想象。

前几天看到聂卫平的文章,提到有些棋手已经在跟AlphaGo学习,在比赛中走出了之前认为不好但是AlphaGo走过的类似的棋,我想这就是AlphaGo对围棋发展所起的推进作用,如果AlphaGo真的舍弃人类棋谱,从零开始学起的话,这种贡献可能会越来越多。

期待在这次比赛之后谷歌团队能透漏一些技术上的问题,这样对于我们如何看待这次比赛,会有很大的帮助。

总之这次比赛关注的已经不是谁输谁赢问题了,而是技术上是如何发展的,这对AI才是有意义的,否则如果只是重复过去,则意义要大打折扣。

微信朋友圈传闻截图

60连胜的AlphaGo将再战柯洁 人类能否战胜机器?

<
</

随意打赏

柯洁 alphago 乌镇alphago 60连胜alphago战胜李世石柯洁挑战alphagoalphago挑战柯洁柯洁与alphago战alphago打败人类alphago对战柯洁master 60连胜柯洁 alphago
提交建议
微信扫一扫,分享给好友吧。