明知AlphaGo变得无法战胜，柯洁为何还迎难而上？

凤凰科技 • 7年前扫码分享

柯洁与AlphaGo对弈

凤凰科技白杨

柯洁输了，在与AlphaGo的第一场对决中，以四分之一子的落后惜败。

这个结果在很多人意料之中，其中也包括柯洁。

第一场赛后发布会上，柯洁直言AI的进步速度太快了，并且每一次都是巨大的进步。这也是为什么他在大赛前夕发布微博称，此次将是他与人工智能的最后三盘对决。

柯洁心中已经清晰的知道，人类已经无法战胜AlphaGo。他形容AlphaGo越来越像“围棋上帝”，想赢它只能去找一些BUG，但目前，他还没看到AlphaGo的任何弱点。

这里引用搜狗CEO王小川在知乎上发布的内容，再向大家科普一下AlphaGo。

去年的AlphaGo 混合了三种算法，即蒙特卡洛树搜索+监督学习+增强学习。

其中蒙特卡洛树搜索是一种优化过的暴力计算；监督学习，是通过学习3000万部人类棋谱，对六段以上职业棋手走棋规律进行模仿，也是AlphaGo获得突破性进展的关键算法；而增强学习作为辅助，是两台AlphaGo从自我对战中学习如何下棋。

每当获取棋局信息时，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为AlphaGo 的最终选择。

简单来说，AlphaGo下棋依靠的是概率，而概率的得出则依靠前期学习。而这次与柯洁对战的AlphaGo相较于去年，已经判若两人。

最初的AlphaGo主要依靠监督学习，即学习对象几乎全部来自人类棋手，而新版的AlphaGo则强化了增强学习，主要对机器自我对弈产生的棋局进行学习。

难怪柯洁会觉得，去年AlphaGo的下法还很接近人类，但今年自己对战时，AlphaGo已变得更加不合乎“常理”，下了很多人类棋手不可能下的棋子。

明知AlphaGo变得无法战胜，柯洁为何还迎难而上？

第一局结果

DeepMind创始人、AlphaGo之父Demis Hassabis证实了这一点，他说与柯洁对战的AlphaGo更多的是根据自身学习，对人类数据的依赖性越来越小。

除了开始脱离人类数据，更让人类望尘莫及的是其恐怖的进步速度。我们常说要“取长补短”，AlphaGo则可以把这个过程加快成百上千倍。

取长方面暂不多说，AlphaGo的研发团队一直在找它的缺口。去年输给李世石之后，他们回去马上改善了AlphaGo的知识缺口，并且投入更多精力去改进算法，让AlphaGo变得更强。

这次的AlphaGo在算法上就强大了很多。去年，AlphaGo还是通过分布式的计算机来运作，而今年只用了一个单一的机器。所以，柯洁非但没有让AlphaGo的CPU因为飞速运转而发热，相反，今天的AlphaGo的计算能力比去年要小10倍。

从比赛用时上来看，柯洁几乎是AlphaGo的两倍。双方第一场比赛共耗时4小时17分37秒，其中柯洁用时2小时46分43秒，AlphaGo用时1小时30分54秒。

学的又多又快，人类棋手确实很难看到胜算。柯洁也看到了这一点，但他为什么还要应战。

这也是普通网友最关心的问题了，柯洁的输赢到底是否需要将其上升到“人类尊严”这种高度？答案肯定是不能。

围棋如同所有竞技赛事一样，柯洁也是专业的运动员。对于运动员来说，胜败乃兵家常事，面对实力悬殊很大的对手，任何人都很难取胜。

现在柯洁面对的就是这样一个对手。所以对于比赛接下来的关注点不该是柯洁能否胜一局，而是AlphaGo所代表AI技术将为人类带来什么。

目前来看，AlphaGo已经颠覆了传统的围棋。柯洁在比赛中也尝试了一些“非常规”下法，他认为AlphaGo已经改变了自己很多最初的看法，现在觉得比赛中没有什么棋是不能下的。

Demis Hassabis在赛前的致辞中说道，围棋的样式变化繁多，可能再过一万年，人类也无法穷尽围棋的打法。

而AlphaGo可以作为一个工具，通过它去帮助人类对于围棋的理解，让伟大的棋手去发现围棋更多的奥妙。

这确实是一种很奇妙的感觉。当你认为一件几乎是唯一的事情，突然有了另外一种可能，这就像哥伦布发现新大陆后，给未来开启了一扇新的大门。

柯洁说活到现在，最大的荣幸是和AlphaGo进行了对战，很感谢能有这样的对手。他从AlphaGo身上获得了很多比赛的快乐，这种快乐来自于竞技，而非结果。

比赛结束以后，柯洁更希望把AlphaGo当做帮助自己提升棋艺的工具。在人与机器之间，他选择跟人类下棋，他笑着说，“我跟人类比赛的胜率还是可以的。”