AlphaGo之父详解“围棋上帝”是怎样炼成的

凤凰科技 • 7年前扫码分享

AlphaGo

凤凰科技讯（作者/白杨）5月24日消息，乌镇围棋峰会进入第二天论坛环节。昨天，AlphaGo取得了与柯洁对阵的首场胜利，再一次展示了人工智能在围棋领域的非凡实力。今天，DeepMind创始人杰米斯·哈萨比斯（Demis Hassabis）和AlphaGo团队负责人Dave Silver便对外讲述了AlphaGo研发背后的故事。

DeepMind于2010年在伦敦成立，2014年被谷歌以4亿美元收购，目前有200多名员工。哈萨比斯说，DeepMind相当于人工智能的阿波罗计划，希望打造新的研发科学的方式。

所以，DeepMind所有的研究内容都围绕智能。大致分为两个步骤：一是要攻克智能，真正的掌握智能；二是用智能去解决问题。

如何实现这样的目标？DeepMind在努力打造一台通用型的学习系统。在DeepMind的所有算法中，都有一个学习的机制，而不是预设的系统。

通用型的学习系统最大的特点是可以举一反三，一个算法可以做一系列的事情。这很接近人类的大脑，从一个任务中学习到的经验，可以应用到其他事情中去。

目前，绝大多数机器都无法做到这点，DeepMind希望能够打造出这样的能力。

AlphaGo之父详解“围棋上帝”是怎样炼成的

Deepmind创始人杰米斯·哈萨比斯

哈萨比斯举了一个例子，上世纪90年代，IBM 发明的深蓝系统（Deep Blue）曾打败了国际象棋冠军加里·卡斯帕罗夫（Gary Kasporov）。但这并不是一个通用型学习系统的例子，深蓝是一种弱人工智能，它通过机器暴力搜索，来搜索研发人员预设的数据。

所以，深蓝不能说是一个聪明的机器，只能说背后的编程者很聪明。

那DeepMind在做的强人工智能是什么样子？简单概括来说，机器需要掌握观察和行动两个技能。假设有一个智能体，当它获得一个目标信息，它首先需要去观察自己所处的环境，这个环境可以是真实环境或者是虚拟环境，然后通过视觉、听觉，甚至是感觉去熟悉环境。

然后就设定一个想法，针对环境去决定当下应该采取什么样的行动来实现目标。看似简单的两个步骤，背后却涉及了极其复杂的算法和原理。

为什么AlphaGo要下围棋？

回到AlphaGo，哈萨比斯和他的团队为什么选择围棋，而不是象棋或者其他棋类？哈萨比斯表示，围棋对计算机来说是最困难的，其复杂程度让穷举搜索都难以解决。

对机器来说，围棋的困难主要在两方面：一是，机器无法写出评估程序来决定谁赢了；二是，围棋是一种直觉性的比赛。

输赢的判断对比赛来说非常重要，但是围棋不像象棋，吃掉对方的“帅”或者“将”即可获胜，这也导致围棋的搜索空间非常庞大。

围棋更像是一个筑防游戏，每走一步都需要盘算整个棋局，而象棋是所有棋子都摆在盘上。另外，围棋选手都是依靠直觉在下棋，且围棋中没有等级概念，所有的棋子都一样，小小的一子，就可以影响全局。

正因如此，AlphaGo在围棋上取得的成绩，确实得来不易。哈萨比斯也说，去年战胜李世石，让他们整个团队都很激动。为这一刻，等了十年。

AlphaGo是如何工作的？

Dave Silver称，按照传统的算法，每下一步棋计算出几十种可能，然后每种可能又产生几十种可能。这种穷举式的搜索方法应用在每一步都有上百种可能的围棋上，会变得非常笨拙。

AlphaGo之父详解“围棋上帝”是怎样炼成的

AlphaGo团队负责人Dave Silver

所以AlphaGo团队在研究时，一直想办法减少穷举式搜索的宽度和深度。

他们结合了监督学习和强化学习的优势。一方面形成一个策略网络（policy network），用于学习棋盘；另一方面，形成一个价值网络，以-1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。

这两个网络结合在一起，就形成了AlphaGo的树搜索。在获取棋局信息后，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。

与柯洁对战的AlphaGo自学成才

但这次与柯洁对战的AlphaGo相较于去年的版本，进行了很大的改变。今年的AlphaGo更强化了学习，它通过自己与自己下棋，产生大量的棋局，然后学习、改进。

这样一来，AlphaGo就不需要依靠人类的数据，而是自学成才。然后不断给下一代版本提供更好的数据，这是一个良性循环。

去年，与李世石对战的AlphaGo在谷歌云商有50TPUs在运作，每一步可以搜索50个棋步，并且可每秒搜索10000个位置。

昨天与柯洁对战的AlphaGo，则是在单个TPU机器上进行比赛，它拥有了更强大的策略和价值网络。

哈萨比斯说，AlphaGo最酷是它不仅把围棋当做比赛，更是当做一种艺术，而且是非常可观的艺术。

在与李世石对阵的第二局比赛中，它走出了令人惊叹的第37步棋，这让研发人员都感到惊讶。按照围棋几千年来的经验，人类是绝不会下出这一步。

李世石当时在赛后也表示，AlphaGo给围棋带来了全新的体验和认知，让他有了继续下棋的比赛。

柯洁在昨天比赛技术后也有着同样的感受，AlphaGo让围棋有了更多的可能，似乎没有哪一步是不能下的。

AlphaGo已经展现出了它在围棋方面的创造力，并给围棋选手打开了新的世界的大门，围棋的边界远远超乎他们之前的认知。

哈萨比斯说，他们会继续打造AlphaGo，不断弥补它知识方面的空白，让它变得更完美。

对于未来，以AlphaGo为代表的人工智能也会成为人类的工具，就像望远镜一样，帮助人类探索更多未知的领域。比如在材料设计、新药研制等方面，人工智能一旦有所突破，给人类带来的影响也同样超乎想象。

最后，哈萨比斯还强调一点，当人工智能真正来到人们身边时，正确恰当的使用人工智能也非常重要。

随意打赏

柯洁 alphago 围棋人工智能alphago围棋围棋ai alphago alphago围棋大战谷歌围棋alphago alphago 柯洁围棋 alphago alphago柯洁 alphago之父围棋alphago