谷歌AlphaGo AI日显强大可通过与自己对弈学习

腾讯科技 • 7年前扫码分享

BI中文站 10月19日报道

总部位于英国伦敦的谷歌 ( 微博 )旗下人工智能(AI)实验室DeepMind与美国当地时间周三（18日）宣布，已经对其最著名的AI程序AlphaGo进行了显著改进。AlphaGo是一种算法，它因在中国古代围棋中击败人类冠军而名声大噪。现在，它已被重新改进，并重新编程为一种名为AlphaGo Zero的AI程序。

图1：DeepMind AlphaGo项目首席研究员大卫o西尔弗（David Silver，左）与首席执行官德米斯o哈比斯（Demis Hassabis）

DeepMind首席执行官德米斯o哈比斯（Demis Hassabis）在谷歌英国总部表示，AlphaGo Zero比AlphaGo“强大得多”。围棋是一款简单的游戏，但同时又非常复杂。虽然只有几条规则，但每步棋有很多可能的走法，这些可能性甚至比宇宙中原子的数量还要高得多。

最初的AlphaGo已经给人留下深刻印象，但它依然无法与AlphaGo Zero相媲美。在接受3天训练后，AlphaGo于去年3月份在韩国击败了世界围棋冠军李世石（Lee Sedol）。经过40天训练后，它击败了AlphaGo Master，后者曾在今年5月份成功击败现任世界冠军柯洁。哈比斯说，在短短几天内，AlphaGo Zero实际上已经获得了人类数千年积累的知识，同时也发现了新的知识、围棋策略以及创意性的新棋路。

在没有人类帮助下，AlphaGo Zero自学如何下围棋

老版AlphaGo AI与AlphaGo Zero之间的主要区别在于，前者通过吸收人类数据学习下棋，而后者则不需要。之前所有的AlphaGo AI都是从网站上下载人类数据(业余和职业围棋)开始训练的。它们观看了数千场比赛，并被告知人类专家在某些位置上的特定动作。但是，AlphaGo Zero并不使用任何人类数据。相反，AlphaGo Zero通过与自己对弈学会了如何玩围棋，完全是“无师自通”。

DeepMind AlphaGo项目首席研究员大卫o西尔弗（David Silver）解释了AlphaGo Zero是如何从零开始学习的。他说：“AlphaGo Zero使用了一种新的强化学习形式，在这一过程中，它成为了自己的老师。我们的想法是，它的起点是一个对围棋一无所知的神经网络，它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来，然后用它来选择下一个动作。”

谷歌AlphaGo AI日显强大可通过与自己对弈学习

西尔弗继续称：“在每场对弈结束后，AlphaGo Zero实际上都训练了一个新的神经网络。它改进了自己的神经网络，预测AlphaGo Zero自己的棋路，同时也预测了这些游戏的赢家。当AlphaGo Zero这样做的时候，实际上会产生一个更强大的神经网络，这将导致‘玩家’进行新的迭代。因此，我们最终得到了一个新版AlphaGo Zero，它比之前的版本更强大。而且随着这个过程不断重复，它也可以产生更高质量的数据，并用于训练更好的神经网络。”

这并不是AI研究人员第一次编写没有学习人类数据的算法。今年8月份，美国科技大亨伊隆o马斯克（Elon Musk）斥资10亿美元支持成立的AI研究公司OpenAI透露，它已经开发出了一款AI，可以在没有任何人工输入的情况下，自学如何玩电脑游戏《Defense of the Ancients》。

AlphaGo Zero使用的计算能力也比AlphaGo之前的版本要少得多，这表明，算法的进步远比计算能力或数据进步更重要。AlphaGo Zero是一项重大突破，它为DeepMind的研究赢得了更大的声誉。在AI研究领域，让机器在某些任务中成为“超人”，而不是为它们提供人类数据进行训练始终是一项长期存在的挑战。由于人类数据太昂贵、太不可靠或根本无法获取，从而导致AI研究进展缓慢。

西尔弗曾被美国主流网络媒体BI称为谷歌DeepMind的无名英雄，他补充道:“由于不使用这些人类数据、特性或专业技术，我们实际上已经消除了人类知识的局限性。因此，AlphaGo Zero能够从最初的原则，从空白石板中创造知识，并制定出自己的策略，以及自己独特的下棋方式。这使它能够比以前的版本强大得多。”

当被问及DeepMind使用了多少资金开发AlphaGo时，哈比斯表示，这个数字“可能相当可怕”，很难量化。大约有15名DeepMind顶级员工年薪在六位甚至七位数以上，他们已经全职研发AlphaGo很长时间，而且该公司使用了大量的谷歌计算能力。

机器还远不及好莱坞电影中所描绘的那样

尽管AlphaGo Zero的突破令人印象深刻，但值得注意的是，研究人员还远没有研究出像好莱坞电影中描述的那些AI，比如《机械姬》（Ex-Machina）或《她》（Her）。如今的AI程序通常可以在单个任务(比如游戏)中胜出，但是它们很难同时完成多个任务，特别是当这些任务处于不同的领域时。

然而，DeepMind现在正在研究如何将与AlphaGo Zero相同的算法应用到真正的科学挑战中，比如蛋白质折叠、降低能耗、寻找新材料或发现新药。哈比斯表示:“我们正在努力建立通用学习算法，而这只是向前迈出的一步，但它的确令人感到兴奋不已。AlphaGo团队许多成员现在正在开发其他项目，并试图将这项技术应用到其他领域。” （编译/金鹿）

美国Business Insider作品的中文相关权益归腾讯公司独家所有。未经授权，不得转载、摘编等。微信公众号：BI中文站。