AlphaGo 进化到 Zero,不靠人类靠自学
Google 旗下的 AI 子公司 DeepMind 在《自然》期刊上发表了最新的论文(PDF),介绍了它的围棋 AI AlphaGo Zero。DeepMind 开发的前几个版本的围棋 AI 如 AlphaGo Fan(打败樊麾的版本)、AlphaGo Lee(打败李世石的版本),AlphaGo Master (打败柯洁的版本)都需要人类知识训练,但进化到 Zero 的版本则完全通过自我学习,3 天后超过 AlphaGo Lee,取得了 100 胜 0 负的成绩,21 天后达到 AlphaGo Master,40 天后成为史上最强大的围棋选手。DeepMind 认为通用 AI 能帮助人类解决其面临的部分最具有挑战性的难题。DeepMind 称,AlphaGo Zero 只使用一个神经网络,而先前版本的 AlphaGo 使用了策略网络和价值网络判断落子,而 AlphaGo Zero 通过强化学习将两者结合在一起,能更有效的训练和评估,它所需的计算资源也比前几代要少:AlphaGo Fan 使用了 176 个 GPU ,AlphaGo Lee 使用了 48 个 TPU,AlphaGo Master 使用了 4 个 TPU,比 Master 更强的 Zero 也是使用 4 个 TPU。