DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

奇客资讯 • 7年前扫码分享

Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文（PDF），称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero，通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法，它只掌握最基本的棋类规则，然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee，用了 4 小时打败了最出色的国际象棋程序 Stockfish，用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。 DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero