DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero
Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero,通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法,它只掌握最基本的棋类规则,然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee,用了 4 小时打败了最出色的国际象棋程序 Stockfish,用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。