AlphaZero 问世:8 小时完爆围棋、国际象棋、日本将棋
日前,DeepMind 团队发表了最新论文,提出了全新的强化学习算法 AlphaZero,它是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法,堪称「通用棋类 AI」。
据了解,AlphaZero 算法可以再 8 个小时训练击败李世石版本 AlphaGo;12 小时训练击败世界顶级的国际象棋程序 Stockfish;14 小时训练击败世界顶级将棋程序 Elmo。这是 DeepMind 团队继 AlphaGo Zero 的研究问世之后,带给我们的又一全新算法,它是「更通用的版本」。