「阿尔法狗」再进化，DeepMind推出泛化强化学习算法AlphaZero

2017-12-07 10:15 浏览 4994· 评论 4· 点赞 145· 分享 18

自从DeepMind的AlphaGo在围棋赛场上一战成名之后，人类对AI的恐惧就突然出现于世。今天 DeepMind 又悄悄放出了一篇新论文，介绍了一个「AlphaZero」。一开始我们差点以为 DeepMind 也学会炒冷饭了，毕竟「从零开始学习」的 AlphaGo Zero 论文 10 月就发出来、大家已经讨论了许多遍了。 640.webp (6).jpg 可定睛一看，这次的 AlphaZero 不是以前那个只会下围棋的人工智能了，它是通用的。据称，新的算法经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。Alpha Zero 为何如此强大？

※ 论文地址：https://arxiv.org/pdf/1712.01815.pdf

640.webp (11).jpg

8 个小时训练击败李世石版本AlphaGo
12 小时训练击败世界顶级的国际象棋程序 Stockfish
14小时训练击败世界顶级将棋程序 Elmo

看出来了吗？AlphaZero 或许已经有了些许迈向棋类通用 AI 的迹象！

和AlphaGo Zero相比，AlphaZero的主要变化在于：

1. AlphaGo Zero优化时假定两种结果：输、赢。AlphaZero则有三种：输、赢、僵持。围棋每一步都可以有一个输赢，即谁的数量多，但是其他的很多棋在中间是没有输赢的，所以这样的设计使得AlphaZero从围棋跨向棋类领域。

2. AlphaZero能适应更为复杂的规则。围棋规则相对简单，规则具有旋转和反射不变形和对称性，所以AlphaZero的算法适应了将棋的规则意味着对于这样规则多变复杂的棋类的有效性。

3. 在所有棋类中使用相同的超参数，这是泛化的表现，期间不需要针对特定棋做改变。

4. AlphaGo Zero的最优策略由之前所有迭代的最佳选手生成。在每一轮的迭代中，新玩家都将和最佳选手比较。如果新玩家以55%的差距获胜，那么他就会取代最选选手。而 AlphaZero 只保留一个网络，并持续更新，而不必等待一个迭代结束，self-game的结果由这个网络的最终参数生成。这就省去了ZeroGo中每一步的评估和对最佳选手的选择。

从中我们也可以发现，AlphaZero 并不是针对某一种棋类被专门开发出来的，在不同的棋类游戏中，它只是被传授一些基本的规则，但类似于更高级别的战略策略则完全没有，只凭借人工智能自己反复的从训练和实战中获得，而这种训练方法就是我们熟知的“强化学习”（reinforcement learning）。

AlphaGo 的这一路进化中，我们见证了 DeepMind 的工程师们对深度强化学习本质的思考和尝试，也看到了不断的优化中带来的无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步。现在，在 AlphaGo Zero 论文发布的一个多月之后，在我们觉得 AlphaGo Zero 已经成为尽善尽美的围棋之神的时候，DeepMind 又悄悄地放出了一篇新论文。这次 DeepMind 去掉了「AlphaGo Zero」中表示围棋的「Go」，这是一个更通用的、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型，「AlphaZero」。

过往几个版本的 AlphaGo Zero 大家想必都比较熟悉了，不过我们还是简单回顾一下，方便和新的 AlphaZero 对比。AlphaGo 中一直都有深度有限的蒙特卡罗树搜索（MCTS），然后主要靠策略网络和价值网络分别预测下一步落子的点以及评估当前的局势。在更早版本的 AlphaGo 中，策略网络和价值网络是两个不同的深度神经网络，Zero 版本中是同一个 ResNet 的两组输出；AlphaGo Zero 之前几个版本中都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走子网络进行随机模拟，AlphaGo Zero 则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神经网络模拟走子。可以看到，AlphaGo Zero 的思路和模型结构都得到了大幅度简化，带来的是更快的训练和运行速度，以及更高的棋力。而这样简单的模型就能带来这样好的结果，也是让研究者们对 AlphaGo Zero 发出惊叹的原因。

640.webp (8).jpg 强化学习入选《麻省理工科技评论》10大突破技

使用强化学习这项技术并不是新鲜事，今年10月DeepMind的工程师过去也是使用相同的方法来打造AlphaGo Zero，不过，值得注意的是，新的AlphaZero是同一套软件下“更通用的版本”，代表可以应用于更广泛的任务，而且不需要预先准备好。

640.webp (9).jpg 国际象棋训练过程：12 个最常见的人类国际象棋开场局的分析（在线数据集记录出现超过了 10 万次）。每一个开局由其 ECO 码和常用名标记。这些图展示了 AlphaZero 在自我对抗训练棋局中使用这种开场局的比例随训练时间的变化。我们还报告了 100 场 AlphaZero vs. Stockfish 每个比赛的开局和结果（从 AlphaZero 角度的赢/平/输，无论作为白方还是黑方）。最后，还报告了 AlphaZero 每个开局后的整体棋局主要变化。

在不到24小时，同一个电脑程式就可以教会自己玩三种复杂的棋盘游戏，而且是超越人类的水平，这无疑是AI世界的新创举。

640.webp (10).jpg

三类棋类对战情况

在这次研究中，研究团队使用了5000个一代TPU来生成自我对弈棋谱，用另外64个二代TPU来进行神经网络训练。而在此前AlphaGo Zero的神经网络训练中使用的则是GPU。

DeepMind 的目标一直是打造通用的AI机器，这项任务代表DeepMind又往目标迈进了一步，但是挑战仍在前方，DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero时，他就希望未来的版本能够帮助解决科学问题，像是设计新药、发现新材料等。但是这些问题与玩棋盘游戏在根本上有很大的差异，还有许多问题得被解决才能找出正确的算法。

大概总结一下DeepMind 开发棋类AI 的思路，那就是：精心设计特征，调整参数，依赖强大的搜索算法——学习人类的全部经验——不学习人类的经验，自己学习——自己在一个广泛的领域学习。

不过，现在可以肯定的是，人工智能不再只是会下棋而已。

总结

在人类把棋类作为人工智能研究的重要关卡以来的几十年间，研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。如今，完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法 AlphaZero 终于问世，而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军，这是算法和计算资源的胜利，更是人类的顶尖研究成果。DeepMind 愿景中能解决各种问题的通用 AI，看起来也离我们越来越近了。

参考资料：

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm：https://arxiv.org/pdf/1712.01815.pdf

http://advances.sciencemag.org/content/3/12/eaao6804.full

https://phys.org/news/2017-12-d-printed-minifactories-materials-bacteria-loaded-inks.html

答魔社区微信公众号

全部评论 ( 0 )

发评论