现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力(2)_

　　现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

现在的 AlphaGo 使用的是去年的硬件（TPU 第一代），系统共用到 4 个 TPU ，相比去年与李世乭对弈时需要的计算能力大幅缩小，而因为算法效率的提高，围棋水平却增强了。

一间 64 台 TPU 的舱中，有 1/8 用于训练的一个机器翻译模型，也就是说有 8 个 TPU 训练机器翻译模型。谷歌软件工程师陈智峰告诉机器之心记者，在他们所做的模型训练测试中，使用 8 个 TPU 能让原先的训练时间从 24 小时缩短到一个下午。谷歌的 TPU 舱还在建立中，在问及谷歌目前有多少个这样的 TPU 舱时，谷歌方面还不愿透露。

　　现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

在基本方法的基础上，AlphaGo Master 有了进一步的提升。

　　现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

其可以复盘前面的棋局，预测走到哪一步就可以赢，每一步都预测未来的赢家。原版的网络有 12 层，而 Master 有 40 层。

　　现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

在棋力评估上，与樊麾对弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的优势，而与李世石对弈的 AlphaGo 版本比与樊麾对弈的 AlphaGo 版本又有三子的优势，而现在最新的 AlphaGo 版本又新提升了三子的优势。

深度强化学习不仅可以用来下围棋，而且还可以进行像素学习，学习 3D 虚拟游戏，可以自己学会在 3D 环境中学习导航。

　　现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

另外据Jeff Dean介绍，谷歌建有TPU舱，一个TPU舱里面包含64台二代TPU，能进行每秒11.5万亿次浮点运算，4倍快于市面上最好的32台GPU。

现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力

各方对本局比赛的点评

在 5 月 23 日的比赛过后，参赛两方和各路围棋职业选手围绕棋局和技术的角度对这场对决进行了解读。

柯洁：我很早就知道自己要输 1/4 子，AlphaGo 每步棋都是匀速，在最后单官阶段也是如此，所以我就有时间点目，看清自己输 1/4 子，所以只好苦笑。

如果要我自己点评，AlphaGo 确实下得太精彩，很多地方都值得我们去学习、探讨，思想和棋的理念，改变我们对棋的最初的看法，没有什么棋是不可以下的，可以大胆去创新，开拓自己的思维，去自由的下一盘棋。今天我也是大胆去开拓自己的思维，在我印象中，AlphaGo 非常贪恋实地，开局点三三等等。所以今天我也一直贯彻先捞后洗的战术，先把实地钞票捞到手，但在角部还是被他掏到实地，打破了我的战术，一下子就进入他的步调了。感觉 AlphaGo 和去年判若两人，当时觉得他的棋很接近人，现在感觉越来越像围棋上帝。我希望尽全力去拼每一盘棋。很感谢有 AlphaGo 这样的对手，感谢 DeepMind 团队给我机会去下这三盘棋，也希望通过这次比赛让大家了解围棋这个好项目，给大家带来快乐。

AlphaGo 其实已给我们展现了很多精彩的实战，弱点暂时还没有看到。我觉得以前他还是有，但现在对棋的理解和判断远胜于我们，所以想赢只好通过找 BUG，但真的很难。不过对自己永远要有信心。之前我发微博说，这可能是我与人工智能最后三盘棋，现在就只剩两盘棋了，这可能是我活到现在最难得的机会，我会尽全力去珍惜这次机会。

我做这个决定已经考虑很久，因为我觉得 AI 进步速度太快了，每一次都是巨大进步，我觉得以后可能会变得更加完美，人与他的差距不是靠自身的努力可以去弥补的。我还是想和人类下棋，因为到未来，我们与 AlphaGo 的差距可能越来越大，人和人的差距可能越来越小。我对人的胜率还可以。这次峰会是我与人工智能的最后 3 盘棋，当然也不会在网上与人工智能练棋。如果人类比赛中出现 AI，我虽然不愿意但也不是我能决定的，我觉得我也可能会输。我其实对今天的表现有点不满，觉得能做的更好。但这次是最后一次较量，希望不留遗憾，下出好棋，让 AlphaGo 主机更发烫一点也好。

Michael Redmond（目前唯一的非东亚裔围棋九段选手）：柯洁从今年 1 月份 Master 的一系列比赛中获得了灵感，在他的布局中加入了一些新变化。他在今天的比赛中使用了和 AlphaGo 类似的低位打入策略，这是以前闻所未闻的举动。尽管这是一个我们难以理解的策略，但过去一个月职业棋手们一直在对它做出自己的解读。

此外，在 5 月 23 日比赛结束后的新闻发布会上，AlphaGo 团队的 David Silver透露了新一代 AlphaGo 是年初 Master 的升级版，并提到一些细节：新的 AlphaGo 程序运行在单个谷歌云服务器上，由 TPU 芯片进行计算处理。算法上也进行了革新，它所需的计算能力仅需与李世乭对战时的 10%，自我对弈能力更强。去年，AlphaGo 的模型中有 12 层神经网络，而在以 Master 名义出战时，深度已有 40 层。

在被问及 AlphaGo 是否控制了本局比赛的胜率时，Silver 解释道，扩大每一步棋胜率是 AlphaGo 的探索的一个方向。如果只是为了取得最终的胜利，每一步它都会选择走风险很小的棋。

Demis Hassabis（DeepMind 创始人和首席执行官）：伟大的比赛！向柯洁致以敬意，他将 AlphaGo 推向了自己的极限。AlphaGo 仍需要和人类对弈，它需要先学习人类棋谱，随后开始通过自我对局来进步提高，所以 AlphaGo 是依靠人类棋谱数据和此前版本来进一步提升。仅通过自身对决可能发现不了缺陷，和顶尖棋手对决才能提高。我们希望通过完善 AlphaGo，在其他领域为人类服务。我们在《自然》上发表了论文，本周之后我们会公布更多细节和计划，众所周知目前也有很多强大人工智能软件，我们也会在今后公开 AlphaGo 更多技术细节，使其他实验室或团队能够建造自己的 AlphaGo。

↓↓↓

现场报道 | 让天下三子，DeepMind官方解读新版AlphaGo强大实力(2)

相关阅读：

相关推荐：