身分揭秘柯洁:Master为新版阿尔法围棋谷歌AlphaGo程序原理简介(5)

2017-01-05未知编辑：新闻百事网

程序原理

深度学习

阿尔法围棋（AlphaGo）是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

这个程序主要包括4个部分：

1. 走棋网络（Policy Network），给定当前局面，预测/采样下一步的走棋。

2. 快速走子（Fast rollout），目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。

3. 估值网络（Value Network），给定当前局面，估计是白胜还是黑胜。

4. 蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS），把以上这三个部分连起来，形成一个完整的系统。

身分揭秘 柯洁:Master为新版阿尔法围棋 谷歌AlphaGo程序原理简介(5)

身分揭秘柯洁:Master为新版阿尔法围棋谷歌AlphaGo程序原理简介(5)