Deepmind 团队最新力作:不需人类的 AlphaGo

Deepmind 团队最新力作:不需人类的 AlphaGo

在今年 5 月,AlphaGo 以 3:0 的横扫成绩击败「人类最后希望」的世界冠军柯洁,便宣布退役。

不过,Deepmind 团队的冒险并没有停止。第二篇关于 AlphaGo 的论文已经正式登上《Nature》期刊。而这篇期刊也是 Deepmind 创办人 Hassabis 承诺的,将公布 AlphaGo 在演算法方面的进展,以及扩展到其他领域的近用性。

为此,便是为了让更多开发者能够接棒,利用这些技术开发出属于自己,应用于不同领域的 AlphaGo。

AlphaGo Zero 只要 36 小时,就能达到李世石的程度

而本次在《Nature》期刊所揭露的,是被称为 AlphaGo Zero 的技术,AlphaGo Zero 最强之处,在于「完全脱离人类知识」,论文名称即为:《Mastering the game of Go without human knowledge》。

根据替 AlphaGo 下棋,号称 AlphaGo 的进藤光, 台湾教授黄士杰在脸书上所公布 ,这份 AlphaGo Zero 的学术报告包含:

而黄世杰教授也提到,AlphaGo Zero 完全自学的围棋知识,包含打劫、征子、棋形、局部先下在角部,开局定式等等,与人类千年累积下来的围棋智慧相同,呼应了人类在围棋领域投入的价值。

最大亮点:无需任何人类指导

透过自己左右互搏的方式,AlphaGo Zero 并没有使用人类对弈的数据,而这个新方式的训练时间更短,仅仅三天就能完全达到先前击败李世石的程度,21 天可以达到击败柯洁的 AlphaGo Master 水平。

Deepmind 团队最新力作:不需人类的 AlphaGo

AlphaGo Zero 从一个完全不知道围棋游戏规则的神经网路开始,然后将这个神经网路与强大的搜寻演算法结合,开始自我对弈。更新版的神经网路再次与演算法组合,不过重複这个过程。

只要 40 天,就能够达到人类目前可能完全无法企及的围棋程度。

Deepmind 团队最新力作:不需人类的 AlphaGo

而在训练的前三天,达到李世石程度前,AlphaGo Zero 进行了 490 万次自我练习,可以知道它的对弈累积量非常庞大。

而 Alpha Zero 与之前版本有如下最大的不同:

1. AlphaGo Zero 使用一个神经网路而不是先前版本的两个。以前版本的 AlphaGo 使用一个「策略网路」来选择落子的位置,并使用另一个「价值网络」来预测游戏的输赢结果。而在 AlphaGo Zero 中下一步落子的位置和输赢评估在同一个神经网路中进行 。

2. AlphaGo Zero 无需进行随机推演(Rollout)——这是一种在其他围棋人中智慧中广泛使用于胜负的快速随机策略,透过比较每一手之后输赢的机率来选择最佳落子位置。相反,AlphaGo Zero 依赖于高质量的神经网路来直接评估落子位置。

附上 AlphaGo Zero 的 80 局对弈棋谱 ,是否会成为最新一代的围棋圣经呢?

此外,如果针对本篇论文与 AlphaGo 有兴趣的读者,AlphaGo 团队的 David Silver 与 Julian Schrittwieser 将在 reddit 进行问答活动 。

完整论文下载: 请点我 。

——

参考