AlphaZero达成终极进化体 史上最强棋类AI降临

AlphaZero达成终极进化体 史上最强棋类AI降临

作者:美高梅    来源:美高梅网址    发布时间:2019-04-11 13:28    浏览量:

《Science》杂志封面

《Science》杂志封面

  来源:新智元公众号

  【新智元导读】DeepMind最强棋类算法AlphaZero今天以Science封面论文形式发表。David Sliver、哈萨比斯等人亲自撰文解读这一棋类终极算法,以及实现通用学习系统的重要一步。

  史上最强棋类AI降临!

  今天,DeepMind的通用棋类算法,也是迄今最强的棋类AI——AlphaZero,经过同行评议,被顶级期刊 Science 以封面论文的形式,正式引入学界和公众的视野。

  一年前,DeepMind静静地在arXiv贴出了AlphaZero的预印版论文,当即就在圈内引发轰动:AlphaZero从零开始训练,2小时击败最强将棋AI,4小时击败最强国际象棋AI,8小时击败最强围棋AI(李世石版AlphaGo)。

  现在,DeepMind将完整评估后的AlphaZero公之于众,不仅验证了上述结果,还补充了新的提升。

  AlphaZero没有使用人类知识(除了棋类基本规则),从零开始训练,快速掌握日本将棋、国际象棋和围棋这三种复杂棋类游戏,展现出令人耳目一新的独道风格,拓展了人类智慧,并证明了机器拥有创造性的可能。

  国际象棋大师卡斯帕罗夫——20年前输给IBM深蓝的国际象棋世界冠军,今天在Science发表社论,表示他很高兴看到AlphaZero展现出了像他一样“动态、开放”的棋风:

  “传统观点以为,机器将通过无休止的枯燥操作趋近完美,最终导致平局。但据我观察,AlphaZero优先考虑棋子的活动而非盘面上的点数优势,更喜欢在我看来有风险和激进的地方落子。

  “计算机程序通常会反映出编程者的侧重和偏见,但由于AlphaZero通过自我对弈训练,我认为它体现了棋的真谛(truth)。正是这种出色的理解使其能够超越世界顶级的传统棋类引擎,而且每秒计算的落子位置要少得多。”

  AlphaZero证明了机器也能成为专家,机器生成的知识也值得人类去学习。“AlphaZero以这样一种强大而有用的方式超越了我们,”卡斯帕罗夫写道:“只要在虚拟知识(virtual knowledge)能够生成的领域,这个模型都可能复制到任何其他任务上。”

  IBM深蓝的共同创造者之一Murray Campbell,也在Science发表评论文章,指出DeepMind论文使用通用的搜索方法,结合蒙特卡罗树搜索(MCTS),增强了深度强化学习。

  “尽管MCTS已经成为围棋程序中的标准搜索方法,但迄今为止,几乎没有证据表明它在国际象棋或将棋中有用。”Campbell写道:“DeepMind展示了深度强化学习与MCTS算法相结合的力量,从随机初始化的参数开始,让神经网络通过自我对弈不断更新参数。”

  下面,就让我们一起来看看,AlphaZero的论文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis亲自撰文,阐述他们如何用5000个TPU,让AlphaZero快速掌握将棋、国际象棋和围棋。

AlphaZero达成终极进化体 史上最强棋类AI降临

  用5000个TPU,快速掌握将棋、围棋和国际象棋

  传统国际象棋的引擎依赖于由人类高手玩家“手工制作”的数千条规则和启发式方法,它们都试图解释游戏中可能发生的每一种结果。

  日本将棋程序也是特定于游戏的,使用与国际象棋程序类似的搜索引擎和算法。

  AlphaZero则采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些“手工制作”的规则,而这些算法对基本规则之外的游戏却一无所知。

AlphaZero达成终极进化体 史上最强棋类AI降临

  在国际象棋中,AlphaZero仅用了4个小时便首次超越了Stockfish;在日本将棋中,AlphaZero在2小时后首次超过Elmo;在围棋方面,AlphaZero在2016年的比赛中,经过30个小时的鏖战,首次击败了传奇棋手李世石。注:每个训练步骤代表了4096个落子位置。

  为了学习每一个游戏,一个未经训练的神经网络通过强化学习与自己对打数百万次。

  一开始,它完全是随机的,但是随着时间的推移,系统从输赢中开始学习,并根据神经网络的参数进行调整,使其在未来可以选择更有利的走法。

  网络需要的训练量取决于游戏的风格和复杂性,国际象棋需要9小时,将棋需要12小时,围棋需要13天。

  “AlphaZero的一些举动,例如将王将移至棋盘中央是有违将棋理论的,从人类的角度来看,它的这些举动似乎是将自己置于危险境地。但令人难以置信的是,它仍然控制着局面。AlphaZero独特的游戏风格向我们展示了将棋的新可能性。”

相关新闻推荐

友情链接: 外盘期货   

在线客服 :     服务热线:     电子邮箱:

备案号: