阿尔法泽罗:揭开国际象棋大博弈的新面纱,幕府与围棋

2017年末我们介绍阿尔法谢罗,一个从零开始教自己如何掌握国际象棋的单一系统,日本象棋(日本象棋)和,在每一个案例中都击败了世界冠军计划。我们对初步结果感到兴奋,看到国际象棋界成员的反应感到兴奋,他在阿尔法泽罗的比赛中看到了突破,高度动态和“非常规的“与之前的任何国际象棋引擎不同的玩法。

今天,我们很高兴介绍阿尔法谢罗的全面评估,发表在《科学》杂志上在此处打开访问版本)这证实并更新了这些初步结果。它描述了阿尔法泽罗如何快速学习每一场比赛,从而成为历史上每一场比赛中最强大的球员,尽管从随机游戏开始训练,没有内置的领域知识,而是游戏的基本规则。

我不能掩饰我的满足感,因为它的风格很有活力,很像我自己的!”

Garry Kasparov前世界象棋冠军

重新学习每一场比赛的能力,不受人类游戏规范的约束,结果是与众不同,非正统的,充满创意和活力的演奏风格。国际象棋大师马修·萨德勒和女子国际大师娜塔莎·里根,他分析了数千场阿尔法泽罗的国际象棋比赛他们即将出版的图书游戏改变者(国际象棋中的新事物,2019年1月)说它的风格不同于任何传统的国际象棋引擎,“它就像发现了某个伟大玩家过去的秘密笔记本,”马修说。

阿尔法泽罗:玩家和潜力

传统的国际象棋引擎——包括世界计算机象棋冠军藏鱼IBM开创性的深蓝–依靠数千条规则和启发,这些规则和启发是由强大的人类玩家手工制定的,他们试图解释游戏中的每一个可能事件。Shogi程序也是特定于游戏的,使用与国际象棋程序相似的搜索引擎和算法。

阿尔法泽罗采取了完全不同的方法,将这些手工制作的规则替换为神经网络以及除了基本规则之外对游戏一无所知的通用算法。

阿尔法泽罗-一般性 全屏幕 全屏移动
在国际象棋中,阿尔法泽罗在仅仅4个小时后就表现出色;在幕府,阿尔法泽罗在2小时后首次超越埃尔莫;进去,阿尔法泽罗在30小时后首次超越了阿尔法戈,后者在2016年击败了传奇球员李塞多。注:每个培训步骤代表4096个董事会职位。

学习每一场比赛,一个未经训练的神经网络通过一个被称为强化学习.起初,它完全随机播放,但随着时间的推移,系统从胜利中学习,损失,并绘制来调整神经网络的参数,使其更有可能在未来选择有利的举措。网络需要的训练量取决于游戏的风格和复杂性,下棋大约花了9个小时,肖吉12小时,还剩13天。

一些动作,比如把国王移到棋盘中央,违背肖吉的理论,从人类的角度来看,似乎把阿尔法泽罗置于危险的境地。但令人难以置信的是,它仍然控制着董事会。它独特的游戏风格告诉我们,游戏有新的可能性。”

Yoshiharu Habu9-dan专业,历史上唯一一个拥有所有七个主要Shogi头衔的玩家

训练后的网络被用来引导一种搜索算法——蒙特卡洛树搜索(MCTS)——来选择最有希望的游戏动作。对于每一个动作,alphazero只搜索传统象棋引擎所考虑的位置的一小部分。在国际象棋中,例如,它在国际象棋中每秒只搜索6万个位置,相比之下,约有6000万的鱼类。

全屏幕 全屏移动

经过全面训练的系统经过了国际象棋最强大的手工制作引擎的测试。(藏鱼和幕府埃尔莫)以及我们以前的自学系统阿尔法戈零度,已知最强的围棋手。

  • 每个程序都运行在它们所设计的硬件上。Stockfish和Elmo使用了44个CPU内核(如TCEC世界锦标赛)而Alphagero和AlphaGo Zero使用的是第一代4台机器TPU和44中央处理器岩心。第一代TPU的推理速度与商品硬件(如英伟达Titan V GPU,尽管架构没有直接的可比性。
  • 所有的比赛都是用每局3小时的时间控制来进行的。每个动作再加15秒。

在每次评估中,阿尔法泽罗令人信服地击败了对手:

  • 在国际象棋中,阿尔法泽罗击败了2016年TCEC(第9季)世界冠军藏鱼,赢得155场比赛,在1000场比赛中只输了6场。为了验证alphazero的稳健性,我们还进行了一系列的比赛,从普通的开场白开始。在每个开口处,阿尔法泽罗打败了stockfish。我们还进行了一场比赛,从2016年TCEC世界锦标赛的开场位置开始,除了一系列与最新开发版本的鲶鱼的匹配之外,以及一种使用了一本强有力的开场白的鱼的变种。在所有比赛中,阿尔法诺赢了。
  • 在幕府,阿尔法泽罗击败了2017年CSA世界冠军版ELMO,赢得91.2%的比赛。
  • 进去,阿尔法泽罗被击败阿尔法戈零度,赢得61%的比赛。
全屏幕 全屏移动

然而,正是阿尔法泽罗玩这些游戏的风格让玩家觉得最迷人。在国际象棋中,例如,阿尔法泽罗在自己的游戏训练中,如开场白,独立发现并发挥了人类的共同主题。国王安全和典当结构。但是,自学,因此不受传统游戏智慧的约束,它还发展了自己的直觉和策略,增加了一套新的、广泛的、令人兴奋的、新颖的思想,从而增强了几个世纪以来对国际象棋策略的思考。

国际象棋作为人类和机器认知的罗塞塔石碑已有一个多世纪的历史。阿尔法泽罗通过做一些非同寻常的事情,更新了古老的棋盘游戏和尖端科学之间的显著联系。”

Garry Kasparov前世界象棋冠军

玩家首先会注意到阿尔法泽罗的风格,马修·萨德勒(MatthewSadler)说:“它的棋子以目的和力量聚集在对手的国王周围。”支持这一点,他说,是阿尔法泽罗的高度动态的游戏,最大限度地提高自己的作品的活动性和流动性,同时最小化对手作品的活动性和流动性。与直觉相反,阿尔法泽罗似乎也对“材料”的重视度较低,这是一个支撑现代游戏的理念,每个棋子都有价值,如果一个棋子在棋盘上的价值高于另一个棋子,然后他们有物质上的优势。相反,阿尔法泽罗愿意在比赛的早期牺牲物质,以获得只有在长期内才能得到补偿的收益。

“令人印象深刻,马修说,世卫组织还注意到,从它的第一步起,它就以一种非常谨慎的方式演奏,具有“非常人性化的一致目的感”。

“传统发动机非常强大,几乎没有明显的错误,但是,当面对没有具体和可计算的解决方案的位置时,可能会漂移,”他说。“正是在这种“感觉”的位置,“洞察力”或“直觉”是阿尔法泽罗形成自己的必要条件。”

它的含义远远超出了我心爱的棋盘…这些自学的专家机器不仅表现得非常出色,但我们实际上可以从他们产生的新知识中学习。”

Garry Kasparov前世界象棋冠军

这种独特的能力,在其他传统的国际象棋引擎中看不到,已经被用来给国际象棋爱好者新见解和评论关于最近世界象棋锦标赛之间的匹配卡尔森卡鲁亚纳并将在游戏改变者.纳塔莎·雷根说:“看到阿尔法泽罗的分析与国际象棋顶尖引擎甚至顶级大师级的分析有什么不同,真是令人着迷。”“阿尔法泽罗可能是整个社区的一个强大的教学工具。”

阿尔法泽罗的教义与我们看到的相呼应阿尔法戈打过传奇冠军李塞多尔2016。期间奥运会,阿尔法哥玩了很多极具创造性的获胜动作,包括第二场的第37步,这颠覆了数百年的思考。这些动作,以及其他许多动作,已经被包括李赛多本人在内的各级球员研究过,他谈到第37步时说:“我以为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这个动作时,我改变了主意。当然,阿尔法戈是有创造力的。”

与GO一样,我们对阿尔法泽罗对国际象棋的创造性反应感到兴奋,这是自计算时代开始以来人工智能面临的巨大挑战,早期的先驱者包括巴贝奇,图灵,香农,冯诺依曼都在努力设计国际象棋程序。但阿尔法泽罗不仅仅是国际象棋,或者是去。要创建能够解决各种现实问题的智能系统,我们需要它们能够灵活地适应新的情况。虽然在实现这一目标方面取得了一些进展,它仍然是人工智能研究中的一个主要挑战,系统能够以非常高的标准掌握特定的yabo网球技能,但即使是稍微修改过的任务也经常失败。

阿尔法泽罗掌握三种不同的复杂游戏的能力——以及潜在的任何完美的信息游戏——是克服这一问题的重要一步。它表明,一个单一的算法可以学习如何在一系列设置中发现新的知识。而且,虽然现在还很早,阿尔法泽罗的创造性见解加上我们在其他项目中看到的令人鼓舞的结果,如阿尔法褶,给我们信心亚搏体育投注 创建通用的学习系统,有一天将帮助我们找到解决一些最重要和最复杂的科学问题的新方法。


这项工作是由大卫·西尔弗完成的,Thomas Hubert朱利安·施里特维瑟,伊安妮斯·安托诺格鲁,Matthew LaiArthur GuezMarc LanctotLaurent Sifre达尔尚·库马拉,Thore Graepel蒂莫西·利利利克拉普,Karen Simonyan还有黛米斯哈萨比斯。