阿尔法斯塔:掌握实时战略游戏《星际争霸2》

几十年来,游戏一直被用作测试和评估人工智能系统性能的一种重要方法。随着能力的提高,研究界一yabo网球直在寻找复杂度越来越高的游戏,以捕捉解决科学和现实问题所需的不同智力元素。近年来,星际争霸,被认为是最具挑战性的实时战略(RTS)游戏之一,也是有史以来最长的电子竞技项目之一,已经成为人工智能研究的“大挑战”。yabo网球

现在,我们介绍我们的星际争霸2AlphaStar程序,第一个击败顶级职业选手的人工智能。在12月19日举行的一系列测试赛中,阿尔法斯塔决胜Team Liquid'sGrzegorz“MaNa“Komincz,one of the world's strongest professional StarCraft players,5-0,在与队友达里奥的一场成功基准赛之后”TLO" Wünsch.比赛是在职业比赛条件下在竞争阶梯上进行的地图and without any game restrictions.

尽管在电子游戏方面取得了巨大的成功,例如雅达利马里奥地震三竞技场夺旗,和守卫遗迹2,until now,人工智能技术一直在努力应对星际争霸的复杂性。最好的结果were made possible by hand-crafting major elements of the system,对游戏规则施加重大限制,赋予系统超人能力,或者在简化的地图上玩。Even with these modifications,no system has come anywhere close to rivalling the skill of professional players.相反,阿尔法斯塔在玩星际争霸2的全部游戏,使用深度神经网络直接从原始游戏数据训练监督学习reinforcement learning.

play Demonstration game against MaNa

星际争霸的挑战

星际争霸2,创建的暴雪娱乐,以虚构的科幻世界为背景,功能丰富,旨在挑战人类智力的多层游戏。连同原来的头衔,it is among the biggest and most successful games of all time,with players competing in esports tournaments for more than 20 years.

全屏幕 全屏移动

游戏有几种不同的方式,但在电子竞技中,最常见的是五场以上的1v1锦标赛。To start,玩家必须选择三种不同的外星“种族”中的一种-虫族,神族或人族,所有这些都有独特的特点和能力(尽管职业选手倾向于专攻一个比赛)。每个玩家都从一些工人单位开始,聚集基础资源,建设更多的单元和结构,创造新技术。反过来,玩家可以获得其他资源,建造更复杂的基地和结构,开发出新的能力,可以用来智胜对手。赢,a player must carefully balance big-picture management of their economy - known as macro - along with low-level control of their individual units - known as micro.

平衡短期和长期目标并适应意外情况的需要,这对那些往往脆弱且不灵活的系统构成了巨大的挑战。掌握这个问题需要在几个人工智能研究挑战方面取得突破,包括:yabo网球

  • Game theory:星际争霸是一个游戏,just like rock-paper-scissors,没有单一的最佳策略。像这样的,人工智能培训过程需要不断探索和拓展战略知识的前沿。
  • 不完全信息:不像国际象棋或是玩家看到一切的游戏,关键信息对星际玩家是隐藏的,必须通过“侦察”积极发现。
  • 长期规划:Like many real-world problems cause-and-effect is not instantaneous.Games can also take anywhere up to one hour to complete,这意味着在游戏早期采取的行动可能在很长一段时间内没有回报。
  • 实时:不同于传统的棋盘游戏,玩家在随后的动作之间交替转身,随着游戏时间的推移,星际争霸玩家必须不断地执行动作。
  • 大动作空间:必须同时控制数百个不同的单位和建筑物,实时地,产生一个组合的可能性空间。最重要的是,操作是分层的,可以修改和扩充。我们对游戏的参数化在每个时间步骤中平均约有10到26个法律行为。

Due to these immense challenges,星际争霸已经成为人工智能研究的“大挑战”。yabo网球自2009年“孵化器”API推出以来,星际争霸和星际争霸二号正在进行的竞赛已经评估了进展情况,包括艾德星际争霸赛CIG StarCraft Competition学生星际争霸人工智能锦标赛,and the星际争霸II人工智能梯为了帮助社区进一步探索这些问题,我们在2016年和2017年与暴雪合作发布了一套开源工具,称为pysc2。,包括有史以来最大规模的匿名游戏回放。我们现在在这项工作的基础上,结合工程和算法的突破,产生AlphaStar。

间谍组织 全屏幕 全屏移动
在对玛娜的第二场比赛中,阿尔法斯塔特工的形象化。这从代理的角度展示了游戏:原始观察输入到神经网络,神经网络的内部激活,some of the considered actions the agent can take such as where to click and what to build,以及预测的结果。MaNa's view of the game is also shown,尽管代理无法访问。

How AlphaStar is trained

阿尔法斯塔的行为是由神经网络that receives input data from the raw game interface (a list of units and their properties),并输出一系列指令,构成游戏中的一个动作。更具体地说,the neural network architecture applies a变压器躯干到单位(类似于relational deep reinforcement learning)结合A深LSTM堆芯,安auto-regressive policy head用一个指针网络,和A集中价值基准.我们相信,这种先进的模型将有助于解决机器学习研究中涉及长期序列建模和翻译等大输出空间的许多其他挑战。yabo网球语言建模和视觉表示。

Alphastar还使用了一种新的多代理学习算法。神经网络最初是通过从匿名的人类游戏中监督学习来训练的。暴雪发布.这让阿尔法斯塔学会了,by imitation,星际阶梯上玩家使用的基本微观和宏观策略。这名最初的经纪人在95%的游戏中击败了内置的“精英”级人工智能——对人类玩家来说是黄金级。

全屏幕 全屏移动
阿尔法斯塔联盟。特工最初是从人类游戏回放中训练出来的,然后和联盟中的其他竞争对手进行训练。At each iteration,新的竞争对手都是分支机构,原来的竞争对手被冻结了,并且可以调整确定每个代理的学习目标的匹配概率和超参数,increasing the difficulty while preserving diversity.通过加强对竞争对手的比赛结果的学习来更新代理的参数。最后一名球员是从联盟的纳什分布中取样(不替换)的。

然后这些被用来种子一个多代理强化学习过程。建立了一个连续的联盟,联盟的经纪人——竞争对手——相互竞争,akin to how humans experience the game of StarCraft by playing on the星际阶梯.新的竞争对手被动态地加入联盟,通过与现有竞争对手的分支;然后,每个经纪人都会从与其他竞争对手的比赛中学习。这种新的训练形式采用了以人口为基础多代理进一步加强学习,创造一个不断探索星际游戏巨大战略空间的过程,在确保每个竞争对手在对抗最强战略时表现出色的同时,别忘了如何打败早期的人。

全屏幕 全屏移动
Estimate of the Match Making Rating (MMR) - an approximate measure of a player's skill - for competitors in the AlphaStar league,在整个培训过程中,与暴雪的在线联盟相比。

As the league progresses and new competitors are created,new counter-strategies emerge that are able to defeat the earlier strategies.While some new competitors execute a strategy that is merely a refinement of a previous strategy,其他人发现了全新的策略,包括全新的构建订单,单位组成,以及微观管理计划。例如,在阿尔法斯塔尔联盟的早期,"cheesy" strategies such as very quick rushes with光子炮黑暗圣堂武士受到宠爱。随着训练的进行,这些风险策略被抛弃了,导致其他策略:例如,通过扩大劳动力基础,获得经济实力,or sacrificing twoOracles打乱对手的工人和经济。这一过程类似于玩家发现新策略的方式,并且能够击败以前喜欢的方法,over the years since StarCraft was released.

全屏幕 全屏移动
随着训练的进行,创建alphastar的联盟改变了它所建立的单位的混合。

为了鼓励联盟的多样性,每个代理都有自己的学习目标:例如,这位经纪人要打败哪些竞争对手,以及任何其他影响经纪人表现的内部动机。One agent may have an objective to beat one specific competitor,虽然另一个代理商可能要击败整个竞争对手,但是通过构建更多的特定游戏单元来实现。These learning objectives are adapted during training.

互动可视化,显示了阿尔法斯塔联盟的竞争对手。对抗tlo和mana的代理被特别标记。

The neural network weights of each agent are updated by reinforcement learning from its games against competitors,优化个人学习目标。权重更新规则是一种高效新颖的方法off-policy actor-critic强化学习算法experience replay自我模仿学习政策蒸馏.

SC2级数 全屏幕 全屏移动
图中显示了一个代理(黑点)的方式,最终被选中对抗法力,在培训过程中改进了其战略和竞争对手(彩色圆点)。Each dot represents a competitor in the AlphaStar league.点的位置代表其策略(插图)。点的大小代表了在训练中被选为法力代理对手的频率。

为了训练阿尔法斯塔,我们使用谷歌的v3 TPU支持从数千个星际争霸II的并行实例中学习的特工群体。阿尔法斯塔联盟已经运行了14天,每种药剂使用16个TPU。培训期间,each agent experienced up to 200 years of real-time StarCraft play.最终的alphastar代理包含联盟的纳什分布-换句话说,已经发现的最有效的策略组合——运行在单一桌面GPU上。

这项工作的完整技术描述正准备在同行评审的期刊上发表。

全屏幕 全屏移动
随着Alphastar联盟的发展和新的竞争对手的产生,NASH对竞争对手的分配。纳什分布,这是最不可利用的互补竞争对手,最看重最新的竞争对手,与所有以前的竞争对手相比,显示出持续的进步。

阿尔法斯塔如何比赛和观察比赛

职业星际玩家,如TLO和Mana可以发行数百个每分钟动作数(apm)平均值。这远远低于大多数现有机器人,which control each unit independently and consistently maintain thousands or even tens of thousands of APMs.

在它的游戏中,对tlo和mana,阿尔法斯塔的平均APM约为280,明显低于职业选手,尽管它的行动可能更为精确。这个较低的APM是,部分地,因为Alphastar开始使用重播进行训练,从而模仿人类玩游戏的方式。此外,alphastar的反应是观察和行动之间的平均延迟为350ms。

全屏幕 全屏移动
Alphastar的apms在其与mana和tlo的匹配中的分布以及观察和操作之间的总延迟。CLARIFICATION (29/01/19): TLO's APM appears higher than both AlphaStar and MaNa because of his use of rapid-fire hot-keys and use of the "remove and add to control group" key bindings.还需要注意的是,AlphaStar的有效APM爆发有时比两个玩家都要高。

在对tlo和mana的比赛中,Alphastar通过原始接口直接与星际游戏引擎交互,这意味着它可以直接观察自己和对手在地图上可见的单位的属性,无需移动相机-有效地使用缩小的游戏视图。相反,human players must explicitly manage an "economy of attention" to decide where to focus the camera.然而,对阿尔法斯塔游戏的分析表明,它管理着一个隐含的注意力焦点。On average,代理“切换上下文”大约每分钟30次,类似于mana或tlo。

此外,and subsequent to the matches,我们开发了第二个版本的alphastar。像人类球员一样,this version of AlphaStar chooses when and where to move the camera,它的感知仅限于屏幕上的信息,并且动作位置仅限于其可视区域。

全屏幕 全屏移动
Performance of AlphaStar using the raw interface and the camera interface,显示新培训的摄像头代理使用原始接口快速赶上并几乎等于代理的性能。

我们训练了两个新探员,一个使用原始界面,另一个必须学会控制摄像机,对抗阿尔法斯塔联盟。Each agent was initially trained by supervised learning from human data followed by the reinforcement learning procedure outlined above.使用相机界面的AlphaStar版本几乎和原始界面一样强大,在我们的内部排行榜上超过7000 mmr。在一场展览比赛中,玛娜用相机界面打败了阿尔法斯塔的原型版本,只训练了7天。我们希望在不久的将来评估一个完全训练过的摄像头接口实例。

这些结果表明,阿尔法斯塔在对抗法力和地力方面的成功,实际上是由于其优越的宏观和微观战略决策。而不是更高的点击率,更快的反应时间,或原始接口。

评估阿尔法斯塔对职业球员

星际争霸游戏允许玩家选择三个外星种族中的一个:人族,Zerg or Protoss.我们选择了阿尔法斯塔,专门从事一个单一的种族-神族-以减少训练时间和差异时,报告的结果,我们的内部联盟。Note that the same training pipeline could be yabo曲棍球applied to any race.Our agents were trained to play StarCraft II (v4.6.2) in Protoss v Protoss games,on the CatalystLE ladder map.为了评估阿尔法斯塔的表现,we initially tested our agents againstTLO答:顶级职业虫族玩家以及大师级的神族玩家。阿尔法斯塔以5比0获胜,使用各种各样的单位和建立订单。他说:“我很惊讶这位特工有多坚强。”“阿尔法斯塔采取了著名的战略,并使他们的头。探员演示了我以前没想到的策略,这意味着我们可能还有一些新的游戏方式尚未完全探索。”

play AlphaStar: The inside story

再培训一周后,我们和法力对抗,世界上最强大的星际争霸2玩家之一,在10个最强大的神族玩家中。阿尔法斯塔以5比0再次获胜,demonstrating strong micro and macro-strategic skills."I was impressed to see AlphaStar pull off advanced moves and different strategies across almost every game,使用非常人性化的游戏风格,我不会想到,”他说。"I've realised how much my gameplay relies on forcing mistakes and being able to exploit human reactions,so this has put the game in a whole new light for me.我们都很高兴看到接下来会发生什么。”

阿尔法斯塔和其他复杂问题

虽然星际争霸只是一场游戏,虽然很复杂,我们认为Alphastar背后的技术可能对解决其他问题有用。例如,它的神经网络结构能够根据不完全的信息模拟很长的可能动作序列——游戏通常持续一个小时,移动数万次。星际争霸的每一帧都被用作输入的一个步骤,用神经网络预测出每帧游戏后剩余时间的预期动作序列。The fundamental problem of making complex predictions over very long sequences of data appears in many real world challenges,比如天气预报,气候建模,语言理解等等。我们对利用Alphastar项目的学习和发展在这些领域取得重大进展的潜力感到非常兴奋。

我们还认为,我们的一些训练方法可能在研究安全和强大的人工智能方面有用。人工智能面临的一大挑战是系统可能出现故障的多种方式,而星际争霸的专家们之前也发现,要想打败人工智能系统,很容易找到激发这些错误的创造性方法。AlphaStar's innovative league-based training process finds the approaches that are most reliable and least likely to go wrong.我们对这种帮助提高人工智能系统安全性和鲁棒性的方法的潜力感到兴奋,尤其是在能源等安全关键领域,解决复杂的边缘情况非常重要。

实现星际争霸游戏的最高水平,是迄今为止最复杂的电子游戏之一的重大突破。我们相信这些进步,alongside other recent progress in projects such as阿尔法诺阿尔法褶,represent a step forward in our mission to create intelligent systems that will one day help us unlock novel solutions to some of the world's most important and fundamental scientific problems.

We are thankful for the support and immense skill of Team Liquid's TLO and MaNa.我们也感谢暴雪和星际争霸界的持续支持,使这项工作成为可能。


AlphaStar Team:

奥里奥维纳斯,伊戈尔·巴布什金,Junyoung Chung迈克尔·马修,Max JaderbergWojtek Czarnecki,Andrew Dudzik,Aja Huang佩特科维奇,Richard PowellTimo Ewalds,Dan HorganManuel KroissIvo Danihelka,John Agapiou俊赫,瓦伦丁·达利巴德,David ChoiLaurent SifreYury Sulsky萨沙·维日涅瓦茨,James Molloy,Trevor Cai,David BuddenTom Paine,卡格拉·古尔塞赫,訾宇望Tobias PfaffToby Pohlen于怀武Dani Yogatama,Julia Cohen,卡特里娜·麦金尼Oliver SmithTom Schaul,蒂莫西·利利利克拉普,Chris Apps科雷·卡夫库格鲁,Demis HassabisDavid Silver

感谢:

Ali Razavi,Daniel ToyamaDavid BalduzziDoug FritzEser Ayg·U,Florian Strub桂劳姆·阿兰,Haoran Tang, Jaume Sanchez, Jonathan Fildes,朱利安·施里特维瑟,Justin NovosadKaren Simonyan,Karol Kurach菲利普·哈梅尔,雷米·勒布朗,里卡多·巴雷拉,Scott Reed谢尔盖·巴图诺夫,Shibl MouradSteve GaffneyThomas Hubertthe创建Pysc2的团队以及整个DeepMind团队亚搏体育投注,特别感谢研究平台团队,yabo网球comms and events teams.