首页 » 棋牌游戏 >

国际象棋如何成为机器学习研究人员测试平台的原因

2019-12-17 16:36:48来源:

强化学习和游戏有着长期的互利关系。几十年来,游戏一直被视为强化学习模型的重要测试平台之一。所有这一切都始于塞缪尔的Checkers Player,它是世界上第一个成功的自学计划之一。从那时起,有许多关于强化学习的研究已经通过扑克,星际争霸,西洋双陆棋,跳棋,围棋等游戏进行了测试。

游戏在测试强化学习算法中起着至关重要的作用。在我们的一篇文章中,我们讨论了国际象棋如何成为机器学习研究人员测试平台的原因。

最近,来自Facebook AI的研究人员将Hanabi的游戏视为一个新的挑战领域,该问题是纯粹的协作性游戏与两到五个玩家的结合以及不完美的信息。哈纳比(Hanabi)是一种合作式纸牌游戏,在该游戏中,玩家意识到其他玩家的卡而不是自己的卡。为了获得成功,玩家必须进行协调以有效地向队友展示信息,但是,玩家只能通过提示动作来进行交流,这些动作指出了玩家所选择的所有等级或颜色的卡片。

所有研究背后的主要动机是创造出能够模仿人类能力并表现得更像人类的智能机器。这就是为什么这次研究人员尝试使用“心理理论”解决挑战的原因。心智理论是对他人作为具有自己心理状态的主体(例如观点,信念和意图来解释和预测其行为的意图)进行推理的过程。简而言之,这是人类从另一个人的角度想象世界的能力。

Facebook AI Research(FAIR)的研究人员提出了两种不同的搜索技术,这些技术可用于改进部分可观察的合作游戏中的任意商定政策。

第一个是单代理搜索,它通过使除一个代理之外的所有代理根据商定的策略进行播放,将问题有效地转换为单个代理设置。第二个是多代理搜索,在这种情况下,所有代理都在计算上可行的情况下都执行相同的公共知识搜索过程,否则将退回按照约定的策略进行播放。

在Hanabi的基准测试挑战问题中,搜索技术显示出每个经过测试的特工的性能都有所提高,并且当将其应用于通过强化学习训练的策略时,AI系统获得了新的最新分值。游戏中为24.61 / 25,而之前的最佳为24.08 / 25。

Google Brain开放源代码Hanabi环境

此前,Google Brain AI的研究人员发布了名为Hanabi学习环境的开源Hanabi强化学习环境。该环境是用Python和C ++编写的,它包括一个环境状态类,该类可以生成对代理的观察和奖励,并且可以在给定代理动作的情况下进行一步升级。

为什么选择哈纳比

研究人员认为,Hanabi提出了有趣的多智能体学习挑战,既要学习良好的自我玩法,又要适应临时的球员团队。合作性游戏玩法和不完美信息的结合使Hanabi成为多智能体环境下机器学习技术的一项引人注目的研究挑战。Hanabi基准测试的实际优势在于,无论是在内存,计算需求还是快速方面,该环境都非常轻巧。该环境可以轻松用作RL方法的测试平台,该方法需要大量样本,而不会引起过多的计算需求。

同样,Hanabi与对抗式两人零和游戏(例如围棋,象棋,西洋跳棋等)不同。此游戏与其他游戏有所不同,主要有两个原因:

与象棋和围棋之类的游戏不同,哈纳比既不是两人游戏也不是零和游戏,代理策略的价值在很大程度上取决于队友使用的策略。

Hanabi是一款信息不完善的游戏,这使其成为AI算法更具挑战性的复杂性维度。

游戏一直是研究优秀机器如何进行复杂决策的重要测试平台。选择游戏进行强化学习的主要原因之一是,游戏是理解人类智力的一种有趣方式。当涉及使用决策制定解决方案时,它们是强化学习的挑战领域。

上个月,中国战略游戏《围棋》的主要玩家李世-决定退役,因为他认为AI不能被击败。在目前的情况下,机器已经获得了超人的力量,并且随着对使用游戏的机器的不断研究,绝对可以保证人类的胜利。