玩战略，谷歌的人工智能成为世界顶级玩家之一

雅加达 - 谷歌最新的人工智能DeepMind，DeepNash已经学会了如何在战争游戏Stratego中击败几乎所有人类玩家。使他成为世界顶级球员之一。

Stratego是一款涉及两个玩家试图抓住敌人旗帜的游戏。DeepNash被教导如何玩Stratego，他试图找出对手在各个隐藏位置的40个游戏棋子中的每一个。

由于Stratego的复杂性，DeepNash对他们的算法采取了无模型的方法。在这里，人工智能并没有试图精确地模拟对手的行为，这是一种需要学习的白板。

这种设置在游戏的早期阶段非常有用，当DeepNash对对手的棋子知之甚少时，预测变得非常困难。

然后，DeepMind团队使用深度强化学习来为DeepNash提供动力，目标是找到游戏的平衡。就像强化学习一样，它有助于决定游戏每个步骤的最佳下一步，而 DeepNash 则提供了整体学习策略。

为了评估该系统，该团队还设计了导师，让他们使用游戏中的知识来过滤掉在现实世界中可能没有意义的真实错误。

根据DeepMind团队的说法，Stratego是一款不完美的信息游戏，要求每个玩家在做出决定时平衡所有可能的结果，使其成为比国际象棋，围棋或扑克复杂得多的游戏，DeepMind AI之前也学过。

在数字上，围棋有十个等级360可能的游戏状态，远远超过扑克或国际象棋，而Stratego有十个等级535。

DeepMind团队表示，DeepNash在Stratego方面非常出色，以至于它在全球最大的在线Stratego平台Gravon的人类玩家中排名前三。

“DeepNash的发挥水平让我感到惊讶，”发表在《科学》杂志上的一篇关于人工智能的新论文的作者之一Vincent de Boer说，他也是前Stratego世界冠军。

12月6日星期二，人工智能推出了未来主义，开发了一种不可预测的策略，以确保其人类对手不断猜测，其中包括散布诱饵以使他们偏离轨道。

事实上，人工智能通过打低等级的棋子来学习如何欺负对手，就好像它更有价值一样。

“我从未听说过一个人造的Stratego玩家接近与经验丰富的人类玩家赢得比赛所需的水平，”Boer说。