更新时间:2021-10-14 08:56:47
大家好,我是本栏目的编辑郝帅。现在我给大家解释一下上面的问题。人工智能已经在另一个喜欢的游戏中击败了人类。由脸书人工智能实验室和卡耐基梅隆大学的研究人员设计的扑克机器人在一系列六人无限德州扑克游戏中击败了一些世界顶尖玩家。
在12天10000手的时间里,名为Pluribus的AI系统在两种不同的环境下面对12名职业选手。一、人工智能玩五个人类玩家;另一方面,五个版本的人工智能与一个人类玩家一起玩(在这种情况下,计算机程序不能合作)。根据研究人员的说法,Pluribus平均每手赢得5美元,每小时奖金约为1000美元——这是一场“决定性的胜利”。
“可以肯定的是,我们正处于超人的水平,不会改变,”脸书人工研究的研究科学家、Pluribus的联合创始人Nom Brown告诉The Verge。
“我们处于超人的水平,不会改变。”
“Pluribus是一个非常硬的对手。任何一手牌都很难击败他,”克里斯弗格森,六次世界扑克锦标赛冠军,12名选手之一参加了人工智能,他在一份新闻声明中说。
在《科学》杂志发表的一篇论文中,Pluribus背后的科学家表示,这一胜利是人工智能研究的重要里程碑。虽然机器学习已经达到了棋类、围棋等棋类游戏以及星际争霸II、Dota等电脑游戏的超人水平,但从某种程度上来说,拥有6名无限玩家的德州扑克代表了更高的难度基准。
它不仅需要赢得玩家的隐藏信息(使其成为所谓的“不完美信息游戏”),还涉及多个玩家和复杂的获胜结果。著名的围棋游戏比可观测宇宙中的原子有更多可能的棋盘组合,这使得人工智能做出下一步棋是一个巨大的挑战。但是所有的信息都可以看到,游戏只有两种可能的结果:赢或输。这使得在某种意义上训练AI变得更加容易。
早在2015年,机器学习系统就在双德州扑克中击败了人类专业人士,但将对手数量增加到5个将大大增加复杂性。为了制定一个能够应对这一挑战的计划,布朗和他的同事,CMU教授托马斯桑德霍姆部署了一些关键策略。
首先,他们教Pluribus玩扑克,让它与自己的副本竞争——这一过程被称为自我游戏。这是人工智能训练的常用技术,系统可以通过反复试验来学习游戏。自己玩几十万手。这个培训过程也非常有效:Pluribus仅用了8天就创建完成,配备的64核服务器的RAM不到512GB。在云服务器上培训这个程序只需150美元,与其他最先进系统的10万美元价格相比,这是一笔便宜的交易。
然后,为了应对六个玩家的额外复杂性,布朗和桑德霍姆提出了一种有效的方式,让AI展望未来,决定在游戏中采取什么行动——一种叫做搜索功能的机制。Pluribus的设计不是试图预测他们的对手将如何玩到游戏结束(计算将在几个步骤中变得非常复杂),而是只有前两三个步骤。布朗说,这种截断方法是“真正的突破”。
你可能会认为Pluribus在这里牺牲了短期收益的长期策略,但在扑克中,事实证明短期敏锐才是你真正需要的。
“它比任何人都更能虚张声势。”
例如,Pluribus非常擅长虚张声势地吓唬对手,与他对质的专业人士称赞他的“无情一致性”,以及他从相对较薄的手中榨取利润的方式。这是不可预测的:扑克玩家的出色表现。它只是通过打牌做到的;例如,机器视觉或面部识别的元素没有集成到Pluribus中进行发现。
布朗说这是自然的。我们通常认为虚张声势是人类独有的特征。这取决于我们欺骗和欺骗的能力。但是,他说,这种艺术仍然可以简化为数学上的最优策略。“人工智能不认为虚张声势是骗人的。它只是看到了这个决定,并在特定情况下赚了最多的钱,”他说。“我们表明,人工智能可以虚张声势,而且它比任何人都更能虚张声势。”
那么,人工智能最终将人类视为世界上最受欢迎的扑克游戏意味着什么呢?嗯,正如我们在过去的人工智能胜利中所看到的,人类当然可以从计算机中学习。一些玩家普遍怀疑的策略(如“donk Gaming”)已经被AI接受,这表明它们可能比之前认为的更有用。扑克专业人士吉米周(Jimmy Chou)说:“每当我玩机器人时,我想我都会选择一些新的东西来添加到我的游戏中。
也希望用于创建Pluribus的技术可以转移到其他情况。现实世界中的许多场景在最广泛的意义上类似于德州扑克——这意味着它们涉及多个玩家,隐藏信息和许多双赢的结果。
布朗和桑德霍姆希望他们展示的方法可以应用于网络安全、防欺诈和金融谈判。布朗说:“你甚至可以使用自动驾驶汽车来帮助控制交通。”
布朗没有直接回答这个问题,但他确实说过,值得注意的是,Pluribus是一个静态程序。在最初的八天训练期后,AI从未更新或升级,因此可以更好地匹配对手的策略。在与职业球员相处的12天里,他们从未能在比赛中找到一致的弱点。没什么用。Pluribus从开始下注的那一刻起就处于领先地位。