新论文:“谷物真理问题的正式解”

||论文

谷物真理问题的形式解

未来人文研究所研究员金宝博娱乐Jan LeikeMIRI研究员Je金宝博娱乐ssica Taylor和Benya Fallenstein刚刚在可用2016这解决了博弈论中一个长期悬而未决的问题:对谷物真理问题的正式解答”。

博弈论理论家拥有一些技术,可以指定最终在与其他参与者的反复博弈中表现出色的参与者,只要他们的信念包含一粒“真理”——分配给他们正在玩的实际博弈的非零先验概率。在之前的多人游戏中,获取真相是一个未解决的问题,因为当代理试图模拟轮流为其建模的代理时,它们可能会陷入无限的倒退。这个结果显示了如何打破这个循环:通过反光的神谕

在这个过程中,Leike, Taylor和Fallenstein为多主体困境的研究提供了一个严谨和普遍的基础。这项工作提供了一个令人惊讶和多少令人满意的基础近似的纳什均衡在重复博弈中,将决策和博弈论中的各种问题折叠成一个共同的框架。

论文摘要如下:

在多智能体环境中,如果贝叶斯智能体的先验为其他智能体分配正概率(换句话说,它的先验包含一个道理).找到一个相当大的策略类,其中包含关于该类的贝叶斯最优策略称为谷物真理问题.只有小班才知道有一点真理,而文献中包含了几个相关的不可能的结果。

我们构造了一类包含所有可计算策略以及该类上每个下半可计算先验的bayes -最优策略的策略。当环境未知时,贝叶斯最优代理甚至可能无法渐进地采取最优行动。然而,在任意未知可计算多智能体环境下,基于Thompson抽样的智能体收敛到ε-Nash均衡。虽然这些结果是纯理论的,我们表明,他们可以计算近似值任意接近。

传统上,当模拟模拟其他程序属性的计算机程序时(例如,当模拟一个关于游戏的代理推理时),第一个程序被假定能够访问一个oracle(例如一个停止的oracle),该oracle可以回答关于第二个程序的任意问题。这是可行的,但它不能帮助建模代理可以推理彼此

虽然一个停止的oracle可以预测任何孤立的图灵机的行为,但它不能预测另一个访问停止oracle的图灵机的行为。如果这是可能的,第二台机器可以用它的oracle来计算第一个机器-oracle对认为它会做什么,然后它可以做相反的事情,建立一个说谎者悖论场景。出于类似的原因,两个具有类似资源的代理,在没有任何停止的预言的真实环境中运行,不能完全准确地预测对方。

博弈论理论家知道如何建立弱参与人和强参与人之间的非对称博弈的正式模型,即强参与人理解弱参与人的策略,而弱参与人不理解强参与人的策略。然而,由于上述原因,实力相近的代理之间的游戏拒绝完全形式化。因此,博弈论直到现在还没有提供任何方法设计在包含其他具有类似力量的代理的复杂迭代游戏中表现良好的代理。

通常,构建理想代理的方法是让代理考虑一长串可能的政策,预测世界对每个政策的反应,然后通过某种度量选择最佳政策。然而,在多人游戏中,如果你的代理考虑一个它和对手都可能玩的策略列表,那么对对手来说最佳策略通常是一些不在你列表中的替代策略。(如果你将该策略添加到列表中,那么对手的新最佳策略就是列表中没有的新选择,以此类推。)

这就是谷物真理问题,首先由伊布和主持人1993年:定义一类足够大、足够有趣、足够现实的政策对认为策略类位于类内部的代理的最佳响应1

Taylor和Fallenstein发展了一种形式主义,使解决方案成为可能:反光能够回答关于代理的问题的神谕能够访问同样强大的神谕。Leike领导的工作证明了这种形式主义可以解决真理的粒度问题,并且在这个过程中表明了贝叶斯最优策略通常不会收敛于纳什均衡。汤普森抽样然而,确实收敛于纳什均衡——这一结果来自于2016年UAI上发表的另一篇论文,Leike, Lattimore, Orseau和Hutter的“汤普森抽样在一般环境下是渐近最优的”。

反思性神谕的主要特点是,通过在相关情况下随机化,避免了对角化和悖论。2这使得能够使用反射性神谕的主体能够一致地对同样能够使用反射性神谕的任意主体的行为进行推理,这反过来又使得通过自身能力(而不是通过命令或假设)为收敛于纳什均衡的主体建模成为可能。

这个框架可以用来定义多个副本之间的游戏AIXI.如最初制定的,爱喜不能接受关于自身存在的假设,或关于存在同样强大的代理人;经典的贝叶斯最优智能体必须比它们所处的环境更大、更智能。然而,有了能思考的神谕,法伦斯坦,苏亚雷斯和泰勒都展示了AIXI可以有意义地接受关于自身和自身副本的假设,同时避免对角线化。

这篇文章的另一个主要的新颖之处在于,反射式预言被证明是极限可计算的,因此允许通过任何算法进行近似。因此,反思神谕范式对于研究涉及能够相互理解和建模的一般智能主体的博弈论问题很有价值。3.


注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。


  1. 要解决非常小的策略类的真相问题并不难。考虑囚徒困境,其他玩家只能选择“合作直到对手叛变,然后永远叛变”或“合作”n连续多次(或直到对手叛变,无论哪个先发生),然后永远叛变。”Leike, Taylor和Fallenstein注意到:

    贝叶斯最优行为是合作,直到后验相信下一个时间步长的其他代理缺陷大于某个常数(取决于贴现函数),然后再缺陷。

    但这本身就是我们要考虑的策略。如果两个参与人都是贝叶斯最优的,那么他们都有一点事实(即,他们的实际策略被另一个参与人赋予了非零概率),“因此他们收敛于纳什均衡:要么他们永远合作,要么在一段有限的时间后他们永远背叛。”

    然而,稍微扩展代理可能部署的策略列表,就很难找到包含一些事实的策略类。例如,如果“以牙还牙”被添加到策略类中,那么,根据先前的情况,真相可能会丢失。在这种情况下,如果第一个主体认为第二个主体很可能"总是背叛"但可能是"以牙还牙"那么最好的策略可能是"背叛直到他们合作,然后以牙还牙"但这个策略不在政策类别中。本文所解决的问题是如何找到包含一些更丰富的策略类的真理的先验。

  2. 具体来说,如果指定的机器返回1的概率大于指定的概率,则反射oracle输出1p,如果机器输出0的概率大于1-,则输出0p.当概率正好p或者机器有可能不会停止,并且p命中这个概率量——oracle可以输出0,1,或在两者之间随机化。这使得反射性神谕能够避免说谎者悖论的概率版本:任何向反射性神谕提出一个无法回答的问题的尝试都会产生一个无意义的占位符答案。
  3. 感谢Tsvi Benson-Tilsen、Chana Messinger、Nate Soares和Jan Leike帮助起草这份公告。