稳健合作:以友好人工智能研究机构-机器智能研究所为例金宝博娱乐

纸”囚犯困境中的强大合作：通过可证明逻辑计划均衡是由明确的惠- 相关的研究目标金宝博娱乐。在友好的AI研究中，我们可以从这种案例研究中学到什么？金宝博娱乐结果是如何获得的？思想是如何相互建立的？谁贡献了哪些作品？哪种协同效应很重要？

要回答这些问题，我对许多人谈到了贡献“稳健合作”的人。

我将在2011年12月开始这个故事，当弗拉基米尔lepnev（苏黎世的谷歌工程师）发布一个模型，用暂停甲骨文他与Vladimir Nesov(莫斯科的一名计算机科学研究生)共同工作。¹这篇文章可以说是第一次，²介绍了魏戴的正式模式updateless决策理论（UDT）并显示UDT代理在呈现Newcomb的问题时会“赢得” -如果宇宙计划及其代理子程序无论如何都可以访问停止甲骨文。Nisan Stiennon（斯坦福的数学毕业生）将Slepnev的正式形式应用于使用PEANO算术的证明合作的问题类似于决策代理的算术公式(2012年2月)。^3.

这两篇文章在将UDT正式化方面的成功启发了Patrick LaVictoire(麦迪逊的一个数学博士后)去尝试“半正式分析”永恒的决策理论（TDT）是Eliezer Yudkowsky（Miri的创始人）发明的早期决策理论，这本身就是UDT的重要灵感。后三个设置帖子拉维科娃认为他已经成功地把某些事情正式化了种像的负2012年4月．

LaVictoire并没有从其他TDT/UDT研究人员那里得到太多的反应，所以当他到旧金山海湾地区进行一次金宝博娱乐CFAR车间2012年7月，他找到了Yudkowsky、Stiennon、Paul Christiano(伯克利的计算机科学研究生)和其他几个人，与他们谈论他试图将TDT正式化的尝试。他们的反应是足够积极的，拉维克托尔被鼓励继续工作的方法。

Lavictoire还在2012年8月访问湾区时讨论了他与Slepnev的工作，Slepnev指出了Lavictoire的TDT的正规化（现在被称为“化妆舞会”）致命缺陷Lobian原因。但在2012年9月，拉维科娃成功了补丁的问题通过让Masquerade在不同的正式系统之间升级。金宝博官方在这个时候，拉维科娃开始写《强有力的合作“纸。

斯列普涅夫坚持最优结果的重要性，所以当月晚些时候lavicnev如是说想出了候选最优性概念，然后在10月份注意到伪装本身未能通过该定义最佳。这大致是Miri的状态2013年4月车间开始了。

在研讨会的早期，Lavictoire向其他参与者提供了一个假定的教程。调仿伪装最终导致了莫代尔代理商的概念，奢侈遗传仪和MihályBarasz（苏黎世的谷歌工程师）开始寻找机械地验证此类代理彼此的行为。最终，Barasz和Marcello Herreshoff（湾区的谷歌工程师）开发了一个模型检查器对于模态主体的相互作用，使得主体对其他主体的选择可以被机械地证明。

在四月研讨会接近尾声时，克里斯蒂安诺开发了PrudentBot，它在某种意义上是当前论文的“明星”。Yudkowsky、Benja Fallenstein(布里斯托尔大学的一名研究生)和研讨会期间的其他人也作出了额外贡献。LaVictoire用四月研讨会的结果更新了论文草稿把它贴在不太错2013年6月。

后来，在Miri的2013年9月研讨会， Kenny Easwaran(南加州大学的哲学家)发现要证明任何不可利用的代理最终一定会对某种WaitFairBot优化失败，比LaVictoire所预期的要困难得多。赫里肖夫忙着修补这张纸，但证明文件的那一部分膨胀得无法辨认了，所以拉维科娃决定把它从纸上去掉。

2013年12月，FALLENSTEIN发现本文没有充分表明，两个模态代理的行为完全依赖于其模态描述，并为此引入了一组贴片。Lavictoire再次修改了这篇论文，然后在他的共同作者同意，将修改后的论文上传到arxiv2014年1月。

那么，“稳健合作”文件的成果的意义和意义是什么?至少，LaVictoire的观点是这样的:

The significance of modal combat is that it’s a toy universe in which we can study concepts of advanced decision theory (and which we might modify slightly in order to study other concepts, like blackmail), and within which the intuitively appealing idea of superrationality in fact works out. It’s at least a philosophical hint that good communication can enable cooperation without the usual costs of enforcement and punishment, and that there are incentives toward simplicity and verifiability among rational agents.

事实上，这是一种更基本的类似于“迭代囚徒困境”竞赛的游戏。就像Axelrod的IPD比赛展示了“强硬但公平”的有用性，并引发了互惠利他主义的进化激励理念一样，我认为模式战斗是展示“超理性”逻辑的一个有用的沙盒。此外，模态战斗包含了IPD的许多特征(游戏邦注:演绎级别类似于一个代理与另一个代理的历史交互)，并且它拥有非常简单的语法来描述这些算法的复杂级别。

的发展updateless决策理论本身是另一个故事，这里不会详细叙述。这个故事的两个简短来源是Vladimir Nesov的“事先工作”部分控制恒定的程序，并且这个评论．Nesov的非常UDT的发展简要概述如下：“（1）Eliezer Yudkowsky's早期的非正式的评论关于TDT和安娜·萨拉蒙的文章提出了某些情况应该由不寻常的依赖性建模的，激励如何选择适当的模型（推断依赖项）。（2）Wei Dai的UDT的帖子但当时我并不理解这篇文章是在回答这个问题，最终在2010年5月的程序-控制-程序案例中找到了答案。经讨论后决策理论邮件列表弗拉基米尔•Slepnev应用囚犯困境的技术（PD）。（3）然后通过Slepnev和Me写入更一般的技术，lepnev的帖子具有更多的技术物质，并且矿井更具投机，试图找到更好的构筑方法：什么是'可以'的减少可能是这样的，控制恒定的程序，和环境控制中偏好的概念．（4）“虚假的道德论证”仍有许多技术问题。看这个评论本雅·法伦斯坦和UDT中自我实现伪证明的一个例子．(5)一个解决方案是增加一个“鸡规则”决策算法,我发现对于programs-control-programs 2011年4月和讨论决策理论名单,但原来是理论上更健壮的设置阻止甲骨文公司在2011年12月的决策理论列表的另一个讨论中，斯列普涅夫在一个模型，用暂停甲骨文．我后来写的是决策的可预测性和对角线法．（6）与对角伎俩（鸡规则），Stiennon武装写了合作PD为oracle的案例，这是更理论上可处理比Slepnev的早期无oracle PD解决方案。(7)在这一点上，我们得到了一个没有伪证明问题的UDT的形式化，以及一个如何将其应用于非平凡问题(如PD)的例证。”↩
一些研究人金宝博娱乐员可能会说，斯列普涅夫2010年8月的文章“什么是'可以'的减少可能是这样的提出了UDT的“第一个正式模型”。↩
STIENNON的帖子也通过使用两步“鸡规则”而不是一步鸡规则来改善正式化。↩

你喜欢这篇文章吗？你可以享受我们的其他分析帖子，包括：

稳健合作:友好AI研究的案例研究金宝博娱乐

搜索

浏览

订阅