新报告:“Vingean反思:自我改进代理的可靠推理”

||论文

Vingean反射今天我们发布了本雅·法伦斯坦和内特·苏亚雷斯的新技术报告。Vingean反思:自我改进代理的可靠推理“如果你想讨论这篇论文,请讨论吧。在这里

文摘:

今天,人类水平的机器智能处于未来主义的领域,但我们有充分的理由期待它最终会得到发展。一旦人工智能能够进一步提升自身,它们可能会远远超过人类智能,因此确保“智能爆炸”的结果与人类利益一致至关重要。在本文中,我们讨论了这一挑战的一个方面:确保初始主体对其未来版本的推理是可靠的,即使这些未来版本比当前的推理者要聪明得多。我们把这种推理称为文根式的反思。

一个自我改进的代理必须抽象地推理其更聪明的后继者的行为,因为如果它能详细地预测他们的行为,它就已经和他们一样聪明了。这被称为Vingean原则,我们认为关于Vingean反射的理论工作应该集中于反映这一原则的形式模型。然而,通常用于模型理性行为人的期望效用最大化框架却不能做到这一点。我们回顾了一系列的研究,这些研究转而调查那些使用正式证据来推断其继任者的代理人。虽然现实世界的代理不太可能将他们的行为完全建立在正式证明上,但这似乎是目前可用的抽象推理的最佳正式模型,在这种背景下的工作可能会导致适用于Vingean反射的更现实的方法的见解。

这是六份描述和激励人心的新主要报告中的第4份MIRI目前的研究议程金宝博娱乐在高水平上。