MIRI的研究指南金宝博娱乐

,内特苏亚雷斯



2019年3月更新本研究指南自2金宝博娱乐015年以来仅略有更新。我们的新推荐给那些想要在AI对齐的问题是:

  • 如果你有计算机科学或软件工程背景:申请参加我们的新手人工智能风险讲习班在MIRI担任工程师.为此,您不需要事先熟悉我们的研究。金宝博娱乐

  • 如果你想了解更多关于我们正在处理的问题(不管你对上述问题的答案):参见“嵌入式代理”来了解我们的代理基金会研究,并查看我们的金宝博娱乐校准研究领域指南金宝博娱乐有关如何在AI安全开始的一般建议。

    • 在查阅了这两个资源后,您可以使用“Embedded Agency”和本页面中的链接和参考资料来了解您想要深入研究的主题的更多信息。如果你想关注一个特定的问题集,我们建议Scott Garrabrant的定点练习正如斯科特所言:

      有时有人问我,要进入代理基金会,他们应该学什么数学。我的第一个答案是,我发现每个子领域的入门课程都很有用,但我发现后面的课程就没那么有用了。我的第二个答案是学习足够的数学来理解所有的不动点定理。

      这两个答案实际上非常相似。不动点定理跨越了所有的数学领域,是(我的)思考agent基础的中心。

    • 如果你想要人们合作和讨论,我们建议开始或加入一个MIRIx集团,发布LessWrong,申请我们的计算机科学家面临人工智能风险车间或让我们知道你在那里。

如果人类想要开发出比人类更聪明的具有积极影响的人工智能,我们必须迎接三个艰巨的挑战。首先,我们必须设计出比人类更聪明的系统金宝博官方高度可靠,使我们能够证明该系统符合指定目标或偏好的信心。金宝博官方其次,设计必须是不变性,使系统在面对不可避免的人为金宝博官方错误时,能够在线修改和修正。第三,系统必须实际学习金宝博官方有益的目标或偏好。

MIRI目前的研究项目集中在了金宝博娱乐解如何原则上应对这些挑战.可靠推理的某些方面我们甚至在理论上都还不了解;即使在简化的环境中,我们也无法解决有限理性的问题。作为第一步,我们的研究重点是在简化的环境中寻找解决方案。因此,我们的现代研究看起来更像是纯数学,金宝博娱乐而不是软件工程或实际的机器学习。

本指南简要概述了我们的研究重点,并提供资源,将帮助您获得每个学科领金宝博娱乐域的前沿。本指南不打算证明这些研究主题;金宝博娱乐关于我们的方法的进一步动机,请参阅文章“美里的方法,还是要我们的技术议程支持论文

注(2016年9月):本研究指南是基于我们的金宝博娱乐代理基础议程.截至2016年,我们还有一个基于机器学习的议程.关于我们认为有前途的、本指南没有涉及的研究方向的更多信息,请参阅该文件。金宝博娱乐


如何使用本指南

本指南是为有抱负的研究人员谁还不精通相关学科领域。金宝博娱乐如果你已经是一个AI专业人士或经验丰富的数学家,考虑跳到我们的现有的出版物代替。(我们的技术议程是一个很好的起点。)本指南适用于那些想要成为MIRI研究人员的学生,以及其他领域想要跟上我们工作的专业人士。金宝博娱乐

金宝博娱乐研究人员通常会通过两种途径中的一种加入我们的团队。首先是参加MIRI研讨会,并亲自与我们建立关系。您可以使用这种形式申请参加研究研讨会。金宝博娱乐要注意的是,车间之间经常有相当长的时间,而且它们的能力有限。

第二条路径是独立的研究议程对我们的研究议程进行了一些进展,并告诉我们您的结果。金宝博娱乐您可以使用我们的在线表单在你的工作上申请帮助或投入,但是开始贡献的最快的方法是阅读智能代理基金会论坛(IAFF),注意人们正在处理的开放问题,并解决一个。然后你可以把你的结果作为链接在论坛上。

2019年3月更新错误和错误AI对齐论坛现在是我们公开讨论人工智能校准问题的场所,取代了IAFF。查看这篇文章的顶部,以获得对这部分建议的其他更新。)

研究论坛的主要目的是让已经在同一页面上的研究人员讨论未金宝博娱乐经修饰的部分结果。因此,论坛上的帖子可能相当不透明。本研究指南金宝博娱乐可以帮助您快速了解IAFF上正在讨论的开放问题。它还可以帮助你发展必要的技能,使你有资格参加研讨会,或找到方法,在其他机构的人工智能校准中解决开放性问题。

本指南始于基本主题的建议,在尝试这种研究方面之前,重要的是理解,例如概率理论。金宝博娱乐之后,它被闯入了一系列主题领域,与论文的联系将抓住了你在该地区的最先进的地方。

这不是一个线性指南:如果你想成为一个MIRI研究员,我建议首先确保你理解了基础,然后选择一个你感兴趣的主题,深入该金宝博娱乐领域。一旦你很好地理解了一个主题,你就可以在IAFF上尝试在这个主题领域做出贡献。

对于本指南中的所有材料,请不要为了磨而磨。如果你已经了解了材料,那就跳过它。如果其中一个活跃的研究领域不能吸引你的兴趣金宝博娱乐,切换到另一个。如果你不喜欢推荐的课本,找一本更好的,或者干脆跳过。这个指南应该作为一个工具,让你知道你可以在哪里做出贡献,而不是作为实现目标的障碍。


基础知识

重要的是要有一些流利的基本数学概念,然后直接进入我们积极的研究主题。金宝博娱乐我们所有的研究领域都很金宝博娱乐好地服务于计算,逻辑和概率论的基本理解。下面是一些帮助你入门的资源。

你不需要按列出的顺序阅读这一部分的书。选择任何有趣的内容,在必要时不要犹豫,在研究领域和基础知识之间来回跳转。金宝博娱乐

设置理论

大多数现代数学是在集合理论中形式化的,这里列出的教科书和论文也不例外。这使得集合理论成为一个很好的起点。



队章

可计算性和逻辑

可计算性理论(以及对角化带来的限制)是理解机器能做什么和不能做什么的基础。



1 - 4章

概率论

概率论是理解理性代理的核心。在我们所有活跃的研究领域中,对不确定性下的推理有一定的熟悉是至关重要的。金宝博娱乐



1 - 5章

概率推理

本书将有助于肉体理解如何使用概率世界模型完成推理。


统计数据

流利地使用统计模型将有助于为我们的“高级机器学习对齐“研金宝博娱乐究议程。一些先前熟悉的概率推理在这里是一个好主意。


机器学习

为了对机器学习有实际的熟悉,我们强烈推荐Andrew Ng的Coursera课程(课堂讲稿在这里).如果想了解更多关于ML的理论介绍,请尝试一下了解机器学习


人工智能

虽然我们的很多工作都是理论上的,但现代人工智能领域的知识对于我们把这项工作放在具体情境中来说是很重要的。

理解VNM理性的概念也很重要,我建议从中学习维基百科的文章但也可以从原来的书.von neumann和morgenstern表明,任何遵守少数简单一致性公理的代理商用公用事业函数的首选项。虽然有些人期望我们最终需要放弃VNM合理性以构建可靠的智能代理,但VNM框架仍然是我们用于表征任意强大的代理的行为的最具表现力的框架。(例如,看看正交论文仪器收敛的论文从博斯特罗姆的“有超常智慧的意志。VNM合理性的概念贯穿于我们所有积极的研究领域。金宝博娱乐



现实世界模型

如果你的“比人类聪明”的系统不可靠,将有益的目标正式化对你没有好处。金宝博官方好的推理有很多方面我们还不了解,即使是在原则上。通过构建实际系统来获得洞察力是可能的,这些系统使用的算法似乎是可行的,即使它们可行的原因还没有被很好地理解:通常,理论理金宝博官方解紧随实际应用之后。然而,在设计具有超级智能潜力的系统时,我们认为这种方法是轻率的:如果我们在试图创建实用的超级智能系统之前先有一个通用智能金宝博官方理论,我们会更安全。

由于这个原因,我们的许多积极的研究主题集中在我们还不知道如何解决的一般智金宝博娱乐力部分,甚至在原则上。例如,考虑以下问题:

我有一个计算机程序,被称为“宇宙”。宇宙中只有一个函数是未定义的。你的工作是给我提供一个适当类型的计算机程序来完成我的宇宙程序。然后,我会运行我的宇宙程序。我的目标是给你的代理打分根据它对原始宇宙程序的了解程度。

我怎么能这么做?所罗门诺夫的归纳推理理论为理论解决方案提供了一些启示:它描述了一种从观察中做出理想预测的方法,但仅在预测者生活在外部环境的情况下。所罗门诺夫归纳法产生了许多思考归纳推理的有用工具(包括柯尔莫哥洛夫复杂性、普遍先验和AIXI),但如果主体是宇宙的一个子过程,由宇宙计算,那么问题就明显变得更加困难了。

在主体嵌入环境的情况下,归纳问题就变得模糊了:什么算“学习宇宙程序”?根据什么样的环境分布应该对代理进行评分?在“主体”和“环境”的边界变得模糊的情况下,什么构成理想归纳?这些都是归化归纳法的问题。

  1. 苏亚雷斯’”形式化现实世界的两个问题模型"进一步激发了归化归纳法的问题这与一般智力理论的构建有关。

  2. “牵牛星”的“索罗门归纳法的直观解释索罗门诺夫的归纳推理理论是理解归化归纳的开放性问题的重要背景知识。

  3. Bensinger的“归化感应(系列)更详细地探讨归化归纳法的问题。

解决归化归纳法的问题需要对现实世界模型有更好的理解:“可能的现实”是什么?一种理想的药剂会使用什么样的环境先验?对这些问题的回答不仅要考虑到良好的推理,还必须考虑到这些世界模型对人类目标的具体说明。

例如,在Solomonoff归纳中(以及在Hutter的AIXI中),图灵机被用来对环境建模。假设我们唯一看重的是钻石(碳原子与另外四个碳原子共价结合)。现在,假设我给你一台图灵机。你能告诉我里面有多少钻石吗?

为了设计追求世界模型方面规定的目标的代理商,该代理必须有一些方法可以识别世界模型(图灵机)内的目标(碳原子)的本体。这个“本体识别”问题是在“正式的逼真世界模型的两个问题”(上面相关)中讨论,并首先由De Blanc推出:

  1. 德布兰科的“人工主体价值体系的本体论危机金宝博官方,询问如何使一个代理的目标对本体的变化健壮。如果主体从物理学的原子模型开始(其中碳原子是本体论基础),那么这可能并不难。但是,当代理建立一个核物理模型(原子是由中子和质子构成的)时会发生什么?如果“碳识别器”是硬编码的,那么主体在这个新的世界模型中可能无法识别任何碳,并且可能会开始行动怪异(寻找隐藏的“真正的碳”)。如何才能设计出一种试剂,让它能够成功地识别“六质子原子”和“碳原子”,以应对这种本体论危机?


莱格和哈特的"通用智能:机器智能的定义描述了AIXI,它是一个在设置中与环境分离的通用智能代理,以及一个用于在该设置中对各种代理程序的智能进行评级的“评分指标”。Hutter的AIXI和Legg的评分指标在精神上与我们在归化归纳和本体识别问题上寻找的非常相似。两个不同之处在于,AIXI生活在一个主体和环境分离的宇宙中,而归化诱导需要一个解决方案,即主体嵌入环境中,和AIXI最大限度的奖励规定在观察,而我们希望一个解决方案,优化奖励规定在外部世界。

你可以在Hutter的书中了解更多关于AIXI的信息普遍的人工智能,尽管阅读莱格的论文(链接在上面)可能足以满足我们的目的。


决策理论

假设我给你下列东西:(1)一个描述宇宙的计算机程序;(2)描述代理的计算机程序;(三)代理人可以采取的一系列行动;(4)对宇宙所处状态的历史所指定的一系列偏好。我的任务是让你根据这些偏好,找出最适合探员的行动。例如,你的输入可能是:

def Universe(): outcomes = {Lo, Med, Hi} actions = {1,2,3} def Agent(): worldmodel = {Lo: One, Hi: Two, Med: Three} return worldmodel[Hi] territory = {One: Lo, Two: Med, Three: Hi} return territory[Agent()]
def Agent(): worldmodel = {Lo: 1, Hi: 2, Med: 3} return worldmodel[Hi]
action = {1, 2, 3}
嗨> Med > Lo

(请注意代理是如何嵌入到环境中的。)这是另一个我们不知道如何回答的问题,即使是在原则上。这似乎很简单:只需迭代每个行动,找出如果代理采取该行动会得到什么结果,然后选择导致最佳结果的行动。但事实上,在这个思想实验,代理是一个确定的子流程确定的计算机程序:有一个行动,代理将输出,并要求“会”如果一个确定的确定性项目的一部分的东西它不做是不明确的。

为了评估如果主体采取了不同的行动“会发生什么”,必须构建一个“反事实环境”(主体做了它没有做的事情)。令人满意的反事实推理理论还不存在。即使在理论上,即使我们对宇宙和我们的偏好有充分的了解,并拥有无限的计算能力,我们仍然不知道如何识别嵌入在其环境中的代理所能采取的最佳行动。

解决这个问题需要更好地理解反事实推理;这是决策理论的领域。

决策理论

彼得森的教科书概括地解释了规范性决策理论的领域。对于更快速的调查,更侧重于纽库姆式问题,参见米尔豪泽的“决策理论常见问题解答.”


博弈论

决策理论中的许多开放性问题都涉及到多智能体设置。我听说过塔德里斯的教科书,但我自己还没有读过。斯科特·亚历山大的也有可能博弈论简介“LessWrong。



1 - 5章
(如果热情+ 6 - 9)

只是逻辑

多智能体设置的玩具模型可以在这样的环境中进行研究,在这样的环境中,智能体的行动基于它们能够证明的关于同一环境中其他智能体的事情。我们目前的玩具模型大量使用可证明性逻辑。

现有的反事实的推理方法在短期内都是令人不满意的(在这个意义上他们系统地实现贫困结果在一些问题上好的结果是可能的)和长期(在这个意义上使用坏反设事实将变为无效来代理推理,金宝博官方根据那些破碎的反事实,决定他们不应该修复所有的缺陷)。我的演讲”你为什么不富有?这两个问题都简要地谈了一下。为了了解更多,我建议使用以下资源:

  1. 苏亚雷斯和法伦斯坦的"走向理想化的决策理论“作为一般性概述,并进一步激励与Miri研究计划相关的决策理论的问题。金宝博娱乐本文讨论了两种现代决策理论的缺点,并讨论了决策理论的一些新见解,这些思想指出了对执行反事实推理的新方法。

如果“走向理想化的决策理论”进展太快,这一系列的博客文章可能是一个更好的起点:

  1. Yudkowsky的“真正的囚徒困境“解释为什么合作不是自动”正确“或”良好“选项。

  2. 苏亚雷斯’”因果决策理论是不满意的,用囚徒困境来说明决策算法之间非因果联系的重要性。

  3. Yudkowsky的“纽科姆的问题与理性的遗憾,认为应该关注那些“赢”的决策理论,而不仅仅是那些直觉上看起来合理的理论。苏亚雷斯’”介绍类纽康姆问题的内容类似。

  4. 苏亚雷斯’”newcomblike问题是常态指出,人类代理在例行的基础上概率地为彼此的决策标准建模。

MIRI的研究金宝博娱乐导致了“无更新决策理论”(UDT)的发展,这是一种新的决策理论,解决了上面讨论的许多缺点。

  1. 迈克的“预测困境中的问题课题统治总结了UDT对其他已知决策理论的主导地位,包括永恒决策理论(TDT),另一个主导CDT和EDT的理论。

  2. Fallenstein的“具有逻辑语句之上的具体优先级的UDT模型提供了一种概率形式化。

然而,UDT绝不是一种解决方案,它本身有许多缺点,我们将在以下地方讨论:

  1. Slepnev的“UDT中自我实现伪证明的一个例子解释了UDT是如何由于伪造证据而获得次优结果的。

  2. Benson-Tilsen的“已知搜索顺序的UDT是一个有点令人不满意的解决方案。它包含了一个具有已知证明搜索顺序的UDT的形式化,并演示了使用一种称为“与宇宙对抗”的技术以避免虚假证明的必要性。

为了研究多主体设置,Patrick LaVictoire开发了一个模态主体框架,它也允许我们使用可证明逻辑在决策理论领域取得一些新进展:

  1. Barasz等人的"囚徒困境中的稳健合作“允许我们考虑仅根据他们可以的彼此协作的代理人证明关于彼此的行为。这可以防止无限倒退;事实上,两个行为人的行为只能根据他们对另一个行为人的行为的证明,可以在二次时间内使用可证明性逻辑的结果来确定。


UDT由Wei Dai和Vladimir Slepnev等人开发。戴笠的”迈向新的决策理论"引入了这个概念,斯列普涅夫的"一个带有停顿的oracle的UDT模型提供了一个早期的正式形式。斯列普涅夫还描述了UDT的一个奇怪问题,似乎特工因智商较低而受到奖励。代理模拟预测”。

这些博客文章具有历史意义,但几乎所有内容都在上面的“走向理想化的决策理论”中。


逻辑的不确定性

想象一下一个黑匣子,用一个输入斜槽和两个输出滑槽。球可以放入输入斜槽中,它将出于两个输出槽中的一个。黑匣子内部是一个RUBE GOLDBERG机器,将球从输入斜槽带到一个输出槽中。

一个不知道盒子里是哪个Rube Goldberg机器的完美概率推理者也不知道盒子会如何运作,但如果他们能知道盒子里是哪个机器,那么他们就会知道哪个滑道会带走球。这个寻欢环境不确定

一个现实的推理者可能知道盒子里是哪台机器,可能知道机器是如何工作的,但可能缺乏推断出机器将在哪里犯错的能力。这个寻欢逻辑上不确定。

概率论假定逻辑无所不知;它假定推理者知道他们所知道事物的所有结果。在现实中,有限理性者在逻辑上并不是无所不知的:我们可以精确地知道盒子里装的是哪台机器,机器是如何工作的,只是没有时间推断出球是从哪里出来的。我们在逻辑的不确定性下进行推理。

在逻辑不确定性下进行推理的正式理论还不存在。当涉及到构建一个高度可靠的普遍智能系统时,获得这种理解是极其重要的:无论何时,一个代理推理复杂系统、计算机程序或其他代理的行为,它必须在至少一点逻辑不确定性下运行。金宝博官方

要了解这门学科的现状,必须对概率论有扎实的了解;考虑扩充前几章我们樵夫,第1、5、6、9章,然后研究以下论文:

  1. 苏亚雷斯和法伦斯坦的"在逻辑不确定性下推理的问题提供了一个概括性的介绍,解释了逻辑不确定性的领域,并激发了它与MIRI的研究计划的相关性。金宝博娱乐

  2. Gaifman的“关于一阶计算的措施他在许多年前就研究过这个问题。Gaifman主要关注一个相关的子问题,即对一个正式系统的不同模型的概率分配(假设一旦模型已知,该模型的所有结果都已知)。金宝博官方我们现在尝试这种方法扩大到一个更完整的概念逻辑的不确定性(推理程序可以知道模型是什么但不知道模型)的影响,但通过Gaifman仍是有用的历史背景和理解周围的困难逻辑的不确定性。

  3. Hutter等人的"表达逻辑中句子的概率主要研究逻辑不确定性的问题,假设访问无限的计算能力(和许多级别的停止oracle)。理解Hutter的方法(以及用无限的计算能力可以做些什么)有助于充实我们对难题所在的理解。

  4. Demski的“合理的先验概率提供了一个可计算近似的逻辑先验。继Demski之后,我们的工作主要关注在逻辑句子上创建一个近似的先验概率分布,因为精炼和近似一个逻辑先验的行为与一般情况下在逻辑不确定性下的推理行为非常相似。

  5. global的“非全知、概率推理和元数学基本上遵循这种方法。本文提供了一些关于逻辑先验生成的早期实际考虑,并强调了一些悬而未决的问题。


关于这个问题的更多历史研究,请参阅盖夫曼的“丰富语言的概率……”和“用有限资源进行推理,并为算术语句分配概率.”


Vingean反射

人工智能问题的独特之处在于,一个足够先进的系统将能够比人类程序员做更高质量的科学和工程。金宝博官方一个先进的系统的许多可能的危险和好处源于它能够引导自身到更高水平的能力,可能导致金宝博官方智能爆炸

如果一个智能体通过递归自我完善实现了超智能,那么结果系统的影响完全取决于初始系统可靠地推理出比自己更智能的智能体的能力。金宝博官方一个系统可以使用什么样的推理方法来证明一个更加智能的系统的行为具有极高的可信度金宝博官方?我们称这种推理为“文根式反思”,以弗诺·文奇(1993),他指出,一般来说,不可能精确预测比推理者更聪明的代理者的行为。

表演视频反思的推理必须必须推理抽象关于更智能的代理。这几乎肯定需要某种形式的高度自信的逻辑不确定推理,但是代替一个工作理论的逻辑不确定,证明推理(使用形式逻辑)是研究抽象推理的最好的形式主义。因此,对Vingean反思的现代研究需要以形式逻辑为背景:

一阶逻辑

MIRI现有的用于研究自修正agent的玩具模型很大程度上基于这一逻辑。理解一阶逻辑的细微差别对于使用我们开发的工具来研究能够在类似系统中接近自信的形式系统是至关重要的。金宝博官方

我们通过构建能够在高度相似的系统中获得某种形式信任的代理的玩具模型来研究Vingean反射。金宝博官方要了解这一领域的前沿,请阅读以下论文:

  1. 《Fallenstein & Soares》Vingean反思:自我改进代理的可靠推理介绍了Vingean反思的领域,并激发其与MIRI的研究项目的联系。金宝博娱乐

  2. Yudkowsky的“拖延悖论在Löbian障碍(一个由于“自信”太少而产生的问题)和不可靠之间行走的微妙界线上,需要更多的细节来获得令人满意的解决方案自信。

  3. 克里斯汀诺等人的概率逻辑中真理的可定义性描述了一个早期的尝试,即创建一个能够对自身进行推理,同时避免自我参照悖论的正式系统。金宝博官方它成功了,但最终被证明是不可靠的。我的预排因为这篇文章可能有助于把它放在一个更大的背景下。

  4. 《Fallenstein & Soares》自我改进时空嵌入智能中的自我参照问题,描述了我们简单的暗示-验证模型,用于研究那些产生稍微改善的自己,或“贴图”自己的代理。本文演示了一个玩具场景,在这个场景中,声音代理可以成功地平贴(例如,获得对其他类似代理的高度信任)。


尤多科夫斯基和赫里肖夫的著作用于自修正AI的贴片剂是一个更老的,更颠簸的介绍Vingean反射,这可能更容易通过使用我预排

如果您对此研究主题感到兴奋,则还有许多其他相关技术报告。金宝博娱乐不幸的是,他们中的大多数都不会很好地解释他们的动机,并且尚未进入他们的更大背景。

Fallenstein的“概率逻辑中的拖延这说明克里斯汀诺等人的概率推理系统是不健全的,容易受到拖延悖论的影响。金宝博官方Yudkowsky的“分布允许瓷砖……”采取了一些早期步骤,以实现概率平铺设置。

Fallenstein的“减少数学的力量…”描述了参数多态的一个不令人满意的特性,这是Löbian障碍的部分解决方案。苏亚雷斯’”Fallenstein的怪物描述了一种避免上述问题的黑客式正式系统。金宝博官方它还展示了一种限制代理的目标谓词的机制,参数多态性也可以使用该机制创建一个比贴剂论文中探索的PP限制更少的版本。Fallenstein的“一种无限衰减的理论序列描述了一个对Löbian障碍的更优雅的部分解决方案,它现在是我们偏爱的部分解决方案之一。

对递归序数的理解为理解这些结果提供了一个有用的上下文,可以通过阅读Franzén的“Transfinite进展:第二个看完整性。


可订正

随着人工智能系统在智能和能力方面的发展,它们的一些可用选金宝博官方项可能允许它们抵制程序员的干预。我们称一个人工智能系统是“可金宝博官方矫正的”,如果它与它的创造者所认为的纠正性干预进行合作,尽管理性的行为主体会抗拒关闭它们或修改它们偏好的尝试。

这一研究领域基本上是全新的,金宝博娱乐所以要想跟上进度,只需阅读一篇或两篇论文:

  1. Soares等人。的“可订正介绍了该领域的总体情况,以及一些未解决的问题。

  2. 阿姆斯特朗的“在冷漠中学习才是正确的价值,讨论了一种可能的方法,使代理在最大化效用函数之间不受影响,这是向允许自己被修改的代理迈出的一小步。

我们目前的浮雕工作主要侧重于称为“关机问题”的小型子问题:如何构建在按下关机按钮时关闭的代理,并且不会导致或阻止按下的激励按钮?在该子问题中,我们目前专注于实用性漠不关心问题:如何构建一个代理,允许您切换它最大化的实用程序功能,而不会使它激励影响开关是发生影响?即使我们对公用事业漠不关心问题有令人满意的解决方案,这不会产生令人满意的解决方案,因为它似乎仍然难以以免受不正常的方式充分指定“关闭行为”。Stuart Armstrong已经编写了几篇关于“减少影响”的规范的博客帖子:

  1. 驯化减少了ai的影响
  2. 减少影响AI:没有后台通道

这些最初的尝试还不是一个完整的解决方案,但它们应该能让您快速了解我们目前对这个问题的理解。


关于修正的早期工作可以在网络论坛上找到更少的错误.大部分相关结果已在上述论文中得到。其中一个更有趣的是蛋糕或死亡,“有动机的价值选择”问题的一个例子。在这个例子中,一个对其效用函数不确定的代理从避免减少其不确定性的信息中获益。

阿姆斯特朗的“减少影响的数学:需要帮助“列出了指定减少影响剂的初步想法,以及他的”减少实践中的影响:对未来进行随机抽样勾画出一种评估未来是否受到影响的简单方法。

阿姆斯特朗的“效用无差异概述了最初的功利无关的观点,由于历史原因,这在很大程度上是有趣的。它被包含在上文所连接的“通过无差异进行适当价值学习”一文中。


值的学习

由于我们自己对自己价值的理解是模糊和不完整的,也许将价值加载到强大的AI中最有前途的方法是为代理指定一个标准我们的价值观不断。但这也带来了一些有趣的问题:

假设你构建了一个训练集,其中包含许多结果,其中包括快乐的人(标记为“好”)和悲伤的人(标记为“坏”)。从这些数据中,最简单的概括可能是,人类真的很喜欢人形的微笑的东西:这个代理可能会尝试建造许多微小的、看起来快乐的电子人。

价值学习必须是在线过程:系统必须能够识别歧义,并向用户提出有关这些歧义的问题。金宝博官方它不仅必须识别出它不知道如何分类的情况(比如它不能分辨一张脸看起来是高兴还是悲伤的情况),而且确定训练数据没有提供任何信息的维度(例如,当你的训练数据永远不会显示充满了看起来快乐、被贴上无用标签的人形机器人的结果时)。

Of course, ambiguity identification alone isn’t enough: you don’t want a system that spends the first three weeks asking for clarification on whether humans are still worthwhile when they are at different elevations, or when the wind is blowing, before finally (after the operators have stopped paying attention) asking whether it’s important that the human-shaped things be acting of their own will.

为了让代理可靠地学习我们的意图,代理必须构造和精制其运算符的模型,并使用该模型通知其查询并改变其偏好。要了解有关这些问题和其他问题的更多信息,请参阅以下内容:

  1. 苏亚雷斯’”价值学习问题提供了与价值学习相关的几个未决问题的一般概述。

  2. 杜威的“了解什么是有价值的进一步探讨了价值学习的难度。

  3. 正交论文认为价值学习不会被默认解决。

  4. 麦卡斯基尔的“规范的不确定性为讨论规范的不确定性提供了一个框架。值得注意的是,这部完整的作品虽然包含了许多深刻的见解,但却是非常漫长的。你可以略读部分或跳过一些,特别是如果你对其他领域的积极研究更感兴趣。金宝博娱乐


解决规范不确定性的一种方法是Bostrom & Ord的议会模型,这表明价值学习在某种程度上等同于选民聚集问题,并且许多价值学习系统可以被建模为议会投票系统(其中选民是可能的效用函数)。金宝博官方

欧文Cotton-Barratt的“归一化的几何原因……”讨论了效用函数的正规化;这与道德不确定性下的推理玩具模型有关。

《Fallenstein & Stiennon》响度”讨论了聚合效用函数的问题,它源于一个事实,即效用函数编码的偏好在正仿射变换下被保留(例如,当效用函数被缩放或移位)。这意味着需要特别注意,以便规范化可能的函数集。


其他工具

精通任何一门学科都是一个非常强大的工具,尤其是在数学领域,看似不相关的主题实际上是紧密相连的。很多数学领域都有这样的特性,如果你理解得非常透彻,那么无论你去哪里,这种理解都是有用的。考虑到这一点,虽然下面列出的课题对于理解MIRI的积极研究是不必要的,但是对每个课题的理解构成了数学工具箱中的一个额外的工具,在做新的研究时,这通常被证明是非常有用的。金宝博娱乐

离散数学

教科书可用在线.大多数数学研究的不是连续结构就是离散结构。许多人发现离散数学更直观,对离散数学的扎实理解将帮助您快速掌握许多其他数学工具的离散版本,如群论、拓扑学和信息论。


线性代数

线性代数是数学中随处可见的工具之一。对线性代数的扎实理解将在许多领域有帮助。


类型理论

集合理论通常作为现代数学的基础,但它不是唯一可用的候选。类型理论也可以作为数学的基础,并且在许多情况下,类型理论更适合于手头上的问题。类型理论还弥补了计算机程序和数学证明之间的理论差距,因此通常与某些类型的人工智能研究有关。金宝博娱乐


范畴论

范畴理论在非常高的抽象层次上研究许多数学结构。这可以帮助您注意到数学的不同分支中的模式,并使您的数学工具更容易地从一个领域转移到另一个领域。


拓扑结构

拓扑是其中一个题目的另一个,其中几乎在数学中出现。坚实地了解拓扑结果在许多意想不到的地方有助于帮助。


可计算性和复杂性

MIRI的数学研究正致力金宝博娱乐于最终与计算机程序相关的解决方案。对计算机的能力有一个良好的直觉往往是必不可少的。


程序验证

程序验证技术使程序员能够确信特定的程序将根据某些规范实际执行。(当然,仍然很难验证规范是否描述了预期的行为。)虽然MIRI的工作目前并不关心验证真实世界的程序,但了解现代程序验证技术能做什么和不能做什么是非常有用的。

理解任务

为什么首先要做这种研究?金宝博娱乐

超智

本指南在很大程度上假设你已经参与了MIRI的任务,但如果你想知道为什么这么多人认为这是一个重要而紧迫的研究领域,金宝博娱乐超智提供了一个很好的概述。


合理性:从AI到僵尸

这本电子巨著汇编了六卷论文,解释了MIRI对人工智能观点背后的许多哲学和认知科学。


不平衡

关于微观经济学和认识论的讨论,因为它们有助于发现社会的失误和盲点,包括被忽视的研究机会。金宝博娱乐试图回答这个基本问题:“雄心勃勃的项目什么时候能实现不寻常的目标?”