本雅·法伦斯坦在Löbian的自我修改系统障碍金宝博官方

||谈话

Benja Fallenstein研金宝博娱乐究人类和动物行为的数学模型布里斯托尔大学,作为其中的一部分疯狂的研金宝博娱乐究小组决策研究小组金宝博娱乐

在此之前,她毕业于维也纳大学,获得数学学士学位。在她的业余时间,Benja研究与人工智能影响和友好人工智能相关的问题,包括:人工智能预测、智能爆炸微观经济学、逻辑反映和决策算法。

本雅已经参加了两个金宝博官方 ,并计划在12月份参加另一个。

卢克·穆罕沃斯既然你已经参加了两个关于“友好的AI数学”的MIRI研究研讨会,我金宝博娱乐希望你能向我们的观众解释一下这项工作是关于什么的。为了提供一个具体的例子,我想谈谈Löbian自我修改人工智能的障碍,这也是MIRI最近的研讨会所关注的主题之一。首先,你能向我们的读者解释一下这个问题是什么,为什么你认为它很重要?


Benja Fallenstein: MIRI的研究金宝博娱乐是基于I.J. Good的概念智能爆炸: the idea that once we build an artificial intelligence that’s as good as a human at doing artificial intelligence research, this AI will be able to figure out how to make itself even smarter, and even better at AI research, leading to a runaway process that will eventually create machines far surpassing the capabilities of any human being. When this happens,我们真的希望这些机器有人类的目标会批准的.的确,AI不太可能决定它想要统治我们(这只是神人同形同性论),但计算机可能拥有的大多数目标对我们来说都是危险的:例如,想象一台计算机想要将π计算到尽可能多的数字。这台计算机将把人类看作是由原子组成的,它可以用来建造更多的计算机;更糟糕的是,因为我们会反对并试图阻止它,我们将成为一个潜在的威胁,它将符合AI的利益去消除(Omohundro 2008).所以我们想要确保智能爆炸的最终结果是一个具有“良好”目标的AI。

现在,您可能会认为我们需要做的就是建立我们的最初的AI来拥有“良好”的目标。作为玩具模型,想象一下,如果它可以证明执行X将导致“好”结果,只能采取动作x。然后AI不会自我修改,以具有“糟糕的”目标,因为它将无法证明这种自我修改是“好”的结果。But on the other hand, you’d think that this AI would be able to self-modify in a way that leaves its goals intact: You’d think that it would be able to reason, “Well, the new version of me will only take an action y if it can prove that this leads to an outcome it likes, and it likes ‘good’ outcomes, just as I do — so whatever it does will lead to a ‘good’ outcome, it’s all fine!”

但这里存在一个问题:在这一推理链中,我们的人工智能需要从“新版本只会采取行动y,如果它已证明该行动y能带来一个好的结果”转变为“只有当该行动y确实能带来一个好的结果时,它才会采取行动y。”直觉上,这似乎是一个完全合理的论点;毕竟,我们相信AI所使用的任何正式系统的证明(或者我们已经为AI编写了使用不同系统的程序),金宝博官方那么AI为什么不应该做同样的事情呢?但是通过Lob定理,没有足够强烈的正规系统可以知道它所证明是真的的一切都是真实的。金宝博官方这就是我们称之为“Löbian障碍”。


路加福音:您将使用数学证明称为“玩具模型”,但这正是最近MIRI研讨会中接近Löbian障碍的工作方式。你认为实用的AI设计会基于逻辑和证明吗?你有多大的信心相信Löbian障碍将与现实的人工智能相关,MIRI目前正在做的工作将适用于这种情况?


本杰我们当然不认为现实的AI能够找到数学证据来证明它的行动一定会带来“好的”结果。任何实际的AI都会对许多事情产生不确定性,并需要使用概率推理。我认为MIRI目前的工作很有可能与此相关有两个原因。

首先,Löb的定理只是“对角化论证”的一个实例,它限制了一个形式系统可以进行自我引用的程度。金宝博官方例如,有好地定理一种强大的正式语言不能讨论那种语言中哪个句子是正确的,因为否则你可能会有一个正式的类比骗子悖论"这句话是错的"以及图灵是停止的问题,也就是说,没有任何计算机程序,可以对任意其他程序,判断它们是否进入了无限循环。其他著名的例子包括罗素悖论康托的论点,并不是所有的无限集都是一样大的.类似论点适用于简单的概率推理,所以我觉得这个问题不太可能就会自动消失,当我们开始使用概率,我认为有一个体面的机会,我们现在正在做的工作将会导致适用于该设置的见解。

第二,为了实现我们的人工智能在数十亿次重写后仍遵循相同目标的合理可能性,我们每一步出错的几率必须非常低,而机器验证的正式数学证明是我们知道的一种方法,能够让我们变得非常自信地相信某件事是正确的(特别是像“这种AI设计不会摧毁世界”这样的陈述,在这种陈述中我们不需要观察许多独立的例子)。尽管你永远无法确定一个程序将按预期工作当一个真实的计算机上运行——它总是可能的宇宙射线会触及晶体管,使事情出错——你可以证明一个程序可以满足某些属性时理想的计算机上运行。然后,您可以使用概率推理和错误纠正技术,使其极有可能在实际计算机上运行时,您的程序仍然满足相同的属性。所以看起来现实的友好AI仍然会有组件可以进行逻辑推理或类似的东西。

我倾向于不考虑我们目前证明与未来AI设计直接相关的结果;相反,我希望我们目前正在做的工作将有助于我们更好地了解这些问题并导致导致最终允许我们建立安全的自我改善机器智能的见解。


路加福音我们在做技术工作的时候有什么样的历史先例,我们希望这些技术工作能带来一些见解,这些见解又会带来其他见解,这些见解又会带来其他见解,这些见解又会在多年后带来有用的应用?

我想这种事情在数学中偶尔也会发生,比如在20世纪80年代,人们发现人们可以证明费马特的最后定理通过模块性定理,促使安德鲁·怀尔斯进行这一攻击,这使他得以在大约十年的工作之后证明费马最后定理(辛格1997年).另一个例子是汉密尔顿对Poincaré猜想通过瑞奇流在一个歧管上,在1982年开始,并在2003年导致Perelman的证据(SZPIRO 2008.).当然,到目前为止,其他的猜想都是经过几十年的努力才得以证明的,比如黎曼假设Rockmore 2007), P≠NP (Fortnow 2013.).

但“自我修改下的目标稳定”并不定义为Fermat和Poincaré的猜想。也许更多的类似例子来自计算机科学领域?例如,许多早期的AI科学家们朝着编写一个可以播放Grandmaster级别国际象棋的计算机程序的目标,即使他们无法确定这样的程序是什么样的。量子计算中可能存在类似物。

不管怎样,你怎么看这个?


本杰我的直觉实际上倾向于我们在这里试图做的事情是相当不同寻常的——这是有充分理由的:它是有风险的。如果你想确定你正在做的事情不是死胡同,你肯定想选择一个我们的目标和我们当前知识之间的差距比FAI小的主题。但我担心如果我们要做FAI研究直到我们理解世界如何工作,然后将不会有足够的剩余时间前情报爆炸来金宝博娱乐完成任务,所以我现在的感觉是,正确的权衡是现在开始尽管航向错误的机会。

不过话说回来,也许我们的情况并不像我直觉说的那样不寻常。这取决于你想要这个类比,可能有许多例子的科学家有一个模糊的想法,他们想要解决的问题,但不能直接解决它,所以他们寻找一个小的子问题,他们认为他们可以做一些进展。你可能会说,很多物理研究的最终目的是找出真正的宇宙基本定律,但物理学家实际上能做的只是研究金宝博娱乐他们面前的下一个问题。肯定心理学从一开始的目的是找出所有关于人类大脑是如何工作的,但是通过训练老鼠按杆开始得到食物,后来这一由粘电极在老鼠的大脑,看到神经元参与完成这个任务,可以被认为是一种能引出另一种见解的见解能够帮助我们弄清楚到底发生了什么。你自己的帖子”搜索下路灯也给出了一些这种模式的例子。


路加福音:请问您和其他人为什么认为应该从数学逻辑的角度来研究自修正的稳定性问题?比如,斯坦福大学的研究生雅各布·斯坦哈特评论that the first tool he’d reach for to investigate this problem would not be mathematical logic, but instead “a martingale…, which is a statistical process that somehow manages to correlate all of its failures with each other… This can yield bounds on failure probability that hold for extremely long time horizons, even if there is non-trivial stochasticity at every step.”


本杰我之前说过,为了让我们的AI在经过数十亿次重写后仍有可能遵循相同的目标,我们在任何特定步骤上出错的概率必须非常非常小。这是对的,但不是定量的。如果我们想要有99%的成功概率,那么我们在任何一个特定的步骤上能冒多大的风险呢?如果每次的概率低于1000亿分之一就足够了,但这并不是必须的。Jacob使用鞅的想法是对这个问题的类似但更灵活的回答,它允许您在某些情况下承担略大的风险。

但是,即使有了这种额外的灵活性,您仍然需要一种方法来获得极高的信心,以确保您正在执行的大部分重写步骤都是安全的。我们不能仅仅通过大样本实验来获得这种信心:问题是,我们早期正在考虑的重写AI是否会导致预期的结果后,AI已经成为超级智能,并扩散到整个太阳系和更远的地方-你不能只是模拟,如果你自己没有这些资源!金宝博官方

所以我们需要一种方法去抽象地推理我们的AI在完全不同于我们目前所模拟的情况下将如何表现,并且我们需要对这些抽象结论的正确性有足够的信心。我们只知道一种方法,那就是使用数学逻辑中的正式验证证明。


路加福音:假设John Doe有一种直觉,尽管他不是具有逻辑建筑的认知系统,但他认为他可以在保留他的原始目标时造成很多自我修改,如果他有足够的计算能力和充足的时间金宝博官方to reason about whether the next self-modification he’s planning is going to change his goals. If this intuition is justified, then this suggests there are other methods we might use, outside mathematical logic, to ensure a very small probability of goal corruption upon self-modification. What would you say to John?


本杰:我会说我认为他低估了问题的难度。两件事情:

首先,我的印象是,很多人有一种直觉,他们已经一直在进行自我修正。但是人类可以用现代技术做出的改变并不会改变我们所使用的硬件的设计它们与人类和黑猩猩之间的区别相比显得微不足道,而且一个自我完善的人工智能很可能最终会对其设计做出更根本的改变,而不是在过去500万年里,进化对我们大脑所做的相对较少的调整。

但是第二,约翰会说,即使考虑到这一点,他认为只要有足够的时间去学习他的大脑是如何工作的,并仔细推理他在采取每一个步骤,他应该能够通过一个长链的self-modifications保留他的价值观。在这种情况下,我认为他很可能是错的。然而,我可以想象一个人实际上可以成功地做到这一点但不是没有实现同样的极高的信心,每一个重写的一步,我们希望我们的人工智能,我认为,如果人类能设法实现这样的信心,这将是由……证明数学定理和证明的正式检查由计算机!


路加福音是的,当人们说人类总是在不改变目标的情况下自我修改,我给出了两个我自己的回答。首先,我指出人们的目标和价值观确实经常改变。其次,我要指出人类自我修饰的能力是多么的小。例如我曾经切换从基督教原教旨主义者到科学自然主义者,这伴随着我处理证据和论证方式的巨大转变。但在世界观改变的过程中,我的大脑仍然(例如)在我的多巴胺能奖励系统中使用时间差异强化学习算法。金宝博官方据我们所知,在转换期间,我大脑的核心算法没有发生重大变化。人类从来不会自我改造,不像人工智能。

我的下一个问题与AI能力有关。正如AI科学家所知,基于逻辑的AI通常比使用机器学习方法的AI更低的机会。这是一个概念,只有未来的一个自我修正ai的非常小部分都会有一个逻辑结构(这样它可以证明对其核心算法的修改的良好),并且AI的其余部分将利用其他方法?样式,如安全关键软件的小部分(例如飞行控制)以一种结构化的方式写出来,使他们易于接受形式验证,但系统的其余部分不一定以适应正式验证的方式金宝博官方编写?


本杰:我认为人们的价值观实际上变化的观点往往是对直觉有用的,我也觉得指出这些变化再次非常少得更小,因为如果你改变大脑的整个建筑。例如,人们可能会在被忠诚的环保主义者之间切换,例如,环保主义是根本误导的,但它们并不倾向于成为三角形主义者,他们认为这是一个道德必然,使所有的每一天的工具都在造型中的一个道德必须。谋杀案和谋杀罪都是人类的共性,是世界各地所有文化共有的特征;我们谈论的是对我们认知结构的改变,这种改变很容易就会导致非三角主义的冲动,以及对这种非三角主义的谴责,变得同样普遍。

是的,我认为逻辑推理只是友好AI工具箱中的一个工具,它会使用不同的工具来推理环境中的大多数事物。甚至当推理关于自己的行为,我只希望AI用逻辑来证明定理如何在“理想”的硬件上运行时可能的行为(或硬件有一定的误差界限,等等),然后用概率推理思考如果它运行在物理世界的实际硬件。(但对于你的类比来今天的高安全性的软件时,我想指出,与今天的高安全性的软件时,我希望AI证明定理的所有组成部分,我不期望它使用逻辑来思考,说,椅子。正式的验证既困难又耗时,这就是为什么我们目前只将其应用于安全关键系统的小部分,但我希望未来的人工智能能够完成这项任务!)金宝博官方


路加福音:嗯。这是令人惊讶的。我的理解是,正式的验证方法根本不能很好地扩展,这一方面是由于计算的难度,另一方面是由于编写一个正确的正式规范所需的人力时间,而人们可以根据这个规范来验证一个复杂的系统。金宝博官方为什么你认为未来的人工智能将“胜任”证明“关于其自身所有组成部分”的定理的任务?


本杰首先,我通常预计未来的人工智能将比我们更聪明,能够轻松地完成那些需要花费大量人力时间的智力任务;而且我不认为他们会像人类一样厌倦把他们的数学“直觉”翻译成一长串“无聊”引理的乏味工作。

但更具体地说,我们人类对为什么我们期望我们所构建的系统能够工作有一种直观的理解,金宝博官方我的感觉是很难将这种理解转化为形式证明的一个主要原因可能是这些直觉在我们大脑中的表现方式和相应概念在形式证明系统中的表现方式之间不匹配。金宝博官方换句话说,在我看来,当你从无到有地构建一个认知架构时,你可以构建它来拥有数学上的“直觉”,来解释为什么某段计算机代码可以相当直接地转化为正式的可验证的证明。事实上,同样我希望如何一个人工智能的计算机代码直接操作表示,而不是使用图像和语言听起来像我们人类一样,我认为很有可能一个FAI会做的推理关于为什么一块计算机代码是通过直接操纵表示正式的证明。

也就是说,我们人类似乎也经常通过经验知道某种算法或数学技巧往往适用于很多问题,但我们没有一个完整的解释为什么会这样。我希望未来AIs要做这种类型的推理,它看起来很有可能一个AI可能想要这种类型的推理应用于(说)为图像处理、机器学习算法,它使用一个错误可以从- - -中恢复过来虽然很可能不会对它用来检查未来重写将仍然遵循相同的目标系统的代码!金宝博官方我仍然希望AI能够证明关于它的图像处理算法的定理,我只希望它们是像“这个算法将总是完成最多以下时间步数”或“这个算法将在以下假设下正确执行,根据经验,在很多情况下都是正确的。”


路加福音我住在曼谷宾佳!:谢谢,