关于人体模型的思考

||分析

这是MIRI研究助理和DeepMind研究科学家Raman金宝博娱乐a Kumar和MIRI研究员Scott Garrabrant的联合文章,交叉发表于AI对准论坛LessWrong


人类价值和偏好难以指定,尤其是在复杂域中。因此,许多AGI安全研究专注于指代人类价值观和偏好的AGI金宝博娱乐设计的方法间接通过学习一个基于人类价值观表达(通过声明的偏好、观察到的行为、认可等)和/或生成这些价值观表达的真实世界过程的模型。还有一些方法旨在模拟或模仿人类认知或行为的其他方面,但没有明确的捕获人类偏好的目标(但通常服务于最终满足它们)。让我们把所有这些模型称为人类模型

在本文中,我们将讨论对使用人体模型的AGI设计要谨慎的几个原因。我们建议AGI安全研究社区将更多的精力投入到开发在缺少人体模型金宝博娱乐的情况下工作良好的方法,以及依赖于人体模型的方法上。这将是对当前安全研究领域的一个重要补充,特别是如果我们专注于制定和尝试具体的方法,而不是发展理论。金宝博娱乐我们也承认,避免人体模型似乎很难的原因有很多。

人体模型的问题

为了让人类模型更加清晰,我们在我们的实际偏好(这可能对我们来说不是完全可行的)和评估偏好的程序之间做了一个粗略的区分。第一件事,实际的偏好,是人类经过反思后真正想要的。满足我们的实际喜好是一种胜利。第二件事,评估偏好的程序,指的是我们实际偏好的各种代理,如我们的认可,或什么对我们来说是好的(必须有限的信息或思考时间)。人体模型属于第二类;举个例子,考虑一个高度精确的ML模型,即人类对结果描述集的是/否批准。我们的第一个担忧,如下所述,是关于过度适应人类的认可,从而打破它与我们实际偏好的联系。(这是古德哈特定律的一个例子。)

不太独立的审计

假设我们已经建立了一个AGI系统,我们想用它来设计一个新城金宝博官方市的公共交通系统。有关项目的安全问题已得到充分认识;假设我们不完全确定我们已经解决了它们,但有足够的信心去尝试。我们在沙箱中运行系统,金宝博官方在一些虚假的城市输入数据上,并检查其输出。然后我们在一些更古怪的虚假城市数据上运行它来评估分布转移的稳健性。AGI的输出看起来像合理的运输系统设计和考虑,并包括论据、度量和其他支持性证据,证明它们是好的金宝博官方。我们是否应该满足并准备好在真实的城市数据上运行这个系统,并实施最终提出的设计方案?金宝博官方

我们认为回答这个问题的一个重要因素是AGI系统是否使用人类建模来构建。金宝博官方如果它能在没有人体模型的情况下解决交通设计问题(人类认可的),那么我们就更容易相信它的输出。如果它产生了一个我们认可的解决方案与人类造型然后,虽然我们预计产出有很多关于良好的过境系统设计(我们的实际偏好)以及适合人类批准的方式,但这两个目标崩溃的程度我们必须担心对此的过度金宝博官方人类模型以良好的设计为代价。(为什么不等待呢?因为我们对沙箱结果的评估使用人为判断,而不是一个独立的度量,以满足我们的实际偏好。)

对于设计的质量,人类有一种不犯错的偏好,更不用说被愚弄了。我们希望在多大程度上依赖于在系统中正确捕获这些首选项?金宝博官方如果系统是模仿金宝博官方人类,我们强烈地依赖于系统学习和满足这些偏好,或者我们期望被愚弄到这样的程度:一个好看但实际上糟糕的交通系统设计比一个真正好的设计更容易组成。另一方面,如果系统没有模拟人类,那么它的输出看起来像金宝博官方一个好的设计的事实更能证明它实际上是一个好的设计。从直觉上来说,如果我们考虑采样可能的输出和输出看起来不错的条件(通过人类的知识),当系统的知识更多地是关于什么是好的而不是什么看起来不错时,它是好的概率(通过领域的知识)会更高。金宝博官方

这是这个问题的一个处理方法:渴望独立审计系统的输出。金宝博官方当系统使用人类金宝博官方建模时,相互信息其输出与审核过程之间(人的判断)较高。因此,使用人类模型降低了我们进行独立审计的能力。

避免使用人类模型并不能完全避免这个问题。这个问题还有一个“外部循环优化”版本。如果系统在沙箱金宝博官方中产生了一个奇怪的或有缺陷的设计,并且我们在审计期间发现了这一点,我们可能会拒绝这个解决方案,并尝试调试产生它的系统。这引入了对整个过程(包括审计和调试阶段的多个系统版本)的偏见,这些输出欺骗了我们的审计过程。金宝博官方

然而,外环优化压力较弱,因此令人担忧不那么令人担忧,而不是环路优化压力。我们会争辩说,当一个人使用人类建模时,问题更糟糕,即愚弄的偏见更强。这是因为相关的优化是循环,更频繁地遇到。

再举一个例子来说明这一点,考虑一个经典的古德哈特定律关于应试教学的例子。如果你学习了材料,那就参加测试,你的测试分数很好地显示了你对材料的了解程度。如果你学习过去的考试,你的考试成绩会显示出你通过考试的能力,这可能与你对材料的知识有关,但随着分数的提高,这种相关性会越来越小。这里的人体模型类似于过去的测试,而实际的偏好类似于材料。参加测试类似于审计,我们想从研究方案中独立出来。

错误的风险

我们可能会在平凡的感觉中不正确地实施我们的第一个AGI系统。金宝博官方具体而言,即使我们充分发展了安全或对齐的AGI理论,我们可能无法通过我们的实现技术出现错误或问题来实现该理论。在这种情况下,如果AGI知识和人类偏好之间的相互信息低,我们将相对较好。我们希望系统的行为在某种程度金宝博官方上依赖于其知识,我们预计实施错误将从我们的意图和期望方面转变这些依赖的性质。不正确的行为取决于人类偏好的行为似乎比不正确的行为更危险。

考虑AGI系统实现的空间,在类似于预期设计的相似性的金宝博官方度量下(等价地:由于错误而偏离设计的严重程度)。我们希望我们构建的第一个AGI系统附近的所有点都是安全的,因为我们可能会由于对正在做金宝博官方的事情感到困惑或出现实现错误等原因而得到与预期略有不同的设计。

至少有三种方式,其中虫子的风险可以表现出来。

错误的编码值假设我们打算第一次使用AGI来解决一些有界和明确指定的任务,但是我们误解或糟糕地实现了它,以至于我们最终得到的实际上是一些目标函数的无限优化。那么如果目标是一些抽象的内容,如解决谜题,而不是与人类偏好直接相关的内容,那就更好了:以玩具为例,如果目标周围的标志(积极/消极)是错误的。

操纵:早期关于独立审计的争论不仅适用于我们计划审计的特定任务,也适用于任何AGI系统可能执行但人类可能不赞成的活动。金宝博官方例如,找到方法侵入我们本以为安全的系统,向我们隐藏它的意图和活动,或者直接操纵我们。金宝博官方有了一个良好的人类心理模型,这些任务就容易多了,这个模型可以用来推断我们可能会犯什么错误,或者我们可能会忽略什么漏洞,或者我们可能会对系统的不同行为做出怎样的反应。金宝博官方

在设计空间中,人体建模与人体操作非常接近。一个金宝博官方具有精确人类模型的系统接近于一个成功地使用这些模型来操纵人类的系统。

威胁:错误的另一个风险不是来自AGI系统对我们的价值观不正确的,而是从安全性不足。金宝博官方如果我们的价值观在关心满足它们的AGI系统中准确地编码,他们成为可以从操纵第一系统获得操纵的其金宝博官方他演员的威胁的目标。已经描述了关于该问题的更多示例和透视图在这里

错误的风险增加人类造型可以概括如下:无论美国国际集团的风险系统由于细菌产生灾难性的结果,最糟糕的结果似乎更有可能如果系统被训练使用人类造型因为这些坏的结果取决于人类的信息模型。金宝博官方

通过保持系统与人类模型信息的独立性,可以减轻较少的独立审计和bug风险,因此系统不能过度适应该信息或反常地使用它。金宝博官方我们考虑的其余两个问题,思维犯罪和意外行为者,在很大程度上依赖于这样一种说法,即模拟人类的偏好会增加模拟类似人类事物的机会。

心灵犯罪

许多计算可以产生在道德上相关的实体,因为例如,它们构成了体验疼痛或愉悦的赋容。博克塞尔呼吁治疗此类实体“思想犯罪”的治疗不当。以某种形式建模人类似乎更有可能导致这种计算而不是建模它们,因为人类在道德上相关,而系统的人类模型可能最终分享任何属性,使人们在道德上建立任何属性。金宝博官方

意想不到的代理

与上面的思维犯罪观点相似,我们预计使用人类建模的AGI设计更有可能产生类似于代理的子系统,因为人类是类似于代理的。金宝博官方例如,我们注意到,试图预测结果主义推理者的输出,可能会减少到一个优化问题,在一个包含结果主义推理者的空间上。一个金宝博官方能够很好地预测人类偏好的系统,严格来说似乎更有可能遇到与错位的子代理相关的问题。(尽管如此,我们认为可能性更小。)

没有人类模型的安全AGI被忽视

鉴于独立审计问题,加上上述额外点,我们希望了解更多关于开发不依赖人类建模的安全AGI系统的实际方法。金宝博官方目前,这是AGI安全研究景观中的一个被忽视的区域。金宝博娱乐具体而言,表格的工作“这是一种提出的方​​法,这里是尝试或调查的下一步”,我们可能是术语工程研究金宝博娱乐,几乎完全是在人体建模环境中完成的。我们确实看到一些安全工作避免了人体建模,它倾向于theory-focused研金宝博娱乐究例如,MIRI在代理基金会方面的工作。这并不能填补在没有人体模型的情况下,以工程为重点的安全工作的空白。

为了充实差距的说法,考虑安全研究中以下每一项努力的通常公式:迭代蒸馏和放大、辩论、递归奖励模型、协作逆强化学习和价值学习。金宝博娱乐在每种情况下,在该方法的基本设置中都内置了人工建模。然而,我们注意到,如果人类反馈的来源(等等)被一个纯粹的算法、独立的系统所取代,在某些情况下,这些领域的技术结果可能在没有人建模的情况下可以移植到一个设置中。金宝博官方

一些现有的工作,不依赖于人体建模包括公式安全可中断的代理,制定影响措施(或者副作用),涉及具有明确形式规范的AI系统的方法(例如,某些版本的工具AIS),金宝博官方某些版本的Oracle AIS和拳击/容纳。虽然它们不依赖于人类建模,但这些方法中的一些方法在人类建模正在发生的情况下最有意义:例如,影响措施似乎对将直接在现实世界中经营的代理商是最有意义的代理人可能需要人类建模。尽管如此,我们希望看到所有这些种类的工作,以及建立不依赖于人类建模的安全AGI的新技术。

回避人体模型的困难

一种合理的原因,为什么我们尚未看到关于如何在没有人体建模的情况下建立安全AGI的研究是困难的金宝博娱乐。在本节中,我们描述了一些困难的不同方式。

有用性

如何让一个不做人体建模的系统得到很好的利用还不是很明显。金宝博官方至少,它不像做人体模型的系统那样明显,因为它们直接利用有关有用行为的信息来源(例如,金宝博官方人类偏好)。换句话说,在没有人为建模的情况下,如何解决规范问题——如何正确地指定复杂领域中需要的(仅需要的)行为——是不明确的。“反对人类建模”的立场要求解决规范问题,其中有用的任务被转化为明确指定的、独立于人类的任务,要么由人类完成,要么由不建模人类的系统完成。金宝博官方

举例来说,假设我们已经解决了一些特定的、复杂但与人类无关的任务,比如定理证明或原子精确制造。那么我们如何利用这个解决方案来创造一个好的(或更好的)未来呢?赋予每个人,甚至是少数人权力,让他们能够进入一个不直接编码他们的价值观的超级智能系统,显然不会产生一个实现这些价值观的未来。金宝博官方(这似乎和魏岱的有关人类安全问题。)

隐式人体模型

即使看似“独立”的任务也至少泄露了一些关于人类动机起源的信息。再考虑一下公共交通系统设计问题。金宝博官方由于问题本身涉及到人为使用的系统设计,在指定任务时似乎很难避免建模人为。金宝博官方更微妙的是,即使是高度抽象或通用的任务,如谜题解决,也包含有关谜题来源/设计师的信息,特别是如果它们被调整为编码更明显的以人为中心的问题。(工作沙等。研究如何利用隐藏在世界中的人类偏好信息。)

规格竞争力/做我想做的

明确的任务规范,例如,已知优化目标(其中强化学习问题是特定情况)是脆弱的:通常我们关心的东西留出了明确的规格。这是寻求越来越高水平和间接规范的动机之一,留下更多的工作来弄清楚要完成到机器的内容。但是,目前很难看到如何将打开任务(模糊定义)的过程自动化为正确的规格,而无需建模人类。

人体模型的性能竞争力

建模人类可能是在我们希望将AGI系统应用于各种任务上获得良好性能的最佳方式,这些任务的原因不只是简单地理解问题规范。金宝博官方例如,我们可能想或多或少地在AGI系统中复制人类认知的某些方面,以提高自动化这些认知功能的竞争力,而这些方面可能以一种难以分离的方式携带大量关于人类偏好的信息。金宝博官方

没有人体模型怎么办?

我们已经看到了支持和反对使用人体模型解决AGI安全性的争论。回顾这些论点,我们注意到,在一定程度上,人体建模是一个好主意,它是重要的做得很好;既然这是个坏主意,那最好还是不要做。因此,在构思构建安全AGI的方法时,是否要进行人体建模是一个配置问题,应该尽早设置。

需要注意的是,以上的论点并不是决定性的,而且可能存在一些抵消性的考虑,这意味着我们应该提倡使用人类模型,尽管存在本文中概述的风险。然而,在某种程度上,有人类模型的AGI系统比没有的更危险,我们可金宝博官方以尝试两种广泛的干预线。首先,通过推动某些研究方向而不是其他方向,尝试降低高级人工智能“默认”开发人类模型的可能性可能是值得的。金宝博娱乐例如,在程序生成的虚拟环境中受训的人工智能开发人类模型的可能性,明显低于在人工生成文本和视频数据中受训的人工智能。

其次,我们可以专注于不需要人类模型的安全性研究,所以如果我们最终建金宝博娱乐立了AGI系统,无需使用人类模型就能非常强大,我们可以使它们更安全,而无需教它们建模人类。金宝博官方这类研究的一些例子(我们前面提到过金宝博娱乐)包括开发独立于人类的方法来测量负面影响,防止规格博弈,建立安全的遏制方法,以及扩展以任务为中心的系统的有用性。金宝博官方

确认:感谢Daniel Kokotajlo,Rob Bensinger,Richard Ngo,Jan Leike和Tim Genewein有助于对这篇文章的草案有用的评论。

你喜欢这个帖子吗?你可以享受我们的另一个分析的帖子,包括: