子系统金宝博官方对齐

||分析


emmy嵌入式代理人

你想弄清楚一些东西,但你不知道该怎么做。

您必须以某种方式将任务分解为子计算。没有“思维”的原子行为;智能必须由非智能部件建立。

由部分制成的代理是所做的一部分反设事实这很困难,因为代理可能不得不推断出那些部分不可能的配置。

由零件制成是什么self-reasoning和self-modification甚至可能。

然而,我们主要在本节中讨论的是另一个问题:当代理由部件制成时,可能存在对手不只是在外部环境中,但在代理商内也是如此。

这种问题是子系统金宝博官方对齐:确保子系统不在交叉目的工作;金宝博官方避免为意外目标优化的子过程。

  • 良性的感应
  • 良性优化
  • 透明度
  • mesa-optimizers


这是一种稻草代理设计:

具有认知和乐器子系统的吸管剂金宝博官方

认知子系统只想要准确的信念。金宝博官方仪器子系统使用这些信念来跟踪它做得如何。金宝博官方如果工具子系统相对于认知子系统过于强大,它可能金宝博官方决定试图愚弄认知子系统,如所描述的那样。

如果认知子系统过于强烈,那么这也可能产生金宝博官方不良成果。

这种主体设计将系统的认知子系统和工具子系统视为具有各自目标金宝博官方的离散主体,这并不特别现实。但是,我们在有经验玩家以交叉目的工作的子系统问题很难避免。金宝博官方如果我们没有故意构建相关子系统,这是一个难的问题。金宝博官方


避免启动想要不同东西的子代理的一个原因是我们想要相对尺度稳健性

一个方法是强大的规模如果它仍然有效,或者优雅地失败,因为您的规模功能。有三种类型:扩展的健壮性缩小稳健性;和相对尺度稳健性

  • 扩展的健壮性意味着如果在优化时变得更好,您的金宝博官方系统不会停止表现得很好。检查这一点的一种方法是考虑如果AI优化的功能实际上是什么最大化.认为古德哈特定律

  • 缩小稳健性这意味着如果你的系统被创建,它仍金宝博官方然可以工作不那么强大.当然,它可能不再有用;但它应该安全失败,没有不必要的成本。

    如果它可以金宝博官方完全最大化某些功能,但您的系统可能会工作,但如果您近似是安全的?例如,如果它可以非常精确地学习人类价值,也金宝博官方许系统是安全的,但近似使得它越来越错了。

  • 相对尺度稳健性意味着您的设计不依赖于代理的子系统类似强大的子系统。金宝博官方例如,(生成的对抗网络)培训如果一个子网络变得太强烈,因为不再有任何训练信号。

GaN训练

缺乏规模的稳健性不一定是杀死提案的东西,但是要意识到;缺乏规模的稳健性,你需要强烈的理由认为你是正确的规模。

对相对规模的鲁棒性对子系统对齐尤为重要。金宝博官方具有智能子部分的代理人不应依赖于能够超越它们,除非我们有强烈的陈述为什么始终可能。


总体的寓意是:要有一个统一的系统,而这个系统本身不会产生冲突。金宝博官方

为什么会有人让一个拥有不同器官的特工互相争斗?原因有三:子目标指针, 和搜索

分配一个任务子目标也许是唯一有效的解决办法。然而,子目标计算不应该完全忘记大局!

设计为建造房屋的代理不应该启动只关心建造楼梯的次级代理。

一个直观的需求是,尽管子系统需要有它们自己的目标来将问题分解成部分,子目标也需要金宝博官方“点回来”强大地达到主要目标。

房屋建筑代理人可能旋转一个仅关心楼梯的子系统,但只关心楼梯的背景金宝博官方房子

然而,你需要以一种不只是在你的房屋建造系统的头脑中有第二个房屋建造系统的方式来做这件事。金宝博官方这就引出了下一项:


指针:子系统可能难以携带金宝博官方全系统金宝博官方与他们一起的目标,因为他们需要减少问题。然而,这种间接似乎鼓励不同的子系统激励措施的情况。金宝博官方

正如我们在认知子系统和工具子系统的例子中看到的,一旦我们开始优化某种金宝博官方期待,而不是直接反馈关于我们在实际重要的指标上做的事情,我们可能会产生歪曲激励 - 那是耶和华的法律。

我们如何要求子系统“do do x”而金宝博官方不是“说服我正在执行x”的“说服我做x”,而不通过整个总体目标系统?

这类似于我们想要的方式继任者代理以重量为值,因为它太难编写了值。但是,在这种情况下,学习较大代理的值也不会有任何意义;子系统金宝博官方和子公司需要成为较小


它可能并不难以解决人类完全设计的子系统的子系统对齐,或者ai明确地旋转的子系统。金宝博官方如果您知道如何避免设计不对准坚定地委派你的目标,这两个问题似乎都是可以解决的。

但是,似乎似乎可能如此明确地设计所有子系统。金宝博官方在某些时候,在解决问题时,你就像你知道如何,你必须依赖一些试验和错误。

这将我们带到第三个原因子系统可能是优化不同的东西,金宝博官方搜索:通过查看一个丰富的可能性空间来解决问题,这个空间本身可能包含不一致的子系统。金宝博官方

足够强大的搜索可能导致子系统未对准金宝博官方

ML研金宝博娱乐究人员对这种现象非常熟悉:编写一个程序,为你找到一个高性能的机器翻译系统,比自己直接编写一个更容易。金宝博官方

从长远来看,这个过程可以进一步走一步。对于丰富的问题​​和令人印象深刻的搜索过程,通过搜索发现的解决方案本身就是智能优化某物。

这可能是偶然发生的,也可能是作为解决困难问题的一种策略而特意设计的。无论哪种方式,它都很有可能加剧古德哈特式的问题——你现在实际上有两种错位的机会,而以前只有一种。

这个问题在亨格林格等人中描述了“高级机器学习系统中学习型优化的风险金宝博官方“。

让我们调用原始搜索过程基础优化器,并通过搜索找到的搜索过程Mesa优化器

“Mesa”与“meta”相反。虽然“元优化器”是一个旨在生产新优化器的优化器,但是“Mesa-Optimizer”是由原始优化器产生的任何优化器 - 是否程序员想要他们的基础优化器正在寻找新的优化器。

“优化”和“搜索”是含糊不清的条件。我会将它们视为任何可以自然地解释为执行重要的计算工作的任何算法,以“查找”对某些客观函数高度评分的对象。

目标职能基本优化器的与台面优化器的不一定相同。如果基础优化师想要做披萨,新的优化师可能喜欢揉面团,切食材等等。

新的优化器的目标函数必须是有帮助的对于基础目标,至少在示例中,基本优化器正在检查。否则,不选择MESA优化器。

但是,MESA优化器必须以某种方式减少问题;无法再次运行完全相同的搜索点。所以它似乎它的目标往往会像好的启发式;更容易优化,但与基础目标不同。

如果新的优化器在基本目标上得分高度评分,为什么基地目标和台面目标之间可能会有所差异?这是关于与真正想要的相互作用。即使我们得到价值规范完全正确,总会有一些的分布转移在训练集和部署之间。(见Amodei等人的“AI安全的具体问题“。)

分布的变化在一般情况下是很小的,但对于有能力的台面优化器可能会产生很大的不同,它可能会观察到细微的差异,并找出如何利用它来实现自己的目标。

实际上,甚至使用“分配转移”这个词在上下文中似乎都是错误的嵌入式机构.世界不是这样的I.I.D.“没有分布转移”的模拟将是有一个整个未来的精确模型与你想要优化的东西有关以及能力跑过来在训练中。所以我们需要处理大规模的“分布转移”。

我们可能还希望优化不完全是我们想要的东西。避免代理商在整体目标成本上追求子公司的显而易见的方法是让子系统不是代理人。金宝博官方只需搜索一堆方式来制作楼梯,不要让某些人关心楼梯。

问题是,强大的台地优化器正在优化基础系统不关心的东西,台地优化器将有趋同的动机成为代理。金宝博官方

Additionally, there’s the possibility that the mesa-optimizer becomes aware of the base optimizer, in which case it might start explicitly trying to do well on the base objective function purely in order to be kept around, while looking for any signs that it has left training and can stop pretending. This creates a version of Nick Bostrom’s “危险的转“。

这是我们看到的同一个故事对抗古老:在搜索空间中存在某种代动性,它对我们选择的代理作出反应,使我们的代理成为一个糟糕的代理。

你可以在训练过程中反复模拟“训练结束,部署时间”来避免危险的转弯,这是一种嵌套式的梦境设置。我们的目标是测试足够多的模拟层,以便您可以得出结论,在真实的部署案例中不会出现危险的转折。

模拟部署

不幸的是,这种学习的收敛性很差。通常在机器学习中,良好的性能意味着良好的平均情况性能。但一个危险的转弯是一个“错误”,可以小心地放置,造成最大的伤害。我们要确保这不会发生。

部分问题是,一些输出比其他输出要重要得多。部署比培训更重要,部署期间的某些关键或脆弱的时刻将尤为重要。我们希望特别肯定会获得重要的事情,而不是获得低平均损失。

但我们不能通过告诉系统什么是重要的来解决这个问题。金宝博官方实际上,我们似乎希望它不能解决这个问题——我们指望它能够从不那么重要的情况归纳出更重要的情况。这就是为什么研究ML金宝博娱乐技术而避免罕见的灾难(或“陷阱”)与确保台面优化器与基础优化器对齐的问题有关。

很难信任任意代码 - 这是富型模型类的模型仅基于经验测试。考虑高度简化的问题:我们想找到一个只输出\(1 \)的程序。\(0 \)是一种灾难性的失败。

如果我们可以自己检查代码,这个问题就会很简单。但机器学习的输出往往难以分析;假设我们根本无法理解代码。

现在,在某种意义上,我们可以更多地信任更简单的功能。短片代码不太可能包含硬编码的异常。让我们量化。

考虑所有长度的所有程序集(l \)。一些程序\(p \)将长时间打印\(1 \),但然后打印\(0 \)。我们正试图避免这种情况。

调用time-to-first-zero \(W_{p}\)。(\(W_{p} = \infty\)如果程序\(p\)是可信的,也就是说,如果它从来不输出\(0\)。)

所有长度的最高有限\(W_{p}\)程序是Busy Beaver函数的一种形式,所以我将其称为\(BB(L)\)。如果我们想要完全确定一个长度为\(L\)的随机程序是可信的,我们需要观察来自该程序的\(BB(L)\)。

现在,关于Busy Beaver函数的事实是\(bb(n)\)比任何可计算函数更快地增长。因此,在最坏的情况下,这种经验信托建设需要无明显漫长的措辞。

那平均情况呢?

如果我们假设所有其他长度为- (L)的程序都是简单的情况,那么长度为- (L)的程序的数量是指数级的,所以平均值是(BB(L)\ / \mathrm{exp}(L)\)。但是指数是可以计算的。所以\(BB(L)\ / \mathrm{exp}(L)\)仍然比任何可计算函数增长得更快。

因此,在使用短节目的同时使我们对理论有一些信心,因此形成关于行为的广义结论的难度随着长度的函数而迅速地增长。

如果长度限制不那么实用,可能限制计算复杂性可以帮助我们?直观地,MESA优化器需要时间来思考,以便成功地执行危险的转弯。因此,一项速度结论的计划可能更值得信赖。

然而,遗憾的是,限制复杂性课程不会围绕忙碌的海狸类型行为。在输出\(0 \)之前等待长时间的策略可以进一步放慢下来,只有稍长的程序长度\(l \)。


如果所有这些问题似乎太假设了,请考虑地球上生命的演变。进化可以被认为是生殖健身最大化器。

(Evolution can actually be thought of as an optimizer for many things, or as no optimizer at all, but that doesn’t matter. The point is that if an agent wanted to maximize reproductive fitness, it might use a system that looked like evolution.)

智能生物是进化的台地优化器。尽管智能生物体的动力肯定与生殖健康有关,但生物体想要各种各样的东西。甚至有台地优化者已经开始理解进化,甚至有时还能操纵它。因此,强大且不对齐的台面优化器似乎是一种真正的可能性,至少具有足够的处理能力。

出现问题似乎是因为你试图解决你尚未知道如何通过搜索解决问题的问题空间并希望“有人”可以解决它。

如果问题的来源是通过大规模搜索解决问题的解决方案,也许我们应该寻找不同的方法来解决问题。也许我们应该通过难以解决问题来解决问题。但是如何解决您尚未知道的问题,而不是通过尝试的东西来解决


让我们退后一步。

嵌入式世界模型是关于如何思考,作为一个嵌入式代理;决策理论是关于如何采取行动。强大的代表团是关于构建值得信赖的继承者和帮助者。子系统金宝博官方对齐是关于建筑一个代理人不值得信赖部分

嵌入式代理

问题是:

  • 我们不知道如何考虑环境较小
  • 在某种程度上可以这样做,我们不知道如何思考行为的后果在这些环境中。
  • 即使我们能做到这一点,我们也不知道如何思考我们是什么想要
  • 即使我们没有这些问题,我们也不知道如何可靠地输出操作这让我们得到了我们想要的!

这是斯科特盖拉德坦特和亚伯兰德斯基的倒数第二篇文章嵌入式机构顺序。结论:嵌入式的好奇心。

你喜欢这篇文章吗?你可以享受我们的其他分析帖子,包括: