嵌入式代理

||分析

假设您想要创建一个机器人来为您实现一些现实世界的目标——这个目标需要机器人自己学习并找出许多您不知道的东西。1

这里有一个复杂的工程问题。但还有一个问题就是要弄清楚建立这样的学习型代理意味着什么。在物理环境中优化现实目标是什么?从广义上讲,它是如何工作的?

在这一系列的文章中,我将指出四种方法目前已经知道它是如何工作的,并在四个领域进行了积极的研究,旨在弄清楚它。金宝博娱乐

这是Alexei,Alexei正在播放视频游戏。

阿列克谢,二元论特工

像大多数游戏一样,这个游戏也有清除输入输出通道.阿列克谢只通过电脑屏幕观察游戏,只通过控制器操纵游戏。

游戏可以被认为是一种功能,即通过一系列按键按键并在屏幕上输出一系列像素。

阿列克谢也很聪明,有能力把整个游戏都记在脑子里.如果Alexei存在任何不确定性,那也只是关于他所玩的游戏等经验事实,而不是关于逻辑事实,如哪些输入(对于特定的确定性游戏)将产生哪些输出。这意味着阿列克谢也必须在脑子里储存他可能玩的每一个游戏。

阿列克谢但是,难道不应该为自己着想吗.他只是在优化自己正在玩的游戏,而不是优化用来思考游戏的大脑。他可能仍然会根据信息的价值来选择行动,但这只是为了帮助他排除正在玩的游戏,而不是改变他的思维方式。

事实上,阿列克谢可以把自己当做一个不变的不可分割的原子.因为他并不存在于他所考虑的环境中,所以Alexei并不担心他是否会随着时间的推移而改变,也不担心他可能需要运行的任何子程序。

请注意,我所谈到的所有属性都是由于Alexei与他正在优化的环境完全分离这一事实而成为可能。

这是艾米。艾米在扮演真实的生活。

嵌入式特工艾米

现实生活不像电子游戏。这种差异很大程度上是因为艾米所处的环境是她想要优化的。

阿列克谢将宇宙视为一个函数,他通过选择比其他任何可能的输入都能带来更大回报的输入来优化这个函数。另一方面,艾米没有函数.她只是有一个环境,这个环境包含她。

艾米想要选择最好的动作,但艾米选择的动作只是另一个关于环境的事实。埃米可以解释她的决定对环境的影响,但因为埃米最终只采取了一个行动,我们甚至不清楚埃米“选择”一个比其他行动更好的行动意味着什么。

阿列克谢可以探索宇宙,看看会发生什么。艾美是宇宙的化身。在埃米的例子中,我们如何将“选择”的概念正式化?

更糟糕的是,既然艾美被环境所控制,艾美也必须被控制小于环境.这意味着艾米无法在头脑中存储环境的精确细节模型。

这会导致问题:贝叶斯推理通过从一系列可能的环境中开始工作,并且当您遵守与这些环境中的一些环境不一致的事实时,您将它们统治出来。当你甚至没有能够为世界工作方式存放一个有效的假设时,你的推理是什么样的?Emmy将不得不使用不同类型的推理,并使不适合标准贝叶斯框架的更新。

因为艾米处在她所操纵的环境中,她也有能力做到自我完善.但是埃米怎么能确定,随着她学习得越来越多,发现越来越多的方法来提高自己,她只会以真正有用的方式改变自己呢?她怎么能确定自己不会以不受欢迎的方式改变自己最初的目标呢?

最后,由于Emmy包含在环境中,因此她不能像原子一样对待自己。她是用同样的零件做成的其他的环境都是由它组成的,这就是为什么她能够想到自己。

除了外部环境的危险,艾米还要担心来自内部的威胁。在优化时,Emmy可能有意或无意地将其他优化器旋转为子例程。如果这些子系统太强金宝博官方大,与艾米的目标不一致,就会造成问题。艾米必须弄清楚如何在不让智能子系统运转的情况下进行推理,或者弄清楚如何让它们保持脆弱、受控制,或者与她的目标完全一致。金宝博官方

艾米很困惑,所以我们还是回阿列克谢吧。马库斯Hutter的艾基这个框架为像阿列克谢这样的行为人如何工作提供了一个很好的理论模型:

$$
a_k \;:= \;\ arg \ max_ {a_k} \ sum_ {o_k r_k}%\ max_ {a_ {k + 1}} \ sum_ {x_ {k + 1}}
\max_{a_m}\sum_{o_m r_m}
[r_k +……+ r_m]
\ hspace {-1em} \ hspace {-1em} \ hspace {-1em} \!\!\!\ sum _ {{q} \,:\,u({q},{a_1..a_m})= {o_1 r_1 .. o_m r_m}} \ hspace {-1em} \ hspace {-1em} \ hspace {-1em} \!\!\!2 ^ { - \ ell({q})}
$$

该模型具有代理商和一个使用动作,观察和奖励进行交互的环境。代理发送出一个动作\(a \),然后,环境发出观察\(o \)和right \(r \)。该过程在每次重复\(k ... m \)。

每个行动都是之前所有行动-观察-奖励三倍的函数。每一个观察和奖励都是这些三重和前一动作的函数。

您可以想象在此框架中的代理商可以充分了解它与其交互的环境。然而,AIXI用于在对环境的不确定性下进行建模优化。AIXI对所有可能的可计算环境的分发\(Q \),并选择导致此分布下的高预期奖励的操作。由于它也关心未来的奖励,这可能导致信息价值探索。

在一些假设下,我们可以证明AIXI在所有可计算环境中都做得相当好,尽管它有不确定性。然而,尽管AIXI交互的环境是可计算的,但AIXI本身是不可计算的。代理是由一种不同的物质组成的,一种比环境更强大的物质。

我们会把AIXI和Alexei这样的特工称为“二元论”。他们存在于环境之外只设置agent-stuff和environment-stuff之间的交互.他们要求代理大于环境,不要倾向于建模自我参照推理,因为代理是由不同的东西组成的,而不是代理的原因

爱喜并非个例。这些二元论的假设在我们目前关于理性代理的最佳理论中随处可见。

我把爱喜作为一个陪衬,但爱喜也可以用作灵感。当我看着AIXI的时候,我觉得我真的理解了阿列克谢是怎么工作的。这也是我想要对艾米的理解。

不幸的是,艾美令人困惑。当我谈论想要拥有“嵌入式机构”理论时,我的意思是理论上我希望理论上能够理解艾米工作的代理。也就是说,嵌入在其环境中的代理,因此:

  • 没有定义良好的I / O通道;
  • 小于他们的环境;
  • 能够对自己进行理性思考和自我完善;
  • 它们是由与环境相似的部件组成的。

您不应该将这四个并发症视为分区。它们彼此非常缠绕。

例如,agent之所以能够自我改进,是因为它是由零件组成的。当环境足够大时,它可能包含代理的其他副本,从而破坏任何定义良好的i/o通道。

嵌入代理子问题之间的一些关系

然而,我将利用这四个复杂问题来将嵌入式代理的主题拆分为四个子问题。这些都是:决策理论嵌入式世界型号强大的代表团,子系统金宝博官方对齐

决策理论都是关于嵌入式优化的。

最简单的二元优化模型是\(\ mathrm {argmax} \)。\(\ mathrm {argmax} \)从一个函数奖励奖励,并返回导致此函数下最高奖励的操作。大多数优化都可以被认为是一些变体。你有一些空间;您可以从这个空间到某种分数,比如奖励或实用程序;并且您想选择在此功能下高度分数的输入。

但我们只是说这意味着成为嵌入式代理的大部分是您没有功能环境。所以现在我们该怎么办?优化显然是机构的重要组成部分,但我们目前无法说明在没有制作主要类型错误的情况下甚至是什么。

决策理论中的一些主要开放问题包括:

  • 逻辑反设事实:你怎么样的原因如果你采取行动B,就会发生,因为你可以证明你会采取行动吗?
  • 包含多个的环境代理人副本,或对代理人的可靠预测。
  • 逻辑updatelessness,这是关于如何结合非常好的,但非常贝叶斯魏岱的世界updateless决策理论逻辑不确定性的贝叶斯世界要少得多。

嵌入式世界模型是关于如何建立一个好的世界模型能够适应一个比世界小得多的主体。

这被证明是非常困难的——首先,因为它意味着真实的宇宙不在你的假设空间中,这破坏了很多理论保证;第二,因为这意味着我们要进行非贝叶斯更新废墟一堆理论保证。

这也是关于如何从内部观察者的角度来构建世界模型,以及由此产生的问题,如人类学。嵌入式世界模型中一些主要的开放问题包括:

  • 逻辑的不确定性,这是关于如何将逻辑世界与概率世界相结合。
  • 多层次的建模这是关于如何在不同描述级别中拥有相同世界的多个模型,以及它们之间的有效转换。
  • 本体论的危机当您意识到您的模型,甚至您的目标,是使用与现实世界不同的本体来指定时,您应该做什么。

强大的代表团是关于一种特殊类型的委托 - 代理问题。您有一个初始代理,希望制作更智能的继承代理,以帮助它优化其目标。初始代理商具有所有权力,因为它可以究竟决定代理是什么。但是,在另一个意义上,继承代理商拥有所有权力,因为它很聪明,更聪明。

从初始代理的角度来看,问题是关于创建一个稳健而不是使用它的智能的继承者。从继承代理人的角度来看,问题是关于,“你如何强化地学习或尊重愚蠢,可操纵,甚至不使用正确的本体论的目标?”

有额外的问题来自Lobian障碍让你不可能一直相信那些比你更强大的东西。

你可以把这些问题放在一个不断学习的主体的背景下,或者放在一个进行重大自我完善的主体的背景下,或者放在一个试图制造强大工具的主体的背景下。

强大代表团的主要开放问题包括:

  • 视频反思,它是关于如何推理和信任那些比你聪明得多的代理人,尽管存在Löbian的信任障碍。
  • 值的学习,这是继主体如何能够了解初始主体的目标,尽管初始主体愚蠢且前后矛盾。
  • 易燃这本书讲的是,一个初始代理人如何能让后继代理人允许(甚至帮助)修改,尽管存在一种不允许修改的工具性动机。

子系统金宝博官方对齐是关于如何一个统一的代理它的子系统既不相互冲突也不相互冲突。金宝博官方

当代理拥有一个目标,如“拯救世界”时,它可能会花大量时间思考子目标,如“赚钱”。如果代理编造了一个只想赚钱的子代理,那么现在就有两个具有不同目标的代理,这就会导致冲突。副探员可能会提出看起来像只有赚钱,却为了赚更多的钱而毁灭世界。

问题是:你不需要担心你故意搞砸的子代理。你还得担心不小心搞砸了分探员。当您在能够包含代理的足够丰富的空间上执行搜索或优化时,您必须担心空间本身是否在进行优化。这个优化可能不完全符合外部系统试图做的优化,但它金宝博官方有工具激励吗喜欢它的一致。

实践中很多优化都使用这种推卸责任的方法。你不只是找到解决办法;你找到了一个能够自己寻找解决方案的东西。

理论上讲,我不知道该怎么做优化这些方法看起来就像找到一堆我不理解的东西,然后看看它是否实现了我的目标。但这正是那种大多数容易旋转对抗性子系统。金宝博官方

在子系统对齐方面的一个大的开放问题是关于如何拥有一个基金宝博官方本级别的优化器,它不会旋转敌对的优化器。您可以进一步分解这个问题,考虑产生的优化器是有意的非故意的,并考虑优化的受限子类,比如感应

但请记住:决策理论,嵌入式世界模型,强大的委派和子系统对齐不是四个单独的问题。金宝博官方它们是同一统一概念的所有不同子问题嵌入式代理


这篇文章的第2部分将进入下几天:决策理论


  1. 这是第一部分嵌入式机构系列,作者艾布拉姆·戴姆斯基和斯科特·加拉布兰特。

你喜欢这篇文章吗?你可以享受我们的另一个分析的帖子,包括: