决策理论

||分析

决策理论和人工智能通常试图计算类似的东西

$$ \ underset {a \ \ in \ action} {\ mathrm {argmax}} \ \ f(a)。$$

也就是说,最大化动作的某些功能。这倾向于假设我们可以把事情搞得足够复杂,把结果看作是行动的功能。

例如,AIXI将代理和环境表示为独立的单元,它们通过明确定义的i/o通道随时间进行交互,这样它就可以选择使奖励最大化的操作。

AIXI

当代理模型为环境模型的一部分在美国,如何考虑采取其他行动就不那么清楚了。

嵌入式代理

例如,因为代理是小于环境,可以有其他代理的其他副本,或者与代理商非常相似的东西。这导致有争议的决策理论问题如双胞胎囚犯的困境和纽卡的问题

如果埃米模型1和埃米模型2有相同的经验,并运行相同的源代码,埃米模型1是否应该像她的决定是在同时操纵两个机器人?根据你如何在“你自己”周围划分边界,你可能认为你可以控制两个副本的动作,或者只控制你自己的。

这是反事工程问题的一个例子:我们如何评估假设,如“如果太阳突然出去的话”?

适应的问题决策理论嵌入代理包括:

  • 反应性
  • Newcomblike推理,其中代理商与本身的副本相互作用
  • 更广泛地推理其他代理
  • 勒索问题
  • 协调问题
  • 逻辑反应性
  • 逻辑updatelessness

为什么代理需要考虑反事实的最重要的例子来自关于自己行为的反事实。

的困难行动反事件可以通过五十八个问题。假设我们有两种选择,一种是5美元,一种是10美元,在这种情况下我们关心的是我们能得到多少钱。显然,我们应该接受这10美元。

然而,这并不是那么容易,因为它似乎可靠地接受10美元。

如果你对自己的另一部分成为你自己的理由,那么你可以了解自己的行为。如果你能知道自己的行为,那么如果你表现得会发生什么会发生什么不同的

这就破坏了许多常见的推理方法。我们如何将“拿走10美元会导致什么?好的而拿走5美元会导致的后果后果,“当足够丰富的自我知识会将其中一个场景透露出来的一个不一致?

如果我们不能如果把这样的想法形式化,现实世界的特工们是如何想办法拿走这10美元的呢?

如果我们试图计算贝叶斯调节我们行动的期望效用,是常见的,知道自己的行为会导致除错误当我们试图计算行为的期望效用我们知道我们不接受:\ (\ \)lnot意味着\ (P (a) = 0 \),这意味着\ (P (B \ & a) = 0 \),这意味着

$ $ P (B |) = \压裂{P (B \ & A)} {P (A)} = \压裂{0}{0}$ $

由于主体不知道如何将自己与环境分离,当它试图想象采取不同的行动时,它就会像齿轮一样吱吱作响。

但是最大的复杂性来自Löb的定理,它可以使看起来合理的代理拿走5美元,因为“如果我拿走10美元,我得到0美元”!在一个稳定的方法——agent不能通过更多的学习或思考来解决问题。

这可能难以置信;让我们看一个详细的例子。这一现象可以用基于简单逻辑的agent对5 - 10问题进行推理的行为来说明。

考虑这个例子:

五到十的问题

我们有特工和宇宙的源代码。它们可以通过使用quining互相指代。宇宙是简单的;宇宙只是输出代理输出的任何东西。

代理花了很长时间搜索有关采用各种操作的情况下会发生的证明。如果对于某些\(x \)和\(y \)等于\(0 \),\(5 \),或\(10 \),它会发现\(5 \)导致\的证据(x \)实用程序,采取\(10 \)导致\(y \)实用程序,\(x> y \),它自然会采取\(5 \)。我们预计它将无法找到这样的证据,而是选择采取\(10 \)的默认操作。

当你想象一个主体试图对宇宙进行推理时,这似乎很简单。然而,如果花费在搜索证明上的时间足够多,代理将总是选择\(5\)!

证明这是如此Lob定理。Löb的定理说,对于任何命题\(p \),如果你能证明这一点证明\(p \)意味着真理\(p \),那么你可以证明\(p \)。在符号中,与
“\(□x \)”意思是“\(x \)可证明:

$$□(□P \至P) \至□P $$

在我给出的五个和十个问题的版本中,“\(p \)”是命题“如果代理输出\(5 \)\(5 \),则Universe输出\(5 \),以及代理输出\(10 \)Universe输出\(0 \)“。

假设它是可证明的,代理人最终会找到证明,并返回\(5 \)实际上。这使得这句话真的,因为代理输出\(5\),宇宙输出\(5\),而且代理输出\(10)是假的。这是因为像“代理输出\(10\)”这样的错误命题暗示了一切,包括宇宙输出\(5\)。

代理可以(只要有足够的时间)证明所有这些,在这种情况下,代理实际上证明了命题“如果代理输出\(5\),宇宙输出\(5\),如果代理输出\(10\),宇宙输出\(0)”。结果,代理人拿走了5美元。

我们称之为“虚假证据”:代理拿走5美元,因为它可以证明这一点如果它花了10美元,它的价值很低,因为它需要5美元。这听起来像是循环,但遗憾的是,逻辑上是正确的。更一般地说,当我们在缺乏证据基础的环境中工作时,我们称之为伪造反事实的问题。

一般模式是:反事实可能会假装一个不太好的行动。这使得AI不采取行动。根据反事实的工作原理,这可能会删除任何反馈,这些反馈将“纠正”问题的反事实;或者,正如我们用校对的推理所看到的那样,它可能会积极地帮助虚假的反事实是“真实”。

请注意,因为基于证明的例子对我们来说意义重大,“反事实”实际上必须是计数器逻辑值;我们有时需要推理逻辑上是不可能的“可能性”。这条规定了最常见的反事工程推理账户。

你可能已经注意到我略微欺骗。唯一违反对称性并导致代理人占用5美元的事实是“\(5 \)”是当发现证据时采取的行动,“\(10 \)”是默认值。相反,我们可以考虑一个寻找任何证明的代理,了解了什么行动导致哪些实用程序,然后采取更好的行动。这样,采取了哪种行动取决于我们搜索证明的顺序。

让我们假设我们先搜索短缺。在这种情况下,我们将占用10美元,因为它非常容易显示\(a()= 5 \)导致\(u()= 5 \)和\(a()= 10 \)导致\(u()= 10 \)。

问题是,伪证据也可以很短,当宇宙变得难以预测时,也就不会再长了。如果我们用一个可以证明功能相同但更难预测的宇宙来代替宇宙,那么最短的证明将会使复杂的宇宙短路,而且是虚假的。


人们常常试图通过暗示总会有一些不确定性来解决反事实问题。AI可能很清楚自己的源代码,但它不能很清楚自己所运行的硬件。

是否添加了一些不确定性解决问题?往往不是:

  • 证明杂散的反事实常常仍然通过;如果您认为您在95%确定的五十个问题中,您可以在95%内具有通常的问题。
  • 添加不确定性以使反事实良好定义不会让您保证反事实将是任何保证合理的。在考虑替代操作时,硬件故障通常不是您希望看到的。

考虑此方案:您有信心您几乎总是占用左路。但是,可以(虽然不太可能)宇宙射线为了损坏您的电路,在这种情况下,您可以右转 - 但是您将是疯狂的,这将有许多其他不良后果。

如果这种推理本身是你总是离开的原因,你错了。

只需确保代理人对其行动有一些不确定性并不能确保代理人将具有远程合理的反事实预期。但是,我们可以尝试一件事是确保代理人实际上采取了每个行动有一些概率的。这个策略叫做ε-探索

ε-探索确保如果代理商在足够的场合播放类似的游戏,则可以最终学习现实的反应性(Modulo对此问题可实现性我们稍后会讲到)。

ε-探索只能有效,如果它确保代理人本身无法预测它是否即将到ε-探索。事实上,实现ε-探索的好方法是通过规则“如果代理太确定其动作,则需要一个不同的”。

从逻辑的角度来看,ε-勘探的不可预测性是防止我们一直在讨论的问题。从学习理论的角度来看,如果代理人可以知道它不应该探索,那么它可能会将其视为不同的案例未能概括其探索的课程。这让我们回到了我们无法保证代理人会学到更好的反应性的情况。探索可能是某些行动的唯一数据来源,因此我们需要强制代理人考虑该数据,或者它可能无法学习。

但是,即使是ε-探测似乎没有完全正确的东西。观察ε-探索的结果显示,如果你采取行动,会发生什么不可预知的;作为“一切照旧”的一部分采取这种行动的后果可能会有所不同。

假设你是一个生活在一个Ε-exporers世界的explorer。您正在申请作为保安人员的工作,您需要说服面试官,即您不是那种与您守卫的东西遇到的人。他们希望雇用一个过于诚信的人来撒谎和偷窃,即使这个人认为他们可以逃脱它。

一个表面上值得信赖的代理人

假设面试官是一个惊人的角色判断 - 或者只是读取对您的源代码的访问权限。

一个看起来不可靠的代理人

在这种情况下,偷窃可能是一个很好的选择作为ε-勘探行动,因为面试官可能无法预测你的偷窃行为,或者可能认为惩罚一次异常行为没有意义。

令人惊讶的epsilon探索行动

但是偷窃显然是一个坏主意作为一个正常的行为,因为你会被认为是不可靠和不值得信赖的。

从探索中汲取错误的教训

如果我们不能从ε-探索中学习到反事实,那么我们似乎根本无法保证学习到真实的反事实。但是,即使我们确实从ε-探测中得到了教训,似乎我们在某些情况下还是会出错。

切换到概率设置不会导致代理可靠地制作“合理”的选择,也没有强制探索。

但写下“纠正”的例子的例子,从外面似乎似乎困难!

也许这是因为从“外部”来看,我们总是有一个二元论的视角。我们实际上是在问题之外,我们把它定义为一个agent的函数。

二元代理人

然而,代理不能以同样的方式从内部解决问题。从它的角度来看,它与环境的功能关系不是一个可观察到的事实。这就是为什么反事实被称为“反事实”的原因。

嵌入式代理的决策

当我告诉你们5和10题的时候,我首先告诉你们这个问题,然后给你们一个代理。当一个代理不能很好地工作时,我们可以考虑另一个代理。

要想在决策问题上取得成功,需要找到一个代理,当插入问题时,代理会采取正确的行动。事实上,我们甚至可以考虑放入不同的主体,这意味着我们已经将宇宙划分为一个“主体”部分,再加上宇宙的其他部分中有一个主体的洞——这是我们的大部分工作!


我们只是由于我们设置了决策问题的方式欺骗​​自己?没有“正确”的反应性?

好吧,也许我们在欺骗自己。但是仍然有一些事情让我们感到困惑!"反事实是主观的,由代理人发明的"并不能解开谜团。有的东西在现实世界中,智能代理做决定。

所以我说的不是知道自己行为的主体因为我认为未来智能机器推断自己行为将会是一个大问题。相反,了解自己行为的可能性说明了在决定自己行为的后果时有些令人困惑的地方——这种困惑甚至出现在非常简单的情况下,即世界上的一切都是已知的,而你只需要选择一大笔钱。

为了这一切,人类拿10块钱好像没遇到什么麻烦。

我们能从人类的决策中得到启发吗?

假设你被要求在10美元和5美元之间选择。你知道你会接受这10美元。你如何推理什么如果你花了5美元,那就发生了吗?

如果你能将自己与外界隔离开来,只考虑外部后果(比如得到5美元),这似乎很简单。

考虑外部后果

如果你想一想你自己同样,反事实开始显得有点奇怪或矛盾。也许你会有一些荒谬的预测,如果你拿了5美元,世界会变成什么样子,比如,“我要变成瞎子了!”

但那好了。最后,你仍然看到花费5美元会导致不良后果,你仍然需要10美元,所以你做得很好。

关于世界和对自己的反应性

正式代理商所面临的挑战是一个代理可以在类似的位置,除了它是5美元,知道这是5美元,和不知道它应该花10美元相反,因为荒谬的预言就会发生什么当它需要10美元。

对于人类来说,要在这样的情况下结束似乎很难;然而,当我们试图写出一个正式的推理程序时,我们总是遇到这类问题。所以看起来人类的决策确实在做一些我们还不了解的事情。


如果你是一个嵌入式代理,那么你应该能够考虑你自己,就像你考虑环境中的其他对象一样。在你的环境中,其他理性的人也应该能够想到你。

艾美遇见另一位代理人

在5和10的问题中,我们看到当主体在行动之前就知道自己的行动时事情会变得多么混乱。但这对于嵌入式代理来说是很难避免的。

在标准贝叶斯设置下,很难不知道自己的行为,哪一种假设是逻辑上的无所不知。概率分布将概率1赋给任何逻辑上正确的事实。如果是贝叶斯代理知道自己的源代码,那么它应该知道自己的行动。

但是,在逻辑上无关的现实代理可能会遇到同样的问题。逻辑禁止迫使问题,但拒绝逻辑的无所作为不会消除问题。

ε-探索似乎在许多情况下解决了这个问题,通过确保代理对他们的选择有不确定性,并且他们期望的事情是基于经验。

epsilon-十个问题中的探索

但是,正如我们在保安例子中所看到的,当随机探索的结果与可靠行动的结果不一致时,ε-exploration似乎也会误导我们。

以这种方式出错的例子似乎涉及到环境的另一部分,它的行为与你类似,比如另一个与你非常相似的主体,或者一个足够好的模型或模拟你。这些被称为纽康普利剧问题;上面提到的孪生囚徒困境就是一个例子。

纽康普利剧问题

如果5加10的问题是关于从世界中切割出一个u型的部分这样世界就可以被看作是你行为的函数,那么newcombu类问题是关于当世界中有几个近似的u型部分时该怎么做。

一种观点是确切的在“逻辑控制”下,副本应被视为100%。对于您的近似模型,或仅仅​​是类似的代理,控制应急剧下降逻辑相关性减少。但这是如何工作的?

逻辑关联程度

与迄今为止所讨论的自我参照问题一样,newcombi类问题的困难原因几乎相同:预测。通过ε-探索等策略,我们试图限制大学生的自我认识代理人试图避免麻烦。但是环境中强有力的预测因子的存在重新引封了麻烦。通过选择要共享的信息,预测器可以操纵代理并为它们选择其操作。

如果有一些可以预测你的东西,它可能告诉你的预测,或相关信息,在这种情况下,你做什么很重要在回应中对你可以找到的各种东西。

假设您决定与您所说的任何事情相反。然后,不可能首先设置场景。毕竟预测器并不准确,或者可选地,预测器不与您共享他们的预测。

另一方面,假设有一些情况,您可以如预期行事。然后,预测器可以控制您如何通过控制他们告诉您的预测来表现如何。

所以,一方面,一个强大的预测器可以通过在一致的可能性中进行选择来控制你。另一方面,你是第一个选择你的反应模式的人。这意味着你可以让他们达到你的最佳优势。


到目前为止,我们一直在讨论行动反应性 - 如何预测不同行动的后果。这种控制答复的讨论介绍了观察反应性- 如果已经观察到不同的事实,那么自动化世界就是这样的。

即使没有人预测你未来的行为,观察到的反事实仍然可以在做出正确的决定时发挥作用。考虑以下游戏:

Alice以高或低的随机接收卡。如果她愿意,她可能会透露卡。然后鲍勃给出了他的概率\(p \),即爱丽丝有高卡。爱丽丝总是失去\(p ^ 2 \)美元。鲍勃失去\(p ^ 2 \)如果该卡低,并且如果卡很高,则\((1-p)^ 2 \)。

Bob有一个适当的计分规则,所以通过给出他真实的信念来做到最好。爱丽丝只是想让鲍勃的信念尽可能地“低”。

假设爱丽丝只会玩这个时间。她看到一张低牌。鲍勃善于推理爱丽丝,但在下一个房间,所以无法阅读任何讲述。爱丽丝应该透露她的卡吗?

因为爱丽丝的牌低,如果她把牌给鲍勃,她就不会输钱,这是可能的最佳结果。然而,这意味着在反事实的世界里,爱丽丝看到一张高牌,她就不能保守秘密——在这种情况下,她可能也会把她的牌露出来,因为她不愿露出来是“高”的可靠标志。

另一方面,如果Alice没有展示自己的纸牌,她将损失25美分,但她也可以在另一个世界中使用相同的策略,而不是损失1美元。所以,在玩游戏之前,爱丽丝会明确承诺不透露;这使得预期损失为25美分,而其他策略的预期损失为50美分。通过将观察到的反事实考虑在内,爱丽丝能够保守秘密——没有它们,鲍勃可以从她的行动中完美地推断出她的牌。

这个博弈等价于决策问题叫做反事实的抢劫

Updateless决策理论UDT (UDT)是一种在高/低牌博弈中能够保守秘密的决策理论。UDT通过建议代理做以前看起来最明智的事情来做到这一点——无论您的早些时候的自我会承诺去做的事。

碰巧的是,UDT在newcombi类问题中也表现得很好。

像UDT这样的东西可以与人类在做什么,如果只是隐含,可以在决策问题上获得良好的结果?或者,如果不是,可能仍然是思考决策的好模式?

不幸的是,这里仍有一些非常深刻的困难。UDT是一个优雅的解决方案,对一个相当广泛的决策问题,但如果早期的自我可以预见,它只是有意义的所有可能的情况

这在贝叶斯的环境中工作正常,其中已在其中包含在本身内的所有可能性。但是,可能无法在现实的嵌入式设置中执行此操作。代理人必须能够想到新的可能性-这意味着它早期的自身没有足够的知识来做出所有的决定。

而且,我们发现自己正面临着这个问题嵌入式世界模型


这是阿布拉姆·戴姆斯基和斯科特·加拉布兰特的嵌入式代理序列。继续在这里!