新论文:“功能决策理论”-机器智能研究所金宝博娱乐

MIRI高级研究员Eli金宝博娱乐ezer Yudkowsky和执行董事Nate Soares发表了一篇关于决策理论的新介绍性论文:功能决策理论:工具理性的新理论”。

文摘:

本文描述并激发了一种新的决策理论功能决策理论(FDT)，不同于因果决策理论和证据决策理论。

泛函决策理论家认为，行为的规范原则是将一个人的决策视为一个固定数学函数的输出，该函数回答以下问题:“这个函数的哪个输出会产生最好的结果?”遵循这一原则可以带来许多好处，包括在CDT和EDT表现不佳的传统决策理论和博弈论问题中最大化财富的能力。使用一个简单而连贯的决策规则，功能决策理论家(例如)在Newcomb的问题上比CDT获得了更多的效用，在吸烟损伤问题上比EDT获得了更多的效用，在Parfit的搭便车者问题上比两者都获得了更多的效用。

在本文中，我们定义了FDT，探讨了它在许多不同的决策问题中的规定，并将其与CDT和EDT进行比较，并给出了FDT作为决策规范理论的哲学理由。

我们之前关于FDT的介绍性论文，”大马士革死里逃生，重点比较了FDT与CDT和EDT的性能。Yudkowsky和Soares的新论文将更大的焦点放在FDT的机制和动机上，使“功能决策理论”成为该理论最完整的独立介绍。¹

内容:

1.概述。

2.纽科姆问题与吸烟损伤问题。就获得的效用而言，传统EDT在Newcomb问题上优于CDT，而CDT在吸烟病灶问题上表现不佳。因此，CDT和EDT都表现出了不尽如人意的预期效用理论，两者之间的争论一直处于僵局。然而，FDT提供了一个优雅的标准来匹配EDT在前一类困境中的性能，同时也匹配CDT在后一类困境中的性能。

3.虚拟语气的依赖。FDT可以被认为是CDT的一个修改，它不是依赖于因果关系，而是依赖于更广泛的类别虚拟语气包括因果依赖项作为特殊情况的依赖项。

4.帕菲特的《银河系漫游指南》。FDT的新特性可以在Parfit的搭便车问题中更容易看到，在这个问题中CDT和EDT都不如FDT。尤多科夫斯基和苏亚雷斯指出了三个有利于FDT而不是传统理论的论点:一个来自预先承诺的论点，一个来自信息价值的论点，以及一个来自效用的论点。

5.正式化EDT，CDT和FDT。为了借鉴给定的决策理论规定给定的动作，yudkowsky和飙升定义实现每个理论的算法。

6.三种决策算法的行为比较。尤多科夫斯基和苏亚雷斯随后又讨论了纽科姆的问题、吸烟损伤问题和帕菲特的搭便车问题，并提出了算法。

7.诊断EDT：条件作为反事实。EDT和CDT的核心问题是它们认为的假设场景是畸形的。EDT的工作条件是联合概率分布，这导致问题时，相关性是假的。

8。诊断CDT:不可能的干预措施。与此同时，CDT通过严格考虑因果反事实而发挥作用，当它错误地对待不可避免的相关性时，就会产生问题，就好像它们可以被打破一样。

9：全球视角。FDT的抵消推理形式允许代理尊重比CDT更广泛的真实依赖性，同时排除EDT的虚假依赖。我们可以了解FDT，反映了一个“全球视角”，其中决策者应该寻求拥有最理想的决定类型，而不是最理想的决策标志。

10。结论。

我们用这个词"功能“决策理论”，因为FDT调用了决策理论的代理可以被认为是实现确定性的功能，从目标和观察历史到行动。²我们可以清楚地看到这个特征纽卡的问题在这里，一个FDT代理——我们就叫她Fiona吧，就像论文中那样——将得出如下结论:

Omega知道我要做的决定——它们在相同的输入上计算相同的决策函数，并使用该函数的输出来决定要填多少个盒子。那么，假设我正在执行的决策函数输出“one-box”。同样的决策函数(在Omega中实现)也必须输出“一盒”。在这种情况下，欧米茄会填满不透明的盒子，我将得到它的内容。（+ 1000000美元。）

或者假设我拿走了两个盒子。在这种情况下，我的决策函数输出“两个盒子”，Omega将保留不透明的盒子，我将获得两个盒子的内容。（+ 1000美元。）

第一个场景具有更高的预期效用;因此，我的决策函数在此输出“one-box”。

不像CDT代理将自己限制为纯粹的因果依赖，Fiona的决策能够考虑到Omega的行动和她的推理过程本身之间的依赖关系。因此，菲奥娜往往会得到比CDT代理人多得多的钱。

同时，FDT避免了EDT遇到的标准缺陷，例如，在吸烟损伤问题。吸烟损伤问题有几个特点，比如药剂有可能诉诸艾勒里鳗的“挠痒辩护”;但我们可以更清楚地说明EDT的局限性与XOR勒索问题在这里，防痒对EDT毫无帮助。

在XOR勒索问题中，一名特工听到了一个谣言，他们的房子被白蚁侵染，维修费用为100万美元。第二天，特工收到了来自可靠的预测者欧米加的一封信:

我知道你是否有白蚁，我给你写这封信的理由是:(I)谣言是假的，你将在收到这封信后支付我1000美元;或者(二)谣言是真的，你收到这封信后不会给我钱。

在这种进退两难的情况下，EDT代理支付了费用，理由是知道他们有白蚁是个坏消息——尽管事实是，他们是否能消灭白蚁并不取决于他们是否支付费用。

相比之下，FDT代理菲奥娜的推理方式与她在纽科姆问题中的推理方式类似:

由于欧米伽决定发送这封信是基于对我是否会支付的可靠预测，所以欧米伽和我必须计算相同的决策函数。那么，假设我的决策函数在输入“字母”时输出“不支付”。在我有白蚁的情况下，Omega会寄给我这封信，我不会付钱(−1000000美元）;如果我没有白蚁，欧米茄就不会寄这封信。−0美元)．

另一方面，假设我的决策函数输出“支付”输入“字母”。然后，在我有白蚁的情况下，欧米茄不会发送这封信(−1000000美元)，在我没有白蚁的情况下，Omega发了信，我付钱(−1000美元)．

我的决策函数决定我是否有条件地支付和欧米茄是否有条件地发送一封信。但是白蚁并没有预测我，也没有计算我的决策函数。因此，如果我的决策函数的输出是“支付”，这不会改变白蚁的行为，对我没有任何好处;所以我不付钱。

与EDT代理不同，菲奥娜正确地考虑到，支付不会增加她在XOR勒索困境中的效用;与CDT代理不同的是，菲奥娜考虑到了这一点将要增加她在纽科姆问题中的效用。

然后，FDT为传统理论提供了优雅的替代方案，同时为我们提供了更简单，更一般的规则，以便在实践中的预期效用，以及原则上更加令人满意的理性决策哲学叙述。

有关FDT的额外讨论，我推荐“决策是为了让糟糕的结果不一致为了决定输出什么行动，一个决策理论的agent必须能够考虑假设的情景，在这些情景中，他们的确定性决策函数输出的不是它实际输出的东西。^3.

注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。

“功能决策理论”最初起草于“大马士革死里逃生，在我们收到来自哲学社区的各种反馈之前，这段时间要长得多。《大马士革逃死记》是用从早期草稿中剪下来的材料制作的;其他剪辑材料包括讨论proof-based决策理论，以及一些《大马士革之死》的变体因为对CDT不必要的残忍而被丢弃在剪辑室的地板上。↩
为了覆盖这种情况下的混合策略，我们可以假设一个感知输入到代理是一个随机数。↩
一个主体必须考虑的许多假设在内部是不一致的:一个确定性函数对于一个给定的输入只有一个可能的输出，但是主体必须基于许多不同的“可能的”行为的预期效用来做出决策，以便选择最佳的行为。例如，在Newcomb的问题中，FDT和EDT代理必须评估双箱的预期效用，以便权衡他们的选择并最终作出决定，即使这样的代理对双箱不一致;同样，CDT必须评估不可能假设的预期效用，其中CDT代理是单箱式的。
虽然理论上理解得很差，但这种反可能推理在实践中似乎是完全可行的。即使一个假猜想在经典意义上包含了所有的命题，数学家们通常会用一种有意义的、非平凡的方式对假设场景进行推理，其中一个猜想有不同的真值。然而，如何在正式环境中最好地表现反可能推理的问题仍然没有解决。↩

新论文：“功能决策理论”

注册获取MIRI新技术成果的更新

搜索

浏览

订阅