新论文:“古德哈特定律的变种分类”

||论文

分类古德哈特定律的变体古德哈特定律指出:“任何观察到的统计规律,一旦出于控制目的对其施加压力,就会趋于崩溃。”然而,这并不是一个单一的现象。在古德哈特分类法,我提出,当你优化代理度量时,有(至少)四种不同的机制可以打破它们:回归、极值、因果和对抗。

David Manheim现在已经帮我写了一篇文章,更详细地介绍了这些机制:对古德哈特定律的变体进行分类从结论中得出:

本文试图对一类简单的统计偏差进行分类,这些偏差既出现在用于优化的任何算法系统中,也出现在许多依赖指标进行优化的人类系统中。金宝博官方希望本文所强调的动态有助于解释政策设计、机器学习和有关人工智能对齐的具体问题中的许多有趣情况。

在政策方面,这些动态经常被遇到,但却很少被清楚地讨论。在机器学习中,这些错误包括由于使用有限的数据和选择过于简约的模型而导致的极值古德哈特效应,由于对目标的短视考虑而发生的错误,以及由于忽视系统中的因果关系而发生的错误。金宝博官方最后,在AI对齐中,这些问题是将系统对齐到一个目标的基础,并确保系统参数在系统开始优化时不会产生负面影响。金宝博官方

V参考真正的目标,而U指的是与观察到的目标相关的代理V它在某种程度上被优化了。那么古德哈特定律的四个子类型如下:


及古德哈特—在选择代理度量时,您不仅选择了真正的目标,还选择了代理和目标之间的差异。

  • 模型:当U等于V+X,在那里X是一些噪音,一个大点U价值可能会很大V价值,也很大X价值。因此,当U是大,你能期待吗V可预测的小于U
  • 例如:身高与篮球能力相关,并确实有直接的帮助,但最好的球员只有6英尺3英寸″,而随机的7英尺20多岁的人可能不会那么好。

极值古德哈特-在世界中,代理取一个极端的值可能是非常不同的普通世界中,代理和目标之间的相关性观察。

  • 模型模式倾向于在简单关节处断裂。世界的一个简单子集就是那些世界U是非常大的。因此,两者之间有很强的相关性UV观察自然发生U价值观可能不会转移到世界U是非常大的。此外,由于自然发生的世界相对较少U非常大,非常大U可能与小的重合V值,而不破坏统计相关性。
  • 世界上最高的人罗伯特·瓦德洛(Robert Wadlow)身高2.72米。他能长到这么高是因为脑下垂体紊乱;他打篮球可能会很困难,因为他“走路需要腿部支架,而且他的腿和脚几乎没有感觉。”

因果古德哈特-当代理和目标之间存在非因果关系时,干预代理可能无法干预目标。

  • 模型:如果V原因U(或者,如果VU两者都是由第三种因素引起的),那么两者之间有关联吗VU可以观察到。然而,当你介入增加U通过一些不涉及的机制V,你的失败也会增加V
  • 例如:想要长得更高的人可能会注意到身高与篮球技能有关,并决定开始练习篮球。

敌对的古德哈特-当你优化代理时,你为对手提供了一个动机去关联他们的目标和你的代理,从而破坏了与你的目标的相关性。

  • 模型:考虑代理一个有不同的目标W.由于它们依赖于共同的资源,WV自然是反对。如果你优化U作为代表V,一个知道这一点,一个是否被激励去做大U值与大W值,从而阻止它们与大相一致V值。
  • 有抱负的NBA球员可能会谎报身高。

关于这个话题的更多信息,请参见Eliezer Yudkowsky的文章,古德哈特的诅咒

注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。