新论文:“CIRL框架中的不可矫正性”

||论文

CIRL框架中的不可纠正性

MIRI助理研究员瑞安·凯里发金宝博娱乐表了一篇新论文,讨论了表现良好的情况协同逆强化学习(CIRL)任务并不意味着软件代理将协助或合作程序员。

这篇题为《CIRL框架中的不可纠正性,列出了CIRL违反的四种情况可订正中定义的Soares等人(2015).文摘:

价值学习系统有遵循关机指令的动机,金宝博官方假设关机指令提供了关于哪些操作会导致有价值结果的信息(在技术意义上)。然而,这种假设对于建模错误规范(例如,在程序员错误的情况下)并不可靠。我们通过展示一些有监督的POMDP场景来证明这一点,在这些场景中,参数化奖励函数中的错误消除了遵循关闭命令的动机。这些困难与Soares等人(2015)在他们关于修正性的论文中讨论的困难相似。

我们认为,在一些较弱的假设(例如,一个小的经过验证的模块是正确实现的;金宝博官方而不是完整的先验概率分布和/或参数化的奖励函数)。我们用简单的方法讨论了一些困难,试图在一个价值学习框架中实现这些保证。

这篇论文是对Hadfield-Menell, Dragan, Abbeel和Russell的论文的回应,开关的游戏哈德菲尔德-梅内尔等人的研究表明,当人工智能系统对其奖励功能不确定并认为人类操作员掌金宝博官方握了更多关于奖励功能的信息时,它将对人类的输入做出更积极的反应。Carey证明了CIRL框架可以用于形式化校正性问题,并且已知的CIRL系统的保证,在“Off-Switch Game”中给出,依赖于关于有一个无错误的CIRL系统的强假设。金宝博官方在不那么理想化的假设下,一个价值学习主体可能会有信念,导致它逃避从人类身上重定向。

关机按钮的目的是关闭AI系统金宝博官方如果其他保证都失效了,例如,在AI系统忽略(出于某种原因)操作员的指示的情况下。金宝博官方如果AI系统的设计师金宝博官方R将系统编程得如此完美,以至于先前的和[奖金宝博官方励功能]R完全没有bug,那么Hadfield-Menell等人(2017)的定理确实适用。在实践中,这意味着为了能够修正,我们必须拥有一个对于所有可能重要的事物都不确定的AI系统。金宝博官方问题是,对所有可能的世界和所有可能的值函数执行贝叶斯推理是相当棘手的。实际上,为了实现系统的信念系统和更新规则,人类可能不得不使用大量的启发式和近似方法。金宝博官方[…]

Soares等人似乎想要一个关机按钮作为最后的手段,在AI系统观察到并拒绝了程序员的建议(而程序员认为系统出现了故障)时关闭AI系统。金宝博官方很明显,一些系统的一部分必须正常工作金宝博官方,这样我们才能期望关机按钮完全工作。然而,依赖于系统先前的规范、奖励功能的规范、不同行动类型的分类方式等方面的零严重错误,按钮的工作似乎并不可取。金宝博官方相反,我们希望开发一个小而简单的关闭模块,其代码在理想情况下可以经过严格验证,并且在理想情况下可以关闭系统,即使在系统其余部分的规范中出现大型程序员错误。金宝博官方

为了在一个价值学习框架中做到这一点,我们需要一个价值学习系统(i)能够让它的动作被一个小的验证模块覆盖,该模块监视关闭命令;金宝博官方(ii)没有移除、损坏或忽略关闭模块的动机;(3)有一些保持关闭模块的小动机;即使在很多情况下R、先前的、可用操作集等都是错误指定的。

即使学习了效用函数,仍然需要额外的防线来防止意外的失败。我们希望通过模块化人工智能系统来实现这一目标。金宝博官方为了达到这个目的,我们需要一个代理的模型,该模型将以一种可以修正的方式行为,这种方式能够健壮地纠正对其他系统组件的错误规范。金宝博官方

注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。