新论文:“安全可中断代理”

||论文

安全可中断的代理DeepMind研究科学家Lau金宝博娱乐rent Orseau和MIRI研究助理Stuart Armstrong写了一篇关于容错代理设计的新论文。安全可中断的代理该论文将于第32届人工智能不确定性会议

文摘:

与现实世界这样的复杂环境交互的强化学习主体不太可能始终表现最佳。如果这样一个代理的操作实时在人类的监督下,现在它可能是必要的对于人类操作员按下红色按钮为防止代理在一个有害的actions-harmful序列为代理或铅代理到一个安全的环境和情况。然而,如果学习代理期望从这个序列中获得奖励,它可能会长期学习以避免这样的中断,例如禁用红色按钮——这是不可取的结果。

本文探讨了一种确保学习型agent的学习意愿的方法学会防止(或寻求!)被环境或操作者打断。我们提供了安全可中断性的正式定义,并利用非策略学习属性来证明某些代理已经是安全可中断的,如Q-learning,或者可以很容易地实现,如Sarsa。我们证明,即使是理想的、不可计算的强化学习代理对于(确定性的)一般可计算环境也可以被安全地中断。

奥索和阿姆斯壮的论文构成了一个新的攻角可订正.一个可纠正的代理是指承认自己有缺陷或正在发展,并帮助其经营者维持、改进或替换自己,而不是抵制这种尝试的代理。

在超级智能人工智能系统中,纠错主要是为了避免不安全金宝博官方收敛的工具性的政策当这些系统有不正确的最终目标时(例如,保护当前目标系统不受未来修改的政策)。金宝博官方这就给我们提供了更多的空间去近似地、反复试验和基于学习的AI解决方案价值规范

可中断性是一种将可修正性这一直观概念正式化的尝试。效用无差异(在苏亚雷斯、法伦斯坦、尤多科夫斯基和阿姆斯特朗的“可订正)是一个过去试图定义不同的修正性的例子:系统对程序员修改其最终目标的干预漠不关心,因此将避免试图强迫他们的程序员做出这样的修改或避免这样的修改。金宝博官方“安全可中断代理”则试图定义与程序员修改它们的干预无关的系统金宝博官方政策并且不会试图阻止程序员干涉他们的日常活动(也不会试图阻止程序员干涉他们的日常活动)他们干预)。

这里的目标是,如果代理认为未来不会有中断,则使代理的策略收敛到最优策略。即使代理在过去经历过中断,它也应该像永远不会经历任何进一步的中断一样行动。Orseau和Armstrong证明了几种代理是安全可中断的,或者可以很容易地使其安全可中断。

进一步阅读:


注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。