新论文:“授权强化学习”

||论文

Delegative强化学习MIRI的金宝博娱乐研究助理Vanessa Kosoy写了一篇新论文,授权强化学习:学会在一点帮助下避免陷阱Kosoy将在2019年ICLR上展示该论文SafeML车间在两个星期。抽象的写着:

最广为人知的强化学习的后悔界限要么是偶发的,要么是假设一个没有陷阱的环境。通过允许算法偶尔将一个动作委托给外部顾问,我们得出了一个遗憾边界,而不做任何假设。因此,我们得到了一套主动的基于单一模型的强化学习,我们称之为DRL(委托强化学习)。

为了证明遗憾界,我们构造的算法是后验抽样强化学习的一个变种,由一个子程序来决定哪些行为应该被委派。该算法不是随时的,因为参数必须根据目标时间折扣进行调整。目前,我们的分析局限于假设、状态和行为数量有限的马尔可夫决策过程。

Kosoy在DRL上的工作目标是让我们深入了解具有人在回路中的学习系统和正式的性能保证,包括安全保证。金宝博官方DRL通过提供可以获得此类性能保证的模型,试图将我们推向这个方向。

虽然这些模型仍然做出了许多不切实际的简化假设,但Kosoy认为DRL已经捕捉到了问题的一些最基本特征,并且她对这个框架如何进一步发展有一个相当雄心勃勃的愿景。

Kosoy之前在文章中描述了DRL委派一个理智的顾问来强化学习。本文中描述的DRL Kosoy的一个特征是DRL的应用腐败。给定一定的假设,DRL可以确保正式代理的奖励或建议通道永远不会被篡改(损坏)。作为一种特殊情况,代理自己的顾问不能导致代理进入腐败状态。类似地,“委托强化学习”中描述的从陷阱中得到的一般保护也保护了个体不受有害的自我修改的伤害。

另一组DRL结果没有出现在论文中是使用DRL减轻灾难。在这个变体中,DRL代理可以减轻advisor自己无法减轻的灾难——这是标准DRL中对advisor的更严格的假设所不支持的。

注册获得新的MIRI技术结果的更新

每发表一篇新的技术论文就会得到通知。