CSRBAI关于偏好规范谈判

||新闻视频

我们上传了最近的第三组视频坚固且有益的AI上的Colloquium系列(CSRBAI),与人类未来研究所共同主办。这些讨论是本周的一部分,重点是AI系统中的偏好规范,包括确定安全和有用的目标的难度,或确定学习人类偏好的安全和有用的方法。金宝博官方所有发布的视频都可以在CSRBAI网页

汤姆·埃维里特他在澳大利亚国立大学读博士,谈到了他的论文。避免使用价值强化学习的连线,与马库斯·哈特(Marcus Hutter)合著。幻灯片).文摘:

我们如何为任意智能的代理设计好的目标?强化学习(RL)似乎是一种自然的方法。不幸的是,RL不适用于一般的智能代理,因为RL代理被激励为了获得最大的报酬而缩短奖励传感器的速度——这就是所谓的连线问题。

在本文中,我们提出了一种替代RL的方法,即价值强化学习(VRL)。在VRL中,agent使用奖励信号来学习效用函数。VRL的设置允许我们通过对代理的行为设置一个约束来消除对电线接头的激励。约束是根据代理的信念分布定义的,不需要明确说明哪些动作构成了连线。我们的VRL代理为RL代理提供了控制的方便性,并避免了布线的激励。

迪伦Hadfield-Menell一位加州大学伯克利分校的博士生,谈到了设计可纠正的,但功能强大的人工代理(幻灯片)在该论文的后续文章中。协同逆强化学习演讲摘要:

一个人为的代理人是可矫正的,如果它接受或协助外界矫正其目标。至少,一个可修复的代理应该允许它的程序员关闭它。如果一个人工代理能够执行非琐碎的任务,那么它就是功能性的。例如,一台能立即自动关机的机器是无用的(除非是一件新奇的物品)。

在一个标准的强化学习主体中,这些行为的动机本质上是不一致的。代理要么希望被关闭,要么希望继续存在,要么两者之间保持中立。在这些选择中,冷漠是唯一安全和有用的选择,但我们有理由相信,这对代理人的激励是一个强有力的条件。在这次演讲中,我将提出一种可修复的,但具有功能性的代理的设计,作为一个双人合作游戏的解决方案,在这个游戏中,机器人的目标是使人类的奖励最大化。

我们对博弈的解决方案进行均衡分析,并确定三个关键属性。首先,我们证明,如果人类的行为是理性的,那么机器人将是可矫正的。其次,我们证明了如果机器人对人类的偏好没有不确定性,那么如果人类稍微次优,机器人就会无可救药或无法工作。最后,我们分析了高斯设置,并将其充要条件刻画为机器人对人类偏好的信念和人类不理性程度的函数,以保证机器人是可修正的和功能性的。

Jan Leike他谈到了一般强化学习(幻灯片).文摘:

一般强化学习(GRL)是指在非马尔可夫、非遍历、仅部分可观察的未知环境中行为主体的理论。GRL可以作为强人工智能的模型,并被广泛用于研究人工智能安全相关问题。我们关注的不是实用算法,而是根本的潜在问题:我们如何平衡探索和开发?我们如何优化探索?什么时候代理是最优的?概述了该模型目前存在的不足,并指出了今后的研究方向。金宝博娱乐

Bas Steunebrink谈到了基于经验的AI、理解、意义和价值观(幻灯片).摘录:

We will discuss ongoing research into value learning: how an agent can gradually learn to understand the world it’s in, learn to understand what we mean for it to do, learn to understand as well as be compelled to adhere to proper values, and learn to do so robustly in the face of inaccurate, inconsistent, and incomplete information as well as underspecified, conflicting, and updatable goals. To fulfill this ambitious vision we have a long road of gradual teaching and testing ahead of us.

对于第2周关于健壮性和容错的视频的概述,请参阅我的以前的博文.关于整个活动的总结,以及斯图尔特·罗素、艾伦·芬和弗朗西斯卡·罗西的开场演讲视频,请参阅我的第一篇博文