新论文:“转向可转援助学习”

||文件

转向可转让的加强学习Miri 金宝博娱乐Research同胞安德鲁·克克雷德在解决问题中开发了一个新的结果,描述了“转向可转让钢筋学习:在帕累托最优连续决策中转移优先事项。“

文摘:

现有的多目标强化学习(Morl)算法不考虑来自具有不同信念的球员的目标。具体地,考虑两个具有不同信念和公用事业职能的玩家,他们可以合作建造代表他们采取行动的机器。机器的政策将在优先考虑每个玩家的利益随时间优先考虑的表现。

假设玩家达到了普遍了解他们的情况,这篇论文得出了递归,即任何帕累托最优政策必须满足。Two qualitative observations can be made from the recursion: the machine must (1) use each player’s own beliefs in evaluating how well an action will serve that player’s utility function, and (2) shift the relative priority it assigns to each player’s expected utilities over time, by a factor proportional to how well that player’s beliefs predict the machine’s inputs. Observation (2) represents a substantial divergence from naïve linear utility aggregation (as in Harsanyi’s utilitarian theorem, and existing MORL algorithms), which is shown here to be inadequate for Pareto optimal sequential decision-making on behalf of players with different beliefs.

如果AI对齐真的像看起来那样困难,那么不同开发者团队就有足够的理由进行合作并避开种族动态:与一个群体的价值观一致的超级智能和与另一个群体的价值观一致的超级智能之间的差异,与任何一个一致的超级智能和一个不一致的超级智能之间的差异相比,都是微不足道的。正如全球灾难性风险研究所的赛斯·鲍姆指出的那样在最近的一篇论文中

不幸的是,现有关于有益AI的信息并不总是框架良好。一个可能适得其反的框架是将强大的人工智能视为强大的赢者通吃的技术。这一框架在讨论不同AI群体如何争先建造强大AI时是含蓄的(有时是明确的)。这一框架的问题在于,它让一项本应危险的技术看起来是可取的。如果强大的人工智能是一场赢者通吃的技术竞赛,那么人工智能群体就会想要加入这场竞赛,争先恐后地成为第一个赢家。这与强大的人工智能竞赛的讨论通常主张的恰恰相反——他们假定(相当合理地)急于赢得比赛可能会迫使人工智能团队在安全措施上节省,从而增加危险结果的可能性。

而不是将强大的AI框架作为获胜者 - 所有的比赛,而那些关注这种技术的人应该将其框架框架,这是一个危险而鲁莽的追求,这很可能会杀死那些制作它的人。AI群体可能对那些可以归于强壮AI的权力的权力可能有一些愿望,但由于他们可能还希望在过程中丧生。

金宝博娱乐因此,研究人员讨论了宣传武器种族的机制,不应依赖于彻底击败武器种族的理性。然而,经验上,开发人员对对准难度具有广泛的信念。正式解决政策分歧的机制可能有助于为合作和合作创造更明显的激励措施;因此,在开发先进的AI系统可以使用的正式机制方面可能存在一些价值,以产生各方在所有各方的目标(和信仰)之间的简单妥协,并且每个人都喜欢赛车。金宝博官方

克里奇的递归关系提供了一个框架,其中玩家可以谈判共同拥有的AI系统的优先事项,产生比文献中已知的Naïve线性公用事业聚合方法更具吸引力的政策。金宝博官方结果的数学简单性表明在该空间中可能存在其他低悬垂的水果,其将增加并进一步说明协作的价值。克里判断未来工作的六个区域(在论文中更详细地呈现):

  1. Best-alternative-to-negotiated-agreement主导地位。克里奇的结果考虑了具有不同信念的代理人之间的谈判,但不考虑各方可能有不同的巴塔纳斯的可能性。
  2. 针对特定的期望对。一种修改玩家实用程序功能的方法,使这可能对于指定各种公平或稳健性标准,包括Batna优势,这将是有用的。
  3. 贸易的信息。Critch的算法为任何能够更好地预测AI系统输入和输出的贡献者提供了很大的优势。金宝博官方在现实环境中,玩家对彼此的经验和观察缺乏共同的了解,因此代理能够为了获取信息而放弃对系统的某种程度的控制;金宝博官方但目前还不清楚在实践中应该如何进行这类交易。
  4. 学习前沿和实用功能。逼真的智慧比人类AI系统需要随着时间的推移学习其实用功能,例如,金宝博官方通过合作逆钢筋学习.现实的谈判程序需要考虑到开发者的目标是未知的,AI系统的目标是“正在进行的工作”这一事实。金宝博官方
  5. 激励兼容性。用于学习玩家信仰和实用功能的方法还需要激励一个人信仰和目标的诚实代表,或者他们需要强大的尝试游戏系统。金宝博官方
  6. 归化决策理论。该结果中使用的设置假定机器(以及玩家)和外部现实的内部工作之间的分离,而不是将其建模为其环境的一部分。更现实的正式框架将使我们能够更好地模拟彼此的玩家的陈述,开放新的谈判可能性1

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。


  1. 感谢Matthew Graves, Andrew Critch和Jessica Taylor帮助起草这篇文章。