新论文:“先进机器学习系统对齐”金宝博官方

||文件

高级机器学习系统对齐金宝博官方MIRI的研究金宝博娱乐迄今为止集中在我们在我们的2014年底研究议程金宝博娱乐,特别是正式化最佳推理有界的反光的决策理论代理人嵌入他们的环境中.自那以后金宝博娱乐,我们的研究团队发展迅速,我们在这个议程上取得了实质性进展,包括在逻辑不确定性方面的重大突破,我们将在未来几周宣布。

今天我们宣布了一个新的研究议程,”金宝博娱乐高级机器学习系统对齐金宝博官方“今后,我们大约一半的时间将花在这个新议程上,另一半时间将花在以前的议程上。抽象的写着:

我们围绕一个问题调查了八个研究领金宝博娱乐域:随着学习系统变得越来越智能和自主,什么设计原则可以最好地确保它们的行为符合操作者的利益?金宝博官方我们关注两个主要技术障碍AI对齐:挑战的指定合适的目标函数,设计人工智能系统的挑战,甚至避免意想不到的后果和不良行为的情况下目标函数不完全与设计者的意图。金宝博官方

本研究提案中调查的公开问题包括:我们如何培训加强学习者采取智能金宝博娱乐大专以来更可用的行动,以便通过智能大声展示什么样的客观函数激励一个系统“没有过度大的影响”或“没有许多副作用”?金宝博官方我们讨论了以下研究的这些问题,相关工作和潜在的指示,其目的是突出显示当今易易行的机器学习中的相关研究主题。金宝博娱乐

由Jessica Taylor, Eliezer Yudkowsky, Patrick LaVictoire和Andrew Critch共同撰写,我们的新报告讨论了8条新的研究线(金宝博娱乐以前总结了)。下面,我将解释这些问题背后的理由,以及它们如何与我们的旧研究议程和新的“金宝博娱乐人工智能安全的具体问题谷歌Brain的达里奥·阿莫代(Dario Amodei)和克里斯·奥拉(Chris Olah)率先提出的议程。

通过减少自主性来提高安全性

前三个研究领域集中于相关问题金宝博娱乐基于ACT的代理商,基于其用户的短期乐器金宝博官方偏好基于其行为的名义系统:

1。归纳模糊识别:我们如何培训ML系统来检测和通知我们测试数金宝博官方据的分类从训练数据中的高度确定的情况?

2。强大的人体模仿:我们如何设计和培训ML系统,以有效地模仿从事复杂和困难的任务的人金宝博官方?

3。知情监督:我们如何培养强化学习系统,以采取援助智能监督,例如人类的行动,以准确评估系统的表现?金宝博官方

这三个问题在不同的方式触摸,我们可以在能力/自主和安全之间进行权衡。在一个极端,一个完全自主的超级能干的系统将使它难以建立任何强大的安全保证。金宝博官方我们可以通过仍然合理聪明和自主的建立系统来减少风险,但在其行动特别高风险的情况下,将金宝博官方暂停才能咨询运营商。含糊的识别是肉体的一种方法,可以搞清楚哪种情景是“高风险”:系统迄今为止的经历是不知情的,关于它正在努力学习的某些事实或人类价值。金宝博官方

在相反的极端,我们可以考虑毫无比他们的用户更聪明的ML系统,并采取金宝博官方没有除了以外的行动他们的用户会做什么, 或者他们的用户会告诉他们做什么.如果我们能正确地设计一个系统,让它做它认为一个可信的、知情金宝博官方的人类会做的事,我们就可以用一些先进的ML系统的潜在好处来换取更温和的故障模式。

这两个极端,人类模仿和(大多数)自主目标追求是有用的研究对象,因为它们有助于简化和修理问题的关键部分。然而,在实践中,歧义识别可能对自己的限制可能太温和,并且严格的人类模仿可能没有有效可实现。知情监督考虑更温和的方法来保持循环中的人类:设计更透明的ML系统,帮助运营商理解所选行动背后的原因。金宝博官方

提高安全性而不减少自主权

无论我们如何通过循环人类进入AI系统的决策,我们还想提高系统的可靠性,因为监督不可行。金宝博官方我们的其他五个问题侧重于提高自主追求现实世界目标的系统的可靠性和误差,从坚固且可靠的方式指定这些目标的问题:金宝博官方

4.可概括的环境目标:我们如何创建强大地追求环境中定义的目标金宝博官方的系统,而不是直接在其感官数据方面定义?

5.保守的观念:如何培训分类器,以开发排除高度非典型示例和边缘案例的有用概念?

6.影响措施:什么样的常规方向激活了一个系统,以追求最小的副作用?金宝博官方

7.温和优化:我们如何设计追求目标的系统“而不尝试太金宝博官方努力” - 当目标相当艰难地实现时,而不是为了实现绝对的最佳预期评分的方法,而不是消耗进一步的资源?

8.避免工具性动机:我们如何设计和培训系统,以便他们强大地缺乏默认的动力来操纵金宝博官方和欺骗他们的运营商,争夺稀缺资源等?

虽然歧义 - 识别学习者旨在预测它们可能遇到的潜在方式,但在这些情况下,保守学习者在边缘案例中以安全方向设计为误操作。如果烹饪机器人注意到冰箱被衡量,应该试图煮猫吗?歧义识别方法称,注意答案“是猫粮?”不清楚,并暂停咨询人类运营商;保守的概念方法说,为了烹饪机器人来说,不确定的案件,猫不是食物的不确定案件。然而,它仍然尚不清楚,如何将这种推理形式正式化。

影响措施为限制AI灾难的潜在范围提供了另一种途径。如果我们能够定义一些“影响”的衡量标准,我们便能够设计出能够直观区分高影响行动与低影响行动的系统,并选择低影响选项。金宝博官方

或者,代替设计系统尽可能地尝试具有低影响力,我们可能会设计“轻度”系统,金宝博官方这根本不努力做任何事情。限制资源系统将投入其决定(通过温和优化)与限制系统金宝博官方将决定导致的多大变更(通过影响措施);两者都受到探索的风险降低方法。

最后,我们将探讨各种不同的方法,以防止违约系统激励在“verting工具激励措施”伞类别上对待运营商。金宝博官方我们希望同时追求所有这些研究方向,即组合这些功能的系统将允许比实施其金宝博娱乐中任何一个的系统更高的置信度。金宝博官方这种方法也可以作为一个对冲,以防一些这些问题在实践中无法解决,并且允许在一个问题上运作良好的想法,以便重新应用于其他问题。

与其他研究议程的联系金宝博娱乐

我们的新技术议程,我们2014年的议程,以及”人工智能安全的具体问题“采取不同的方法对对齐人类利益的AI系统的问题,尽管他们提出的研究方向之间存在公平的重叠。金宝博娱乐金宝博官方

我们将2014年的日程改为用于将机智与人类兴趣的代理基础“(从”与人类兴趣的“对齐的高度对齐”)来帮助突出它的方式,并没有与我们的较新的议程相似。出于我们讨论的原因预先公布“先进机器学习系统的对准”,我们的新议程旨在帮助更多的方案,其中先进的AI相对接近,而是金宝博官方从当代ML技术中相对直接下降,而我们的代理基金会议程更具关于何时以及先向AI的何时何种侵害开发。

正如我们最近写道,我们认为开发一个高度可靠的推理和决策的基本形式理论”可以得到很强的保证先进的人工智能系统的行为——比许多目前认为是可能的,在当时最成功的机器学习技术往往知之甚少。”金宝博官方如果没有这样的理论,人工智能对齐将是一项更加困难的任务。

“AI安全中的具体问题”写作,他们自己的重点“是在现代机器学习系统中实际安全问题的实证研究,我们相信在众多潜在的风险方面可能会强大地有用金宝博官方- 长期。“他们的论文讨论了与ML议程(或密切相关的一项)的对齐情况相同的问题,但是在现有的工作和在当天系统中寻找应用程序,以更多地指导。金宝博官方

代理基金会的议程可以说遵循这样的原则:“从人们最不了解的长期人工智能安全问题开始,因为这些似乎需要最多的工作,而且最有可能严重改变我们对整体问题空间的理解,“具体问题议程遵循原则”,从目前最适用于系统的长期人工智能安全问题开始,金宝博官方因为这些问题最容易与人工智能研究领域的现有工作联系起来。”金宝博娱乐

Taylor等人的新议程更多地关注于“人工智能安全的具体问题”,而不是当前和近期的系统,但与代理基金会议程相比,更侧重于ml。金宝博官方这个图表帮助映射代理基金会议程(纯文本)和具体问题议程(斜体),并对ML议程的对齐(大胆的)讨论:

与高可靠性相关的工作

  • 现实世界型号〜可概括的环境目标避免奖励黑客
    • 归化诱导
    • 本体标识
  • 决策理论
  • 逻辑不确定性
  • Vingean反射

与容错相关的工作

  • 归纳模糊识别=歧义识别〜分配变化的稳健性
  • 强大的人体模仿
  • 知情监督可伸缩的监督
  • 保守概念
  • 影响措施=家庭性〜避免负面副作用
  • 轻微的优化
  • 避免工具激励措施
  • 安全探索

“〜”注意(有时非常粗糙)相似之处和通信,而“=”则为相同的概念注释不同的名称。

作为一个例子,“现实世界模型”和“普遍的环境目标”都是为了使加强学习形式主义的环境和目标表示,如艾西更加强大,两者都可以被视为避免奖励黑客的特定策略。我们根据代理基金会的工作议程主要集中在没有明确的代理/环境边界(归化归纳)的环境中的正式模型,而我们根据新议程的工作将更多地关注承认世界模型的建设金宝博官方规范是环境而不是简单的感知(本体鉴定)。

为了满足这些研究主题的关系,看金宝博娱乐Taylor等人的论文


注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。