具有机器学习焦点的新的金宝博娱乐Miri研究计划

||Miri战略

我很乐意宣布Miri正在开始新的研究议程,“金宝博娱乐高级机器学习系统的值对齐金宝博官方。“Miri的团队 - Patrick Lavictoire,Andrew Chitch,我 - 将在明年至少在这个项目上花费大部分时间。我们的其余时间将在我们的预先存在下金宝博娱乐研究议程

Miri的研究金宝博娱乐通常可以被视为对斯图尔特罗塞尔对人工智能研究人员的问题的回应:“如果我们成功了什么?“似乎似乎是设计具有坚固且可靠的高级AI系统的理论前提条件,我们的研究旨在提前开发它们。金宝博娱乐金宝博官方

我们的一般研究议程是不可金宝博娱乐知论的,当AI系统可能与一般推理能力相匹配并超过人类时,以及这些系统是否将金宝博官方类似于当今机器学习(ML)系统。近年来深入学习的令人印象深刻的进步表明,相对简单的神经网络启发方法可能是非常强大和一般的。因此,我们正在进行初步询问更具体的子项源:“如果在ML中的当今工作中的特性类似的技术如何成功创建AGI?“。

这项工作的大部分都将旨在提高我们的高水平理论认识任务定向AI。与尼克博斯特拉姆呼叫“Sovereign AI”不同,试图以长期和大规模的方式优化世界,任务AI仅限于执行有限范围的指示任务,满足但不会最大化。我们希望从ML的角度调查任务AI,将有助于提供有关任务AI的可行性以及早期安全工作的可行性以及高级监督,无监督和加强学习系统的易行动。金宝博官方

为此,我们将首先调查八个相关的技术问题:


1。归纳模糊性检测。

我们如何设计ML系统(例如分类器)的一般方法,以识别测试实例的分类是否通过培训数据确定?金宝博官方

例如:如果歧义检测分类器旨在区分从非坦克的图像的坦克图像,并且训练集仅包含在阴天和非坦克上的坦克图像,而这个分类器应该检测到在阳光灿烂的日子上对坦克的图像进行分类是模棱两可的,为其运营商带来一些查询来消除它并避免错误。

虽然过去和目前在积极学习和统计学习理论中的工作更广泛地取得了这一目标,但在复杂环境中的部署之前,需要更多的工作来建立现实世界系统的错误率和查询率的现实统计学范围金宝博官方。

2。知情监督。

我们如何培训强化学习者来输出一个动作和“报告”,包括信息,以帮助人类评估其行动?

例如:如果人类试图培训加强学习者以输出原始故事,那么在评估故事时,人类将想知道有关故事的一些信息(例如它是否已从另一个故事中抄袭)可能是难以通过看故事本身来确定。

3。人体模仿者的安全培训程序。

我们如何设计一个ML系统,它模仿人类执行一些涉及丰金宝博官方富的产出的任务(例如在ML系统的能力中获得富裕的产出(例如在自然语言中的问题)?

虽然存在仿制学习和生成模型的现有方法,但这些缺点可以防止它们完全解决一般问题。特别是,对人类行动培训的生成的对抗性模型仅具有激励对敌人可以检测的人类的方面来模仿;因此,可以出现类似于(2)的抄袭问题的问题。

4.保守概念。

我们如何设计一个系统,给定概念的一些积极示例金宝博官方,可以合成概念的新实例而不合成边缘案例?

例如:如果我们将系统详细信息提供了大约100人创建的卷饼金宝博官方作为培训数据的详细信息,它应该制造额外的墨西哥卷饼,同时避免边缘情况,例如极小的墨西哥卷饼(即使这些仍然可以被视为卷饼)。

默认情况下,大多数客观函数将导致这种边缘案件(例如,因为小墨西哥卷饼更便宜)。我们可以开发一种避免这个问题的一般技术吗?

5。使用感官数据指定环境目标。

大多数ML系统的目标是在感官数据方面定义,金宝博官方例如随着时间的推移折扣奖励。虽然这些感官目标可以是环境目标的有用代理,但它们与他们不相同:欺骗自己的传感器对房间里的草莓的感知并不像实际上有一个那里的草莓。我们如何创建直接在其环境中追求有用目标的金宝博官方系统,例如“在这个房间里有草莓”,这种方式对于系统干扰我们用于指定目标的代理的机会是强大的?

6。低冲击剂。

我们更倾向于避免以高度智能的任务为导向的系统,以追求追求其目标的大量无意识的副作用,并通知我们可能因实金宝博官方现目标而导致的任何巨大影响。For example, if we ask it to build a house for a homeless family, it should know implicitly that it should avoid destroying nearby houses for materials — a large side effect — while still having the desirable large follow-on effect of improving the family’s socioeconomic situation. For any具体的任务我们可以为附近的房屋销毁等副作用指定ad-hoc成本函数,但由于我们不能总是预测此类成本,我们希望对如何定量了解如何一般来说限制AI的副作用(没有限制其具有大的积极意向影响的能力)。

7。轻度优化。

In the event that the low impact criteria we employ in (6) are flawed or missing some key considerations, we would like some way to tell our system “don’t try too hard” or “don’t exercise too much optimization power”, since intuitively, large impacts are more likely to result from large efforts (although the correspondence is imperfect).

能力的AI系统往往不太可能具有大金宝博官方量意外的副作用,并且我们想知道如何以类似的方式制作高度能力的系统,使它们申请更少的“努力”。随着我们对“努力”概念的令人满意的编码,我们可以编制一个系统来对其总努力施加绝对限制,或者仅使用尽可能多的努力来实现其目标,以合理高的概率,因此可能限制了影响金宝博官方我们没有设法衡量(6)。

8。避免乐器压力。

我们如何设计一个没有动力追求某些系统的系统金宝博官方收敛乐器目标- 如获得额外资源 - 即使在追求这些目标也会有助于实现其主要目标?

特别是,我们不妨建立一个系统金宝博官方没有动机导致或防止自己的关机/悬架。这与(6)和(7)涉及“确保我的持续运行”这样的乐器压力可以激励大量影响/努力。然而,这是一个不同的议程项目,因为即使在解决方案到(6)和(7)之前也可能完全消除某些工具激励措施。


已经确定了这些兴趣的主题,我们希望我们对此议程的工作要及时。“强大而有益“由于机器学习中的新一波突破,最近获得了更多的关注。该项目的理论工作与AI和ML的领先范例有比明显的联系,例如我们最近的工作逻辑不确定性或者博弈论,因此最好在不久的将来与AI / ML研究人员合作更好。金宝博娱乐


感谢Eliezer Yudkowsky和Paul Christiano为这些研究方向的许多初始想法,帕特里克·瓦特奥尔,安德鲁·克鲁克和其他Miri研究人员帮助发展这些想法,以及克里斯奥拉,达金宝博娱乐里奥·阿莫迪和雅各布Steinhardt为宝贵的讨论。