2018年金宝博娱乐研究计划和预测

||米里策略

11月23日更新:这篇文章被编辑以反映Scott的术语从“自然化世界模型”到“嵌入式世界模型关于这四个研究问题的完整介绍,请参阅Scott Garrabrant和Abram 金宝博娱乐Demski的嵌入式代理”。


Scott Garrabrant将接替Nate Soares的工作,预测今年我们在不同研究领域将取得多少进展。金宝博娱乐Scott将MIRI的对齐研究分为五类:金宝博娱乐


嵌入式世界模型- 与缺乏尖锐代理/环境边界的大型复杂物理环境建模相关的问题。该类别问题的中央示例包括逻辑不确定性,归化诱导,多级世界模型和本体危机。

介绍资源:“形式化现实世界的两个问题——模型”、“逻辑不确定性下的推理问题”、“逻辑归纳”、“反光的神谕

近期工作的例子:高级布鲁瓦尔”、“一个Untrollable数学家”、“贝叶斯版的逻辑不确定性的进一步进展


决策理论-对不同(实际和反事实)决策输出的结果进行建模,以便决策者选择结果最好的输出。核心问题包括反事实、不更新、协调、勒索和反思稳定性。

介绍资源:“大马士革死里逃生”、“决策是为了让糟糕的结果不一致”,功能决策理论

近期工作的例子:合作的神谕、“吸烟损伤斯蒂尔曼”(12),“快乐的舞蹈问题”、“作为逆向律法问题解决方案的反思的神谕


强大的代表团-与建立能够被信任以某人的名义执行某些任务的高能力代理有关的问题。中心问题包括矫正、价值学习、知情监督和Vingean反思。

介绍性的资源:价值学习问题”、“可订正”、“完全更新的顺从问题”、“Vingean反射”、“使用机器学习解决人工智能风险

近期工作的例子:分类古德哈特定律的变体”、“指向值的稳定指针


子系统金宝博官方对齐- 与确保AI系统的子系统没有以交叉目的工作的问题,特别是系统避免创建用于针对意外目金宝博官方标的内部子处理。中央问题包括良性诱导。

介绍性的资源:普遍先验到底是什么样子的?”、“优化守护进程”、“建模远超智

近期工作的例子:良性诱导的几个问题


其他-不属于上述类别的对齐研金宝博娱乐究。如果我们在中所述的未决问题上取得进展对齐先进ML系统金宝博官方,“并且进度较少与我们的联系代理基础工作和更多的ML导向,那么我们可能会在这里分类。


以前被我们归类为“逻辑不确定性”和“归化归纳”的问题,现在被称为“嵌入式世界模型”;我们在其他三个类别(“Vingean反射”、“容错”和“价值学习”)中处理的大多数问题都被分组在“健壮的委托”下;我们还介绍了两个新类别,“子系统对齐”和“其他”。金宝博官方

斯科特对2018年2月至12月的预测如下。1表示“有限”进步,2表示“弱到中等”进步,3表示“中等”进步,4表示“中等到强”进步,5表示“相当大”进步。为了帮助理解斯科特的数据,我们还将内特的2015-2017年预测(以及内特和斯科特对我们这些年进展的评估)转化为新的术语。


嵌入式世界模型

  • 2015年进展:5。——预测:3。
  • 2016年进展情况:5。 - 预测:5。
  • 2017年进展:2。——预测:2。
  • 2018年发展预测:3.(温和的)。

决策理论

  • 2015年进展:3。——预测:3。
  • 2016年进展:3。——预测:3。
  • 2017年进展:3。——预测:3。
  • 2018年发展预测:3.(温和的)。

强大的代表团

  • 2015年进展:3。——预测:3。
  • 2016年进展:4。——预测:3。
  • 2017年进展:4。——预测:1。
  • 2018年发展预测:2(weak-to-modest)。

子系统金宝博官方对齐新类别):

  • 2018年发展预测:2(weak-to-modest)。

其他新类别):

  • 2018年发展预测:2(weak-to-modest)。

这些预测是高度不确定的,但应该提供一个大致的感觉,我们计划如何分配研究人员的注意力在未来一年,以及我们有多乐观,我们正在追求的当前的途径。金宝博娱乐

请注意,我们使用的新箱子可能会给我们的预测准确性带来错误的印象。例如,2016年我们没有期望Vingean反思有多大进展,但我们期望价值学习和容错方面有重大进展。相反的情况发生了,这应该算作多次预测失败。然而,因为失败的方向是相反的,而且因为我们现在把大多数Vingean反思、价值学习和容错归为一个类别(“健壮的委托”),我们在上述分类中的2016年预测看起来比实际情况更准确。

使用我们以前的类别,我们对2015-2018的期望和评估将是:


逻辑不确定性+归化归纳 决策理论 Vingean反射 容忍误差 价值规范
2015 - 2017年进展 5、5、2 3, 3, 3 3、4、4 1, 1, 2 1、2、1
预期2015 - 2018 3,5,2,3. 3, 3, 3,3. 3, 1, 1,2 3、3、1、2 1,3,1,1

一般来说,这些预测是基于对某一年最重要结果的重要性的评估——一个大的结果比许多小的结果产生的数字更高。这些评分和预测考虑了我们尚未发表的研究,尽管它们排除了我们预计近期内不会公开的研究。金宝博娱乐