2015年回顾

||米里策略

正如路加在过去几年所做的那样(见2013年回顾2014年回顾),我(Malo)想花些时间才能从去年审查我们的活动。在未来几周内,Nate将提供一个大图片策略更新。在这里,我将在2015年回顾,专注于我们的研究进步,学术和一般外展,筹款和其他活动。金宝博娱乐

2014年有迹象表明,人们对人工智能安全问题的兴趣在上升,我们做了计划培养我们的研究团队。金宝博娱乐被博斯特罗姆的回应所鼓舞超智和生命未来研究所的人工智能的未来“会议,2015年的利息继续增长。这表明我们能够加速我们的计划,但并不清楚迅速。

2015年,随着2014年的卢克所做的,我们没有发布中期战略计划。相反,我们依赖于我们在我们期间提出的资金的各种有条件战略2015年夏季赛季赛车.回应很棒;我们迄今为止最成功的筹款机。我们击中了我们的前两个资助目标(然后还有一些),并制定了一份2015/2016年加速增长计划。

因此,2015年是Miri的一个大年。发布我们后技术议程在今年年初,我们在概述的许多公开问题方面取得了进展,我们的核心研究团队的规模增加了一倍,加强了与行业团体和学者的联系,并提高了足够的资金来维持我们的增长轨迹。金宝博娱乐我们非常感谢我们所有的支持者,如果不可能实现这一进步。

2015年金宝博娱乐研究进展

我们的“将机器智能与人类兴趣相结合的代理基础研究金宝博娱乐议程将开放问题分为三类:高可靠性(包括逻辑不确定性、归化归纳、决策理论和Vingean反思)、容错和价值规范。1Miri在2015年的最高目标是在这些问题上取得进展。

除了逻辑不确定性和归化归纳(取得的进展大于预期)和容错(金宝博娱乐取得的进展小于预期)之外,我们在每个类别中都达到了预期的研究进展。

下面我提供了我们在每个领域的进展的简要总结,以及附加的细节和完整的出版物列表,在折叠的“阅读更多”部分。我们在2015年发表的一些论文是基于2014年或更早的研究,而我们2015年的一些研究结果直到2016年才发金宝博娱乐表(或仍未发表)。在这篇综述中,我将重点关注2015年的新技术发展,而不是2015年之前恰好在那一年出版的材料。

逻辑不确定性和归化诱导

我们期望制造适度的2015年在这两个问题上取得了进展。我很高兴向大家报告尺寸进步。

2015年是我们发展的尾端反光奥克斯,并提前工作“最优估算。”然而,我们今年最重要的研究进展可能是我金宝博娱乐们的成功将逻辑不确定性划分为两个子问题,这发生于2015年底,并于2016年初。

对正确逻辑上不确定推理的一个直观约束是一个人的概率反映了权利要求之间的已知逻辑关系。For example, if you know that two claims are mutually exclusive (such as “this computation outputs a 3” and “this computation outputs a 7”), then even if you can’t evaluate the claims, you should assign probabilities to the two claims that sum to at most 1.

第二个直观的约束是,一个人的概率反映了经验规律。一旦你观察到足够多的π数字,你最终应该会猜出,在π的小数展开中,8和3同样频繁地出现,即使你还没有证明π是正常的

在2015年,我们开发了两种不同的算法来孤立地解决这两个子问题。

与Benya Fallenstein和其他Miri研究人员合作,Scott Garrabrant解决了一系列逻金宝博娱乐辑关系的问题智能代理基金会论坛(IAFF)帖子,导致“归纳连贯“纸。在逻辑句子中尊重观察模式的问题由Scott和TheMirixLOSANGELES.集团”渐近逻辑不确定性与本福德检验“这进一步发展成为”与无限延迟的在线学习中的渐近融合的论文。

这两种处理逻辑不确定性的方法不仅是不相等的,而且似乎相互排斥。显而易见的下一步是研究是否有一种方法可以用一个步骤同时解决两个子问题——2016年我们已经取得了一些进展(即将宣布)。

Miri 金宝博娱乐Research Associate Vanessa Kosoy在他的“最佳估计”框架上的工作代表了一个大型的逻辑不确定性的单独工作组,这也可能具有决策理论的应用。Vanessa的工作尚未正式发布,但它的大部分都可提供在IAFF

我们在逻辑不确定性方面的另一个重要结果是Benya Fallenstein, Jessica Taylor和Paul Christiano反光奥克斯,以2015年之前开始的工作为基础(IAFF消化).当主体试图回答关于同样强大的主体的问题时,反思性预言避免了许多悖论,使我们能够更精确地研究多主体困境和反思性推理。

反光令人反光的袜子在自己的权利中有趣,并证明适用于许多明显的开放问题。反射性奥卡克斯不需要特权的代理/环境区分的事实表明它们是归化诱导的正确方向的一步。Jan Leike最近展示了反思令人反光的奥克斯也解决了博弈论中的长期开放问题,真理问题.反思神谕为博弈论提供了第一个完整的决策理论基础,表明了最大化期望效用的通用方法可以在重复博弈中获得近似的纳什均衡。

综上所述,基于2015年之前的工作,我们2015年的逻辑不确定性和归化归纳论文有:

同年发表的金宝博娱乐2015年研究:

2015年金宝博娱乐2016年或即将出版的2015年研究:

关于IAFF的其他逻辑不确定性工作,请参见个更新的问题子序列感应, 和在修改的DEMSKI之前严格的主导地位

决策理论

2015年,我们在决策理论方面产生了一些新的增量进展,构成适度的进步,符合我们的期望。

在这些进步中,我们发表了Andrew Critch的证据Löb定理的一个版本,以及Gödel的第二个不完备性,对于有界推理者是成立的

Critch应用Löb定理的这个参数有界版本来证明,各种资源有限的软件代理如果能够访问彼此的源代码,可以在一次性囚徒困境中实现不可利用的相互合作。尽管我们考虑了过去强大的合作结果相信有界合作的强大理由是可能的,确认是有用的,并为我们提供了新的正式工具,用于研究有限的推理员。

在此期间,Eliezer Yudkowsky,Benya Fallenstein和Nate Soares还改善了我们对目前有利的决策理论的技术(和哲学)的理解,“功能决策理论”-A略微修改的更新决策理论。

目前,形式化决策理论的最大障碍似乎是,我们缺乏对逻辑反事实的合适的正式解释。逻辑上的反事实问题是“如果”的形式X(我知道是假的)是真的,这会暗示什么(如果有的话)Y这些在决策理论中很重要,一个特例就是政策外的预测。(即使我可以预测我绝对不会采取行动X,我希望能够问,如果我这样做了会发生什么;一个错误的答案可能会导致我接受不合格的自我实现预言,就像透明的纽科姆问题中的两拳。)

在2015年,我们检验了一个与功能决策理论相关的决策理论,基于证明的决策理论,它被证明更容易形式化。我们发现基于证明的决策理论缺乏逻辑反事实是该理论的一个严重缺陷。

我们探索了一些基于长度证明的方法来处理逻辑反事实,并最终拒绝了它们,尽管我们继续对这种方法进行了一些思考。在我们的第一个2015车间,Scott Garrabrant提议关于证明长度和反事实的非正式猜想,随后修改;但是这两个版本的猜想都被山姆·艾森斯塔特(12).(参见斯科特的最佳和因果关系反应性世界.)

在一个单独的研究中,Patrick Lavi金宝博娱乐ctoire和其他人将证明的决策理论框架应用于问题讨价还价的和贸易收益分工。对于IAFF的其他决策理论,见Vanessa和Scott任意博弈中的超理性和阿姆斯特朗的反思性奥克斯和级数:囚犯的困境

我们的github库包含大量的新代码,从我们的工作对模态代理,代表我们最新颖的工作在决策理论在过去的一年。我们有一到两篇正在进行的论文将解释我们通过这项工作在决策理论方面取得的进展。看到可证明逻辑中的“邪恶”决策问题和其他帖子决策理论IAFF文摘以了解模态宇宙的背景知识。

2015年2015年的2015年工作前的工作:

2015年金宝博娱乐2016年或即将出版的2015年研究:

  • 克码。”参数界Löb的定理和有界代理的强大合作arXiv: 1602.04184 (cs: GT)。
  • B Fallenstein。在模态宇宙上正式未发表的结果。
  • 盖拉伯兰特,艾森斯塔特,P拉维克托娃,J李,H戴尔。关于逻辑反事实的正式未发表的结果。
  • 尤多科夫斯基,N苏亚雷斯。关于泛函决策理论的未发表的结果。
Vingean反射

我们预期适度的2015年,我们在这些问题上取得了进展,并且取得了一定的进展。

Benya Fallenstein和Ramana Kumar's“为HOL制作打样反射“演示了一种实用形式的自参考(以及两者的部分解决方案Löbian障碍拖延悖论)在HOL定理箴言中。该结果提供了一些证据表明,推理系统可以相同的方式信任其他推理系统,只要系统具有不同的内部状态。金宝博官方

更具体地说,本文认为,只要推理者不能无限期地委托任何单独的任务,就可以正式地指定一个无限长的推理系统链,使每个系统都信任链中的下一个系统。金宝博官方

除了令人满意的不确定性和逻辑反应性的令人满意的账户之外,MIRI内部有一些内部辩论。在没有完整的逻辑不确定性理论的情况下,是否可能有可能有可能争论是否有任何更好的结果。无论如何,通过机器检查证明,“HOL的证明反射”可以实现显着强大的反射推理形式。

本雅和拉玛纳的工作也为我们提供了一个环境,在这个环境中,我们可以构建更好的反思推理机玩具模型。杰克·加拉格尔,MIRI研究实习生,目前金宝博娱乐在Hol中实施蜂窝自动机这将让我们实现反射代理。

通过申请上述反射岩石框架的结果,我们还改善了对Vingean反思的理论理解。在IAFF帖子中一个极限可计算的自反射分布,助金宝博娱乐理研究员Tsvi Benson-Tilsen帮助巩固了我们对什么样的反射是可能的,什么样的反射是不可能的理解。Jessica,与Benya和Paul一起工作,进一步证明了反思的预言不能轻易地被用来定义反思概率逻辑

2015年2015年的2015年工作前的工作:

同年发表的金宝博娱乐2015年研究:

其他相关的IAFF员额包括一个简单的模型Löbstacle瀑布真理谓词, 和期望反思性和知晓性分布的存在

错误宽容

我们预期适度的2015年这些问题的进展,但我们只制作有限的进步。

在2015年,可修正性是我们的一个中等优先级,我们花了一些努力试图建立更好的可修正代理模型。尽管如此,我们没有取得任何重大突破。我们在修正我们对“可纠正性”的理解上的微小缺陷方面取得了一些进展,这些缺陷反映在我们的大的容错度IAFF消化,斯图亚特·阿姆斯特朗的人工智能控制思想和杰西卡泰勒的文章概述;但这些结果相对较小。

2015年,我们的主要创新是谷歌DeepMind研究员Laurent Orseau和FHI研究员金宝博娱乐/ MIRI研究助理Stuart Armstrong在校正性(“安全可中断的代理),以及对另外两个容错子问题的研究:轻微的优化(杰西卡的Quantilizers亚伯兰Demski的结构风险最小化),保守的观念(杰西卡的只使用正面的例子来学习概念).

2015年2015年的2015年工作前的工作:

  • n飙升,b expenstein,eudkowsky,s阿姆斯特朗。”易燃.” 2014 tech report presented at the AAAI 2015 Ethics and Artificial Intelligence Workshop.

2015年金宝博娱乐2016年或即将出版的2015年研究:

我们未能在浮现方面取得大量进展可能是一个标志,即浮雕并不像我们认为的问题,或者在逻辑不确定性等领域需要更多的进展(这样我们就可以建立更好的AI系统模型,以模仿其运营商的AI系统金宝博官方在我们可以正确地形式化浮雕之前,不确定他们的偏好的影响。

然而,鉴于最近在逻辑不确定性方面的进展,以及我们最近对相关主题的一些有希望的讨论,我们金宝博娱乐对可校正性研究更加乐观讨论会系列:“协同逆强化学习(斯图尔特·罗素的小组)通过价值强化学习避免连线(汤姆·埃弗里特(Tom Everitt)),以及斯图尔特·阿姆斯特朗(Stuart Armstrong)的魔术包里的一些物品。

价值规范

我们预期有限的2015年,我们在这些问题上取得了进展,但进展有限。

去年,价值学习和相关问题对我们来说不是头等大事,所以我们没有看到任何大的进步。

Miri 金宝博娱乐Research Associate Kaj Sotala取得了价值规范,他的焦点,检查了我们核心研究议程之外的几个有趣问题。杰西卡泰勒也开始调查这个问题论研究论坛金宝博娱乐

2015年2015年的2015年工作前的工作:

2015年金宝博娱乐2016年或即将出版的2015年研究:

耐腐蚀剂设计和价值规范将是我们向前展望的更大焦点区域对齐先进的机器学习系统金宝博官方金宝博娱乐研究项目。

杂项

我们发布的技术议程2014年底和2015年初。综述论文,"将机器智能与人类兴趣相结合的代理基础,将于技术奇点在2017年。

2015年,我们也做了一些与代理基金会议程无关的研究。金宝博娱乐本研究主要金宝博娱乐关注预测和策略问题。

2015年2015年的2015年工作前的工作:

2015年金宝博娱乐2016年或即将出版的2015年研究:

从2015年开始,Miri支持的新AI战略/预测研究已经托管了Katja Grace的独立金宝博娱乐人工智能的影响项目。AI影响特色31个新文章和27个新博客文章2015年,关于主题人类智力的范围计算成本趋势

总的来说,我们对2015年的研究成果感到满意,并希望我们的团队能够进一步加快技术进金宝博娱乐步。

2015年金宝博娱乐研究 支持活动

专注于2015年直接发展技术研究界或促进技术研究和合作的活动,我们:金宝博娱乐

  • 推出了智能代理基础论坛一个面向人工智能对齐研究人员的公共讨论论坛。金宝博娱乐2015年金宝博娱乐,MIRI研究人员及其合作者共获得139个IAFF最高职位。
  • 新雇了四个全职研究员。金宝博娱乐Patrick Lavictoire于3月加入3月,杰西卡泰勒于8月,安德鲁·克鲁斯于9月,并于12月在斯科特·瓦拉德兰。随着Nate转向非研究角色,总体而言,我们从一个三人研究团队(El金宝博娱乐iezer,Benya和Nate)增长到六人队。
  • 修改了我们的研究助理项目。金宝博娱乐在2015年之前,我们的研究助理大金宝博娱乐多是无报酬的合作者,在我们的主动研究中有不同程度的参与。在我们成功的夏季筹款活动之后,我们设立了一个带薪职位“研究助理”,让其他机构的研究人员在我们的研究项目上花金宝博娱乐费大量时间。在这个项目中,Stuart Armstrong, Tsvi Benson-Tilsen, Abram Demski, Vanessa Kosoy, Ramana Kumar, Kaj Sotala和Scott Garrabrant(在加入MIRI全职工作之前)都在助理岗位上做出了重要贡献。
  • 雇了三个研究实习生。金宝博娱乐Kaya Stechly和Rafael Cosman致力于打磨和巩固旧的MIRI结果(IAFF的示例),而Jack Gallagher则在类型理论项目(github回购).
  • 获得了两个新的研究顾问,金宝博娱乐Stuart Russell和Bart Selman。
  • 举办了六个夏天讲习班并赞助了三周的活动美里夏天的家伙程序。这些活动有助于造成一些新的学术联系,直接导致美国为两个非常有前途的与会者提供工作:MihályBárász(谁计划在未来的日期加入)和Scott Garrabrant。
  • 帮助组织另外两种学术活动,一个剑桥决策理论会议和一个十周AI对准研讨会系列在加州大学伯克利分校。我们还举办了6个研究静修会,金宝博娱乐赞助了36个米西克斯并在牛津大学发表演讲大图思维研讨会系列。
  • 在其他五场学术活动上发言。我们参加了生命未来研究所的活动“人工智能的未来”大会、AAAI-15、AGI-15、LORI 2015和APS 2015我们也参加了少量的酒

我对我们2015年在发展我们的团队和与更大的学术社区合作方面取得的进展感到兴奋。在这一年里,我们与谷歌DeepMind、谷歌Brain的员工建立了更紧密的关系,Openai.、Vicarious、Good AI、人类未来研究所等研究团队。金宝博娱乐所有这些都让我们能够更好地与其他研究人员分享我们的研究结果、方法和目标,并吸引新的人才参与人工智能对齐工作。金宝博娱乐

2015年将军活动

除了直接的研究支持,2015金宝博娱乐年我们:

尽管我们弱化了外联工作的重要性,但我们仍然希望这些活动有助于更广泛地传播关于MIRI、我们的研究项目和人工智能安全研究的普遍意识。金宝博娱乐最终,我们希望这有助于建立我们的捐助基础,并吸引潜在的未来研究人员(更广泛地面向MIRI和该领域),就像我们过去的推广和能力建设工作一样。金宝博娱乐

2015年筹款

我对我们的筹款表现非常满意。2015年我们:

  • 继续我们强大的筹款增长,共有$ 1,584,109在贡献。3.
  • 已收到166943美元来自未来生命研究所(FLI)的拨款,以及未来两年每年的8万美元。4
  • 尝试了一种新的筹款方式(不匹配,有多个目标)。我认为这些试验是成功的。我们的夏天筹集资金是我们迄今为止最大的募捐活动吗632011美元,和我们的冬天募款活动也顺利,提升$ 328,148

2015年,总贡献增长了28%。这是由于来自新资助者捐款的增加,包括来自匿名资助者的一次性捐款219,000美元,来自FLI的赠款166,943美元,以及来自至少137,023美元为有效的奉献而筹款(reg)与有效的利他主义基金会的遗憾。5由于Peter Thiel在2015年停止了对他的资助,再加上一大笔一次性捐款,他的回头客的捐款减少了离群值捐赠(2013年526316美元,2014年104822美元)。

从这些年度比较的比较结论有点棘手。Miri在这段时间内完成了重大的组织变化,特别是在2013年。我们于2014年转换为基于财计的会计,这也使比较与前几年进行了复杂化。6但总的来说,我们继续看到坚实的筹款增长。

新资金的数量从2014年到2015年下降。在我们的2014年评审, Luke解释了2014年资助者的大幅增长:

2014年新的捐助者增长强劲,虽然这主要来自于此期间的小捐款SV给资金筹集活动.返回捐赠者的很大一部分增长也可以归因于已离职的捐赠者在“SV给与”筹款活动期间做出的小额捐赠。

对比2015年和2013年的数据,我们发现回访资助者的数量和总资助者的数量都在健康增长。

上面的图表显示了过去几年中小、大型和非常大型的资助者的捐款。来自三个最大部分的捐款与去年相比(大约)有一定比例的增长,但来自大资助者的捐款明显例外,从26%增加到31%。我们在小捐款者部分的捐款每年都有小幅度的减少,在2014年的SV giving期间,我们收到了非常多的小捐款。

与往年一样,我们的财务状况完整报告(以独立会计师审阅报告的形式)将于透明度和金融类股页面。该报告很可能在8月底或9月初发布。

2016年及以后

接下来是什么?我们的研究目标是在6个金宝博娱乐重点领域中的5个取得重大进展,2015年7月/ 8月,我们为自己设定了以下运营目标:

  1. 加速增长:“扩展到大约十个人的核心研究团队。”金宝博娱乐(
  2. 类型理论项目中的类型理论:“雇佣一到两个类型理论家专职开发相关工具。”(
  3. 访问学者计划:“夏天举行了感兴趣的教授,而我们夏季薪水并在我们利益重叠的项目上与他们合作。”(
  4. 独立审查:“我们还在研究直接征求独立研究人员对我们的研究议程和早期结果的公众反馈的选项。金宝博娱乐”(
  5. 更高可见性出版物:“今年我们目前的计划是专注于在精英场地生产一些高质量的出版物。”(

2015年,我们将研究团队的规模从3人增加到了6人。金宝博娱乐随着我们研究助理项目的重组和两名研究实习生的增加,我很高兴我金宝博娱乐们在2015年实现了增长。2016年上半年,为了专注于招聘,我们降低了增长的重要性,但我们计划在年底前再次扩张。

我们有一个招聘我们类型理论家的职位,这些职位可能会在我们招聘几名核心研究员后填补。金宝博娱乐在此期间,我们让我们的研究实习生Jack Gallagher在类型理论项目中金宝博娱乐研究类型理论,我们也在2016年4月进行了一次类型理论研讨会

在我们研究顾问的帮助下,我们的访问学者金宝博娱乐项目变成了为期三周的项目讨论会系列.我们不是长期接待少数研究人员,而是短时间接待50多名研究人员,就各金宝博娱乐种活跃的人工智能安全研究项目进行交流。会上的演讲者包括斯图尔特·拉塞尔、弗朗西斯卡·罗西、汤姆·迪特里奇和巴特·塞尔曼。我们还和斯图尔特·罗素合作可订正格兰特

我们的研究计划正在进行外部审查;金宝博娱乐研究结果将在未来几个月公布。

关于我们的第五个目标,除了“为HOL制作打样反射“(在8月下旬在ITP介绍了ITP),我们自从Lori-V(”反光的神谕“),在UAI 2016(”安全可中断的代理“ 和 ”谷物真理问题的形式解“),并在IJCAI 2016工作坊(”价值学习问题”)。在这些场所中,UAI通常被认为比我们过去出版过的大多数场所更有声望。我认为这是朝着在更精英的场所出版的目标所取得的适度(但不是很大)进步。内特会透露更多关于我们未来出版计划的信息。

进一步阐述我们的计划将使我超出这次审查的范围。在接下来的几周内,Nate将在MIRI战略的大框架中提供更多关于我们2016年活动和未来目标的细节。7


  1. 本文最初标题为“与人类兴趣的对齐的超明。”我们重命名为强调,这项研究议程采取了对对齐问题的具体方法,其他方法也是可能的,相关的,杰西卡泰勒的金宝博娱乐新“高级机器学习系统对齐金宝博官方“ 议程。
  2. 我(Bourgon不全)最近担任MIRI的新首席运营官和副总裁。
  3. 其中80,480美元被指定用于人工智能影响项目。
  4. MIRI正在管理三项FLI资助(并参与了第四项)。我们将在三年内获得25万美元,用于资助我们的代理基金会的技术议程工作,49310美元用于AI impact,我们将管理Ramana的36750美元,与Benya合作研究HOL定理证明中的自我参考。
  5. 这只计算通过REG对MIRI的直接贡献。REG对MIRI的支持可能接近20万美元,如果考虑到REG对资助者的建议而直接向MIRI提供的捐款。
  6. 另请注意,本节中的数字可能与先前已发布的估计不完全匹配,因为通常对数据进行小的校正来贡献数据。最后,请注意,这些数字不包括实物捐赠。
  7. 我要感谢Rob Bensinger为这篇评论所做的大量贡献。