2013年回顾:友好人工智能研究-机器智能研究所金宝博娱乐

这是我个人和定性的第四部分2013年MIRI的自我回顾在其中，我回顾了MIRI 2013年的友好人工智能(FAI)研究活动。金宝博娱乐¹

2013年的友好AI研究金宝博娱乐

2013年初，我们决定将我们的重点从研究和公众推广转向更专一地关注FAI技术研究金宝博娱乐。结果大致相同面向公众2013金宝博娱乐年的固定资产投资研究是过去所有年份的总和。
此外，我们的研讨会成功地确定了招聘候选人。我们预计在2014年上半年招聘两名2013年研讨会参与者。
在2013年，我学到了很多关于如何创建FAI研究所和FAI研究领域的东西。金宝博娱乐特别是……
MIRI需要吸引更多有经验的参加者。
许多FAI研究可以金宝博娱乐由广泛的社区完成，而不需要被贴上FAI研究的标签。但是，当研究人员自己把这项研究看作固定收益研究时，固定收益研究取得了更多的进展。金宝博娱乐
沟通风格很重要。

转向友好型人工智能研究金宝博娱乐

从2000年MIRI成立到我们的2013年初的战略转变，²我们做了一些调查金宝博娱乐多公众宣传(例如奇点峰会和序列）．^3.在2013年初，我们决定已经做了足够的拓展和运动建设，我们可以富有成效地转向主专注于研究，特别是金宝博娱乐友好的AI研究。

我们面临的任务基本上是创建一个新的FAI研究机构金宝博娱乐(以前主要是一个外联组织)，然后开创了FAI研究的新领域金宝博娱乐．关于如何实现这些目标(见下文)，我们还有很多需要学习的地方。

我们最初的步骤是(1)举行一系列金宝博娱乐研究研讨会(2)向潜在的研究合作者描述友好人工智能理论中的开放问题。金宝博娱乐我们的研讨会和开放问题的描述是针对特别是三个目标．我们希望他们:

帮助我们确定MIRI应该雇佣全职从金宝博娱乐事友好人工智能理论的研究人员，
让更多的研究人员接触到友好的人工智能金宝博娱乐研究议程，以及
在友好AI的开放问题上刺激具体的进展。

首先，我将介绍我们2013年的Friendly AI研究活动。金宝博娱乐在那之后，我会回顾我认为这些结果有多好，以及我从中学到了什么。

的研讨会

我们一周的成功为研讨会的策略提出了建议2012年11月车间，这是一个只有4名研究人员参与的实验，产生了“金宝博娱乐论概率逻辑中真理的可定义性．”

我们的2013年第一次工作坊我们试图通过召集尽可能多的人来解决尽可能多的未决问题，以便快速了解哪些问题最容易解决，哪些研究人员在未来最有可能做出贡献。金宝博娱乐它包括12名参与者，持续了3周，尽管(由于日程限制)只有5名研究人员参与了整个研讨会。金宝博娱乐我们对研讨会的参与者了解很多，特别是三个问题显示出了最大的进步:克里斯蒂安诺的“可定义性的真理“框架，LaVictoire的”强有力的合作“框架和Fallenstein的”参数多态性的方法。Löbian自我修改系统的障碍金宝博官方．这次研讨会的成功鼓励我们举办更多这样的研讨会，尽管规模较小，研究重点更紧密。金宝博娱乐

我们的下一个车间2013年7月，共有8人参加，为期一周。它关注的是与逻辑全知和Löbian障碍/自我反思代理相关的问题，每天的进展比四月的研讨会要少。它的主要结果描述在一个博客与会者Abram Demski。

我们的9月车间而是专注于决策理论。这项研究有11名参与者，持续了一周。与会者在LaVictoire强有力的合作框架的基础上，对该地区的“适定问题”进行了头脑风暴，在正规化方面取得了一些进展updateless决策理论，并制定了额外的玩具问题，如最终纽科姆的问题．

我们的11月车间是我们在伯克利以外举办的第一个研讨会。FHI在牛津大学盛情接待我们与7月的研讨会一样，这次研讨会的重点是逻辑全知和自我反思。共有11名参与者，持续了一周。11月的理论进展流入了我们的进展12月车间(相同的主题，13个参与者，一周)，这是在7份新技术报告．

其次,一些基本统计信息：

2013年，我们举办金宝博娱乐了5次研修班，除了一次都是一周。
这些研讨会有35名独特的研究人员参加，外加7名第一天的访客(例如:金宝博娱乐汉斯·Leitgeb和尼克韦弗）．⁴
对于第一次参加研讨会的人，对于“你参加研讨会有多高兴?”“是8.5。
从2013年3月上线到2013年底，大约有十几个人联系我们MIRI数学研究人员推荐课程金宝博娱乐页面。然而，我们有理由相信它影响了更多的人的研究模式。一些MIRI的支持者告诉我们，他们经常把聪明的年轻熟人指向这个页面。此外，该页面在2013年获得了比我们更多的独特浏览量188betapp 或关于页面，尽管不是链接从网站的每个页面，如捐赠和关于页面。188betapp推荐课程页面使它成为可能至少有一个人(内特·苏亚雷斯)在2013年快速提升了他的数学技能并参加了一个研讨会，这是他在学习了课程页面上的几本教科书之前不可能做到的。
从2013年6月上线到2013年底，我们共收到227份非垃圾申请⁵参加未来的MIRI讲习班，其中47个仍在处理中。到目前为止，有60名申请者被我们认为是“有前途的”，其中23人参加了2013年的一个研讨会。在这23人中，大约一半是研究人员，我们之前几乎没有接触过他金宝博娱乐们。

描述友好AI的开放问题

2013年，MIRI通过三种标准方法向研究人员描述了友好人工智能(OPFAIs)中的开放问题:文章、演讲和研讨会教程。金宝博娱乐

在OPFAI文章:本文讨论了Yudkowsky在“OPFAI #1”上的文章智能爆炸微观经济学（又名我认为这是“策略研究”中的一个开放性问题，而不是在友好AI理论中，所以我在a金宝博娱乐以前的文章．在我看来，2013年OPFAI的第一个书面描述已经开始了逻辑决策理论．Alex Altair(当时的MIRI研究员)在2金宝博娱乐013年4月的一篇论文中描述了这个问题，论文名为“类newcomb问题决策算法的比较这个悬而未决的问题以前已经描述过了少错误的的帖子在一个117页的技术报告，但Altair的陈述比以前的陈述更简洁和正式。

2013年OPFAI的第二次书面描述是在瓷砖代理问题，特别是Löbian障碍瓷砖剂。Yudkowsky将这篇论文的草稿带到四月的研讨会上，并根据研讨会的进展对草稿进行了大量修改，最终于2013年6月发表了草稿。2013年OPFAI的第三个书面描述是由Patrick LaVictoire和其他作者撰写的强有力的合作问题。2013年OPFAI的第四个书面描述已经开始归化感应．

由于贴面剂纸花了FAI研究员2个月的时间来生产，我们决定用一种金宝博娱乐过程这将使制作新的OPFAI描述所需的faii研究人员时间最小化。金宝博娱乐首先，尤考斯基把OPFAI交给了Facebook群组．然后，Robby Bensinger和其他几个人一起制作了Less Wrong的帖子，更清楚地描述了OPFAI。通过这个过程产生的第一篇文章发表在2013年12月:建筑现象学的桥梁．其他解释OPFAI的文章将在2014年第一季度发布。因为我们想最大限度地增加FAI研究人员用于FAI研究而不是阐述的时间，所以我们希望在2014金宝博娱乐年雇佣更多的阐述性写作人才职业生涯页面)。

在OPFAI会谈:美里安排两OPFAI会谈在2013年。Yudkowsky在10月15日的演讲中，“理性代理的递归:自我修改AI的基础”，向麻省理工学院的听众描述了稳健合作和平展代理问题。两天前，(MIRI研究助理)保罗·克里斯蒂安诺在金宝博娱乐哈佛大学做了一个关于概率元数学的演讲。可定义性的真理“纸。⁶不幸的是，Yudkowsky的讲话没有被记录下来，但是Christiano的是．

在OPFAI教程在研讨会: 2013年的每个MIRI研讨会都有一到两天的教程，介绍该研讨会正在解决的开放问题。这些教程让大约35名研究人员(参与者和第一天的访客)接触金宝博娱乐到他们以前不太熟悉的OPFAIs。(其他人——如Yudkowsky, Christiano和Fallenstein——对教程中描述的OPFAIs已经相当熟悉了。)

这些结果有多好?

为了比较,MIRI的2000-2012 FAI研究金宝博娱乐工作包括:

Yudkowsky早期研究了Frie金宝博娱乐ndly AI挑战的一般“形状”，并发表了“创造友好的人工智能”(2001),“连贯的推断意志(2004)和“人工智能在全球风险中的积极和消极因素”(2008)。这些出版物还没有描述任何定义良好的OPFAIs，如中描述的开放问题牵牛星(2013)，Yudkowsky & Herreshoff (2013),或LaVictoire等人(2013)．⁷
Yudkowsky早期的决策理论研究，这导致了大约2005年的TDT金宝博娱乐，尽管这项工作直到2009年才写得很详细(1，2，3.),2010．
2003-2009年，尤多科夫斯基与Marcello Herreshoff合作，以及2006年夏天与Peter de Blanc和Nick Hay的早期作品《友好结果主义人工智能》。这项工作导致了许多由MIRI在2013年描述的opfai的早期版本，目前正在被撰写，或者目前在Yudkowsky的队列中被撰写。这也导致了后来的“无限瀑布”方法Yudkowsky & Herreshoff (2013)．
2009年夏天，尤多科夫斯基再次与赫里肖夫合作，部分是关于Löbian障碍。
MIRI在2010年3月举办了一个决策理论研讨会，参加的有Eliezer Yudkowsky，魏戴，斯图亚特·阿姆斯特朗，加里Drescher，安娜班子，还有大约十几个人参加了一些讨论，但不是所有的讨论。⁸这个研讨会产生了一个决策理论邮件列表，从2010年到现在，产生了很多最近的进展负2/UDT的决策理论，尽管主要通过非miri研究人员，如Wei Dai, Vladimir Slepnev, Stu金宝博娱乐art Armstrong和Vladimir Nesov。
(前MIRI研究员)Pet金宝博娱乐er de Blanc关于“通用AI的预期效用的收敛”和本体论危机的工作，导致德布兰科(2009)和德布兰科(2011)．
(MIRI研金宝博娱乐究助理)丹尼尔杜威的价值学习的工作，导致杜威(2011)．

因此,美里的面向公众从2000年到2012年金宝博娱乐的友好人工智能研究包括一些非技术著作，如“创造友好的人工智能”和“连贯的外推意志”，一些关于TDT的哲学著作，以及Peter de Blanc和Daniel Dewey的三篇技术论文。与MIRI 2013年面向公众的FAI研究相比:金宝博娱乐Muehlhauser & Williamson (2013)，⁹牵牛星(2013)，Christiano等人(2013)，Yudkowsky & Herreshoff (2013)，LaVictoire等人(2013),这7份技术报告．¹⁰

主观上，我觉得就像MIRI在2013年产生的面向公众的友好人工智能研究进展，相当于过去所有年份的总和金宝博娱乐(2000-2012)，可能更多。这很好，但并不特别令人惊讶，因为2013年也是MIRI出现的第一年试着专注于产生面向公众的FAI研究进展。金宝博娱乐(但需要澄清的是:如果我们去掉“面对公众”这一限定词，那么很明显，仅Yudkowsky在2000-2012年所产生的FAI研究进展就远远超过MIRI及其研讨会在2013年所产生的进展。)金宝博娱乐

所以，我们的研讨会和开放的问题描述实现我们的既定目标?让我们检查:

是的，他们帮我们找到了合适的人选。我们预计在2014年上半年招聘两名2013年研讨会参与者．(其中一名员工正在申请签证。)
是的，他们让许多新研究人员接触了Friendly AI金宝博娱乐研究程序。但是，这种曝光并没有像我所希望的那样带来独立的友好AI工作，我有一些理论解释为什么会出现这种情况。
是的，它们推动了友好AI的具体研究进展。金宝博娱乐

虽然这代表着FAI研究机构和FAI研究新领域的一个有希望的开端，但要使MIRI产生我们希望的影响(见下文)，我们还需要在许多金宝博娱乐方面提高产出。

关于如何创建FAI研究机构和FAI研究的新领域，我学到了什么?金宝博娱乐

我从2013年FAI研究活动中学到的一些“教训”是我在年初所不知道的。金宝博娱乐其中大部分都是我已经怀疑过的事情，我认为2013年的经历证实了这一点。以下是其中一些，排名不分先后。

1.让研究人员远离操作工作。金宝博娱乐

换句话说，“不要害怕高的操作人员与研究人员的比例。”金宝博娱乐运营人才(包括管理人才)比FAI的研究人才更容易找到，所以雇佣足够的运营人才来确保FAI的研究人员是很重要的金宝博娱乐做发现可以花费大约所有他们在FAI研究上的时间，几乎金宝博娱乐没有一个他们的时间大多可以由业务人员来处理(写拨款提案、组织活动、筹款、论文参考书目等)。MIRI应该雇佣足够的运营人才来做到这一点，即使这使得我们的运营人员与研究人员的比例对于一个研究机构来说看起来很高。金宝博娱乐¹¹

大学经常在这个问题上挣扎(从研究生产力的角度来看)，让一些世界上最优秀的研究人才承担教学任务金宝博娱乐、撰写论文和大学服务。¹²MIRI作为一个独立的研究机构，可以金宝博娱乐制定自己的政策，将这些问题最小化。

2.我们需要吸引更多有经验的参加者。

我们的研讨会吸引了一些非常聪明的参与者，但他们几乎都是30岁以下的年轻人，发表的论文相对较少。更有经验的研究者可能在以下方面具有金宝博娱乐优势:(1)了解相关结果和正式工具，(2)了解富有成效的研究策略，(3)撰写成果供同行评审，以及其他优势。

3.许多FAI研究可以金宝博娱乐由广泛的社区完成，而不需要被贴上FAI研究的标签。

目前，尤多科夫斯基的“友好人工智能研究”范式描述了一个非常大的研究程序，它可以分解成几十个子问题(OPFA金宝博娱乐Is)，例如瓷砖代理玩具的问题。定位和制定与Friendly AI相关的开放问题本身就是一项挑战，特别是在专注于Friendly AI多年之后。

然而，许多OPFAIs本身可以被定义为人工智能安全工程、哲学、数理逻辑、理论计算机科学、经济学和其他领域的“普通”开放问题。这些开放性问题通常无需提及友好AI，有时也无需提及AI。

对于Yudkowsky描述的每一个OPFAI，¹³我找到了之前的相关工作。¹⁴虽然这一早期的工作并没有产生我们认为的FAI中开放式问题的好解决方案，但它确实表明FAI可以以学术界接受的方式构建。FAI不需要是一个“外来的”研究项目，严格地在主流学术金宝博娱乐界之外运作，并且只由那些明确受到FAI激励的人进行。相反，FAI研究人员应该能金宝博娱乐够在主流研究范式的背景下框架他们的工作，如果他们选择这样做。此外，许多FAI研究也可以由那些没有明金宝博娱乐确受到FAI激励的人完成，只要他们觉得Löbian障碍有趣作为数学——或者作为计算机科学、哲学等。

4.但是，当研究人员自己把这项研究看作固定收益研究时，固定收益研究取得了更多的进展。金宝博娱乐

不过,研究人员金宝博娱乐做如果他们能够从友好AI的角度思考问题，而不是仅仅将其视为哲学、计算机科学、经济学等有趣的开放问题，那么他们便更有可能创造出关于友好AI的有效工作。正如我在我和雅各布·斯坦哈特的对话：

人们在不同的问题上工作取决于他们是为了友好的AI还是仅仅为了数学期刊。如果他们没有从FAI的角度去思考，那么他们便可以整天致力于那些与我们在概念空间中所关心的内容非常接近的内容，而这些内容对于FAI理论却没有明显的价值。因此，迄今为止为FAI做出最新颖贡献的人，是明确地从FAI的角度思考问题的人……

5.沟通风格很重要。

当我跟的一流的人员米里想合作友好的AI在开放问题,也许是我听到最常见的抱怨是金宝博娱乐,我们的工作不够正式,或者不够清楚地描述他们理解它没有更多的努力比他们愿意花费。关于这样的对话被记录下来的例子，请再看一遍我和雅各布·斯坦哈特的对话．

我已经想了很长时间了，我在2013年的经历更加印证了这一点。以后我会写更多关于这方面的文章。

自然，“友好的人工智能研究”是一个有争议的问题。金宝博娱乐在本文的大部分时间里，我将假设“友好的AI研究”意味着“Yudkowsky所认为的友好的AI研金宝博娱乐究”，但智能爆炸微观经济学除外。↩
直到2013年初目前名为“机器智能研究所”的机构，被称为“人工智能奇点研究所”。金宝博娱乐↩
从2000年到2004年，“MIRI”只是Eliezer Yudkowsky在做早期FAI研究。金宝博娱乐该组织从2004年开始发展，到2006年，大多数努力都是与外展相关的，而不是与研究相关的。金宝博娱乐这种情况一直持续到2013年初。↩
据统计，2013年参加研讨会的35名参与者中，15人拥有博士学位，3人是女性，3人拥有大学助理教授或更高级别的教师职位。简而言之，到目前为止，我们的研讨会参与者主要是研究生、博士后和独立研究人员。金宝博娱乐在15名博士参与者中，有9名是数学博士，4名是计算机科学博士，1名是认知科学博士，1名是哲学和计算机科学联合博士。↩
所谓“垃圾应用”，我指的是包括垃圾应用和显然没有能力进行数学研究的人的应用，例如:“你好，我想去美国学习代数。”金宝博娱乐↩
概率元数学本身就是一种OPFAI，也是解决贴片代理问题的一种可能途径。↩
这些出版物中的公开问题也需要进一步正规化。这就是目前的研究状况。金宝博娱乐↩
例如Steve Rayhawk和Henrik Jonsson。↩
这篇简短的论文深入到哲学的“哲学”一端——数学——工程光谱．↩
在2000-2012年和2013年的日历期间，当我写“MIRI面向公众的FAI工作”时，我没有包括MIRI或其研讨会“启用”但并非真正“产生”的工作，例如大多数工作UDT/ADT(尽管如此，大部分是在MIRI上开发的LessWrong.com网站及其决策理论邮件列表)。↩
2013年底，我们有5名全职工作人员:Luke Muehlhauser(执行主任)、Louie Helm(副主任)、Eliezer Yudkowsky(研究员)、Malo Bourgon(项目经理)和Alex Vermeer(项目管理分析师)，共计4名运营人员和1名研究员。金宝博娱乐随着我们能够雇佣更多FAI研究人员，4:1的比例将会缩小，但我认为，2013年试图用更少的操作人员来维持运营将是一个错金宝博娱乐误。↩
Link等人(2008)；《马什与海蒂》(2002)；NSOPF (2004)．↩
有时得到Robby Bensinger和/或其他人的帮助。↩
我将列出一些早期相关工作的例子。（1）Superrationality:让代理商理性地与他们这样的代理商合作。之前”强有力的合作“有:拉波波特(1966)；迈克菲(1984)；霍夫斯塔特(1985)；Binmore (1987)；霍华德(1988)；Tennenholtz (2004)；Fortnow (2009)；Kalai等人(2010)；Peters & Szentes (2012)．(关于1966年的Rapoport，请参看141-144和209-210页。（2）连贯的推断意志:想清楚如果我们知道得更多，思考得更好，如果我们想成为的人更多，我们希望自己成为什么，等等。之前Yudkowsky (2004)有:罗尔斯(1971)；哈萨尼(1982)；Railton (1986)；Rosati (1995)．(有关该背景的概述，请参见Muehlhauser & Williamson, 2013) (3.）议会制价值观聚合:利用投票机制解决规范不确定性和价值观聚集方面的挑战。之前博斯特罗姆(2009)在社会选择理论中有大量关于这个话题的文献。有关最近的概述，请参阅列表(2013)；Brandt等人(2012)；Rossi等人(2011)；加特纳(2009)．（4）推理下的脆弱性:在一个代理被完全信任之前，弄清楚如何让它不以完全自主的方式运作。之前Yudkowsky开始讨论有很多关于“可调节自主性”的工作:Schreckenghost等人(2010)；Mouaddib等人(2010)；Zieba等人(2010)；Pynadath & Tambe (2002)；Tambe等人(2002)．（5）逻辑决策理论:寻找一种能够代表agent确定性决策过程的决策算法。之前Yudkowsky (2010)有:Spohn (2003)；Spohn (2005)．（6）稳定的自我完善:获得一个自修改代理，以避免重写自己的代码，除非它非常确信这些重写将维护理想的代理属性。之前Yudkowsky & Herreshoff (2013)有:Schmidhuber (2003)；Schmidhuber (2009)；Steunebrink & Schmidhuber (2012)．（7）归化感应:使归纳算法将自身、其数据输入和其假设输出简化为其物理位置。之前”建筑现象学的桥梁“有:《奥索与指环》(2011)；《Orseau & Ring》(2012)．↩

2013年回顾:友好AI研究金宝博娱乐