降低人工智能带来的长期灾难性风险

（PDF版本可用）

1965年,著名统计学家i·j·古德提出人工智能除了一些阈值水平将雪球,创建一个级联的自我完善:AIs会聪明到让自己更聪明,,让自己更聪明,会进一步发现改进的机会,离开人类的能力远远落后。^［3］古德称这一过程为“智能爆炸”，而后来的作者使用术语“技术奇点”或简单地称为“奇点”。^[10]^［２１］

机器智能研究所的目标是，如果这样的事件最终发生，降金宝博娱乐低灾难的风险。我们的活动包括研究、教育和会议。金宝博娱乐在本文档中，我们简要介绍了如何严肃对待人工智能风险，并提出了一些降低这些风险的策略。

我们(不是)关于什么

机器智能研究所对智能、跨领域、人类+等效、自我改进金宝博娱乐的人工智能的出现感兴趣。我们并不预测这种人工智能何时会被开发出来。我们感兴趣的是分析提高AI出现的可能性的杠杆点。我们不认为自己有能力预言事情会顺利或糟糕——如果结果已经注定，那么试图干预就没有意义了。我们怀疑人工智能主要是一个需要新见解的软件问题，而不是一个需要摩尔定律的硬件问题。我们感兴趣的是理性分析，它试图支持每一个声称的细节，而不是讲故事，许多有趣的细节是虚构的，但没有独立的支持。

冷漠,没有恶意

拟人化的“机器人反叛”概念，即人工智能会自发地对低部落地位产生类似灵长类动物的怨恨，这是科幻小说的素材。更可信的危险并非源于恶意，而是源于人类生存需要稀缺资源的事实:人工智能可能有其他用途的资源。^［13］^[１４]具有现实世界吸引力的超级智能人工智能，如接入普及的数据网络和自主机器人，可以从根本上改变它们的环境，例如，利用所有可用的太阳能、化学和核能。如果这样的人工智能发现了免费能源的用途，这能更好地推进它们的目标，而不是维持人类的生命，那么人类的生存将变得不太可能。

许多人工智能将趋向于优化系统，也就是说，在自我修正之后，它们将采取行动实现某个目标的最大化。金宝博官方^［1］^［13］例如，在进化压力下发展起来的人工智能会被选择为最大化生殖适合度的价值，并且更愿意将资源分配给繁殖而不是支持人类。^［1］这些不安全的人工智能可能会主动模仿安全的善行，直到它们变得强大，因为被摧毁会阻止它们朝着自己的目标努力。因此，广泛的人工智能设计最初可能看起来是安全的，但如果开发到奇点，可能会导致人类在优化地球的过程中为了他们的目标而灭绝。

智能爆炸可能是突然的

智能爆炸的速度取决于两种相互冲突的压力:人工智能技术的每一项改进都提高了人工智能研究更多改进的能力，而低挂果实的耗尽则使后续改进更加困难。金宝博娱乐改善的速度很难估计，但几个因素表明它将是很高的。人工智能领域的主流观点是，强大的人工智能的瓶颈是软件，而不是硬件，预计在未来几十年，硬件将继续快速发展。^［4］如果软件被开发出来，那么可能会有大量的硬件来运行许多人工智能副本，并以高速运行它们，放大人工智能改进的效果。^[8]由于我们没有理由期望人类的大脑是理想的智能优化，而不是第一个复杂到足以产生技术文明的智能，很可能会有更多容易摘摘的果实(毕竟，人工智能本可以由更慢、更小的人类研究团体成功创造)。金宝博娱乐如果有足够强的反馈，或足够丰富的硬件，第一个具有类似人类的人工智能研究能力的人工智能可能会迅速达到超级智能;金宝博娱乐特别是，它比研究人员和决策者能够更快地制定出足够的安全措施。金宝博娱乐

是担心过早?

对如何构建人工智能缺乏清晰的认识，意味着我们无法对未来几十年人工智能的发展给予高度的信心。这也使得我们很难排除不可预见的进展。过去对人工智能挑战的低估(也许最臭名昭著的是1956年达特茅斯会议的低估)^［12］并不能保证人工智能永远不会成功，我们需要考虑到问题比预期更难的反复发现，以及该领域的渐进进展。人工智能和机器学习算法的进步，^［１７］科技行业不断增加的研发支出，硬件的进步使得需要大量计算的算法变得可行，^［4］巨大的数据集,^［5］神经科学的见解提供了过去研究人员所缺乏的优势。金宝博娱乐考虑到风险的大小和人工智能时间表的不确定性，似乎最好在我们的安全战略中考虑到中期人工智能发展的可能性。

友好的人工智能

对未来人工智能技术风险的担忧，导致一些评论人士，如Sun联合创始人比尔•乔伊(Bill Joy)，建议对此类技术进行全球监管和限制。^［9］然而，设计合理的人工智能也可以提供类似的巨大好处。更具体地说，人类的创造力目前是在许多影响我们集体福利的关键挑战上取得进展的瓶颈，这些挑战包括消除疾病、避免长期核风险以及过上更富裕、更有意义的生活。安全的人工智能可以极大地帮助应对这些挑战。此外，这些好处的前景，加上人工智能的竞争优势，将使限制性的全球条约难以执行。

因此，SIAI降低人工智能风险的主要方法是促进具有良好动机的人工智能的发展，这些动机在自我完善中是可靠稳定的，我们称之为“友好的人工智能”。^[22]

下面快速总结一下《Friendly AI》的一些关键理念:

我们不能保证agent与环境交互的最终结果，但我们可以保证agent试图做什么，因为它的知识我们不能仅仅通过检查“深蓝”就确定它是否会赢卡斯帕罗夫，但检查一下可能会发现，“深蓝”会在博弈树中搜索获胜位置，而不是失去位置。
由于代码是在计算机芯片的几乎完全确定的环境中执行的，所以我们可能能够对代理的动机做出非常强有力的保证(包括代理如何重写自己)，尽管我们不能从逻辑上证明环境策略的结果。这是很重要的，因为如果主体的环境策略失败了，它可以更新它的世界模型并再次尝试;但在自我修改过程中，AI可能需要执行100万次代码更改，一次又一次，而没有任何一次是灾难性的。
如果甘地不想杀人，有人给他一颗药丸会改变他的大脑让他想杀人，甘地知道这是药丸的作用，那么甘地很可能会拒绝吃药。大多数实用函数在反射下应该是稳定的——前提是人工智能能够正确地投射其自我修改的结果。因此，Friendly AI的问题不在于创造一个额外的约束AI的良心模块，而在于深入潜在心智的巨大设计空间，选择一个更倾向于Friendly的AI。
人类的终端价值是极其复杂的，尽管这种复杂性在内省的情况下并不能一眼看出，这与计算机视觉的重大进展曾被认为是一个夏天的工作是一个道理。既然我们没有内省获得人类价值的细节,此问题的解决方案可能涉及到设计一个人工智能学习人类价值观通过观察人类,问问题,人类的大脑扫描,等等,而不是一个AI预装了一套固定的规则,听起来好点子。
人类文明中明确的道德价值随着时间的推移而变化，我们把这种变化看作是进步，并推断进步在未来可能会继续。一个被编程为明确值1800的人工智能现在可能正在为重建奴隶制而战。静态的道德价值观显然是不可取的，但大多数随机改变的价值观将更不可取——每一次改进都是改变，但不是每一次改变都是改进。可能引导算法包括“做我们会告诉你如果我们知道所有你知道的,”“我们已经告诉你如果我们想和你做的一样快,可以考虑更多的可能行道德论点,”和“做我们会告诉你如果我们有你的反思和修改自己的能力。”在道德哲学中，这种道德进步的概念被称为反思均衡。^[15]

播种研究项目金宝博娱乐

随着我们越来越接近先进的人工智能，我们将更容易学会如何有效地降低风险。今天我们要关注的干预措施是那些随着时间的推移，其益处将会增加的干预措施:可以指导其他选择的研究方向，或者需要大量增量工作的研究方向。金宝博娱乐一些可能性包括:

友好的AI:理论计算机科学家可以研究在保持稳定目标的同时自我修改的AI架构。理论上的玩具系统现在已经存在了:金宝博官方Gödel机器可以在一定的假设下进行最佳的自我改进^［１９］．决策理论的目标是在自我修正下保持稳定。^[２]这些模型可以增量地扩展到不太理想的环境中。

稳定的大脑模拟:通往安全人工智能的一种推测途径是从人类大脑模拟开始的。神经科学家可以研究模拟具有已知动机的个体大脑的可能性，而进化理论家可以研究防止危险的进化动力学的方法，社会科学家可以研究社会或法律框架，将模拟的影响引导到积极的方向。^［18］

人工智能风险模型:研究人员可以使用博弈论金宝博娱乐、进化分析、计算机安全或经济学的工具，建立人工智能风险和人工智能增长轨迹模型。^［1］^[6]^[8]^[１４]^[22]如果能严格地进行这种分析，它将有助于把科学家、研究生和资助机构的努力引向具有最大潜在利益的领域。

制度改进:主要的技术风险最终由社会作为一个整体来应对:成功需要社会理解并对科学证据作出反应。对扭曲人类对灾难性风险思维的偏见的了解，^［23］改进的概率预测方法，^［１６］或风险分析,^［11］以及鉴定和汇总专家意见的方法^［7］都能提高我们集体的胜算。围绕人工智能发展开展国际合作的方法，以及避免“人工智能军备竞赛”的方法也可以，后者可能会让那些最愿意用安全措施换取速度的竞争对手获胜。^［２０］

我们的目标是

我们的目标是为上述研究项目提供种子。金宝博娱乐我们的规模太小，无法自己进行所有必要的研究，但我们可以开始进行。金宝博娱乐

我们已经做好了基础工作。我们有:(a)关于灾难性人工智能风险金宝博娱乐和人工智能安全技术的种子研究;(b)人力资本;(c)吸引外部研究人才的项目，包括我们的年度奇点峰会和访问学者计划。金宝博娱乐

展望未来，我们计划继续我们最近的增长，扩大我们的访问学者计划，扩展奇点峰会和类似的学术网络，并撰写更多的论文，为上述研究项目播下种子，内部或我们能找到的最好的外部人才。金宝博娱乐我们欢迎潜在的合著者、访问学者和其他合作者，以及关于如何减少灾难性人工智能风险的任何建议或成本效益分析。

人工智能的利弊

人类智能是已知的最强大的生物技术，与过去的生物相比，它对地球的影响是不连续的。但我们在历史上的地位，可能不在于我们是可能存在的最聪明的智能体，而在于我们是最早存在的智能体。我们对于智力的作用可能就像第一复制因子对于生物学的作用一样。第一个能够复制自身的单链RNA还远远算不上一个超级复杂的复制因子——但它仍然在历史上占有重要地位，因为它是第一个。

希望未来的智能比过去大得多。人类智慧的起源和形态可能最终在未来文明的起源和形态中发挥关键作用，其规模远比一个星球大。人类构建的第一个自我完善的人工智能的起源和形态，可能会产生类似的强大影响，原因也类似。未来智慧的价值将塑造未来文明。未来智能的价值，以及未来文明的价值，都将决定胜负。

参考文献

博斯特罗姆,尼克,人类进化、死亡和反死亡的未来:康德后200年，图灵后50年，查尔斯·坦迪主编，339-371页，利亚大学出版社，2004。
《好与真:揭示从物理学到伦理学的悖论》，188页，麻省理工学院出版社，2006年。
很好，i。J。”关于第一台超智能机器的猜测， Franz L. Alt和Morris Rubinoff主编，计算机进展(学术出版社)6:31 -88,1965。
国际半导体技术路线图"国际半导体技术路线图，2007年版2007。2010年1月7日。
Halevy, Alon, Peter Norvig和Fernando Pereira， "数据的不合理有效性， IEEE智能系统，2009年3月/ 金宝博官方4月，第8-12页
霍尔，J.斯托尔斯，《超越人工智能:创造机器的良知》。纽约州阿默斯特:普罗米修斯，2007。打印。
汉森,罗宾,”想法期货“乔治梅森大学，1996年6月12日。2010年1月8日。
汉森,罗宾,”机器智能带来的经济增长乔治梅森大学，1998年。2010年1月7日。
快乐,比尔。”为什么未来不需要我们，《连线》杂志，2000年。
《奇点临近:当人类超越生物学》，雷·库兹韦尔著。维京企鹅出版社,2005年。
马西尼，杰森·G "降低人类灭绝的风险，《风险分析》，第27卷第5期，第1335-1344页，2007年。
麦卡锡，约翰，马文·明斯基，内森·罗切斯特，克劳德·香农达特茅斯大学人工智能夏季研究项目的提案金宝博娱乐斯坦福大学的形式推理小组，1955年8月31日。2010年1月7日。
Stephen M. Omohundro， "基本的AI驱动人工智能，2008年第一次AGI会议记录，编辑。Wang Pei, Ben Goertzel和Stan Franklin。卷》171。阿姆斯特丹:IOS, 2008。
Stephen M. Omohundro， "自我改进的人工智能的本质自我意识系统，2008年1金宝博官方月21日。2010年1月7日。
约翰·罗尔斯，《正义论》纽约:贝尔纳普，2005年。
瑞霍克、史蒂夫、安娜·萨拉蒙、汤姆·麦凯布、迈克尔·阿尼西莫夫和罗尔夫·纳尔逊，”改变AI未来主义的框架:从讲故事到重尾、高维概率分布欧洲计算机与哲学会议论文集。西班牙巴塞罗那自治大学，2009年7月4日。
Russell, Stuart J. & Norvig, Peter，《人工智能:现代方法》，第二版，培生教育，2003年。
桑德伯格、安德斯和博斯特罗姆、尼克，”全脑仿真:路线图，技术报告#2008-3，人类未来研究所，牛津大学，2008。
Schmidhuber, Juergen。”哥德尔机器:可证明的最优自我改进的自参考通用问题求解者“，自适应智能体与多智能体系统II, LNCS 3394, p. 1-金宝博官方23，施普林格，2005。
卡尔·M·舒尔曼，"武器控制和情报爆炸欧洲计算机与哲学会议论文集。西班牙巴塞罗那自治大学，2009年7月4日。
弗诺·文奇,”即将到来的技术奇点，《Whole Earth Review》，New Whole Earth LLC, 1993年3月
Yudkowsky,以利以谢。”人工智能在全球风险中的积极和消极因素，《全球灾难风险》，编著。Nick Bostrom和Milan Cirkovic, 2008，第308-345页。
Yudkowsky,以利以谢。”影响存在风险判断的认知偏差，《全球灾难风险》，编著。Nick Bostrom和Milan Cirkovic, 2008，第91-119页。