AGI安全工程基础-机器智能研究所金宝博娱乐

人工智能的改进导致自动化越来越复杂有创意的人类的行为。给足够的时间，我们应该期待人工推理者开始在任意领域与人类竞争，最终达到人工总体智能（AGI）。

如果一台机器能够适应非常广泛的情况，以一致地实现某些或多个目标，那么它将符合预期意义上的“AGI”。当提供任意的物理和计算环境时，这样的机器将会智能地运行，在同样的意义上深蓝当提供任意时智能地行为国际象棋棋盘配置-不断地在狭窄的范围内达到它的胜利条件。

由于一般智能软件可以帮助科学中思考和测试假设的过程自动化，AGI对于加速技术增长将具有独特的价值。然而，这种广泛的生产力也使AGI从安全角度上成为一个独特的挑战。尽管我们对未来agi的架构了解甚少，但我们仍然可以做出一些与安全相关的概括:

因为世界是聪明的，他们往往是复杂的，适应性强的，并有能力自主行动，他们将有很大的影响，在就业。
因为世界是一般的，它们的用户将有动力在越来越广泛的环境中使用它们。这使得构建有效的沙箱测试和需求规范变得困难。
因为世界是人工，他们就会偏离人类代理商，导致他们违反了我们对智能行为的许多自然直觉和期望。

由于其复杂性及其在国家空间爆炸面上的复杂性及其不确定行为，今天的AI软件已经很难验证和验证。Menzies＆Pecheur（2005)对人工智能验证和验证(V&V)方法进行了概述，指出人工智能，特别是自适应人工智能，通常会产生意想不到的行为。

自动行动的自适应人工智能，就像不能从地球直接驾驶的火星探测器，意味着难度的进一步大幅增加。自主的安全关键AI agent需要在动态环境下做出不可逆的决策，故障率非常低。自动系统安全研究的现状正在改善，但仍然落后于系统能力的工作。金宝博娱乐金宝博官方Hinchman等人(2012)写:

随着自主系统变得更加复杂，可金宝博官方以通过系统进行全面测试的概念，并找到所有问题正在成为一个不可能的任务。在无人/自治系统中尤其如此。金宝博官方全面测试在复杂系统上变得越来越具有挑战性。金宝博官方随着这些系统对更多金宝博官方环境的反应并具有更大的决策空间，测试所有可能的状态，并且对系统的所有输入范围都变得不可能。[...]随着金宝博官方系统变得更加复杂，安全性真正风险危险分析，即给定X的测试量，系统似乎是安全的。需要一个根本的变化。这一变化在2010年空军技术地平线报告中突出显示，“可以开发具有高度自主权的系统，但它缺乏合适的V＆V方法，防止所有相对较低的自主权进行认证。金宝博官方“[...]

越来越多的自动化系统将这种(对先进验证和验证技术和方法的)需求提升金宝博官方到了国家层面。

人工智能自主行动在任意领域这样看来，要证实这一点尤其困难。如果人工智能方法继续在效率和通用性方面迅速提高，特别是如果这些提高进一步增加人工智能算法对人类检测的不透明度，未来人工智能安全工程将变得更加困难。在没有任何理由期望在AGI的准备阶段有一个发展，使高保证AGI变得容易(或AGI本身不太可能)，我们应该担心AGI的安全挑战，这种担心应该告知我们今天的研究重点。金宝博娱乐

下面，我将给出理由来怀疑AGI安全挑战仅仅是窄ai安全挑战的延伸，并且我将列出MIRI的人们希望取得成果的一些研究途径。金宝博娱乐

来自AGI的新的安全挑战

对于开始高保证AGI工作的想法的一个自然反应是，AGI本身似乎是几十年以后的事情。现在何必担心呢?假设我们应该担心它，为什么认为我们可以提前做一些关于AGI安全的有用的工作呢?

对于第二个问题的回答是:乍一看，AGI确实很难有效地做好准备。然而，这个问题非常重要，值得关注。从直觉上看，减缓气候变化或探测并使小行星偏离轨道等长期项目是困难的。依赖于预测的未来技术的干预也同样如此，例如工作post-quantum密码学的预期量子计算机．尽管如此，我们在这些方面取得了重要进展。

秘密渠道沟通提供了一个先例。早在它在野外被发现的几十年前，就已经成功地进行了研究。Roger Schell引用了Muehlhauser (2014 b)，并提出了为什么长期的安全和安全工作仍然不常见的原因。我们不知道早期的AGI安全工作是否会同样有效，但我们不应该在对这个问题进行基础研究之前排除这种可能性。金宝博娱乐在下一节中，我将列出一些可以开始查找的地方。

第一个问题呢?为什么要特别担心AGI呢?

我在上面提到，AGI是许多普通人工智能安全挑战的极端表现。然而，MIRI特别关注的是前所未有的、特定于agi的行为。例如:AGI的解决问题能力(以及它的科学和经济价值)取决于它对环境建模的能力。这包括建模它的人类程序员的性情。由于程序的成功在很大程度上取决于程序员的信念和偏好，追求某些优化目标的AI可以选择对程序员的心理状态产生影响的行动，而不仅仅是对AI的物质环境。

这意味着安全协议需要敏感的风险不同定性与普通软件失效模式——AGI-specific危害像“程序模型设定目标是更好的如果它通过人类的安全检查,所以它选择行动政策,让它看起来更安全(人类)比实际的。如果我们只使用传统软件设计中的类别来为AGI行为建模，我们可能会忽视新的智能行为，包括“欺骗”。

与此同时，过度简化的这些新颖性能可能导致我们拟人拟合AGI。如果它是天真的，预计普通软件验证方法立即推广到先进的自治代理，预计预防冲突策略更加朴素人类可以立即推广到人工智能。“欺骗性的”AGI只是它的规划算法将一些人类误解识别为对其编程目标有用的工具。它欺骗的方法或理由不必与人类相似，即使它的能力与人类相似。

在人类社会中，我们思考、表达和传授诸如“不要欺骗”或韦尔德&埃齐奥尼(1994)“不要让人类受到伤害”。的复杂的条件反射那些让人类趋同于相似目标的东西仍然隐藏在一个黑盒子里——即人类大脑中未被记录的意大利面条式代码。由于我们缺乏内省的途径来了解我们的社会倾向是如何认知和神经执行的，我们很可能低估了它们的偶然性和复杂性。例如:

我们可能会认为，一个特别智能的人工智能系统会有特别有价值的目标，因为知识和洞察力与人类的许多其他美德金宝博官方有关。例如,大厅(2007)推测，犯罪行为与人类智力呈负相关。博斯特罗姆(2003）响应是，没有特别的理由将AIS收敛于“慈悲”或“忠诚”或“新奇”等人类传统终端价值。超智力AI可以始终如一地没有以外的目标回形针，例如。
我们可以将目标分解成更简单的目标，比如“不要传达你认为是错误的信息”，从而直接将“不欺骗”等目标手工编码到代理中。然而，在这个过程中，我们很可能会忽略一些微妙的东西，当我们教的是一个人类孩子时，这些微妙的东西可以被安全的隐藏起来——遗漏的谎言，误导性的字面意义，新颖的交流方法，或者任何边缘的情况。博斯特罗姆(2003)，代理人的目标可能会继续将程序员对其要求的不良翻译成代码行，即使在其之后情报已经到了一个优越的理解人类的心理。
例如，我们可能会通过机器学习试图将AGI与人道值灌输 - 培训它以促进与微笑人类的相机输入相关的结果。但是强大的搜索过程可能会在解决方案上击中这是发育中的人类永远不会想到的．如果药剂随着时间的推移变得更强大或更普遍，最初良性的输出可能是长期安全性的一个较差的指标。

先进的人工智能也可能具有技术能力，例如强大的自我改造，引入其他新的安全障碍;看到Yudkowsky (2013）.

这些是一些大型且差不多的故障模式的快速示例。但是，最大的风险可能来自问题类别，这与我们的直觉相反，他们根本不会发生他们的程序员。依靠我们未经测试的直觉，或者过去的经验非常不同的系统，不太可能捕获每一个危险。金宝博官方

作为一名聪明但非人类的特工，AGI代表了一种全新的安全挑战。因此，我们需要对AGI的一般特征进行基本的理论研究，然后才能充分理解这些agents，以便对它们进行预测和计划。

早期的步骤

早期的AGI理论安全研究会是什么样子?金宝博娱乐如何审查一项假设的技术?我们可以区分面向系统验证的研究项目和面金宝博娱乐向系统需求的项目。金宝博官方

以验证为导向的AGI研究扩展了现有的AI安全和安全工金宝博娱乐具，这些工具可能有助于确认高级自主代理的各种特性。以需求为导向的AGI研究反而指定了理想的AGI能力或金宝博娱乐行为，并试图构建展示理想属性的玩具模型。然后，这些模型被用来识别需要克服的问题和我们在概念理解上的基本差距。

换句话说,verification-directed方法会问:“我们可以使用什么工具和程序来增强我们对未来复杂系统将符合其规格的整体信心?”金宝博官方他们包括:

开发新的工具来改进透明度检查人工智能金宝博官方系统。通常，有用的AI技术如提高以一种特别的方式进行试验，然后在观察到他们在某个问题集上工作时得到提升。理解当和为什么项目的实施将使安全保障更加有力。计算学习理论这里可能有用，以便在各种机器学习算法的性能上证明界限。
扩展设计容易验证的复杂系统的技术。金宝博官方致力于在每一个阶段都保持高度保证的全新硬件和软件方法，比如HACMS和安全的．
将当前技术扩展到程序合成和正式验证，重点研究适用于复杂和自适应系统的方法，例如金宝博官方高阶项目验证和枪”(2000，2006)增量批准暂予监外执行。扩展现有的工具，例如，设计更好的界面和培训方法自旋模型检查器提高其可及性。
应用同型型理论程序验证。这个理论的单价公理让我们获得同构的身份．Harper & Licata (2011）建议，如果我们可以将其实施为算法，它可能允许我们在新上下文中重复使用高保证码而不充分损失。
扩展已验证的软件库和编译器的当前主体，例如验证软件工具链．很多项目验证工作是目前针对年长的工具链,例如,相对较小的图书馆c .关注更新的工具链将限制我们的能力来验证系统已经广泛使用,但会让我们更好地验证更高级的安全至上的系统。金宝博官方

要求导向方法会问:“我们可能希望从AGI获得什么结果，以及什么样的一般代理类型最容易获得这些结果?”“需求导向工作的例子包括:

智能自修正agent的形式化稳定性保证。通用智能可以帮助维护自身并实现对自身软件和硬件的改进，包括对搜索和决策启发的改进à laEURISKO．人工智能在其自身的物体识别或语音合成模块中偶尔引入错误可能是可以接受的，但我们需要对其核心决策算法(包括批准自我修改的模块)的完整性有相当强的保证。目前，Fallenstein & Soares (2014)遇到了两个自我参照的悖论:“Löbian障碍”和“拖延悖论”。类似的障碍可能会出现在现实世界的AGI中，寻找解决方案应该会提高我们对能够做出决策和预测的系统的总体理解。金宝博官方
对AGI行为指定所需的检查。通过限制系统的输出通道(例如，Armstrong等人的oracle AI)，一些基本的架构选择可以简化使AGI更安全的任务。金宝博官方2012)或安装紧急绊索和故障保险装置(例如，单纯形结构）.AGI检查是一个特殊的挑战，因为需要招募代理来帮助积极地调节自身。如果这一需求没有得到满足，代理可能会将其解决问题的能力用于寻找其限制中的漏洞，如Yampolskiy (2012)关于“盒子里的AI”的讨论。
设计通用的方法，通过这些方法智能代理可以随着时间的推移改进它们的用户需求模型。自主的通用智能的活动范围可能是无限的;或者，如果它是有限的，我们可能无法预测哪一个限制将适用。因此，它需要安全的情境——总体目标。然而，手工编写一套普遍安全和有用的决策标准，看起来是极其困难的。相反,一些间接规范像杜威(2011）价值学习似乎是必要的，允许最初不完美的决策者随着时间的推移提高他们的目标内容。相关的开放问题包括：我们可以用哪些基本情况训练和测试一个有益的ai？在培训过程中如何安全稳定，如何安全稳定？
形式化的其他最优标准对于任意的推理者。正如一个通用适应性代理需要通用价值一样，它也需要通用方法来跟踪其环境和自身的特征，并在此基础上选择行动政策。理想推理的数学建模(例如，Hutter (2012)),理想决策理论期望值计算(如:牛郎星(2013)，以及理想的博弈论协调(例如，Barasz等人(2014不太可能是AGI严格必需的。尽管如此，它们对AGI来说似乎是必要的安全，因为这样的模型将为我们提供一个坚实的自上而下的理论基础，在此基础上，我们可以清晰地构建自主代理的组件，供人类检查和验证。

我们可能可以在构建一个可工作的AGI之前，在这两种AGI安全研究方面取得进展。金宝博娱乐需求导向的研究侧重于抽象的数学agent模型金宝博娱乐，这使得它很可能适用于各种各样的软件实现。以验证为导向的方法也同样有价值，因为它们足够灵活，可以应用于比任何当代软件更复杂、更动态的未来程序。我们可以将其与当今的高保证设计策略进行比较，例如Smith & Woodside (2000)和Hinchman等人(2012）.后者写到，关于更简单的自主机器:

使用更好的软件分析技术，可以在设计时对软件进行分析，目的是更早地发现软件故障。这种分析也可以证明没有误差或负性质。随着系金宝博官方统复杂性和功能的增加，完整的测试变得不可能，必须使用增强的分析技术。此外，许多这样的软件技术，如模型检查，可以用于需求分析和系统设计，在编写一行代码之前发现冲突的需求或逻辑错误，这比传统的测试方法节省更多的时间和金钱。金宝博官方

验证和需求导向的工作是互补的。为具有理想属性的代理建立清晰的数学模型的目的是为了使设计系统变得更容易，这些系统的行为对于程序员来说是足够透明的，可以被严格验证;金宝博官方如果我们在一开始就对我们想要什么样的系统缺乏了解，验证方法将无法建立系统的安全性。金宝博官方

一些有价值的项目也会落在这些类别之间——例如，为有原则的形式开发方法验证，这可以增加我们的信心，我们正在验证正确的属性给程序员和用户的目标。(参见Cimatti等人)2012）正式验证，还有Rushby（2013)。

MIRI的重点:智能代理的数学

MIRI的创始人埃利泽•尤多科夫斯基(Eliezer Yudkowsky)一直是自主高保证AGI(即“友好人工智能”)研究的最响亮倡导者之一。金宝博娱乐Russell & Norvig (2009)写:

[T]他的挑战是机制设计之一 - 为在检查和余额系统下定义用于演化AL系统的机制，并给出在面对这些变化的情况下保持友好的系统实用功能。金宝博官方我们不能只提供一个静态实用功能，因为情况，以及我们所需的情况，随着时间的推移而变化。

MIRI的方法主要是需求导向的，部分原因是这个攻角很可能增强我们对整个问题空间的理论理解，提高我们的研究优先级和其他战略考虑。金宝博娱乐此外，理论计算机科学和数学的相关领域看起来没有那么拥挤。对于以需求为导向的AGI安全工作，没有一个确定的子领域或范式，在那里研究人员可以找到一组明确的开放问题、发表场所、主管或同行。金宝博娱乐

MIRI优先启动这些新的研究途径，而不是建立在当前正式的验证方法上。金宝博娱乐Muehlhauser (2013）写入，工程创新往往在数学中的工作中的胚胎常常在数学中进行胚胎，这反过来可以通过非正式的哲学问题的启发。此时，AGI安全工作刚刚开始进入“数学”阶段。友好的AI研究人员构造了金宝博娱乐可能的AGI属性或子系统的简化模型，正式导出这些模型的功能，并检查这些功能以防止一般或逐个案例规范。金宝博官方

因为AGI安全性的研究还很不足，我们很可能在诸如“什么样的”这金宝博娱乐样的基本问题中找到容易实现的目标先验概率分布最适合在未知环境中的正式代理？“在Muehlhauser的Gerwin Klein Notes（2014年,一个)，“最后，所有让人类更容易思考一个系统的东西，都将有助于验证它。”金宝博官方而且，尽管MIRI的研究议程是由社会影金宝博娱乐响考虑决定的，它也具有普遍的知识兴趣，涉及理论计算机科学和数学逻辑的核心开放问题。

与此同时，重要的是要记住正式证明AGI性质仅作为特别强的概率证据起作用。正式的方法计算机科学可以减少风险和不确定性，但不能消除它。我们的假设是不确定的，所以我们的结论也是。

虽然我们永远无法对AGI的安全达到完全信心，但我们仍然可以降低灾难性失败的可能性。在这个过程中，我们可能会更好地了解AGI可以诋毁我们的期望的最重要的方式。如果我们现在开始工作以更好地了解AGI作为理论系统，我们将在几十年来实现强大的安全措施，因为AIS在几十年来的智力和自主中改善。金宝博官方

致谢

感谢Luke Muehlhauser, Shivaram Lingamneni, Matt Elder, Kevin Carlson和其他人对这篇文章的反馈。

参考文献

牵牛星(2013)。newcombi类问题决策算法的比较．机器智能研究所金宝博娱乐．
阿姆斯特朗等人(2012)。在盒子里思考:控制和使用一个神谕人工智能．心智与机器，22岁: 299 - 324。
Barasz等人(2014)。囚徒困境中的鲁棒合作:基于概率逻辑的计划均衡．arXiv．
博斯特罗姆(2003)。高级人工智能中的伦理问题．在史密斯等人。（eds。），人类和人工智能决策的认知、情感和伦理方面，2: 12 - 17。
Cimatti等人(2012)。混合系统的需求验证:一种正式的方法金宝博官方．美国计算机学会软件工程与方法论汇刊，21．
杜威(2011)。了解什么是有价值的．人工通用智能第四届国际会议论文集: 309 - 314。
Fallenstein & Soares(2014)。自我改进时空嵌入智能中的自我参照问题．工作报告。
大厅(2007)。超越AI:创造机器的良知．
Harper & Licata(2011)。高维有向型理论的基础与应用．国家科学基金会拨款提案。
Hinchman等人(2012)。面向空军关键飞行系统可信自主的安全保障金宝博官方．分层保证车间，17．
Hutter(2012)。十年普遍的人工智能．人工通用智能理论基础，4：67-88。
Menzies & Pecheur(2005)。验证和验证以及人工智能．计算机发展，65: 154 - 203。
Muehlhauser(2013)。从哲学到数学再到工程．美里的博客．
Muehlhauser（2014A）。Gerwin Klein关于形式方法．美里的博客．
Muehlhauser（2014B）。Roger Schell长期从事计算机安全研究金宝博娱乐．美里的博客．
Rushby(2013)。安全案例中的逻辑和认识论．计算机安全、可靠性和安全性:SafeComp论文集32(页1 - 7)。
Russell & Norvig(2009)。人工智能:一种现代方法．
Smith & Woodside(2000)。在软件开发的早期阶段进行性能验证．在Gelenbe (ed)。金宝博官方系统性能评估:方法和应用(页383 - 396)。
矛（2000）。Asimovian自适应代理．人工智能研究，13金宝博娱乐: 95 - 153。
布兰妮(2006)。保证适应性代理的行为．在Rouff等人(编辑)中，代理技术从正式的角度来看(页227 - 257)。
Weld & Etzioni(1994)。机器人第一定律(战斗召唤)．第十二届全国人工智能会议论文集: 1042 - 1047。
Yampolskiy(2012)。防漏奇点:人工智能约束问题．意识研究杂志，19：194-214。
Yudkowsky(2013)。智能爆炸微观经济学．技术报告。

你喜欢这个帖子吗?你可以享受我们的其他分析的帖子,包括:

AGI安全工程基础

来自AGI的新的安全挑战

早期的步骤

MIRI的重点:智能代理的数学

搜索

浏览

订阅