MIRI的方法-机器智能研究所金宝博娱乐

MIRI的使命是“确保创造比人类更聪明的人工智能产生积极影响。”我们怎么能保证这样的事情?这是一项艰巨的任务，特别是考虑到我们目前还没有任何比人类更聪明的机器可以使用。在之前的文章中，我讨论了4个背景要求这激励着我们的使命;在这篇文章中，我将描述我们应对这一挑战的方法。

这个挑战是相当大的，而我们只能解决问题的一部分。出于这个原因，我们专业化了。我们最大的两个专业化假设如下:

我们专注于第一次创造比人类更聪明的机器智能的场景新创软件系统(与大脑模金宝博官方拟相反)。

这是部分原因似乎难到大脑模拟之前有人逆向工程大脑使用的算法,并使用它们在软件系统中,部分是因为我们认为任何高度可靠的人工智能系统将需要至少有一些组件从头构建的安全性和透明度。金宝博官方然而，早期的超级智能系统很有可能不是人类设计的软件，我强烈支持着眼于降低其他途径风险的研究项目。金宝博娱乐金宝博官方

我们几乎完全专注于技术研究。金宝博娱乐

我们选择研究人员是因为他们精金宝博娱乐通数学和计算机科学，而不是预测专家或政治敏锐性。我强调这只是谜题的一部分:如果没有创造出正确的系统，那么想办法去创造出正确的系统便毫无用处，并且确保AI具有积极的影响并不是一个简单的技术问题。金宝博官方在短期偷工减料的激励下，这也是一个全球协调问题。解决这些非技术挑战是我们没有关注的一项重要任务。

简而言之，MIRI通过技术研究来确保这一点金宝博娱乐新创人工智能软件系统将产生积金宝博官方极的影响。我们不会进一步区分不同类型的人工智能软件系统，也不会对人工智能系统达到超级智能的准确速度做出强有力的断言。金宝博官方相反，我们当前的方法是使用以下问题来选择未解决的问题:

即使挑战简单得多，我们仍然无法解决的问题是什么?

例如，我们可能会研究人工智能对齐问题，即使我们拥有强大的计算能力和非常简单的目标，我们也无法解决这些问题。

然后我们过滤(1)容易处理的问题，在某种意义上说，我们今天可以对它们进行富有成效的数学研究;金宝博娱乐(2)不拥挤，即问题不太可能在正常能力研究中得到解决;金宝博娱乐(3)关键的是，除非我们自己先解决这些问题，否则不能安全地委托给机器。(因为我们的目标是设计智能机器，我们可以期望最终将许多技术问题委托给这些机器。但是让一个不可靠的推理者来设计可靠的推理是很难的!)

这三种过滤器通常是没有争议的。这里有争议的主张是上述问题——“即使挑战更简单，我们将无法解决什么?”——是一个开放式技术问题的生成器，这些解决方案将帮助我们在未来设计出更安全、更可靠的人工智能软件，无论它们的架构如何。这篇文章的其余部分将致力于证明这一说法，并描述其背后的原因。

1.创造一个强大的AI系统却不理解它为何有效是危险金宝博官方的。

机器超级智能的很大一部分风险来自于人类建造的可能性金宝博官方他们并不完全了解的系统．

目前，这在实践中已经很常见了:许多现代人工智能研究人员在缺乏理论基础的情况下推动深度神经网络的能力，无法描述它们为何工金宝博娱乐作得如此出色，也无法对其背后发生了什么有一个可靠的想法。随着时间的推移，这些缺点正在得到解决:许多人工智能研究人员目前正在研究神经网络的透明度工具，还有更多的人正在致力于为金宝博娱乐深度学习系统奠定理论基础。金宝博官方在此期间，通过反复试验来提升现代人工智能系统的能力已经带来了许多有用的应用。金宝博官方

相比之下，在设计超级智能代理时，我们希望对其安全性有异乎寻常的高度信心之前我们开始进行在线测试:在这个领域，单靠反复试验是不行的。

为了说明，考虑一个研究2002年的Bird和Layzell．他们用一些简单的遗传编程在电路板上设计了一个振荡电路。遗传算法找到的一个解决方案完全避免使用内置电容(人类设计的振荡器中必不可少的硬件)。相反，它将主板上的电路轨道用作无线电接收器，并放大来自附近计算机的振荡信号。

这表明强大的搜索过程通常可以通过意想不到的路径达到目标。如果Bird和Layzell希望用他们的遗传算法找到一个强大的振荡电路的代码——一个可以在许多不同的电路板上使用的电路，不管是否有其他计算机在场——那么他们将会非常失望。然而，如果他们在一个虚拟电路板上广泛地测试了他们的算法，该电路板捕捉了他们所使用的电路板的所有特征认为如果是相关的(但不是像“电路轨道可以携带无线电信号”这样的功能)，那么他们就不会注意到测试过程中潜在的故障。如果这在处理简单的遗传搜索算法时是一个问题，那么在处理比人类更聪明的搜索过程时将是一个更大的问题。

当谈到设计比人类更聪明的机器智能时，广泛的测试是必要的，但还不够:为了确信系统在现实世界中运行时不会发现意想不到的坏的解决方案，对搜索金宝博官方过程如何工作以及为什么期望它只生成令人满意的解决方案有一个扎实的理解是很重要的除了对实证检验数据。

MIRI的研究金宝博娱乐项目旨在确保我们有必要的工具来检查和分析比人类更聪明的搜索过程，然后再部署它们。

以此类推，神经网络研究人员在没有任何对概率论的金宝博娱乐正式理解的情况下，可能已经走得很远了。然而，如果没有概率论，他们将缺乏理解现代人工智能算法所需的工具:他们将不知道贝叶斯网，他们将不知道如何制定像“独立和同分布”这样的假设，他们将不太了解马尔可夫决策过程工作和失败的条件。他们不能谈论先验，也不能检查先验为零的地方(从而识别出系统无法学习的东西)。金宝博官方他们不能讨论误差的界限，也不能证明算法最终找到最优策略的很好的定理。

他们可能仍然可能已经远远超过了（并为许多这些想法开发了半成型的ad-hoc更换），但没有概率理论，我希望他们更难以设计高度可靠的AI算法。金宝博娱乐Miri的研究人员倾向于相信类似的大量AI理论仍然缺失，并且那些是我们的研究计划旨在发展的工具。金宝博娱乐

2.即使使用蛮力，我们也无法创造出一个有益的AI系统。金宝博官方

假设你有一台木星大小的电脑，目标很简单:让宇宙中包含尽可能多的钻石。这台计算机可以接入互联网和许多机器人工厂和实验室，这里的“钻石”指的是碳原子与其他四个碳原子共价结合。(假装我们不在乎它是如何形成钻石的，或者它需要分解什么才能得到碳;目标是研究一个简化的问题。)假设木星大小的计算机运行的是python。你如何让它产生大量的钻石?

就目前而言，我们还不知道如何为计算机编程来实现这样的目标。

我们还不能创造一个人工智能用蛮力，这表明我们还不了解问题的某些方面。

我们有很多人工智能任务可以蛮力。例如，我们可以写一个程序真的,真的好在解决计算机视觉问题:如果我们有一个坚不可摧的框,图片和问题,等待答案,得到准确的答案,然后重复这个过程,我们知道如何编写的程序与那个盒子,非常善于回答问题。(该程序本质上是AIXI．)

通过类似的方法，如果我们有一个坚不可摧的盒子，它可以产生对话和关于它的问题，等待自然语言的答案，并为它们的准确性评分，那么，我们可以编写一个程序，它可以很好地回答问题。从这个意义上说，我们知道如何通过蛮力解决计算机视觉和自然语言处理。(当然，自然语言处理在实际意义上还远远没有“解决”——还有很多工作要做。暴力解决方案并不能使您在现实世界中走得很远。关键是，对于许多AI对齐问题，我们甚至还没有达到“我们可以蛮力解决它”的水平。)

在上面的例子中，我们为什么需要“坚不可摧”的盒子呢?因为现代的蛮力解决方案的工作方式是通过考虑每一个图灵机(一些复杂性限制)作为一个假设的盒子,看哪些是与观测一致,然后执行行动,导致高分的盒子(预测的剩余的假设,通过简单加权)。

每个假设都是一个不透明的图灵机，而算法从来不会窥探内部:它只是要求每个假设来预测如果盒子执行某个动作链，它将输出什么分数。这意味着如果算法找到(通过穷举搜索)一个计划最大化分数从盒子中出来，盒子是可破坏的，然后最大化分数的不透明行动链很可能是打开盒子并改变它，从而始终输出最高分数。但只要给我们一个坚不可摧的盒子，我们就知道如何强力破解答案。

实际上，粗略地说，我们知道如何解决任何通过蛮力强化学习问题。这还远远不是知道如何去做几乎解决强化学习问题!但它确实说明了两类问题在性质上的区别。我们可以(不完全和启发式地)将AI问题划分如下:

AI中存在两种开放式问题。一个是如何在实践中解决我们原则上知道如何解决的问题。另一种是想办法解决那些我们还不知道如何使用暴力解决的基本问题。

MIRI关注的是第二类问题。¹

强行使用一种制造钻石的药剂有什么难的?为了说明这一点，我将给出一个非常简化的草图，说明AI程序需要做些什么才能在复杂的环境中高效地运行:

模拟世界:利用感知，并使用它们来提炼系统所嵌入的世界的一些内部表示。金宝博官方
预测世界:采用世界模型，并预测如果系统执行各种不同的计划会发生什么。金宝博官方
排名结果:根据预测的未来有多好来评价这些可能性，然后执行一个导致高评级结果的计划。²

考虑建模步骤。正如上面所讨论的，我们知道如何编写一个算法，通过蛮力找到好的世界模型:它观察大量的图灵机，通过简单性加权，把它们当作负责观察的机器，然后把迄今为止与观察不一致的机器排除掉。但是(除了非常不切实际之外)，这只会产生效果不透明的假设:系统可以询问每台图灵机输出金宝博官方什么“感觉位”，但它不能窥视内部并检查内部所代表的物体。

如果不透明的图灵机给出了一些定义良好的“分数”(就像在强化学习问题中)，那么每个假设都是一个黑盒并不重要;蛮力算法可以简单地在大量输入上运行黑盒，然后查看哪一个结果的得分最高。但如果问题是在现实世界中建造大量的钻石，那么代理必须这样工作:

建立一个世界模型——其中一个代表碳原子和共价键。
根据系统执行的不同行动，预测世界将如何变化。金宝博官方
看内部每一个预测，看看哪个预测的未来拥有最多的钻石。执行导致更多钻石的动作。

换句话说，人工智能能够产生可靠的影响世界上的东西需要有能够接受检查的世界模式。该系统需金宝博官方要能够打开世界模型，识别碳原子和共价键的表示，并估计现实世界中有多少钻石。^3.

对于如何构建“可检查的”世界模型，我们还没有一个清晰的画面——即使是用蛮力也不行。想象试图写金刚石制造项目的一部分,构建一个世界模型:这个函数需要知觉作为输入,并构建一个数据结构,代表宇宙,在某种程度上允许系统检查universe-descriptions和估计未来可能的钻石的数量。金宝博官方碳原子在数据结构中的什么位置?这些数据结构是如何让“共价键”的概念得以形成和标记的呢?即使世界模型不再用原子来表示钻石，而是用质子、中子和电子来表示钻石，它仍然是准确的。

我们需要一个世界建模算法来构建世界的多层次表示，并允许系统追求相同的目标(制造钻石)，即使它的模型发生了巨大的变化(因为它发现了量子力学)。金宝博官方这与现有的以不透明的图灵机作为假设的蛮力解决方案形成了鲜明的对比。⁴

当人类关于宇宙的推理，我们似乎做了一些从中间向外的推理:我们开始模拟像人和岩石这样的东西，最终意识到它们是由原子组成的，而原子是由质子，中子和电子组成的，它们是量子场的扰动。无论如何，我们都不能确定模型中的最低水平就是现实中的最低水平;当我们继续思考我们的世界构造新的假设来解释我们模型中的奇怪之处。我们使用的是哪种数据结构?我们该如何在游戏世界模型中添加关卡?这是一种我们还不知道如何形式化的推理算法。⁵

这是一步一个强迫AI追求一个简单的目标。我们还不知道如何强制执行第二步或第三步。通过简化问题——例如谈论钻石，而不是提出一大堆其他困难的更现实的目标——我们能够分解出我们还不知道如何解决问题的部分，即使是在原则上。我们的技术议程描述使用此方法确定的许多未解决问题。

3.从原则上讲，找出解决问题的方法会带来很多好处。

1836年，埃德加·爱伦·坡写了一本精彩的文章在Maelzel的土耳其机器上，一个据说会下国际象棋的机器。在这篇文章中，坡认为“机械土耳其人”一定是一个骗局:他从机器不会下国际象棋开始，然后解释(利用他的表演技巧)一个人是如何隐藏在机器里的。坡的文章是非常复杂的,一个有趣的阅读:他使引用巴贝奇先生的“计算机”,并认为它不可能是下棋,因为在计算机器,每个步骤遵循从上一步的必要性,而“没有人在国际象棋一定是在任何一个其他“。

“土耳其机械人”其实是个骗局。然而，1950年，克劳德·香农发表了一篇论文，对坡的推理提出了相当有力的反驳解释如何编程让电脑下完美的国际象棋．

香农的算法绝不是谈话的结束。从那篇论文到“深蓝”，花了46年的时间，一个实用的国际象棋程序打败了人类世界冠军。然而，如果你具备爱伦坡的知识却不确定是否如此可能的对于要下棋的电脑来说——因为你还不懂构造游戏树和回溯搜索的算法——那么你可能还没有准备好开始编写实用的象棋程序。

类似地，如果你缺乏概率论的工具——对贝叶斯推理的理解和糟糕先验的局限性——那么你可能就无法编写一个需要在高风险情况下管理不确定性的人工智能系统。金宝博官方

如果你正在尝试编写一个程序，但你还不能说在一个任意大的计算机上你将如何编写它，那么你可能还没有准备好设计一个实用的蛮力解的近似。实用的象棋程序不能生成完整的搜索树，因此严重依赖启发式和近似法;但如果你还不能用蛮力给出答案任意的大量的计算能力，那么很可能您缺少一些重要的概念性工具。

Marcus Hutter (AIXI的发明者)和Shane Legg(发明家通用智力测验)似乎赞同这种做法。他们的工作可以解释为如何找到任何强化学习问题的暴力解决方案的描述，事实上，上述如何做到这一点的描述是来自Legg和Hutter。

事实上，谷歌DeepMind的创始人将Shane论文的完成作为开始AGI研究的时机已经成熟的四个关键指标之一:描述如何解决强化学习问题的理论框架原则上证明了现代对这个问题的理解已经成熟到可以开始实际工作的时候了。

在我们对问题有正式的理解之前，我们不能很确定这是什么问题是．我们可能没有注意到我们推理中的漏洞;我们可能无法使用适当的工具;我们可能不知道我们什么时候取得了进展。在我们对这个问题原则上有了正式的理解之后，我们就能更好地取得实际进展。

发展对问题的正式理解的重点不是运行生成的算法。“深蓝”无法计算完整的游戏树，而DeepMind也不打算实现AIXI。相反，这里的重点是识别并开发有助于解决问题的基本概念和方法(游戏邦注:如象棋中的游戏树和回溯搜索算法)。

概率论的发展对人工智能领域非常有用——不是因为任何人都试图建立一个完美的贝叶斯推理机，而是因为概率论是不确定性下推理的统一理论。这使得概率论工具对于不同执行细节的AI设计非常有用:当您构建一个试图管理不确定性的算法时，对概率推理的扎实理解在推理系统将成功的领域和系统可能失败的条件时是有帮助的。金宝博官方

这就是为什么我们认为我们可以发现我们今天可以解决的未决问题，而且不管未来的一般智能机器是如何设计的(或者需要多长时间才能实现)，这些问题肯定会有用。通过寻找我们不能解决的问题，即使这个问题要简单得多，我们希望找到核心AGI算法缺失的地方。通过开发一个正式的原则上的理解如何解决这些问题,我们的目标是确保时候解决这些问题在实践中,程序员的知识,他们需要开发解决方案,他们深切理解,和他们需要的工具来确保系统的构建是高度可靠。金宝博官方

4.这是研究人员过去成功使用的方法。金宝博娱乐

我们主要的开放式问题生成器——“即使问题更简单，我们也无法解决什么?”——实际上是一个在数学和计算机科学中相当普遍的用法。如果我们稍微改变措辞，就更容易识别:“我们能否将构建有益AI的问题减少到其他更简单的问题?”

例如，与其问你是否可以编写一个木星大小的计算机来生产钻石，你可以把这个问题重新表述为我们是否可以将钻石最大化问题简化为已知的推理和规划程序。(目前的答案是“还没有”。)

这是计算机科学中相当标准的做法，将一个问题简化为另一个问题是可计算性理论的关键特征．在数学中，通过把一个问题简化成另一个问题来证明是很常见的费马最后定理）.这有助于人们关注问题的部分不解决了，找出缺乏基本理解的主题。

碰巧的是，人类在处理这类问题时有着相当好的记录。人类并没有很好地预测长期的技术趋势，但是当我们投入足够的努力，我们已经成功地提前几十年为技术问题建立了理论基础。艾伦·图灵(Alan Turing)和阿隆佐·丘奇(Alonzo Church)成功地发展了一套强大的计算理论，这在很大程度上被证明是非常有用的，因为他们在原则上解决了一些用机器无法解决的问题。同样地，Andrey Kolmogorov也开始建立一种直观但尚未被很好理解的管理不确定性的方法;他成功了。克劳德·香农和他的同代人在国际象棋上成功地做到了这一点。

概率论的发展与我们的情况是一个特别好的类比:在这个领域里，数百年来，哲学家和数学家试图形式化他们关于“不确定性”的直觉概念，反复地把自己推理成悖论和矛盾。当时的概率论非常缺乏正式的基础，被称为“不幸理论”。尽管如此，柯尔莫哥洛夫和其他人共同努力，使这一理论形式化，取得了成功，他的努力激发了许多设计系统的有用工具的发展，这些系统可以在不确定性下可靠地推理。金宝博官方

许多人开始为一个新的研究领域打下基础(在某种程度上凭直觉就能理解，但尚未正式形成)，他们已经成功了，而且他们的成功具有实际意义。我们的目标是对一些与高可靠推理机设计有关的开放性问题采取类似的措施。

MIRI关注的问题，如“如何理想地处理逻辑上的不确定性?”或者“理想情况下如何在复杂环境中建立多级世界模型?”，存在于可与柯尔莫哥洛夫的“如何理想地处理经验的不确定性?”或Hutter的“如何在任意复杂的环境中最大化奖励?”历史记录表明，这些问题(a)可以提前预见到，(b)可以在没有对一般智力进行具体实际实施的情况下进行研究。

通过识别出问题的问题，即使问题更容易，我们仍然无法解决，我们希望磨练核心算法和洞察丢失的问题的部分：无论什么建筑如何，都会有用的算法和见解早期智能机器接受，无论创造更聪明的机器智能需要多长时间。

目前，我们的研究团队只有三个人，这限制了我们自己能够解决的问题的数量。金宝博娱乐但我们的方法是一种我们可以显著扩大规模的方法:它已经产生了大量的未决问题，我们不缺少需要研究的问题。⁶

这是一种方法，过去常常在过去常常努力，因为人类试图了解如何接近一个新的学习领域，我相信这种方法指向我们迈向某些核心障碍的AI对齐领域。

大多数人工智能领域关注的是第一类问题。例如，深度学习是一个非常强大和令人兴奋的工具，可以解决我们知道如何用暴力解决的问题，但这些问题，直到几年前，还非常棘手。对于构建更强大的AI系统来说，第一类问题往往是重要的问题，但对于确保强大的系统与我们的利益保持一致来说，这类问题的优先级较低。金宝博官方↩
当然，在现实中，这些步骤之间并没有明确的区分。“预测”步骤必须更多地是一个与排名相关的规划步骤，以避免浪费计算预测明显排名较差的结果。建模步骤取决于预测步骤，因为细化世界模型的哪些部分取决于世界模型将用于什么目的。一个现实的代理将需要利用元计划来弄清楚如何在这些活动之间分配资源，等等。这个图表是一个很好的第一个近似值:如果一个系统不做一些类似于建模世界，预测结果，并在过程中对它们进行排名的事情，那金宝博官方么它将很难掌控未来。↩
在强化学习问题中，这一问题通过一个特殊的“奖励渠道”来避免，该渠道旨在间接代替主管想要的东西。(例如，每当学习者采取一个在他看来对制造钻石有用的行动时，主管就会按下一个奖励按钮。)然后程序员就可以手工挑选出世界内部的奖励渠道——模型，并通过编程让系统执行它所预测的能够带来高奖励的行为。金宝博官方这比设计世界模型要容易得多，因为系统可以可靠地识别碳原子和其中的共价键的表示(特别是如果世界是用牛顿力学和量子力学建模的话)，金宝博官方但没有为必须自主学习如何实现某些目标的代理提供一个框架。在高智能系统中，正确的行为并不总是可以简化为最大化由一个明显不那么智能的系统(金宝博官方如人类监督者)控制的奖励信号。↩
根据模型进行优化的搜索算法的思想关于世界的事实而不是仅仅预期的知觉可能听起来很简单，但我们还没有找到任何深层次的见解(或聪明的技巧)来让我们将这个想法形式化(例如，作为蛮力算法)。如果我们能够形式化它，我们可能会更好地理解所需的对象和事实的抽象建模类型自我参照，逻辑不确定，程序员可检查的推理．↩
我们还认为，与Solomonoff归纳法相比，用于构建多层次世界模型的暴力算法更容易被“按比例缩小”，因此可以为如何在实际环境中构建多层次世界模型提供一些见解。↩
例如，你可以问我们是否可以将构建一个一致的人工智能的问题减少到对人类行为做出可靠预测的问题上，而不是问当有大量的计算能力时还存在什么问题:这是一种方法主张由别人．↩

你喜欢这个帖子吗?你可以享受我们的另一个分析的帖子,包括:

美里的方法

1.创造一个强大的AI系统却不理解它为何有效是危险金宝博官方的。

2.即使使用蛮力，我们也无法创造出一个有益的AI系统。金宝博官方

3.从原则上讲，找出解决问题的方法会带来很多好处。

4.这是研究人员过去成功使用的方法。金宝博娱乐

搜索

浏览

订阅