将先进的人工智能与人类的兴趣结合起来

MIRI的任务是确保创造出比人类更聪明的智能
一个积极的影响。我们的目标是让先进的智能系统像金宝博官方
即使没有直接的人类监督，我们也打算这样做。

机器学习技术议程
（误差焦点焦点）

高度可靠
代理设计

最佳推理是什么
看起来像物理世界中的资源有限代理？

Miri专注于可以制造的AI方法透明(例如，精确指定的决策算法，而不是遗传算法)，这样人类就可以理解为什么人工智能系统会这样做。金宝博官方出于安全考虑，一个定义通用智能的数学方程比一个令人印象深刻但理解不透彻的代码组装更令人满意。

因此，我们的大部分研究旨金宝博娱乐在将理论基础放在AI稳健性工作下。我们考虑传统决策和概率理论经常分解的设置：设置在哪里计算是昂贵的，没有尖锐的代理/环境边界那多个代理人存在，或者自我指涉的推理是承认。

逻辑归纳

Arxiv的ePrint：1609.03543 [Cs.ai]。

我们提出了一种可计算的算法，在给定的形式语言中赋予每个逻辑语句概率，并随着时间的推移改进这些概率。我们证明了它满足了许多直观的需求，包括:(1)只要模式能在多项式时间内被写下来，它就能在有资源评估语句之前，学习预测逻辑语句中的真假模式;(2)学会使用适当的统计摘要来预测真值为伪随机的语句序列;(3)它学会对自己当前的信念有准确的信念，以避免自我参照的标准悖论。

这些特性和其他许多特性都来自于逻辑归纳的标准，这是一系列股票交易类比的动机。粗略地说，每个逻辑φ与每股价值1美元的股票有关φ是真实的，没有什么，我们解释了逻辑上不确定推理的信念状态，作为一套市场价格，其中p_N（φ）= 50％意味着当天N，股票φ可以从推理中购买或销售50¢。逻辑归纳标准说（非常大致），不应有任何多项式可计算的交易策略，具有有限的风险宽容，在该市场上赚取无限性的利润。

谷物真理问题的形式解

在人工智能的不确定性：第三十二次会议的会议记录（2016年）。

在多智能体环境中，如果贝叶斯智能体的先验为其他智能体分配正概率(换句话说，它的先验包含一个道理）。找到一个合理的大量政策，其中包含贝叶斯 - 最佳政策相对于这个课程被称为真理问题。只有小班才知道有一点真理，而文献中包含了几个相关的不可能的结果。

我们构造了一类包含所有可计算策略以及该类上每个下半可计算先验的bayes -最优策略的策略。当环境未知时，贝叶斯最优代理甚至可能无法渐进地采取最优行动。然而，在任意未知可计算多智能体环境下，基于Thompson抽样的智能体收敛到ε-Nash均衡。虽然这些结果是纯理论的，我们表明，他们可以计算近似值任意接近。

本文介绍并激励了一种新的决策理论功能决策理论(FDT)，不同于因果决策理论和证据决策理论。泛函决策理论家认为，行为的规范原则是将一个人的决策视为一个固定数学函数的输出，该函数回答以下问题:“这个函数的哪个输出会产生最好的结果?”遵循这一原则可以带来许多好处，包括在CDT和EDT表现不佳的传统决策理论和博弈论问题中最大化财富的能力。使用一个简单而连贯的决策规则，功能决策理论家(例如)在Newcomb的问题上比CDT获得了更多的效用，在吸烟损伤问题上比EDT获得了更多的效用，在Parfit的搭便车者问题上比两者都获得了更多的效用。在本文中，我们定义了FDT，探讨了它在许多不同的决策问题中的规定，并将其与CDT和EDT进行比较，并给出了FDT作为决策规范理论的哲学理由。

为HOL制作打样反射

在互动定理证明：第6届国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼。

我们在HOL4定理证明中实现了一个形式为“如果⌜⌝是可证明的，那么”的反射原理，假设存在一个大基数。We use the large-cardinal assumption to construct a model of HOL within HOL, and show how to ensure has the same meaning both inside and outside of this model. Soundness of HOL implies that if ⌜⌝ is provable, then it is true in this model, and hence holds. We additionally show how this reflection principle can be extended, assuming an infinite hierarchy of large cardinals, to implement模型多态性，一种用于验证具有自替代功能的系统的技术。金宝博官方

更多的 ”

错误宽容
和
值的学习

怎样才能使一个先进的学习系统接受和接受金宝博官方
协助在线调试
目标的调整呢?

使用培训数据来教导先进的AI系统我们的价值看起来更有希望，而不是试图在手头关心的一金宝博官方切中编写。但是，我们很少了解如何在培训数据对代理人的未来环境中取得不足的情况下辨别，或者如何确保代理不仅要学习关于我们的价值观但接受它们自己。

此外，追求某些目标的理性代理商有一个激励保护其目标内容。无论他们目前的目标是什么，如果代理人继续推广它，那么它很可能会更好地服务，而不是代理人改变目标。这表明可能难以随着时间的推移改善代理商与人类兴趣的对齐，特别是当代理足够智能以模拟并适应其程序员的目标时。制作价值学习系统金宝博官方宽容可能是安全在线学习所必需的。

价值学习问题

在IJCAI 2016人工智能伦理研讨会上发表。

一台高层机器不会像预期的一样自动采取行动：它将充当编程，但人类意图和书面代码之间的适合可能会很差。我们讨论可以构建系统以了解该系统的方法。金宝博官方我们突出了特定于归纳价值学习的开放问题（从标记的培训数据），并提高了一些关于建造系统的初探的问题，这些系统建造了他们的运营商的偏好并相应行动。金宝博官方

易燃

在Aaai 2015道德和人工智能研讨会上提出。

随着AI系统金宝博官方在智能和能力方面的发展，它们的一些可用选项可能会让它们抵制程序员的干预。我们称一个人工智能系统是“可金宝博官方矫正的”，如果它与它的创造者所认为的纠正性干预进行合作，尽管理性的行为主体会抗拒关闭它们或修改它们偏好的尝试。我们引入了修正性的概念，并分析了效用函数，当一个关机按钮被按下时，它会试图使代理安全关机，同时避免激励机制来防止按钮被按下或导致按钮被按下，当它创建新的子系统或自我修改时，确保关闭行为的传播。金宝博官方虽然有些建议很有趣，但还没有一个被证明能满足我们所有的直觉需求，这就使这个简单的问题有很大的可纠正性。

更多的 ”

预测

高度适应性和通用的机器智能什么时候会被发明出来，在什么情况下发明出来?

除了我们的数学研究，MIRI调查重要的战略问题。金宝博娱乐关于人工智能的未来，我们能(不能)预测什么?如何提高我们的预测能力?考虑到我们的不足，今天可用的干预措施似乎是最有益的做知道？

人工智能的伦理学

在剑桥人工智能手册。

创建思维机器的可能性提出了许多道德问题。这些问题涉及确保这种机器不会伤害人类和其他道德相关的生物，以及机器本身的道德地位。第一部分讨论了在AI不久的将来可能出现的问题。第二部分概述了确保AI在其智力中接近人类的挑战，以确保AI安全运行。第三部分概述了我们如何评估是否在什么情况下，AIS本身都有道德地位。在第四部分，我们考虑某些基本方面的AIS可能与人类的某些基本尊重如何与我们的道德评估相关。最后一部分解决了创造比人类更智能的问题的问题，并确保他们使用他们的高级智力而不是生病。

形式化趋同的工具性目标

呈现在AAAI 2016 AI，伦理和社会研讨会上。

Omohundro认为，在默认情况下，任何设计的足够先进的人工智能系统都有追求一些有用的子目标的动机，金宝博官方比如获得更多的计算能力和积累许多资源。Omohundro将其称为“基本人工智能驱动”，他和博斯特罗姆等人认为，这意味着在设计强大的自动系统时必须非常小心，因为即使它们的目标是无害的，追求这些目标的副作用也可能是相当有害的。金宝博官方这些论点虽然直觉上令人信服，但主要是哲学上的。在这篇论文中，我们提供了正式的模型来证明Omohundro的论点，从而将数学的重要性放在这些直观的主张后面。

智能爆炸微观经济学

Miri 2013-1技术报告。

I.J.良好建议，充分先进的机器智能可以构建自身的更智能的版本，这可能反过来建立一个更智能的版本，并且这个过程可以继续超越人类能力的程度。我们如何模拟和测试这个假设？

我们认为关键问题在于认知再投资的回报——投入更多计算能力、更快的计算机或改进的认知算法来产生更大、更快或更好的思维设计的认知劳动的能力。从观察到的原始人类进化过程到摩尔定律，再到国际象棋程序的能力，许多现象都被认为是这场辩论中不同立场的证据。本文探讨了试图根据Good的假设解释这一证据时出现的问题，并提出了研究的下一步是形式化投资回报曲线，以便每个头寸都可以正式地说明他们认为哪些模型被历史观察证伪。金宝博娱乐

更多的 ”

将先进的人工智能与人类的兴趣结合起来

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
（误差焦点焦点）

高度可靠
代理设计

逻辑归纳

Arxiv的ePrint：1609.03543 [Cs.ai]。

谷物真理问题的形式解

在人工智能的不确定性：第三十二次会议的会议记录（2016年）。

功能决策理论:工具理性的新理论

亚克西州ePrint：1710.05060 [CS.AI]。

为HOL制作打样反射

在互动定理证明：第6届国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼。

错误宽容
和
值的学习

价值学习问题

在IJCAI 2016人工智能伦理研讨会上发表。

易燃

在Aaai 2015道德和人工智能研讨会上提出。

预测

人工智能的伦理学

在剑桥人工智能手册。

形式化趋同的工具性目标

呈现在AAAI 2016 AI，伦理和社会研讨会上。

智能爆炸微观经济学

Miri 2013-1技术报告。

金宝博官方

所有出版物

金宝博娱乐研究指南

金宝博娱乐研究论坛

代理基金会技术议程(高可靠性聚焦)

机器学习技术议程（误差焦点焦点）

高度可靠代理设计

Arxiv的ePrint：1609.03543 [Cs.ai]。

在人工智能的不确定性：第三十二次会议的会议记录（2016年）。

亚克西州ePrint：1710.05060 [CS.AI]。

在互动定理证明：第6届国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼。

错误宽容和值的学习

在IJCAI 2016人工智能伦理研讨会上发表。

在Aaai 2015道德和人工智能研讨会上提出。

预测

在剑桥人工智能手册。

呈现在AAAI 2016 AI，伦理和社会研讨会上。

Miri 2013-1技术报告。

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
（误差焦点焦点）

高度可靠
代理设计

错误宽容
和
值的学习