将先进的人工智能与人类的兴趣结合起来

MIRI的任务是确保创造出比人类更聪明的智能
一个积极的影响。我们的目标是让先进的智能系统像金宝博官方
即使没有直接的人类监督，我们也打算这样做。

高度可靠
代理设计

什么是最佳推理
看起来像是物理世界中资源有限的代理吗?

MIRI关注的是可以采取的人工智能方法透明的(例如，精确指定的决策算法，而不是遗传算法)，这样人类就可以理解为什么人工智能系统会这样做。金宝博官方出于安全考虑，一个定义通用智能的数学方程比一个令人印象深刻但理解不透彻的代码组装更令人满意。

因此，我们的大部分研究旨金宝博娱乐在为人工智能的稳健性工作奠定理论基础。我们考虑传统决策和概率论经常失效的设置:设置计算是昂贵的，没有锋利的代理/环境边界，多个代理存在,或自我指涉的推理是承认。

逻辑归纳

eprint at arXiv:1609.03543 [cs.AI]。

我们提出了一种可计算的算法，在给定的形式语言中赋予每个逻辑语句概率，并随着时间的推移改进这些概率。我们证明了它满足了许多直观的需求，包括:(1)只要模式能在多项式时间内被写下来，它就能在有资源评估语句之前，学习预测逻辑语句中的真假模式;(2)学会使用适当的统计摘要来预测真值为伪随机的语句序列;(3)它学会对自己当前的信念有准确的信念，以避免自我参照的标准悖论。

这些特性和其他许多特性都来自于逻辑归纳的标准，其动机是一系列股票交易类比。大致说来，每个逻辑句φ与每股价值1美元的股票有关φ是真的，没有别的，我们将逻辑不确定推理者的信念状态解释为一组市场价格，P_n（φ(50%意味着在那天n,股φ可以以50美分的价格从推理者那里购买或出售。逻辑归纳标准(非常粗略地)认为，不应该存在任何具有有限风险容忍度的多项式时间可计算的交易策略，从而在一段时间内在该市场上赚取无限利润。

谷物真理问题的形式解

在人工智能的不确定性:第三十二届会议论文集(2016)．

在多智能体环境中，如果贝叶斯智能体的先验为其他智能体分配正概率(换句话说，它的先验包含一个道理）.找到一个相当大的策略类，其中包含关于该类的贝叶斯最优策略称为谷物真理问题．只有小班才知道有一点真理，而文献中包含了几个相关的不可能的结果。

我们构造了一类包含所有可计算策略以及该类上每个下半可计算先验的bayes -最优策略的策略。当环境未知时，贝叶斯最优代理甚至可能无法渐进地采取最优行动。然而，在任意未知可计算多智能体环境下，基于Thompson抽样的智能体收敛到ε-Nash均衡。虽然这些结果是纯理论的，我们表明，他们可以计算近似值任意接近。

功能决策理论:工具理性的新理论

eprint at arXiv:1710.05060 [cs.AI]。

本文描述并激发了一种新的决策理论功能决策理论(FDT)，不同于因果决策理论和证据决策理论。泛函决策理论家认为，行为的规范原则是将一个人的决策视为一个固定数学函数的输出，该函数回答以下问题:“这个函数的哪个输出会产生最好的结果?”遵循这一原则可以带来许多好处，包括在CDT和EDT表现不佳的传统决策理论和博弈论问题中最大化财富的能力。使用一个简单而连贯的决策规则，功能决策理论家(例如)在Newcomb的问题上比CDT获得了更多的效用，在吸烟损伤问题上比EDT获得了更多的效用，在Parfit的搭便车者问题上比两者都获得了更多的效用。在本文中，我们定义了FDT，探讨了它在许多不同的决策问题中的规定，并将其与CDT和EDT进行比较，并给出了FDT作为决策规范理论的哲学理由。

为HOL制作打样反射

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

我们在HOL4定理证明中实现了一个形式为“如果⌜⌝是可证明的，那么”的反射原理，假设存在一个大基数。We use the large-cardinal assumption to construct a model of HOL within HOL, and show how to ensure has the same meaning both inside and outside of this model. Soundness of HOL implies that if ⌜⌝ is provable, then it is true in this model, and hence holds. We additionally show how this reflection principle can be extended, assuming an infinite hierarchy of large cardinals, to implement模型多态性，一种用于验证具有自我替换功能的系统的技术。金宝博官方

错误宽容
和
值的学习

怎样才能使一个先进的学习系统接受和接受金宝博官方
协助在线调试
目标的调整呢?

使用训练数据向先进的人工智能系统教授我们看重的东西，似乎比尝试用手工编写所有我们关金宝博官方心的东西更有前途。然而，对于如何辨别训练数据是否不代表agent的未来环境，或者如何确保agent不仅仅是学习，我们知之甚少关于我们的价值观，但接受它们为自己的价值观。

此外，追求某些目标的理性代理人有保护其目标内容的动机。不管他们当前的目标是什么，如果代理继续提升目标，很可能会比代理改变目标更好。这表明，随着时间的推移，改善代理与人类利益的一致性可能是困难的，特别是当代理足够聪明，能够建模并适应其程序员的目标时。创造价值学习系统金宝博官方不变性很可能是安全在线学习的必要条件。

价值学习问题

在IJCAI 2016人工智能伦理研讨会上发表。

超级智能机器不会自动按照预期行事:它会按照程序的方式行事，但人类的意图和编写的代码之间的匹配度可能很低。我们讨论了构建系统来学习价值的方法。金宝博官方我们强调了归纳价值学习(来自已标记的训练数据)中特定的开放问题，并提出了一些关于系统构建的问题，这些系统建模了操作人员的偏好并相应地采取行动。金宝博官方

可订正

在2015年AAAI伦理与人工智能研讨会上发表。

随着AI系统金宝博官方在智能和能力方面的发展，它们的一些可用选项可能会让它们抵制程序员的干预。我们称一个人工智能系统是“可金宝博官方矫正的”，如果它与它的创造者所认为的纠正性干预进行合作，尽管理性的行为主体会抗拒关闭它们或修改它们偏好的尝试。我们引入了修正性的概念，并分析了效用函数，当一个关机按钮被按下时，它会试图使代理安全关机，同时避免激励机制来防止按钮被按下或导致按钮被按下，当它创建新的子系统或自我修改时，确保关闭行为的传播。金宝博官方虽然有些建议很有趣，但还没有一个被证明能满足我们所有的直觉需求，这就使这个简单的问题有很大的可纠正性。

预测

高度适应性和通用的机器智能什么时候会被发明出来，在什么情况下发明出来?

除了我们的数学研究，MIRI调查重要的战略问题。金宝博娱乐关于人工智能的未来，我们能(不能)预测什么?如何提高我们的预测能力?考虑到我们的不足，今天可用的干预措施似乎是最有益的做知道吗?

人工智能的伦理学

在剑桥人工智能手册．

创造会思考的机器的可能性引发了一系列伦理问题。这些问题既涉及到确保这些机器不会伤害人类和其他与道德相关的人，也涉及到机器本身的道德地位。第一部分讨论了人工智能在不久的将来可能出现的问题。第二部分概述了在智能接近人类时确保人工智能安全运行所面临的挑战。第三部分概述了我们如何评估人工智能本身是否具有道德地位，以及在什么情况下具有道德地位。在第四部分中，我们将考虑人工智能与人类在某些基本方面的不同，这些方面与我们对它们的道德评估有关。最后一节将讨论如何创造出比人类更聪明的ai，并确保它们将先进的智能用于好的方面而不是坏的方面。

形式化趋同的工具性目标

在2016年AAAI的AI，伦理与社会研讨会上发表。

Omohundro认为，在默认情况下，任何设计的足够先进的人工智能系统都有追求一些有用的子目标的动机，金宝博官方比如获得更多的计算能力和积累许多资源。Omohundro将其称为“基本人工智能驱动”，他和博斯特罗姆等人认为，这意味着在设计强大的自动系统时必须非常小心，因为即使它们的目标是无害的，追求这些目标的副作用也可能是相当有害的。金宝博官方这些论点虽然直觉上令人信服，但主要是哲学上的。在这篇论文中，我们提供了正式的模型来证明Omohundro的论点，从而将数学的重要性放在这些直观的主张后面。

智能爆炸微观经济学

MIRI技术报告2013-1。

I.J.古德认为，足够先进的机器智能可以制造出自己的更智能版本，反过来，机器智能又可以制造出更智能的版本，这个过程可以继续下去，远远超过人类的能力。我们如何建模和检验这个假设?

我们认为关键问题在于认知再投资的回报——投入更多计算能力、更快的计算机或改进的认知算法来产生更大、更快或更好的思维设计的认知劳动的能力。从观察到的原始人类进化过程到摩尔定律，再到国际象棋程序的能力，许多现象都被认为是这场辩论中不同立场的证据。本文探讨了试图根据Good的假设解释这一证据时出现的问题，并提出了研究的下一步是形式化投资回报曲线，以便每个头寸都可以正式地说明他们认为哪些模型被历史观察证伪。金宝博娱乐

将先进的人工智能与人类的兴趣结合起来

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
(错误容忍聚焦)

高度可靠
代理设计

逻辑归纳

eprint at arXiv:1609.03543 [cs.AI]。

谷物真理问题的形式解

在人工智能的不确定性:第三十二届会议论文集(2016)．

功能决策理论:工具理性的新理论

eprint at arXiv:1710.05060 [cs.AI]。

为HOL制作打样反射

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

错误宽容
和
值的学习

价值学习问题

在IJCAI 2016人工智能伦理研讨会上发表。

可订正

在2015年AAAI伦理与人工智能研讨会上发表。

预测

人工智能的伦理学

在剑桥人工智能手册．

形式化趋同的工具性目标

在2016年AAAI的AI，伦理与社会研讨会上发表。

智能爆炸微观经济学

MIRI技术报告2013-1。

金宝博官方

所有出版物

金宝博娱乐研究指南

金宝博娱乐研究论坛

代理基金会技术议程(高可靠性聚焦)

机器学习技术议程(错误容忍聚焦)

高度可靠代理设计

eprint at arXiv:1609.03543 [cs.AI]。

在人工智能的不确定性:第三十二届会议论文集(2016)．

eprint at arXiv:1710.05060 [cs.AI]。

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

错误宽容和值的学习

在IJCAI 2016人工智能伦理研讨会上发表。

在2015年AAAI伦理与人工智能研讨会上发表。

预测

在剑桥人工智能手册．

在2016年AAAI的AI，伦理与社会研讨会上发表。

MIRI技术报告2013-1。

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
(错误容忍聚焦)

高度可靠
代理设计

错误宽容
和
值的学习