将先进的人工智能与人类利益结合起来

MIRI的使命是确保创造出比人类更聪明的智能
一个积极的影响。我们的目标是让先进的智能系统像金宝博官方
我们希望即使没有人类的直接监督。

机器学习技术议程
（误差焦点焦点）

非常可靠
代理设计

最佳推理是什么？
看起来像物理世界的资源有限代理？

Miri专注于可以制造的AI方法透明的(例如，精确指定的决策算法，而不是遗传算法)，这样人类就能理解为什么人工智能系统会这样做。金宝博官方出于安全考虑，定义一般智能的数学方程比令人印象深刻但理解不佳的代码组合更可取。

因此，我们的大部分研究旨金宝博娱乐在将理论基础放在AI稳健性工作下。我们考虑传统决策和概率理论经常分解的设置：设置在哪里计算是昂贵的，没有尖锐的代理/环境边界那多个代理人存在，或者自我指涉的推理是承认。

逻辑归纳

亚克西州的ePrint：1609.03543 [Cs.ai]。

我们提出了一种可计算的算法，该算法为给定形式语言中的每个逻辑语句分配概率，并随着时间的推移对这些概率进行细化。我们表明，它满足许多直觉需求，包括:(1)它学习预测逻辑陈述的真伪模式，通常在有资源评估陈述之前很久，只要模式可以用多项式时间写下来;(2)学会使用适当的统计摘要来预测真实值呈现伪随机的陈述序列;(3)它学会对自己当前的信念有准确的信念，以一种避免自我参照的标准悖论的方式。

这些性质和其他许多性质都来自于逻辑归纳的标准，这是一系列股票交易类比的动机。粗略地说，每个逻辑句子φ是否与每股价值1美元的股票有关φ是真实的，没有什么，我们解释了逻辑上不确定推理的信仰状态作为一套市场价格，其中p_N.（φ）= 50％意味着当天N.，股票φ可以从推理中购买或销售50¢。逻辑归纳标准说（非常大致），不应该有任何多项式可计算的交易策略，具有有限的风险公差，这些交易策略在该市场上赚取了无限性的利润。

真理的实质问题的正式解决方案

在人工智能的不确定性：第三十二次会议的会议记录（2016年）．

在多智能体环境中，如果贝叶斯代理的先验赋值为正概率(换句话说，它的先验包含一个道理）。找到一个合理的大量政策，其中包含贝叶斯 - 最佳政策的关于这一课程的最佳政策被称为真理问题．只有小班被知道有一点真理和文学包含几个相关的不可能的结果。

本文给出了全真值问题的一个形式化的通解:构造了一类策略，其中包含了所有可计算的策略以及该类上的每一个下半可计算的先验的贝叶斯最优策略。当环境未知时，贝叶斯最优agent可能不能发挥最优甚至渐近的作用。然而，在任意未知可计算的多智能体环境中，基于Thompson抽样的智能体收敛到ε-Nash均衡。虽然这些结果是纯理论的，我们表明他们可以计算近似任意接近。

功能决策理论:一种新的工具理性理论

亚克西夫雷：1710.05060 [cs.ai]。

本文介绍并激励了一种新的决策理论功能决策理论(FDT)，不同于因果决策理论和证据决策理论。功能决策理论认为，行为的规范原则是将一个人的决策视为一个固定的数学函数的输出，该函数回答一个问题，“这个函数的哪个输出会产生最好的结果?”遵循这一原则可以带来许多好处，包括在CDT和EDT表现不佳的一系列传统决策理论和博弈论问题中实现财富最大化的能力。使用一个简单而连贯的决策规则，功能决策理论(例如)在纽科姆问题上比CDT获得更多的效用，在吸烟损伤问题上比EDT获得更多的效用，在帕菲特搭便车问题上比两者都获得更多的效用。在本文中，我们定义了FDT，探讨了它在许多不同决策问题中的规定，将其与CDT和EDT进行了比较，并给出了FDT作为一种规范决策理论的哲学论证。

HOL的打样反射

在互动定理证明：第六次国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼．

我们提出了一种在HOL4定理证明器中实现的“如果⌜⌝是可证明的，那么”形式的反射原理，假设存在一个大基数。We use the large-cardinal assumption to construct a model of HOL within HOL, and show how to ensure has the same meaning both inside and outside of this model. Soundness of HOL implies that if ⌜⌝ is provable, then it is true in this model, and hence holds. We additionally show how this reflection principle can be extended, assuming an infinite hierarchy of large cardinals, to implement模型多态性，一种专为验证具有自我替代功能的系统的技术。金宝博官方

118bet金博宝app

错误宽容
和
值的学习

如何使先进的学习系统接受和金宝博官方
协助在线调试
目标的调整呢?

使用培训数据来教导先进的AI系统我们的价值看起来更有希望，而不是试图在手头关心的一金宝博官方切中编写。但是，我们很少了解如何在培训数据对代理人的未来环境中取代时辨别，或者如何确保代理不仅要学习关于我们的价值观，但接受它们自己。

此外，追求某些目标的理性代理商可以激励保护其目标内容。无论他们目前的目标是什么，如果代理人继续推广它，那么它很可能会更好地服务，而不是如果代理人改变目标。这表明可能难以随着时间的推移改善代理商与人类兴趣的对齐，特别是当代理人足够智能以模拟并适应其程序员的目标时。制作价值学习系统金宝博官方宽容耐堵塞可能是安全在线学习所必需的。

价值学习问题

在IJCAI 2016年人工智能伦理研讨会上发表。

一台超级智能机器不会自动按预期行动：它将充当编程，但人类意图和书面代码之间的适合可能会很差。我们讨论可以构建系统以了解该系统的方法。金宝博官方我们突出了特定于归纳价值学习的开放问题（从标记的培训数据），并提高了一些关于构建运营商偏好并相应行动的系统的问题。金宝博官方

易燃

在Aaai 2015伦理和人工智能研讨会上提出。

随着人工智能金宝博官方系统在智能和能力上的发展，它们的一些可用选项可能会让它们拒绝程序员的干预。我们称人工智能系统为“可纠正金宝博官方的”，如果它与它的创造者所认为的纠正性干预合作，尽管理性主体的默认激励会抵制关闭它们或修改它们的偏好的尝试。我们引入了可修正性的概念，并分析了在按下关机按钮时试图使代理安全关闭的效用函数，同时避免了防止按钮被按下或导致按钮被按下的激励措施。当它创建新的子系统或自我修改时，确保关闭行为的传播。金宝博官方虽然有些提议很有趣，但还没有一个被证明能满足我们所有的直觉需求，这使得这个简单的问题在可纠正性方面大开方便之门。

118bet金博宝app

预测

高适应性和通用的机器智能什么时候会被发明，在什么情况下会被发明?

除了我们的数学研究，MIRI还研究重要的战略问题。金宝博娱乐关于人工智能的未来，我们能(不能)预测什么?如何提高我们的预测能力?在我们所能做的不多的情况下，现在有哪些干预措施似乎是最有益的做知道？

《人工智能伦理学

在剑桥人工智能手册．

创建思维机器的可能性提出了许多道德问题。这些问题涉及确保这些机器不会损害人类和其他道德相关的生物，以及机器本身的道德地位。第一部分讨论了在不久的未来可能出现的问题。第二部分概述了确保AI在其智力中接近人类的挑战，以确保AI安全运行。第三部分概述了我们如何评估是否在什么情况下，AIS本身都有道德地位。在第四部分，我们考虑某些基本方面的AIS可能与人类的某些基本方面有何不同。最后一节讨论了创造比人类更聪明的问题的问题，并确保他们利用他们的高级智力而不是生病。

将聚合的工具目标形式化

在Aaai 2016 AI，伦理和社会研讨会上提出。

奥莫洪德罗认为，任何设计的足够先进的人工智能系统，在默认情况下，都会有动机去追求一系列有用的子目标，比金宝博官方如获得更多的计算能力和积累更多的资源。奥莫洪德罗将这些称为“基本的人工智能驱动”，他和博斯特罗姆等人认为，这意味着在设计强大的自动系统时必须非常小心，因为即使它们有无害的目标，追求这些目标的副作用可能相当有害。金宝博官方这些论点虽然在直觉上令人信服，但主要是哲学性的。在这篇文章中，我们提供了正式的模型来证明奥莫洪德罗的论点，从而为那些直观的主张提供了数学上的砝码。

智能爆炸微观经济学

Miri 2013-1技术报告。

I.J.良好建议，充分先进的机器智能可以构建自身的更智能版本，这可能反过来建立一个甚至更聪明的版本，并且这个过程可以继续超越人类能力的程度。我们如何模拟和测试这个假设？

我们确定的关键问题是认知再投资的回报，即投入更多的计算能力，更快的计算机，或改进的认知算法，以产生更大的大脑，更快的大脑，或更好的思维设计的认知劳动的能力。从观察到的原始人类的进化过程，到摩尔定律，再到国际象棋程序在一段时间内的能力，许多现象都被认为是这场辩论中各种观点的证据。本文探讨了在试图根据Good的假设解释这一证据时出现的问题，并提出该研究的下一步是形式化投资回报曲线，以便每个位置可以形式化地说明他们认为哪些模型是由历史观察证伪的。金宝博娱乐

118bet金博宝app

将先进的人工智能与人类利益结合起来

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
（误差焦点焦点）

非常可靠
代理设计

逻辑归纳

亚克西州的ePrint：1609.03543 [Cs.ai]。

真理的实质问题的正式解决方案

在人工智能的不确定性：第三十二次会议的会议记录（2016年）．

功能决策理论:一种新的工具理性理论

亚克西夫雷：1710.05060 [cs.ai]。

HOL的打样反射

在互动定理证明：第六次国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼．

错误宽容
和
值的学习

价值学习问题

在IJCAI 2016年人工智能伦理研讨会上发表。

易燃

在Aaai 2015伦理和人工智能研讨会上提出。

预测

《人工智能伦理学

在剑桥人工智能手册．

将聚合的工具目标形式化

在Aaai 2016 AI，伦理和社会研讨会上提出。

智能爆炸微观经济学

Miri 2013-1技术报告。

金宝博官方

118bet金博宝app

金宝博娱乐研究指南

金宝博娱乐研究论坛

代理基金会技术议程(高可靠性聚焦)

机器学习技术议程（误差焦点焦点）

非常可靠代理设计

亚克西州的ePrint：1609.03543 [Cs.ai]。

在人工智能的不确定性：第三十二次会议的会议记录（2016年）．

亚克西夫雷：1710.05060 [cs.ai]。

在互动定理证明：第六次国际会议，ITP 2015，南京，中国，2015年8月24日至27日，诉讼．

错误宽容和值的学习

在IJCAI 2016年人工智能伦理研讨会上发表。

在Aaai 2015伦理和人工智能研讨会上提出。

预测

在剑桥人工智能手册．

在Aaai 2016 AI，伦理和社会研讨会上提出。

Miri 2013-1技术报告。

代理基金会技术议程
(高可靠性聚焦)

机器学习技术议程
（误差焦点焦点）

非常可靠
代理设计

错误宽容
和
值的学习