决策理论

||分析

决策理论和人工智能通常试图计算类似的东西

$ $ \暗流{\ \中\行动}{\ mathrm {argmax}} \ \ f (a), $ $

也就是说,最大化动作的某些功能。这倾向于假设我们可以把事情搞得足够复杂,把结果看作是行动的功能。

例如,AIXI将代理和环境表示为独立的单元,它们通过明确定义的i/o通道随时间进行交互,这样它就可以选择使奖励最大化的操作。

AIXI

当代理模型为环境模型的一部分在美国,如何考虑采取其他行动就不那么清楚了。

嵌入式代理人

例如,因为代理是小于环境,可以有代理的其他副本,或与代理非常相似的东西。这导致了有争议的决策理论问题,如孪生囚徒困境和纽科姆问题

如果EMMY模型2和EMMY模型2具有相同的体验并运行相同的源代码,那么EMMY Model 1应该像她的决策一样行动,它立即转向两个机器人?根据您如何绘制“自己”周围的边界,您可能认为您可以控制两个副本的操作,或者只有自己的副本。

这是反事实推理问题的一个例子:我们如何评价像“如果太阳突然熄灭了怎么办”这样的假设?

适应问题决策理论嵌入代理包括:

  • 反设事实
  • 纽康姆式推理,即主体与自身的副本相互作用
  • 更广泛地推理其他代理
  • 勒索问题
  • 协调问题
  • 逻辑反设事实
  • 逻辑更新

阅读更多»

2018年10月通讯

||新闻稿

宣布新的AI对齐论坛

||客人的帖子新闻

这是Oliver Habryka,Lead Developer for Lesswrong的欧洛弗Habryka。我们对胜过的努力工作的辛勤团队的感激之情,他们已经投入了发展这种资源,我们祝贺今天的发布!


我很高兴地宣布经过两个月的公测,AI对准论坛今天启动。人工智能对齐论坛是一个由背后的团队建立的新网站Lesswrong 2.0.,帮助创建一个技术人工智能对齐研究和讨论的新中心。金宝博娱乐

我们设计论坛时,我们的核心目标是让新人更容易进行技术AI对齐研究。金宝博娱乐这项努力分为两个主要部分:

阅读更多»

嵌入式代理

||分析

假设您想要创建一个机器人来为您实现一些现实世界的目标——这个目标需要机器人自己学习并找出许多您不知道的东西。1

这里有一个复杂的工程问题。但也有一个问题,弄清楚它甚至意味着建立这样的学习代理。优化物理环境中的现实目标是什么?在广泛的条件下,它是如何工作的?

在这一系列的帖子中,我将指向四种方式目前已经知道它是如何工作的,并在四个领域进行了积极的研究,旨在弄清楚它。金宝博娱乐

这是阿列克谢,阿列克谢正在玩电子游戏。

阿列克谢,二元论特工

像大多数游戏一样,这个游戏也有清除输入和输出通道.Alexei仅通过计算机屏幕观察游戏,只能通过控制器操纵游戏。

游戏可以被认为是一种功能,即通过一系列按键按键并在屏幕上输出一系列像素。

Alexei也非常聪明,并且能够在他的脑海里举行整个视频游戏.如果Alexei有任何不确定性,那么它只超越了他正在播放的游戏的经验事实,而不是超过哪些输入(对于给定的确定性游戏)的逻辑事实将产生哪些输出。这意味着Alexei还必须在他的脑海里储存他可以玩的每一个可能的游戏。

Alexei.但是,不得不思考自己.他只是在优化自己正在玩的游戏,而不是优化用来思考游戏的大脑。他可能仍然会根据信息的价值来选择行动,但这只是为了帮助他排除正在玩的游戏,而不是改变他的思维方式。

事实上,阿列克谢可以把自己当做一个不变的不可分割的原子.因为他并不存在于他所考虑的环境中,所以Alexei并不担心他是否会随着时间的推移而改变,也不担心他可能需要运行的任何子程序。

请注意,我所谈到的所有属性都是由于Alexei与他正在优化的环境完全分离这一事实而成为可能。
阅读更多»


  1. 这是第一部分嵌入式代理系列,作者艾布拉姆·戴姆斯基和斯科特·加拉布兰特。

火箭对准问题

||分析

下面是一个虚构的对话AI对齐:为何困难,从何开始


在一个不极近的邻近世界的某个地方,科学课程课程很不同......

阿方索:你好,贝丝。我注意到最近有很多关于“太空飞机”被用来攻击城市的推测,或者可能被注入了居住在天上的邪恶灵魂,从而攻击他们自己的工程师。

我对这些猜测的持怀疑态度。事实上,我有点持怀疑态度,飞机能够在下个世纪随时高达平流层气象气球。但我明白你的研究所希望解决恶毒或危险航天飞机的潜在问题,而且你认为这是一个重要的当天事业。

贝丝:那就是......真的不是我们在故意皇家学院的数学中的方式将是短语的。

恶毒的天灵精神问题是所有新闻文章都集中在一起,但我们认为真正的问题是完全不同的。我们担心现代火箭部门大多俯瞰的难度,理论上有挑战性的问题。我们担心,如果您在天空中的火箭瞄准火箭,并按下发射按钮,火箭可能实际上并不在月球上。

阿方索:我知道设计能在大风中稳定航天飞机飞行的翼片是非常重要的。这是非常重要的航天飞机安全研究,需要有人来做。金宝博娱乐

但是,如果您正在研究这种安全研究,我希望您希望与现代飞机工程师密切合作,以测试您的鳍设计,以证金宝博娱乐明它们实际上是有用的。

贝丝:空气动力设计是任何安全火箭的重要特征,我们很高兴火箭科学家正在研究这些问题并认真对待安全问题。不过,这不是我们MIRI所关注的那种问题。

阿方索:那有什么好担心的?你担心太空飞机会被不怀好意的人开发出来吗?

贝丝:这不是我们现在担心的失败模式。我们现在更担心,现在没有人能告诉你如何让你的火箭朝向月球吗任何指定的目的地。无论是谷歌,还是美国政府,还是朝鲜发射火箭,从我们的角度来看,都不会对成功登月的可能性产生实质性的影响,因为现在没有人知道如何在任何地方瞄准任何一种火箭

阅读更多»

2018年9月通讯

||新闻稿

夏季miri更新

||新闻

在我们最后一次重大更新中——我们的2017年战略更新筹款机我们说过,我们目前的重点是技术研究和执行我们最大的金宝博娱乐招聘推。我们的支持者在年底令人难以置信的支持表现,使我们能够在我们最雄心勃勃的增长计划中执行优势。

在这篇文章中,我想向我们招聘努力和成功提供一些更新,宣布我们收到的一些主要捐赠和赠款,并提供了一些其他杂项更新。

简而言之,我们的主要公告如下:

  1. 我们有两个新的全日制研究人员金宝博娱乐员工宣布。
  2. 我们收到了170万美元的主要捐款和赠款其中100万美元来自于加拿大Miri支持者的税收优势基金

有关更多细节,请参见下面。

阅读更多»

2018年8月通讯

||新闻稿