2019年6月1日|Rob Bensinger|时事通讯

Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant在“mesa-optimization”:

这个序列的目标是分析当一个已学习的模型(例如神经网络)本身是一个优化器时发生的已学习的优化类型——我们称之为这种情况mesa-optimization．

我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。金宝博官方首先，在什么情况下学习的模型会成为优化器，包括在什么情况下它们不应该成为优化器?第二，当一个学习过的模型是一个优化器时，它的目标是什么——它将如何不同于它所接受的损失函数，以及它如何对齐?

序列以从已知优化中获得的风险:引言和继续Mesa-Optimization条件．（LessWrong镜子。）

其他的更新

新的研究金宝博娱乐文章:纳什均衡可以是任意坏的;自我确认的预测可能是任意糟糕的;AI也可以侥幸逃脱，如果……;不确定性、模糊性、外推性
我们发布的2018年年度回顾．
现正接受申请两个AI安全事件人工智能安全研讨会(8月16日-19日)和人工智能安全技术大会(8月22日-25日)。
关于起飞速度的讨论，包括一些非常不完整和高层次的MIRI评论。

新闻和链接

其他最近的人工智能安全帖子:汤姆·西特勒的人工智能风险论据的转变和魏戴笠的" UDT2 "及" against UD+ASSA "．
来自SafeML ICLR研讨会的谈话正在进行网上．
从OpenAI“我们正在实施两种机制来负责地发布GPT-2，并希望未来发布:分阶段发布和基于伙伴关系的共享。”
梁FHI的玉认为“在人工智能治理机制的形成阶段，国家缺乏领导能力”，而“私人人工智能实验室最适合领导人工智能治理”。

2019年5月31日|Bourgon不全|米里策略

我们在2018年的MIRI主要关注两个方面:研究——一如既往!金宝博娱乐——经济增长。

多亏了令人难以置信的支持我们前一年收到了捐赠者的捐款，在2018年我们能够积极执行我们的计划2017年筹集资金后．我们设定的最重要的目标是“成长壮大，快速成长”，就像我们新的研究方向金宝博娱乐从一个更大的团队中获益更多，并且需要更容易雇佣的技能。为此，我们设定了到2019年底增加10名新研究人员的目标。金宝博娱乐

因此，2018年我们加快了2017年开始的工作，加大了招聘方面的投资，并加强了我们持续增长所需的基础。自从我们2017年的筹款活动以来，我们增加了3名新的研究人员，包括著名的Haskell开发人员金宝博娱乐爱德华Kmett．我现在认为，到2019年底，我们最有可能招聘6-8名员工，尽管在我看来，达到9-10名似乎仍然很有可能，因为我们仍在与许多有前途的候选人接触，并继续遇到更多的人。

总体而言，2018年是MIRI的伟大一年。我们的研金宝博娱乐究继续迅速进行，我们的招聘工作也越来越有成效。
阅读更多»

2019年5月10日|Rob Bensinger|时事通讯

2019年4月24日|Rob Bensinger|论文

MIRI研金宝博娱乐究助理Vanessa Kosoy写了一篇新论文，授权强化学习:学习通过一点帮助避免陷阱Kosoy将在2019年ICLR上展示这篇论文SafeML车间在两个星期。抽象的写着:

大多数已知的强化学习的遗憾界限要么是偶发性的，要么假设一个没有陷阱的环境。通过允许算法偶尔将一个动作委托给外部顾问，我们在不做任何假设的情况下推导出了一个遗憾界限。因此，我们得出了一个基于模型的主动强化学习的设置，我们称之为DRL(委托强化学习)。

为了证明后悔界限，我们构建的算法是后验采样强化学习的变体，由一子程序补充，该子程序决定应该委托哪些操作。该算法不是随时随地的，因为参数必须根据目标时间折扣进行调整。目前，我们的分析仅限于有限数量假设、状态和行为的马尔可夫决策过程。

Kosoy在DRL上工作的目标是让我们深入了解具有人在循环和正式性能保证的学习系统，包括安全保证。金宝博官方DRL试图将我们推向这个方向，通过提供模型，可以得到这样的性能保证。

尽管这些模型仍然做出了许多不切实际的简化假设，但Kosoy认为DRL已经捕捉到了问题的一些最基本特征，并且她对如何进一步发展这个框架有一个相当雄心勃勃的愿景。

Kosoy之前在帖子中描述了DRL委派强化学习与一个纯粹理智的顾问．本文中描述的DRL Kosoy的一个特性是DRL的应用腐败．在特定的假设下，DRL可以确保一个正式的代理永远不会有其奖励或建议通道被篡改(损坏)。作为一种特殊情况，代理自己的顾问不能导致代理进入损坏状态。类似地，“委托强化学习”中描述的对陷阱的一般保护也可以保护agent免受有害的自我修改。

另一组DRL结果没有在论文中出现利用DRL减灾．在这种变体中，DRL代理可以减轻advisor工具自身无法减轻的灾难——标准DRL中关于advisor工具的更严格假设不支持这种情况。