9月2020年新闻通讯

2020年9月10日|罗伯格林格|新闻稿

Abram Demski和Scott Garrabrant已经制作一个主要的更新至 ”嵌入式机构“，具有新讨论ε-勘探，纽康普罗斯问题，反思性奥克斯，逻辑不确定性，古老的法律，以及预测罕见的灾难，以及其他主题。

亚伯拉姆还概述了在没有贝叶斯更新的情况下看起来有什么好的推理：激进的概率。一个重复的主题：

[i]一般（即，没有任何特殊的事先，保证受限制观察模型的收敛），贝叶斯依赖于可实现性（又名真理）的收敛假设，因为它对其他一些很好的特性确实如此。根本概率可能要求这些性质而没有这种假设。

[... c]在激进概率主义者的“客观性”的概念中归功点。虽然个人更新了一个激进的概率主义者可以遍布这个地方，但信仰必须最终安定到某些东西。推理的目标是尽快安顿下来。

同时，红贝叶岛主义是一个新的正式框架，用于思考最佳推理，而无需推理的真实环境在其假设空间中。艾伯拉姆评论：“Alex Appel和Vanessa Kosoy一直在”红外贝叶斯主义“，这是一个新的RL的方法，旨在使其更容易（即，可能）来证明安全的定理（以及也是一种新方法更一般地到贝叶斯主义）。

其他Miri更新

Abram Demski对逻辑电感和贝叶斯人之间的差异表示寓言：贝叶斯暴君。
建立在这方面选择与控制区别，亚伯兰对比“mesa-search”和“mesa-control”。

新闻和链接

来自Openai的Stiennon等：学习总结人体反馈。Miri研金宝博娱乐究员Eliezer Yudkowsky注释：

一个非常罕见的研究，直接，直接与真实对金宝博娱乐齐问题相关！他们培训了对人类偏好的奖励功能然后在结果变得更糟之前，测量了您可以针对培训的函数优化的困难。

[... y] ou可以要求培训数据中最佳的第99百分位数的结果（a la jessica taylor's量化主意）。询问训练有素的奖励功能率的东西比这更好，而且它开始找到“漏洞”，从系统外面看到金宝博官方;训练有素的奖励功能与您的真实偏好不好的地方，而不是您真实偏好对高奖励的地方。
Chi Nguyen写道保罗Christiano迭代扩大研究议程介绍金宝博娱乐这寻求成为第一个“易于理解的和[给出]完整的图片”的第一个这样的资源。帖子包括Christiano的内联评论。
预报员分享他们的AI时间表的可视化关于胜率。