12月2020年12月通讯

2020年12月30日|罗伯格林格|时事通讯

Miri Coo Malo Bourgon评出了我们过去的一年，并讨论了我们未来的计划2020更新和策略．

我们最新的更新是我们在我们所描述的新研究中取得了较少的具体进展金宝博娱乐2018年更新：我们的新研究方向金宝博娱乐．因此，我们正在缩减我们对这些研究方向的工作，并寻找具有更好的攻击的新角度，从而产生对对齐问题的解决方案。金宝博娱乐

其他Miri更新

MIRI研究员Evan Hubinger的一金宝博娱乐篇新论文写道:概述建设安全高级AI的11个建议．"
去年的迟来的纸张公告：安德鲁克克里的“Löb定理的参数，资源有限泛化，以及开放源游戏理论的强大合作标准“，结果最初写出来在Miri的时间，已经发表在米里符号逻辑杂志．
MIRI的Abram Demski介绍道学习规范：研究议程金宝博娱乐．另见亚伯兰的新写作，规范．
Evan Hubinger澄清内部对准术语．
生存和繁荣的基金（SFF）有授予Miri $ 563,000最新一轮赠款！对SFF的补助金推荐人和资助者的巨大感激之情。
一个反映领土的地图是一套新的印刷书籍，收集了2018年LessWrong的顶级文章，包括MIRI研究者Eliezer Yudkowsky, Abram Demski和Scott Garrabrant的文章。金宝博娱乐
DeepMind Rohin的沙赋予他的概要斯科特盖拉德坦的笛卡尔框架框架。

新闻和链接

丹尼尔·菲兰推出AI X-Risk Rese金宝博娱乐arch播客（AXRP）具有集中的集合亚当闪耀，Rohin Shah.，和安德鲁Critch．
深媒体AlphaFold表示蛋白质结构预测的非常大的进步。
Metaclulus发射预测人工智能的进展这是一场为期4个月的预测人工智能进展的公开比赛，奖金总额为5万美元。
继续起飞辩论：Richard Ngo回应Paul Christiano的“改变选择压力”的争论，反对硬起飞。
Openai的Beth Barnes讨论了困扰的论点问题讨论人工智能的安全性:

此前我们希望辩论/ IDA可以验证存在这些人类可理解的参数的任何知识，即使这些参数是痛苦的大。我们希望辩论者可以战略地遍历隐式大争论树的小部分，从而表明整个树可以信任。

混淆的论点问题表明，我们可能无法依赖撤销者在大争论中找到缺陷，以便我们只能通过调用随机递减的缺陷时信任参数。因为参数足够小，如果存在一个，我们可以找到一个缺陷，或者因为参数足够强大，除非它有很多缺陷，否则除非它是正确的。
一些人工智能研究金宝博娱乐领域及其与存在安全的相关性: Andrew Critch比较了分布外的稳健性、代理基础、多代理RL、偏好学习和其他研究领域。金宝博娱乐
本·霍斯金释放了他的2020 AI对齐文献综述及慈善比较．
公开慈善事业总结了它的AI治理授予到目前为止。

2020更新和策略

2020年12月21日|Malo Bourgon.|米里策略，消息

Miri的2020年已经进行了一年的实验和调整。为了回应Covid-19大流行，我们在很大程度上将我们的业务转移到3月份的更多农村地区，并转移到更加重视遥远的工作。我们借此机会尝试新的工作组和研究方法，并在很大程度上对结果感到满意。金宝博娱乐

与此同时，2020年在研究中看到有限的进展，Miri领导以前最兴奋了：新的金宝博娱乐金宝博娱乐研究方向我们从2017年开始。鉴于到目前为止进展缓慢，我们正在考虑对我们的战略进行一些可能的改变，MIRI的研究领导正将大部分注意力转向寻找更有前途的路径。金宝博娱乐

阅读更多 ”

11月2020年新闻通讯

11月30日，2020年|罗伯格林格|时事通讯

10月2020年通讯

2020年10月23日|罗伯格林格|时事通讯

9月2020年新闻通讯

2020年9月10日|罗伯格林格|时事通讯

Abram Demski和Scott Garrabrant已经制作一个主要的更新至 ”嵌入式机构“，具有新讨论ε-勘探，纽康普罗斯问题，反思性奥克斯，逻辑不确定性，古老的法律，以及预测罕见的灾难，以及其他主题。

Abram还写了一篇关于在没有贝叶斯更新的情况下什么是好的推理的概述:激进的概率．一个反复出现的主题:

[i]一般（即，没有任何特殊的先验保证了受限观测模型的收敛性），贝叶斯依赖于可实现性（又名真理）的收敛假设，因为它对其他一些很好的特性确实如此。根本概率可能要求这些性质而没有这种假设。

[... c]在激进概率主义者的“客观性”的概念中归功点。虽然个人更新了一个激进的概率主义者可以遍布这个地方，但信仰必须最终安定到某些东西。推理的目标是尽快安顿下来。

与此同时,红贝叶岛主义是一种新的思考最佳推理的正式框架，而不需要推理者的真实环境在其假设空间中。Abram评论道:“Alex Appel和Vanessa Kosoy一直在努力研究‘下贝叶斯理论’，这是一种RL的新方法，旨在使证明安全相关定理变得更容易(也就是说，可能)(也是一种更普遍的贝叶斯理论的新方法)。

其他Miri更新

Abram Demski对逻辑电感和贝叶斯人之间的差异表示寓言：贝叶斯暴君．
建立在这方面选择与控制区别,亚伯兰对比“mesa-search”和“mesa-control”．

新闻和链接

来自OpenAI的Stiennon等人:学习总结人体反馈．MIRI研金宝博娱乐究员Eliezer Yudkowsky注释：

一个非常罕见的研究，直接，直接与真实对金宝博娱乐齐问题相关！他们培训了对人类偏好的奖励功能然后在结果变得更糟之前，测量了您可以针对培训的函数优化的困难。

你可以要求得到和训练数据中排名前99位一样好的结果(就像杰西卡·泰勒那样)quantilization想法)。要求训练奖励功能比这“更好”的东西，然后它开始找到“漏洞”，从系统外面看到金宝博官方;训练后的奖励功能与你的真实偏好不匹配的地方，而不是你的真实偏好会得到高奖励的地方。
Chi Nguyen写道介绍保罗·克里斯蒂安诺的重复放大研究议程金宝博娱乐这寻求成为第一个“易于理解的和[给出]完整的图片”的第一个这样的资源。帖子包括Christiano的内联评论。
预报员分享他们的AI时间表的可视化关于胜率。

2020年8月通讯

2020年8月13日|罗伯格林格|时事通讯

7月2020年新闻通讯

2020年7月8日|罗伯格林格|时事通讯

6月2020年6月通讯

2020年6月8日|罗伯格林格|时事通讯

12月2020年12月通讯

2020更新和策略

11月2020年新闻通讯

10月2020年通讯

9月2020年新闻通讯

2020年8月通讯

7月2020年新闻通讯

6月2020年6月通讯

搜索

浏览

订阅

其他Miri更新

新闻和链接

其他Miri更新

新闻和链接

其他Miri更新

新闻和链接

其他Miri更新

新闻和链接

美里更新

新闻和链接

其他Miri更新

新闻和链接

其他更新

搜索

浏览

订阅