12月2020年12月通讯
Miri Coo Malo Bourgon评出了我们过去的一年,并讨论了我们未来的计划2020更新和策略.
我们最新的更新是我们在我们所描述的新研究中取得了较少的具体进展金宝博娱乐2018年更新:我们的新研究方向金宝博娱乐.因此,我们正在缩减我们对这些研究方向的工作,并寻找具有更好的攻击的新角度,从而产生对对齐问题的解决方案。金宝博娱乐
其他Miri更新
- MIRI研究员Evan Hubinger的一金宝博娱乐篇新论文写道:概述建设安全高级AI的11个建议."
- 去年的迟来的纸张公告:安德鲁克克里的“Löb定理的参数,资源有限泛化,以及开放源游戏理论的强大合作标准“,结果最初写出来在Miri的时间,已经发表在米里符号逻辑杂志.
- MIRI的Abram Demski介绍道学习规范:研究议程金宝博娱乐.另见亚伯兰的新写作,规范.
- Evan Hubinger澄清内部对准术语.
- 生存和繁荣的基金(SFF)有授予Miri $ 563,000最新一轮赠款!对SFF的补助金推荐人和资助者的巨大感激之情。
- 一个反映领土的地图是一套新的印刷书籍,收集了2018年LessWrong的顶级文章,包括MIRI研究者Eliezer Yudkowsky, Abram Demski和Scott Garrabrant的文章。金宝博娱乐
- DeepMind Rohin的沙赋予他的概要斯科特盖拉德坦的笛卡尔框架框架。
新闻和链接
- 丹尼尔·菲兰推出AI X-Risk Rese金宝博娱乐arch播客(AXRP)具有集中的集合亚当闪耀,Rohin Shah., 和安德鲁Critch.
- 深媒体AlphaFold表示蛋白质结构预测的非常大的进步。
- Metaclulus发射预测人工智能的进展这是一场为期4个月的预测人工智能进展的公开比赛,奖金总额为5万美元。
- 继续起飞辩论:Richard Ngo回应Paul Christiano的“改变选择压力”的争论,反对硬起飞。
- Openai的Beth Barnes讨论了困扰的论点问题讨论人工智能的安全性:
此前我们希望辩论/ IDA可以验证存在这些人类可理解的参数的任何知识,即使这些参数是痛苦的大。我们希望辩论者可以战略地遍历隐式大争论树的小部分,从而表明整个树可以信任。
混淆的论点问题表明,我们可能无法依赖撤销者在大争论中找到缺陷,以便我们只能通过调用随机递减的缺陷时信任参数。因为参数足够小,如果存在一个,我们可以找到一个缺陷,或者因为参数足够强大,除非它有很多缺陷,否则除非它是正确的。
- 一些人工智能研究金宝博娱乐领域及其与存在安全的相关性: Andrew Critch比较了分布外的稳健性、代理基础、多代理RL、偏好学习和其他研究领域。金宝博娱乐
- 本·霍斯金释放了他的2020 AI对齐文献综述及慈善比较.
- 公开慈善事业总结了它的AI治理授予到目前为止。