Miri Coo Malo Bourgon评出了我们过去的一年,并讨论了我们未来的计划2020更新和策略。
我们最新的更新是我们在我们所描述的新研究中取得了较少的具体进展金宝博娱乐2018年更新:我们的新研究方向金宝博娱乐。因此,我们正在缩减我们对这些研究方向的工作,并寻找具有更好的攻击的新角度,从而产生对对齐问题的解决方案。金宝博娱乐
其他Miri更新
- 来自Miri研究员Evan Hubinger金宝博娱乐的一篇新论文:“概述建设安全高级AI的11个建议。“
- 去年的迟来的纸张公告:安德鲁克克里的“Löb定理的参数,资源有限泛化,以及开放源游戏理论的强大合作标准“,结果原本写道在Miri的时间,已经发表在米里象征逻辑杂志。
- Miri的Abram Demski介绍了学习规范:研究议程金宝博娱乐。另见亚伯兰的新写作,规范。
- Evan Hubinger澄清内部对准术语。
- 生存和繁荣的基金(SFF)有颁发Miri $ 563,000最新一轮赠款!对SFF的补助金推荐人和资助者的巨大感激之情。
- 一个反映领土的地图是一本新的印刷书集收集2018年的Top Lesswrong论文,包括Miri研究人员Eliezer Yudkowsky,Abram Demski和Scott Garrabrant的散文。金宝博娱乐
- Deepmind的rohin shah赋予他的概要斯科特盖拉德坦的笛卡尔框架框架。
新闻和链接
- 丹尼尔·菲兰推出AI X-Risk Rese金宝博娱乐arch播客(AXRP)具有集中的集合亚当闪耀那Rohin Shah., 和安德鲁克克里奇。
- 深媒体alphafold.表示蛋白质结构预测的非常大的进步。
- Metaclulus发射预测AI进步是一个开放的四个月锦标赛,以预测AI的进步,拥有50,000美元的奖池。
- 继续起飞辩论:Richard Ngo回应Paul Christiano的“改变选择压力”的争论,反对硬起飞。
- Openai的Beth Barnes讨论了困扰的论点问题通过辩论进行AI安全:
此前我们希望辩论/ IDA可以验证存在这些人类可理解的参数的任何知识,即使这些参数是痛苦的大。我们希望辩论者可以战略地遍历隐式大争论树的小部分,从而表明整个树可以信任。
混淆的论点问题表明,我们可能无法依赖撤销者在大争论中找到缺陷,以便我们只能通过调用随机递减的缺陷时信任参数。因为参数足够小,如果存在一个,我们可以找到一个缺陷,或者因为参数足够强大,除非它有很多缺陷,否则除非它是正确的。
- 一些AI研究领域金宝博娱乐及其与存在性安全的相关性:Andrew Critch比较分销的鲁棒性,代理基础,多代理RL,偏好学习和其他研究领域。金宝博娱乐
- Ben Hoskin发布了他的2020 AI对准文献综述和慈善比较。
- 公开慈善事业总结了它的AI治理授予迄今为止。