更新
- 我们的2019年筹款人截至12月31日。我们将在筹资媒体审查者回顾几周内有更多的说法,但目前,致谢〜240名捐赠者,他们一起捐赠超过526,000美元,包括67,484美元的前20秒188betapp送周二(不计数往往尚未公布的美元)。
- 1月15日是最后一天CFAR的年度筹款人员。CFAR也是如此最近跑了一个阿玛和已发布他们的研讨会参与者手册在线。
- 了解“深度双重”:Miri研究金宝博娱乐员Evan Hubinger描述了ML的迷人现象,以及ML研究中的一个有趣的案例研究,旨在深化我们的理解,而不仅仅是推进能力。在后续帖子中,Evan也考虑了对准研究可能的影响金宝博娱乐。
- 安全探索和浮现:Evan注意到一个重要的(和对齐相关)方式,即深RL的探险概念已经转移了。
- “通过评估假设行为来学习人类目标“:UC Berkeley和DeepMind研究人员”提金宝博娱乐出了一种在未知不安全状态存在下从人体反馈中训练加强学习代理的方法“。
来自研究团队的链接金宝博娱乐
从上个月继续我的实验:让Miri研究人员匿名挑选出AI对准论坛帖子以突出和评论。金宝博娱乐
- 关于(当时)是尊敬的辩论辩论?- “vojtěchkovařík和ryan carey的一篇论文;很高兴看到辩论模式的一些进展!“
- 关于神经网络理论的最新进展- “Noah Macaulay提供了另一个有趣的研究例子,试图解释NNS发生的事情。”金宝博娱乐
- 关于当Goodharting是最佳的- “我喜欢Stuart Armstrong的帖子,为什么我们可能害怕求婚的原因。金宝博官方开始时的例子是一个有趣的一个,因为它似乎(至少)就像机器人一样真正应该来回(在每一边保持长时间以最小化丢失的实用程序)。但斯图尔特是正确的,这个答案至少是非常难以理解的。“
- 关于寻求权力在MDPS中有乐意会聚和澄清寻求动力和乐器融合- “很高兴最终有一个正式的模型,感谢Alex Turner和Logan Smith。乐器融合一直是讨论的非正式部分。“
- 关于批评“什么失败看起来像”- “我以为Grue Slinky的帖子是对Paul Christiano'''的良好分析呜咽“情景”,突出了它似乎具有具体的AI风险场景的问题。特别是,我发现了对Simplex算法说服力的比喻,尽管我们目前的许多最强大的工具已经具有巨大差异的事实,但在他们对不同问题上的工作程度上有大量差异,那么这些值那些工具似乎似乎没有大规模丢失。我仍然觉得沿着“出去呜咽”的线条可能存在真正的风险,但我认为这篇文章对这一情况提出了真正的挑战,因为它已经描述了这一情况。“
- 关于反事实归造- “Alex Appel对逻辑反应性的提案。这可以使用一些更加谨慎的思想和批评;它尚不清楚它完成了多少或小的。“
- 关于平面为AI对准的困境— “Daniel Kokotajlo outlines key challenges for prosaic alignment: ‘[…] Now I think the problem is substantially harder than that: To be competitive prosaic AI safety schemes must deliberately create misaligned mesa-optimizers and then (hopefully) figure out how to align them so that they can be used in the scheme.’”