更新
- 我们举办了一个非常成功的MIRI暑期研究员计划,包括有一天的参与者公开写下他们的想法关于人工智能安全的各种话题。参见本佩斯系列的第一个帖子综述.
- 写作当天的几个亮点:阿黛尔·洛佩兹的作品优化出处;丹尼尔Kokotajlo的软起飞仍然可以带来决定性的战略优势和“承诺竞赛”问题;埃文Hubinger的对纠错性的机械论理解;和约翰·温特沃斯的对于逻辑归纳来说,市场是普遍的和抽象的嵌入代理.
- MIRI员工和实习生的新职位:Abram Demski巨魔的桥梁;马修·格雷夫斯氏因素认知观;丹尼尔Filan的验证和透明度;和斯科特Garrabrant故意桶错误和类似代理的行为是否意味着类似代理的体系结构?
- 另请参阅一个论坛讨论人工智能安全的“证明级保证”。
新闻和链接
- Ben Cottier和Rohin Shah说道:澄清AI对齐中的一些关键假设
- 将规格问题归类为古德哈特定律的变体: Victoria Krakovna和Ramana Kumar将DeepMind的SRA分类与mesa-optimizers,选择和控制以及Scott Garrabrant的古德哈特分类法。DeepMind还发布了Ramana、Tom Everitt和Marcus Hutter的新产品设计代理激励以避免奖励篡改.
- 从OpenAI:针对不可预见的对手测试健壮性.最近还有80000小时采访OpenAI的保罗·克里斯汀诺,还有一些额外的材料在决策理论.
- 从人工智能的影响:反对目前导致人类水平人工智能的方法的证据和Ernie Davis谈人工智能风险景观
- 从戴魏:哲学家可能有助于解决的AI校准问题
- Richard Möhn整理了一个日历即将到来的AI对齐事件.
- 伯克利存在风险倡议正在寻求业务经理.