Miri更新
- Miri的Abram Demski三个问题:应用决策理论是什么意思?那如何“诚实”是GPT-3?, 和如何判断何国辩论?
- 来自Miri研究员Scott Garrabra金宝博娱乐nt的成绩单:我该怎么办?简单算法的自我预测。
- Miri研金宝博娱乐究人员巴克斯吉尔斯审查了辩论核武器的历史意味着人类协调的能力。
- 来自Miri的Evan Hubinger:学习之前和泛化和对准提案和复杂性课程。
- 拉斐尔哈斯蒂内在对齐:像我12版一样说明总结了“从”的概念和外卖学习优化的风险“。
- ISSA RIS.迄今为止评论讨论关于Miri的研究重金宝博娱乐点,“在多大程度上有可能具有精确的理性理论?”,与关系解烧金宝博娱乐研究和安全结果。(加简短的回复。)
- “在线学习奖励函数的陷阱”(IJCAI纸那LW摘要):FHI研究金宝博娱乐人员和Miri研究助理斯图尔特阿姆斯特朗,用深处的Jan Leike,Laurent Orsseau和Shane Legg,探讨了劝阻代理人操纵他们的奖励信号以更容易优化的方法。
新闻和链接
- 来自Paul Christiano:学习之前和更好的前锋作为安全问题。
- 来自维多利亚克拉科夫纳:受影响措施中基线选择的理想性质之间的权衡。
- 本步伐总结了Christiano的“什么失败看起来像”帖子和结果讨论。
- Kaj Sotala收集最近的例子人们使用GPT-3的经验。