更新
- 科尔姆评论我们的2019年筹款人:考虑到匹配,我们收到了250多个捐助者的601,120美元。我们再次感谢所有的支持!
- Evan Hubinger's探索安全探索澄清他筹集的积分安全探索和浮现。这里提出的问题有些讨论者比可能会立即显而易见,因为我们倾向于以崩溃的方式讨论事物,这是evan的崩溃。
- 逻辑师亚瑟米尔什评论Aircs Workshop和Miri的申请流程根据他的第一手经验。也可以看看后续讨论与miri和cfar员工。
- rohin shah帖子深入2018-19 AI对齐领域的综述。
- 从谢尔文和多亚多的新“科学知识的违法行为平衡:出版AI研究会减少误用吗?金宝博娱乐“:
[T]他周围的AI谈话来自一个特定领域的概念和结论:计算机安全中的漏洞披露。我们谨慎对待将这些课程视为立即适用的AI研究金宝博娱乐人员。软件中的漏洞与AI利用的漏洞类型之间存在重要差异。[...]
软件的补丁通常很容易创建,并且通常可以在几周内完成。这些补丁完全解决了漏洞。补丁可以很容易地传播:对于下载的软件,软件通常会在互联网上自动更新;对于网站,修复程序可以立即生效。
[... F]或某些技术,没有低成本,直截了当,有效的防御。[... c] insider生物学研究,可以深金宝博娱乐入了解病原体的制造,例如新型病毒。病毒的一部分是非常难以接种疫苗(仍然没有疫苗的疫苗)或以其他方式准备。这通过阻止出版物导致更大的保护来降低出版物的防守益处。这与可以在合理的时间段内开发有效治疗的情况对比[。]
- Yann Lecun和Eliezer Yudkowsky讨论“AGI”概念。
- CFAR的Anna Salamon对比“现实揭示”和“现实掩蔽”谜题。
- 斯科特亚历山大评论Stuart Russell's人类兼容。
来自研究团队的链接金宝博娱乐
Miri研金宝博娱乐究人员匿名总结和评论最近的帖子和论文:
- 关于ACDT:一个Hack-Y ACAUSAL决策理论- “斯图尔特阿姆斯特朗称这个决策理论称为黑客。我认为它可能比他放入(即,不同的配方可能不那么少于黑客-Y),并且正在进入某些东西。“
- 关于存在预测因子:CDT去邦克斯......永远- “我不认为斯图尔特阿姆斯特朗的例子真的在大马士革的一些死亡变种中都有很大增加,但在评论中有一些良好的CDT与EDT的东西。”
- 关于术语MESA优化器是太狭隘吗?- “Matthew Barnett造成了重要问题,”
- 关于没有内部搜索的恶意泛化- “我认为Matthew Barnett的问题在这里是一个重要的问题。我倾向于'是的,这是一个问题'营地 - 我认为我们不能通过消除内部搜索来完全消除诽谤泛化。但是,这可能会进入其他类别的错位(我们不想术语“内在对齐”)。“
- 关于(A - > B) - > A中的因果表达和在因果模型中制定还原机构- “我已经想要这样的事情了。贝叶斯影响模型代理无氧化,通过大胆地断言某些节点是代理商。我们可以制作代理代理的模型,而不声明那样的基本'代理'类型?John Pentworth提供一种方法,代表代理通过在使用提及边界的“奇怪的环路”;并讨论如何进一步破坏,完全还原机构。我还没有说服温特沃斯已经正确地走了,但看到一个尝试是令人兴奋的。“