|Rob Bensinger|时事通讯
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant在“mesa-optimization”:
这个序列的目标是分析当一个已学习的模型(例如神经网络)本身是一个优化器时发生的已学习的优化类型——我们称之为这种情况mesa-optimization.
我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。金宝博官方首先,在什么情况下学习的模型会成为优化器,包括在什么情况下它们不应该成为优化器?第二,当一个学习过的模型是一个优化器时,它的目标是什么——它将如何不同于它所接受的损失函数,以及它如何对齐?
序列以从已知优化中获得的风险:引言和继续Mesa-Optimization条件.(LessWrong镜子。)
其他的更新
- 新的研究金宝博娱乐文章:纳什均衡可以是任意坏的;自我确认的预测可能是任意糟糕的;AI也可以侥幸逃脱,如果……;不确定性、模糊性、外推性
- 我们发布的2018年年度回顾.
- 现正接受申请两个AI安全事件人工智能安全研讨会(8月16日-19日)和人工智能安全技术大会(8月22日-25日)。
- 关于起飞速度的讨论,包括一些非常不完整和高层次的MIRI评论。
新闻和链接
- 其他最近的人工智能安全帖子:汤姆·西特勒的人工智能风险论据的转变和魏戴笠的" UDT2 "及" against UD+ASSA ".
- 来自SafeML ICLR研讨会的谈话正在进行网上.
- 从OpenAI“我们正在实施两种机制来负责地发布GPT-2,并希望未来发布:分阶段发布和基于伙伴关系的共享。”
- 梁FHI的玉认为“在人工智能治理机制的形成阶段,国家缺乏领导能力”,而“私人人工智能实验室最适合领导人工智能治理”。