新论文:“学习优化的风险”

||文件

高级机器学习系统中学到的学习优化风险金宝博官方Evan Hubinger,Chris Van Merwijk,Vladimir Mikulik,Joar Skalse和Scott Garrabrant有一个新的论文:“高级机器学习系统中学到的学习优化风险金宝博官方。“

本文的摘要:

我们分析学习型号(例如神经网络)本身是优化器的学习优化类型 - 我们所指的情况MESA优化,我们在本文中介绍的新神语。

我们认为,MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。金宝博官方首先,在什么情况下学习模型是优化的,包括当他们不应该?其次,当学习模型是优化器时,它的目标是什么 - 它将与损失函数不同,它在训练中训练 - 它可以是如何对齐的?在本文中,我们对这两个主要问题进行了深入的分析,并概述了未来研究的主题。金宝博娱乐

本文呈现的危急区别在于AI系统的优化(其)金宝博官方基础目标)它实际最终最终得到了优化(它的Mesa目标),如果它完全针对任何东西进行了优化。当ML模型最终将优化某些东西时,作者对某些东西有兴趣,以及ML模型的目标如何最终得到优化,以便与其选择的目标相比。

选择一个系统之间的区别以实现实现,目标是实际优化的目标不是新的。金宝博官方Eliezer Yudkowsky以前在讨论中提出了类似的担忧优化守护进程,保罗·克里斯蒂尼亚探讨了“什么失败看起来像什么。“

本文的内容本周也被释放为序列AI对准论坛,交叉发布到胜败。当作者说明:

我们认为,这一顺序对这些问题进行了最彻底的分析,这些问题已进行了迄今为止进行的。特别是,我们不仅介绍了MESA优化器周围的基本问题的介绍,还展示了对我们认为可能使得与MESA优化相关的问题的AI系统的特定方面的分析相对容易或更难金宝博官方解决。通过提供一个理解不同AI系统可能对未对准的MESA优化具有强大的程度的框架,我们希望开始讨论结构化机器学习系统以解决这些问题的最佳方式。金宝博官方

此外,在第四个帖子中,我们将提供我们认为最详细的分析尚未提到的问题欺骗对齐我们的假设可能存在最大的一个 - 尽管使用类似于现代机器学习的技术生产安全的先进机器学习系统,但不一定不一定不可抗拒的电流障碍。金宝博官方

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。