高级ML系统中学习优化的风险金宝博官方

Evan Hubinger，Chris Van Merwijk，Vladimir Mikulik，Joar Skalse和Scott Garrabrant

抽象的：

我们分析学习型号（例如神经网络）本身是优化器的学习优化类型 - 我们所指的情况MESA优化。我们认为，MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。金宝博官方首先，在什么情况下学习模型是优化的，包括当他们不应该？其次，当学习模型是优化器时，它的目标是什么 - 它将与损失函数不同，它在训练中训练 - 它可以是如何对齐的？在本文中，我们对这两个主要问题进行了深入的分析，并概述了未来研究的主题。金宝博娱乐

词汇表

第1节词汇表：

基础优化器：一种基础优化器是根据一些目标通过算法搜索的优化器。
- 基础目标：一种基础目标是基础优化器的目标。
行为目标：这行为目标是优化器似乎是优化的。正式地，行为目标是从完美逆钢筋学习中恢复的目标。
内部对齐：这内部对齐问题是对齐高级ML系统的基础和台面的问题。金宝博官方
学习算法：调用基本优化器正在搜索的算法学习算法。
Mesa优化器：一种Mesa优化器是一种学习算法，它本身就是优化器。

Mesa目标：一种Mesa目标是MESA优化器的目标。

元优化器：一种元优化器是一个由生金宝博官方产基础优化器的任务的系统。
优化器：一个优化器是一个系统金宝博官方，内部搜索某些可能的输出，政策，计划，策略等的空间。根据一些内部代表的客观函数，可以寻找井的那些。
外部对齐：这外对准问题是将高级ML系统的基本目标与程序员的所需目标对齐的问题。金宝博官方
伪对齐：MESA优化器是伪对齐如果在训练数据上出现对齐但不稳健地对齐，则基本目标。
强大的对齐方式：MESA优化器是强大的对齐如果它稳健地优化了跨分布的基础目标，则基本目标。

第2节词汇表：

算法范围：这算法范围机器学习系统是指具有被发现的一组算法的算法是金宝博官方基础优化器的速度。
本地优化过程：一种本地优化过程是一种优化器，它使用当地山地攀爬作为其搜索方式。
可达性：这可达性学习算法的难题是基本优化器找到该识别算法。

第3节词汇表：

近似对齐：一个大约对齐Mesa-Optimizer是一个伪对齐的MESA优化器，因为难以表示MESA优化器中的基本目标难度，基座和台面的基础和台面差别大致相同的近似误差。
代理对齐方式：一种代理对齐Mesa-Optimizer是一个伪对齐的MESA优化器，已经学会了优化基础目标的一些代理而不是基础目标本身。

乐器一致：乐器一致是一种代理对齐类型，其中MESA优化器优化了代理作为增加培训分布中的MESA目标的乐器目标。
副作用对齐：副作用对齐是一种代理对准，其中对于MESA-目标优化具有增加训练分布中基本目标的直接因果关系。

次优对齐：一种次优化对齐Mesa-Optimizer是一个伪对齐的MESA优化器，其中一些缺点，错误或限制导致它表现出对齐的行为。

第4节词汇表：

符合互可靠的协调：一种恰当地对齐Mesa-Optimizer是一个强大的对齐的MESA优化器，具有MESA-目标，“指向”其基本目标的认知模型。
欺骗对齐：一种愚蠢的对齐Mesa-Optimizer是一个伪空的MESA优化器，有关基本目标的信息，从基本优化器的角度看起来比它实际上更适合。
内部对齐方式：一个内部对齐Mesa-Optimizer是一个强大的对齐的MESA优化器，它在其MESA目标中内化了基础目标。

参考书目

Daniel Filan。瓶盖不是优化的，2018年。
Gregory Farquhar，TimRocktäschel，Maximilian Igl和Shimon Whiteson。Treeqn和Atreec：深度加强学习的可差异树木结构模型。ICLR 2018.，2018年。
Aravind Srinivas，Allan Jabri，Pieter Bebebeel，Sergey Levine和Chelsea Finn。通用规划网络。ICML 2018.，2018年。
Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，Tom Schaul，Brendan Shillingford和Nando de Freitas。学习通过梯度下降来通过梯度下降来学习。NIPS 2016.，2016年。
燕段，约翰舒曼，西辰，彼得L. Bartlett，Ilya Sutskever和Pieter Bebeel。rl.²：通过缓慢的加固学习快速加固。arxiv，2016年。
Eliezer Yudkowsky。优化守护进程。
乔cheal。元的对面是什么？ANLP敏锐度卷。2。
Jan Leike，David Krueger，Tom Everitt，Miljan Martic，Vishal Maini和Shane Legg。可扩展的代理通过奖励建模对齐：研究方向。金宝博娱乐arxiv，2018年。
Eliezer Yudkowsky。测量优化功率，2008年。
David Silver，Thomas Hubert，Julian Schrittwieser，Ioannis Antonoglou，Matthew Lai，Arthur Guez，Marc Lanctot，Laurent Sifre，Dharshan Kumaran，Thore Graepel，Timothy Lillicrap，Karen Simonyan和Demis Hassabis。一般加强学习算法硕士棋，Shogi，并通过自我播放。科学，362（6419）：2018年1140-1144。
K. E. Drexler。重新制作的超理：全面的AI服务作为一般意识形动。技术报告＃2019-1，牛津大学人类研究所的未来，2019年。
Ramana Kumar和Scott Garrabrant。对人类模型的思考。米里，2019年。
保罗基督徒。普遍先前实际上是什么样的？，2016年。
Alex Graves，Greg Wayne和Ivo Danihelka。神经图灵机。arxiv，2014年。
Guillermo Valle-Pérez，奇科Q. Camargo，以及Ard A. Louis。深度学习推广，因为参数函数映射偏向于简单功能。ICLR 2019.，2019年。
保罗基督徒。打开问题：是最小的电路守护进程吗？，2018年。
Chris Van Merwijk。发展AI代理作为委托 - 代理问题，2019年即将到来。
Borja ibarz，Jan Leike，Tobias Pohlen，Geoffrey Irving，Shane Legg和Dario Amodei。从atari的人类偏好和示范中获得奖励学习。Neurips 2018.，2018年。
嘉威苏，达尼洛·瓦西科罗斯瓦尔加斯和Kouichi Sakurai。欺骗深神经网络的一个像素攻击。IEEE进化计算交易，2017年。
Kareem Amin和Satinder Singh。解决反增强学习中的不明度。arxiv，2016年。
razvan pascanu，玉嘉李，奥利奥维斯，尼古拉斯胡森，拉斯，塞巴斯蒂安·瓦（赛车，大卫Reichert，ThéophaneWeber，Daan Wierstra和Peter Battaglia。从头开始学习基于模型的规划。arxiv，2017年。
David Manheim和Scott Garrabrant。对古特哈尔法的典型变种。arxiv，2018年。
尼克博塞尔姆。超明：路径，危险，策略。牛津大学出版社，2014年。
保罗基督徒。什么失败看起来像什么，2019年。
Nate Soares，Benja Fallenstein，Eliezer Yudkowsky和Stuart Armstrong。浮雕。AAAI 2015.，2015年
保罗基督徒。最糟糕的担保，2019年。
Robert J. Aumann，Sergiu Hart和Motty Perry。缺席的司机。。游戏和经济行为，20：102-116,1997。
简X王，泽布·纳尔逊，Dhruva Tirumala，Hubert Soyer，Joel Zeiibo，Remi Mumos，Charles Blundell，Dharshan Kumaran和Matt Botvinick。学习加强学习。CogSci.，2016年
Dario Amodei，Chris Olah，Jacob Steinhardt，Paul Christiano，John Schulman和DanMané。AI安全的具体问题。arxiv，2016年。
Stuart Armstrong和Sörenminermann。偶尔的剃刀不足以推断不合理代理的偏好。Neurips 2018.，2017年。
Xiaowei Huang，Marta Kwiatkowska，Sen Wang和Min Wu。深神经网络的安全验证。Cav 2017.，2016年。
Guy Katz，Clark Barrett，David Dill，Kyle Julian和Mykel Kochenderfer。Reluplex：一种高效的SMT求解器，用于验证深度神经网络。Cav 2017.，2017年。
凯因佩，尹志曹，俊峰杨和苏丹詹娜。实际验证机器学习：计算机视觉系统的情况。金宝博官方arxiv，2017年。
Paul Christiano，Buck Shlegeris和Dario Amodei。通过放大弱专家监督强大的学习者。arxiv，2018年。
Geoffrey Irving，Paul Christiano和Dario Amodei。通过辩论安全。arxiv，2018年。

高级ML系统中学习优化的风险金宝博官方

词汇表

参考书目

搜索

浏览

订阅