高级ML系统中学习优化的风险金宝博官方
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant
抽象的:
我们分析学习型号(例如神经网络)本身是优化器的学习优化类型 - 我们所指的情况mesa-optimization.我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。金宝博官方首先,在什么情况下学习的模型会成为优化器,包括在什么情况下它们不应该成为优化器?第二,当一个学习过的模型是一个优化器时,它的目标是什么——它将如何不同于它所接受的损失函数,以及它如何对齐?在本文中,我们对这两个主要问题进行了深入的分析,并对未来研究的主题进行了概述。金宝博娱乐
术语表
第一节术语表:
- 基础优化器: 一种基础优化器是一个根据某些目标搜索算法的优化器。
- 基地的目标: 一种基础目标是基础优化器的目标。
- 行为目标:行为目标是优化器似乎是优化的。正式地,行为目标是从完美逆钢筋学习中恢复的目标。
- 内在的一致性:内部一致性问题是对齐高级ML系统的基础和台面的问题。金宝博官方
- 学习算法:调用基本优化器正在搜索的算法学习算法.
- Mesa优化器: 一种Mesa优化器是一种学习算法,它本身就是优化器。
- Mesa-objective: 一种mesa-objective是MESA优化器的目标。
- Meta-optimizer: 一种meta-optimizer是一个系统金宝博官方的任务是产生一个基础优化器。
- 优化器: 一个优化器是一个系统金宝博官方,内部搜索某些可能的输出,政策,计划,策略等的空间。根据一些内部代表的客观函数,可以寻找井的那些。
- 外部对齐:外对准问题是将高级ML系统的基本目标与程序员的期望目标相一致的问题。金宝博官方
- Pseudo-alignment:MESA优化器是pseudo-aligned如果在训练数据上出现对齐但不稳健地对齐,则基本目标。
- 健壮的对齐:MESA优化器是强劲对齐如果它稳健地优化了跨分布的基础目标,则基本目标。
第二节术语表:
- 算法范围:算法的范围机器学习系统的关键在于它所能找到的最优算法有金宝博官方多广泛。
- 局部优化过程: 一种本地优化过程是一个使用本地爬山作为搜索手段的优化器。
- 可达性:可达性是指基础优化器很难找到所学习的算法。
第三节术语表:
- 近似对齐: 一个大约一致台地优化器是一种伪对齐的台地优化器,由于在台地优化器中难以表示基本目标,其基础和台地目标在某种程度上近似相同。
- 代理对齐: 一种代理对齐台面优化器是一个伪对齐的台面优化器,它学会了优化一些基本目标的代理,而不是基本目标本身。
- 乐器一致:乐器一致是一种代理对齐类型,其中MESA优化器优化了代理作为增加培训分布中的MESA目标的乐器目标。
- 副作用对齐:副作用对齐是一种代理对齐,其中对台面目标的优化具有增加训练分布中基本目标的直接因果结果。
- 次优性对齐: 一种次优性一致Mesa-Optimizer是一个伪对齐的MESA优化器,其中一些缺点,错误或限制导致它表现出对齐的行为。
第4节词汇表:
- 符合互可靠的协调: 一种矫正的对齐台面优化器是一个稳定对齐的台面优化器,它有一个台面目标,“指向”其基础目标的认知模型。
- 欺骗性的对齐: 一种看似对齐台面优化器是一个伪对齐的台面优化器,它有足够的关于基本目标的信息,从基本优化器的角度看似乎比它实际更适合。
- 内部校准: 一个内部一致的Mesa-Optimizer是一个强大的对齐的MESA优化器,它在其MESA目标中内化了基础目标。
参考书目
- 丹尼尔Filan。瓶盖并不是优化器,2018年。
- Gregory Farquhar, Tim Rocktäschel, Maximilian Igl和Shimon Whiteson。TreeQN和ATreeC:用于深度强化学习的可微分树结构模型。ICLR 2018.,2018年。
- Aravind Srinivas, Allan Jabri, Pieter Abbeel, Sergey Levine和Chelsea Finn。通用规划网络。ICML 2018,2018年。
- Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W. Hoffman, David Pfau, Tom Schaul, Brendan Shillingford和Nando de Freitas。学习通过梯度下降来学习。NIPS 2016.,2016年。
- 段燕、约翰·舒尔曼、陈曦、彼得·l·巴特利特、伊利亚·苏茨克弗和彼得·阿贝尔。RL2:通过缓慢的加固学习快速加固。arXiv,2016年。
- 以利以谢Yudkowsky。优化守护进程。
- 乔母婴感染。元的对面是什么?ANLP Acuity Vol. 2.
- Jan Leike,David Krueger,Tom Everitt,Miljan Martic,Vishal Maini和Shane Legg。基于奖励建模的可扩展代理对齐:一个研究方向。金宝博娱乐arXiv,2018年。
- 以利以谢Yudkowsky。测量优化能力, 2008年。
- David Silver,Thomas Hubert,Julian Schrittwieser,Ioannis Antonoglou,Matthew Lai,Arthur Guez,Marc Lanctot,Laurent Sifre,Dharshan Kumaran,Thore Graepel,Timothy Lillicrap,Karen Simonyan和Demis Hassabis。一般加强学习算法硕士棋,Shogi,并通过自我播放。科学362(6419): 1140 - 1144年,2018年。
- k·e·德雷克斯勒。重新制作的超理:全面的AI服务作为一般意识形动。技术报告#2019-1,牛津大学未来人文研究所, 2019年。
- Ramana Kumar和Scott Garrabrant。对人类模型的思考。美里, 2019年。
- 保罗global。普遍先验到底是什么样子的?,2016年。
- Alex Graves,Greg Wayne和Ivo Danihelka。神经图灵机。arXiv,2014年。
- 吉列尔莫Valle-Pérez, Chico Q. Camargo,和Ard A. Louis。深度学习之所以具有普遍性,是因为参数-函数映射偏向于简单函数。ICLR 2019., 2019年。
- 保罗global。开放式问题:最小电路是否没有守护进程?,2018年。
- Chris van Merwijk。AI代理作为委托代理问题的发展,2019年即将问世。
- Borja ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg和Dario Amodei。从atari的人类偏好和示范中获得奖励学习。NeurIPS 2018,2018年。
- 嘉威苏,达尼洛·瓦西科罗斯瓦尔加斯和Kouichi Sakurai。一种欺骗深度神经网络的像素攻击。IEEE进化计算汇刊,2017年。
- 卡里姆·阿明和萨汀德·辛格。解决反增强学习中的不明度。arXiv,2016年。
- razvan pascanu,玉嘉李,奥利奥维斯,尼古拉斯胡森,拉斯,塞巴斯蒂安·瓦(赛车,大卫Reichert,ThéophaneWeber,Daan Wierstra和Peter Battaglia。从头开始学习基于模型的规划。arXiv,2017年。
- David Manheim和Scott Garrabrant。对古德哈特定律的变体进行分类。arXiv,2018年。
- 尼克·博斯特罗姆。超明:路径,危险,策略。牛津大学出版社,2014。
- 保罗global。失败是什么样的, 2019年。
- 内特·苏亚雷斯,本雅·法伦斯坦,埃利泽·尤考斯基,斯图尔特·阿姆斯特朗。可订正。AAAI 2015.,2015年
- 保罗global。最糟糕的担保, 2019年。
- Robert J. Aumann,Sergiu Hart和Motty Perry。缺席的司机。.游戏和经济行为,20:102-116,1997。
- 简X王,泽布·纳尔逊,Dhruva Tirumala,Hubert Soyer,Joel Zeiibo,Remi Mumos,Charles Blundell,Dharshan Kumaran和Matt Botvinick。学习加强学习。认知科学, 2016
- Dario Amodei,Chris Olah,Jacob Steinhardt,Paul Christiano,John Schulman和DanMané。AI安全的具体问题。arXiv,2016年。
- Stuart Armstrong和Sörenminermann。偶尔的剃刀不足以推断不合理代理的偏好。NeurIPS 2018,2017年。
- Xiaowei Huang,Marta Kwiatkowska,Sen Wang和Min Wu。深神经网络的安全验证。骑兵2017,2016年。
- Guy Katz,Clark Barrett,David Dill,Kyle Julian和Mykel Kochenderfer。Reluplex:一种高效的SMT求解器,用于验证深度神经网络。骑兵2017,2017年。
- 裴可欣,曹银志,杨俊峰,苏曼嘉娜。实际验证机器学习:计算机视觉系统的情况。金宝博官方arXiv,2017年。
- Paul Christiano,Buck Shlegeris和Dario Amodei。通过放大弱专家来指导强学习者。arXiv,2018年。
- Geoffrey Irving,Paul Christiano和Dario Amodei。人工智能安全通过辩论。arXiv,2018年。