嵌入式机构

嵌入式机构是Abram Demski和Scott Garrabrant的一篇文章，可在AI对准论坛上提供这里。作为一个较短版本的帖子也是如此手绘序列，以及一个轻微的重写版在arxiv。

嵌入式机构于2018年首次发布，Arxiv版本在2019年初。2020年8月，Demski和Garrabrant大大更新了所有版本。

我们包含以下链接和参考，按照相关主题/部分提出的顺序列出。

一般的

（文本介绍-插图介绍---Miri博客后任-Lesswrong后记）

马库斯休假。2012年。“十年普遍的人工智能。“在人工综合情报的理论基础4.
nate翱翔。2017年。“确保聪明的智慧有积极的结果。“Miri Blog.。
Eliezer Yudkowsky。2018。“火箭对齐问题。“Miri Blog.。

进一步阅读：“安全心态和普通偏执狂“;“用于将机智与人类兴趣的代理基础“

决策理论

（文字版本-插图版本）

Eliezer Yudkowsky和Nate Soares。2017年。“功能决策理论：一种新的仪器理性理论。“arxiv：1710.05060 [cs.ai]。
斯科特garrabrant。2017年。“逻辑电感决策理论的两个主要障碍。“智能代理基础论坛。
Patrick Lavictoire。2015年。Miri研究中Löb的定理介绍金宝博娱乐。Miri技术报告2015-6。
罗伯格林格。2017年。“决定是为了使不良成果不一致。“Miri Blog.。
魏黛。2009年。“走向新的决策理论。“少错。
Vladimir Nesov。2009年。“反事实抢劫。“少错。

嵌入式世界型号

（文字版本-插图版本）

Abram Demski。2018。“走向技术解释的新技术解释。“少错。
nate翱翔。2015年。正式化现实世界模型的两个问题。Miri 2015-3技术报告。
Jan Leike。2016年。非参数一般加强学习。澳大利亚国立大学博士论文。
Laurent Orseau和Mark Ring。2012年。“时空嵌入式智能。“在人工综合情报，第五届国际会议。Springer。
Benja Fallenstein，Jessica Taylor和Paul Christiano。2015.“反思性奥卡尔：古典博弈论的基础。“arxiv：1508.04145 [cs.ai]。
Jan Leike，Jessica Taylor和Benya Fallenstein。2016年。“对真理问题的正式解决方案。“纸张在第32次人工智能下的不确定性会议上。
Nate Soares和Benja Fallenstein。2015年。逻辑不确定性下推理问题。Miri技术报告2015-1。
Abram Demski。2018。“一个无法控制的数学家说明了。“少错。
Eliezer Yudkowsky。2017年。“连贯的决策意味着一致的公用事业。“arb。
斯科特·格拉拉贝兰特，Tsvi Benson-Tilsen，安德鲁·克鲁克，Nate飙升和杰西卡泰勒。2016年。“逻辑归纳。“arxiv：1609.03543 [cs.ai]。
Eliezer Yudkowsky。2015.“本体论识别。“arb。
Peter de Blanc。2011年。“人工代理价值系统中的本体论危机金宝博官方。“arxiv：1105.3821 [cs.ai]
卡斯帕尔奥斯特托尔德。2017年。“归化诱导 - 证据和因果决策理论的挑战。“少错。
罗伯格林格。2013年。“建立现象桥梁。“少错。
托马斯纳格尔。1986年。从无处可去的观点。牛津大学出版社。

进一步阅读：“艾基问题“

强大的代表团

（文字版本-插图版本）

Stuart Armstrong和Sörenminermann。2017年。“冬季的剃刀不足以推断不合理代理的偏好。“arxiv：1712.05812 [cs.ai]。
Benja Fallenstein和Nate Soares。2015年。视频反思：自我改善代理商可靠推理。Miri 2015-2技术报告。
Eliezer Yudkowsky和Marcello Herreshoff。2013年。“用于自我修饰的剪辑代理，以及呼吸障碍。“草案。
David Manheim和Scott Garrabrant。2018。“对古德哈特法的分类变体。“arxiv：1803.04585 [cs.ai]。
nate翱翔。2015/2018。“价值学习问题。“在人工智能安全和安全。查普曼和大厅。
Nate Soares，Benja Fallenstein，Eliezer Yudkowsky和Stuart Armstrong。2014/2015。“易燃。“纸介绍在2015年2015年伦理和人工智能研讨会上。
保罗基督徒。2016年。“知情的监督问题。“ai对齐。
Dylan Hadfield-Menell，Stuart Russell，Pieter Abbeel和Anca Dragan。2016年。“合作逆钢筋学习。“在神经信息处理系统的进步金宝博官方（nips）29。
斯科特garrabrant。2017年。“逻辑更新作为强大的委派问题。“少错。
Eliezer Yudkowsky。2015.“价值的复杂性。“arb。
斯科特garrabrant。2018。“优化放大。“少错。
查尔斯古特哈特。1981年。“货币管理问题：英国经验。”在西方的通货膨胀，抑郁和经济政策。Rowman＆Littlefield。
詹姆斯史密斯和罗伯特温克勒。2006年。“优化器的诅咒：争论主义和决策分析的怀疑惊喜。“在管理科学52：3。
杰西卡泰勒。2016年。“定量器：最大限度的替代品，可用于有限优化。“纸在Aaai 2016 AI，伦理和社会研讨会上呈现。
丹尼尔杜威。2011年。“学习价值的东西。“在2011年AGI的诉讼程序。Springer。
Abram Demski。2017年。“稳定的指针值：嵌入在其自用实用程序中的代理。“智能代理基础论坛。
汤姆埃弗蒂特，维多利亚克拉科夫纳，劳伦斯奥尔斯省，马库斯休假和谢恩·洛格。2017年。“用损坏的奖励渠道加强学习。“在第26国际人工智能联席会议的诉讼程序。
Paul Christiano，Buck Shlegeris和Dario Amodei。2018。“通过放大弱专家监督强大的学习者。“arxiv：1810.08575 [cs.lg]。

进一步阅读：“完全更新的尊重问题“

子系统金宝博官方对齐

（文字版本-插图版本）

Eliezer Yudkowsky。2017年。“非对抗原则。“arb。
斯科特garrabrant。2018。“规模的鲁棒性。“少错。
Eliezer Yudkowsky。2015.“AI安全的无所能力测试。“arb。
Ian Gougroully，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron Courville和Yoshua Bengio。2014年。“生成的对抗网。“在神经信息处理系统的进步金宝博官方（nips）27。
Eliezer Yudkowsky。2016年。“优化守护进程。“arb。
Evan Hubinger，Chris Van Merwijk，Vladimir Mikulik，Joar Skalse和Scott Garrabrant。2019年。“高级机器学习系统中学到的学习优化风险金宝博官方。“arxiv：1906.01820。以前以“内部对齐问题”草稿形式引用。
Dario Amodei，Chris Olah，Jacob Steinhardt，Paul Christiano，John Schulman和DanMané。2016年。“AI安全的具体问题。“arxiv：1606.06565 [cs.ai]。
保罗基督徒。2016年。“学习灾难。“ai对齐。
保罗基督徒。2018。“优化最坏情况性能的技术。“ai对齐。

一般的

决策理论

嵌入式世界型号

强大的代表团

子系统金宝博官方对齐

搜索

浏览

订阅