嵌入式机构-机器智能研究所金宝博娱乐

嵌入式机构是Abram Demski和Scott Garrabrant的一篇文章，可在AI对准论坛上提供在这里．还有一个更短的版本是手绘序列，以及一个稍微重写的版本在arXiv．

嵌入式机构于2018年首次发布，Arxiv版本在2019年初。2020年8月，Demski和Garrabrant大大更新了所有版本．

我们包含以下链接和参考，按照相关主题/部分提出的顺序列出。

一般的

（文本介绍-说明介绍- - -Miri博客后任-Lesswrong后记）

马库斯休假。2012年。“通用人工智能的十年。“在人工通用智能理论基础4.
nate翱翔。2017年。“确保聪明的智慧有积极的结果。“Miri Blog.．
以利以谢Yudkowsky》2018。“火箭对齐问题。“Miri Blog.．

进一步阅读:“安全心态和普通妄想症“;“用于将机智与人类兴趣的代理基础“

决策理论

（文字版本-插图版本）

Eliezer Yudkowsky和Nate Soares。2017年。“功能决策理论：一种新的仪器理性理论。“arxiv：1710.05060 [cs.ai]。
斯科特garrabrant。2017年。“逻辑电感决策理论的两个主要障碍。“智能代理基金会论坛．
Patrick Lavictoire。2015年。Miri研究中Löb的定理介绍金宝博娱乐．Miri技术报告2015-6。
罗伯格林格。2017年。“决策是为了让糟糕的结果不一致。“Miri Blog.．
魏戴》2009。“走向新的决策理论。“更少的错误．
Vladimir Nesov。2009年。“反事实抢劫。“更少的错误．

嵌入式世界型号

（文字版本-插图版本）

Abram Demski。2018。“走向技术解释的新技术解释。“更少的错误．
nate翱翔。2015年。正式化现实世界模型的两个问题．Miri 2015-3技术报告。
Jan Leike。2016年。非参数一般强化学习．澳大利亚国立大学博士论文。
Laurent Orseau和Mark Ring。2012年。“时空嵌入式智能。“在人工通用智能，第五届国际会议．Springer。
Benja Fallenstein，Jessica Taylor和Paul Christiano。2015.“反思性奥卡尔：古典博弈论的基础。“arxiv：1508.04145 [cs.ai]。
Jan Leike，Jessica Taylor和Benya Fallenstein。2016年。“对真理问题的正式解决方案。“纸张在第32次人工智能下的不确定性会议上。
Nate Soares和Benja Fallenstein。逻辑不确定性下推理问题．Miri技术报告2015-1。
Abram Demski。2018。“一个无法控制的数学家说明了。“更少的错误．
Eliezer Yudkowsky。2017年。“连贯的决策意味着一致的公用事业。“arb．
斯科特·格拉拉贝兰特，Tsvi Benson-Tilsen，安德鲁·克鲁克，Nate飙升和杰西卡泰勒。2016年。“逻辑归纳。“arxiv：1609.03543 [cs.ai]。
Eliezer Yudkowsky。2015.“本体标识。“arb．
Peter de Blanc, 2011。“人工代理价值系统中的本体论危机金宝博官方”。(cs arXiv: 1105.3821。人工智能)
卡斯帕尔奥斯特托尔德。2017年。“归化诱导 - 证据和因果决策理论的挑战。“更少的错误．
Rob Bensinger》2013。“建筑现象学的桥梁。“更少的错误．
托马斯·内格尔》1986。从无处可去的观点．牛津大学出版社。

进一步阅读:“艾基问题“

强大的代表团

（文字版本-插图版本）

Stuart Armstrong和Sörenminermann。2017年。“冬季的剃刀不足以推断不合理代理的偏好arXiv: 1712.05812 (cs.AI)。
Benja Fallenstein和Nate Soares。2015年。Vingean反思:自我改进代理的可靠推理．MIRI技术报告2015-2。
Eliezer Yudkowsky和Marcello Herreshoff。2013年。“用于自我修饰的剪辑代理，以及呼吸障碍”草案。
David Manheim和Scott Garrabrant。2018。“对古德哈特法的分类变体。“arxiv：1803.04585 [cs.ai]。
nate翱翔。2015/2018。“价值学习问题。“在人工智能安全和安全．查普曼和大厅。
Nate Soares，Benja Fallenstein，Eliezer Yudkowsky和Stuart Armstrong。2014/2015。“易燃。“纸介绍在2015年2015年伦理和人工智能研讨会上。
保罗基督徒。2016年。“知情的监督问题。“ai对齐．
Dylan Hadfield-Menell，Stuart Russell，Pieter Abbeel和Anca Dragan。2016年。“合作逆钢筋学习。“在神经信息处理系统的进步金宝博官方29(少量)。
斯科特garrabrant。2017年。“作为健壮委托问题的逻辑更新性。“更少的错误．
Eliezer Yudkowsky。2015.“价值的复杂性。“arb．
斯科特garrabrant。2018。“优化放大。“更少的错误．
查尔斯古特哈特。1981年。“货币管理问题：英国经验。”在西方的通货膨胀、萧条和经济政策．罗曼和Littlefield。
詹姆斯史密斯和罗伯特温克勒。2006年。“优化器的诅咒：争论主义和决策分析的怀疑惊喜。“在管理科学52：3。
杰西卡泰勒。2016年。“定量器：最大限度的替代品，可用于有限优化。“纸在Aaai 2016 AI，伦理和社会研讨会上呈现。
丹尼尔杜威。2011年。“学习价值的东西。“在2011年AGI的诉讼程序．Springer。
Abram Demski。2017年。“稳定的指针值：嵌入在其自用实用程序中的代理。“智能代理基金会论坛．
汤姆埃弗蒂特，维多利亚克拉科夫纳，劳伦斯奥尔斯省，马库斯休假和谢恩·洛格。2017年。“用损坏的奖励渠道加强学习。“在第26国际人工智能联席会议的诉讼程序．
Paul Christiano, Buck Shlegeris和Dario Amodei. 2018。“通过放大弱专家来指导强学习者arXiv: 1810.08575 (cs.LG)。

进一步阅读:“完全更新的尊重问题“

子系统金宝博官方对齐

（文字版本-插图版本）

Eliezer Yudkowsky。2017年。“非对抗原则。“arb．
斯科特garrabrant。2018。“鲁棒性规模。“更少的错误．
Eliezer Yudkowsky。2015.“AI安全的无所能力测试。“arb．
Ian Gougroully，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron Courville和Yoshua Bengio。2014年。“生成敌对的网。“在神经信息处理系统的进步金宝博官方(少量)27。
Eliezer Yudkowsky。2016年。“优化守护进程。“arb．
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant. 2019。“高级机器学习系统中学到的学习优化风险金宝博官方arXiv: 1906.01820。之前引用的草案形式为“内部对齐问题。”
达里奥·阿莫代，克里斯·奥拉，雅各布·斯坦哈特，保罗·克里斯蒂安诺，约翰·舒尔曼和丹Mané。2016年。“人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
保罗基督徒。2016年。“学习灾难。“ai对齐．
保罗基督徒。2018。“优化最坏情况性能的技术。“ai对齐．

嵌入式机构

一般的

决策理论

嵌入式世界型号

强大的代表团

子系统金宝博官方对齐

搜索

浏览

订阅