嵌入式机构是Abram Demski和Scott Garrabrant的一篇文章,可在AI对准论坛上提供在这里.还有一个更短的版本是手绘序列,以及一个稍微重写的版本在arXiv.
嵌入式机构于2018年首次发布,Arxiv版本在2019年初。2020年8月,Demski和Garrabrant大大更新了所有版本.
我们包含以下链接和参考,按照相关主题/部分提出的顺序列出。
一般的
(文本介绍-说明介绍- - -Miri博客后任-Lesswrong后记)
- 马库斯休假。2012年。“通用人工智能的十年。“在人工通用智能理论基础4.
- nate翱翔。2017年。“确保聪明的智慧有积极的结果。“Miri Blog..
- 以利以谢Yudkowsky》2018。“火箭对齐问题。“Miri Blog..
决策理论
- Eliezer Yudkowsky和Nate Soares。2017年。“功能决策理论:一种新的仪器理性理论。“arxiv:1710.05060 [cs.ai]。
- 斯科特garrabrant。2017年。“逻辑电感决策理论的两个主要障碍。“智能代理基金会论坛.
- Patrick Lavictoire。2015年。Miri研究中Löb的定理介绍金宝博娱乐.Miri技术报告2015-6。
- 罗伯格林格。2017年。“决策是为了让糟糕的结果不一致。“Miri Blog..
- 魏戴》2009。“走向新的决策理论。“更少的错误.
- Vladimir Nesov。2009年。“反事实抢劫。“更少的错误.
嵌入式世界型号
- Abram Demski。2018。“走向技术解释的新技术解释。“更少的错误.
- nate翱翔。2015年。正式化现实世界模型的两个问题.Miri 2015-3技术报告。
- Jan Leike。2016年。非参数一般强化学习.澳大利亚国立大学博士论文。
- Laurent Orseau和Mark Ring。2012年。“时空嵌入式智能。“在人工通用智能,第五届国际会议.Springer。
- Benja Fallenstein,Jessica Taylor和Paul Christiano。2015.“反思性奥卡尔:古典博弈论的基础。“arxiv:1508.04145 [cs.ai]。
- Jan Leike,Jessica Taylor和Benya Fallenstein。2016年。“对真理问题的正式解决方案。“纸张在第32次人工智能下的不确定性会议上。
- Nate Soares和Benja Fallenstein。逻辑不确定性下推理问题.Miri技术报告2015-1。
- Abram Demski。2018。“一个无法控制的数学家说明了。“更少的错误.
- Eliezer Yudkowsky。2017年。“连贯的决策意味着一致的公用事业。“arb.
- 斯科特·格拉拉贝兰特,Tsvi Benson-Tilsen,安德鲁·克鲁克,Nate飙升和杰西卡泰勒。2016年。“逻辑归纳。“arxiv:1609.03543 [cs.ai]。
- Eliezer Yudkowsky。2015.“本体标识。“arb.
- Peter de Blanc, 2011。“人工代理价值系统中的本体论危机金宝博官方”。(cs arXiv: 1105.3821。人工智能)
- 卡斯帕尔奥斯特托尔德。2017年。“归化诱导 - 证据和因果决策理论的挑战。“更少的错误.
- Rob Bensinger》2013。“建筑现象学的桥梁。“更少的错误.
- 托马斯·内格尔》1986。从无处可去的观点.牛津大学出版社。
强大的代表团
- Stuart Armstrong和Sörenminermann。2017年。“冬季的剃刀不足以推断不合理代理的偏好arXiv: 1712.05812 (cs.AI)。
- Benja Fallenstein和Nate Soares。2015年。Vingean反思:自我改进代理的可靠推理.MIRI技术报告2015-2。
- Eliezer Yudkowsky和Marcello Herreshoff。2013年。“用于自我修饰的剪辑代理,以及呼吸障碍”草案。
- David Manheim和Scott Garrabrant。2018。“对古德哈特法的分类变体。“arxiv:1803.04585 [cs.ai]。
- nate翱翔。2015/2018。“价值学习问题。“在人工智能安全和安全.查普曼和大厅。
- Nate Soares,Benja Fallenstein,Eliezer Yudkowsky和Stuart Armstrong。2014/2015。“易燃。“纸介绍在2015年2015年伦理和人工智能研讨会上。
- 保罗基督徒。2016年。“知情的监督问题。“ai对齐.
- Dylan Hadfield-Menell,Stuart Russell,Pieter Abbeel和Anca Dragan。2016年。“合作逆钢筋学习。“在神经信息处理系统的进步金宝博官方29(少量)。
- 斯科特garrabrant。2017年。“作为健壮委托问题的逻辑更新性。“更少的错误.
- Eliezer Yudkowsky。2015.“价值的复杂性。“arb.
- 斯科特garrabrant。2018。“优化放大。“更少的错误.
- 查尔斯古特哈特。1981年。“货币管理问题:英国经验。”在西方的通货膨胀、萧条和经济政策.罗曼和Littlefield。
- 詹姆斯史密斯和罗伯特温克勒。2006年。“优化器的诅咒:争论主义和决策分析的怀疑惊喜。“在管理科学52:3。
- 杰西卡泰勒。2016年。“定量器:最大限度的替代品,可用于有限优化。“纸在Aaai 2016 AI,伦理和社会研讨会上呈现。
- 丹尼尔杜威。2011年。“学习价值的东西。“在2011年AGI的诉讼程序.Springer。
- Abram Demski。2017年。“稳定的指针值:嵌入在其自用实用程序中的代理。“智能代理基金会论坛.
- 汤姆埃弗蒂特,维多利亚克拉科夫纳,劳伦斯奥尔斯省,马库斯休假和谢恩·洛格。2017年。“用损坏的奖励渠道加强学习。“在第26国际人工智能联席会议的诉讼程序.
- Paul Christiano, Buck Shlegeris和Dario Amodei. 2018。“通过放大弱专家来指导强学习者arXiv: 1810.08575 (cs.LG)。
子系统金宝博官方对齐
- Eliezer Yudkowsky。2017年。“非对抗原则。“arb.
- 斯科特garrabrant。2018。“鲁棒性规模。“更少的错误.
- Eliezer Yudkowsky。2015.“AI安全的无所能力测试。“arb.
- Ian Gougroully,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville和Yoshua Bengio。2014年。“生成敌对的网。“在神经信息处理系统的进步金宝博官方(少量)27。
- Eliezer Yudkowsky。2016年。“优化守护进程。“arb.
- Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant. 2019。“高级机器学习系统中学到的学习优化风险金宝博官方arXiv: 1906.01820。之前引用的草案形式为“内部对齐问题。”
- 达里奥·阿莫代,克里斯·奥拉,雅各布·斯坦哈特,保罗·克里斯蒂安诺,约翰·舒尔曼和丹Mané。2016年。“人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
- 保罗基督徒。2016年。“学习灾难。“ai对齐.
- 保罗基督徒。2018。“优化最坏情况性能的技术。“ai对齐.