嵌入式机构是Abram Demski和Scott Garrabrant的一篇文章,可在AI对准论坛上提供这里。作为一个较短版本的帖子也是如此手绘序列,以及一个轻微的重写版在arxiv。
嵌入式机构于2018年首次发布,Arxiv版本在2019年初。2020年8月,Demski和Garrabrant大大更新了所有版本。
我们包含以下链接和参考,按照相关主题/部分提出的顺序列出。
一般的
(文本介绍-插图介绍---Miri博客后任-Lesswrong后记)
- 马库斯休假。2012年。“十年普遍的人工智能。“在人工综合情报的理论基础4.
- nate翱翔。2017年。“确保聪明的智慧有积极的结果。“Miri Blog.。
- Eliezer Yudkowsky。2018。“火箭对齐问题。“Miri Blog.。
决策理论
- Eliezer Yudkowsky和Nate Soares。2017年。“功能决策理论:一种新的仪器理性理论。“arxiv:1710.05060 [cs.ai]。
- 斯科特garrabrant。2017年。“逻辑电感决策理论的两个主要障碍。“智能代理基础论坛。
- Patrick Lavictoire。2015年。Miri研究中Löb的定理介绍金宝博娱乐。Miri技术报告2015-6。
- 罗伯格林格。2017年。“决定是为了使不良成果不一致。“Miri Blog.。
- 魏黛。2009年。“走向新的决策理论。“少错。
- Vladimir Nesov。2009年。“反事实抢劫。“少错。
嵌入式世界型号
- Abram Demski。2018。“走向技术解释的新技术解释。“少错。
- nate翱翔。2015年。正式化现实世界模型的两个问题。Miri 2015-3技术报告。
- Jan Leike。2016年。非参数一般加强学习。澳大利亚国立大学博士论文。
- Laurent Orseau和Mark Ring。2012年。“时空嵌入式智能。“在人工综合情报,第五届国际会议。Springer。
- Benja Fallenstein,Jessica Taylor和Paul Christiano。2015.“反思性奥卡尔:古典博弈论的基础。“arxiv:1508.04145 [cs.ai]。
- Jan Leike,Jessica Taylor和Benya Fallenstein。2016年。“对真理问题的正式解决方案。“纸张在第32次人工智能下的不确定性会议上。
- Nate Soares和Benja Fallenstein。2015年。逻辑不确定性下推理问题。Miri技术报告2015-1。
- Abram Demski。2018。“一个无法控制的数学家说明了。“少错。
- Eliezer Yudkowsky。2017年。“连贯的决策意味着一致的公用事业。“arb。
- 斯科特·格拉拉贝兰特,Tsvi Benson-Tilsen,安德鲁·克鲁克,Nate飙升和杰西卡泰勒。2016年。“逻辑归纳。“arxiv:1609.03543 [cs.ai]。
- Eliezer Yudkowsky。2015.“本体论识别。“arb。
- Peter de Blanc。2011年。“人工代理价值系统中的本体论危机金宝博官方。“arxiv:1105.3821 [cs.ai]
- 卡斯帕尔奥斯特托尔德。2017年。“归化诱导 - 证据和因果决策理论的挑战。“少错。
- 罗伯格林格。2013年。“建立现象桥梁。“少错。
- 托马斯纳格尔。1986年。从无处可去的观点。牛津大学出版社。
强大的代表团
- Stuart Armstrong和Sörenminermann。2017年。“冬季的剃刀不足以推断不合理代理的偏好。“arxiv:1712.05812 [cs.ai]。
- Benja Fallenstein和Nate Soares。2015年。视频反思:自我改善代理商可靠推理。Miri 2015-2技术报告。
- Eliezer Yudkowsky和Marcello Herreshoff。2013年。“用于自我修饰的剪辑代理,以及呼吸障碍。“草案。
- David Manheim和Scott Garrabrant。2018。“对古德哈特法的分类变体。“arxiv:1803.04585 [cs.ai]。
- nate翱翔。2015/2018。“价值学习问题。“在人工智能安全和安全。查普曼和大厅。
- Nate Soares,Benja Fallenstein,Eliezer Yudkowsky和Stuart Armstrong。2014/2015。“易燃。“纸介绍在2015年2015年伦理和人工智能研讨会上。
- 保罗基督徒。2016年。“知情的监督问题。“ai对齐。
- Dylan Hadfield-Menell,Stuart Russell,Pieter Abbeel和Anca Dragan。2016年。“合作逆钢筋学习。“在神经信息处理系统的进步金宝博官方(nips)29。
- 斯科特garrabrant。2017年。“逻辑更新作为强大的委派问题。“少错。
- Eliezer Yudkowsky。2015.“价值的复杂性。“arb。
- 斯科特garrabrant。2018。“优化放大。“少错。
- 查尔斯古特哈特。1981年。“货币管理问题:英国经验。”在西方的通货膨胀,抑郁和经济政策。Rowman&Littlefield。
- 詹姆斯史密斯和罗伯特温克勒。2006年。“优化器的诅咒:争论主义和决策分析的怀疑惊喜。“在管理科学52:3。
- 杰西卡泰勒。2016年。“定量器:最大限度的替代品,可用于有限优化。“纸在Aaai 2016 AI,伦理和社会研讨会上呈现。
- 丹尼尔杜威。2011年。“学习价值的东西。“在2011年AGI的诉讼程序。Springer。
- Abram Demski。2017年。“稳定的指针值:嵌入在其自用实用程序中的代理。“智能代理基础论坛。
- 汤姆埃弗蒂特,维多利亚克拉科夫纳,劳伦斯奥尔斯省,马库斯休假和谢恩·洛格。2017年。“用损坏的奖励渠道加强学习。“在第26国际人工智能联席会议的诉讼程序。
- Paul Christiano,Buck Shlegeris和Dario Amodei。2018。“通过放大弱专家监督强大的学习者。“arxiv:1810.08575 [cs.lg]。
子系统金宝博官方对齐
- Eliezer Yudkowsky。2017年。“非对抗原则。“arb。
- 斯科特garrabrant。2018。“规模的鲁棒性。“少错。
- Eliezer Yudkowsky。2015.“AI安全的无所能力测试。“arb。
- Ian Gougroully,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville和Yoshua Bengio。2014年。“生成的对抗网。“在神经信息处理系统的进步金宝博官方(nips)27。
- Eliezer Yudkowsky。2016年。“优化守护进程。“arb。
- Evan Hubinger,Chris Van Merwijk,Vladimir Mikulik,Joar Skalse和Scott Garrabrant。2019年。“高级机器学习系统中学到的学习优化风险金宝博官方。“arxiv:1906.01820。以前以“内部对齐问题”草稿形式引用。
- Dario Amodei,Chris Olah,Jacob Steinhardt,Paul Christiano,John Schulman和DanMané。2016年。“AI安全的具体问题。“arxiv:1606.06565 [cs.ai]。
- 保罗基督徒。2016年。“学习灾难。“ai对齐。
- 保罗基督徒。2018。“优化最坏情况性能的技术。“ai对齐。