2018年7月通讯

2018年7月25日|Rob Bensinger|新闻稿

更新

一篇新论文：“使用不完整模型预测“
新的研究金宝博娱乐写作和讨论：模型成本的囚徒困境;反事实抢劫扑克游戏;优化放大
Eliezer Yudkowsky，Paul Christiano，Jessica Taylor和Wei Dai讨论亚历克斯朱的保罗研究议程的常见问题解答金宝博娱乐．
我们参加了EA全球在SF，并谈谈“对古德哈特法的分类变体。“
罗马yampolskiy即将到来的选集，人工智能安全和安全，包括Nate Soares ("价值学习问题“）和Nick Bostrom和Eliezer Yudkowsky（”人工智能的伦理“）。
Stuart Armstrong的2014年刘极联机的AI风险，比我们聪明：机器智能的兴起，现已成为一本免费的网络图书smarterthan.us．

新闻和链接

Openai宣布他们的Openai五金宝博官方系统“已经开始在dota2中击败业余人类团队”(加上一个更新）.讨论LessWrong和黑客新闻．
人类兼容AI中心的博士生博士学生，在他经常更新的最近对准相关结果的评论对准时事通讯．

新论文：“使用不完整模型预测”

2018年6月27日|Rob Bensinger|文件

MIRI研金宝博娱乐究助理Vanessa Kosoy发表了一篇关于归化归化问题的论文:使用不完整模型预测“。抽象的：

我们考虑的任务是根据一些过去的观测数据来预测未来观测的无限序列，其中生成观测数据的概率测度被“怀疑”满足一组不完整模型中的一个或多个，即概率测度空间中的凸集。

这个设置在某种意义上介于可实现的设置(概率度量来自于一些已知的概率度量集)和不可实现的设置(概率度量是完全任意的)之间。

我们展示了一种预测的方法，其保证，每当真正的概率措施在给定的可数集中满足不完全模型时，预测会聚到（适当归一化）Kantorovich-Rubinstein指标中相同的不完整模型。这类似于对贝叶斯推理的意见的合并，除了Kantorovich-Rubinstein度量的收敛性比总变化的收敛性较弱。

Kosoy的工作建立在逻辑电感的基础上，为复杂环境建模创建了一个干净的(纯粹的学习理论)形式，表明在“逻辑归纳”中发展的方法对于与逻辑无关的经典序列预测应用是有用的。

“使用不完整的模型预测”还表明，“不完整”或“部分”模型的直观概念具有与Knightian不确定性相关的优雅和有用的形式化。此外，KOSOY表明，使用不完整的模型概括贝叶斯推断允许代理对可以作为代理本身的环境或更复杂的环境进行预测，或者与古典贝叶斯推断形成对比。

对于更多Kosoy的研究，请参阅“金宝博娱乐最佳多项式估算器“和这一点智能代理基金会论坛．

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。

2018年6月通讯

2018年6月23日|Rob Bensinger|新闻稿

2018年5月通讯

2018年5月31日|Rob Bensinger|新闻稿

挑战Christiano的能力放大提案

2018年5月19日|Eliezer Yudkowsky.|分析

以下是我在3月16日所写的关于我对Paul Christiano的AGI对齐方法的基本未经编辑的摘要(见“阿尔巴“ 和 ”重复蒸馏和放大“）。保罗有评论和回复的地方，我已经包含在下面。

我看到了很多免费变量关于保罗可能会想到的。我有时会尝试用我的反对提出保罗，然后他在某种程度上回复了我的一些问题，但我认为更糟糕的事情会产生其他困难。因此，我的全球异议是这样的，“我没有看到任何具体的设置和一致的同时设置整个方案的变量。”这些困难并非微不足道或技术性的;在我看来，他们相当严厉。下面我将详细介绍这些细节。

应该始终如一地理解，我不声称能够通过保罗ITT.这是我在批评我自己的观点，潜在的误解，我认为保罗可能主张。

2018年4月通讯

2018年4月10日|Rob Bensinger|新闻稿

2018年金宝博娱乐研究计划和预测

2018年3月31日|Rob Bensinger|Miri战略

12月23日更新：这篇文章被编辑，以反映斯科特的术语从“入籍世界模型”变为“嵌入式世界型号关于这四个研究问题的完整介绍，请参阅Scott Garrabrant和Abram 金宝博娱乐Demski的嵌入式机构。“

Scott Garrabrant正在接管Nate Soares的工作，让我们在今年不同研究领域所取得多少进展。金宝博娱乐斯科特将Miri的对齐研究分为五类：金宝博娱乐

嵌入式世界型号- 与缺乏尖锐代理/环境边界的大型复杂物理环境建模相关的问题。该类别问题的中央示例包括逻辑不确定性，归化诱导，多级世界模型和本体危机。

介绍资源：“正式化现实世界模型的两个问题”、“逻辑不确定性下推理问题”、“逻辑归纳”、“反光奥克斯“

近期工作的例子:高级布鲁瓦尔”、“一个Untrollable数学家”、“贝叶斯版的逻辑不确定性的进一步进展“

决策理论-对不同(实际和反事实)决策输出的结果进行建模，以便决策者选择结果最好的输出。核心问题包括反事实、不更新、协调、勒索和反思稳定性。

介绍资源：“在大马士革欺骗死亡”、“决策是为了让糟糕的结果不一致”,“功能决策理论“

近期工作的例子:“合作魔术师，“”吸烟病变钢铁管理员“（1那2），“快乐的舞蹈问题”、“反射令人反光的oracelles作为交谈制定问题的解决方案“

强大的代表团-与建立能够被信任以某人的名义执行某些任务的高能力代理有关的问题。中心问题包括矫正、价值学习、知情监督和Vingean反思。

介绍资源：“价值学习问题”、“易燃”、“完全更新的尊重问题”、“Vingean反射”、“使用机器学习来解决AI风险“

近期工作的例子:对古德哈特法的分类变体”、“稳定的指针值“

子系统金宝博官方对齐-与确保AI系统的子系统不以不同目的工作有关的问题，特别是系统避免创建内部子流程，以金宝博官方优化无意识的目标。中心问题包括良性诱导。

介绍资源：“普遍先验到底是什么样子的?”、“优化守护进程”、“建模遥远的超明“

近期工作的例子:“使感应良性的一些问题“

其他- 对准研究不会陷入上述金宝博娱乐类别。如果我们在中描述的打开问题上取得进展“高级ML系统对齐金宝博官方，“并且进度较少与我们的联系代理基金会工作和更面向ml，那么我们可能会在这里分类。

新论文：“古特哈尔法的分类变种”

2018年3月27日,|斯科特盖拉德坦特|文件

耶和华的法律规定，“任何观察到的统计规律都会倾向于崩溃，一旦压力被放置在控制目的。”但是，这不是一个单一的现象。在好哈特分类学，我建议（至少）有四种不同的机制，当您优化它们时，代理措施中断：回归，极值，因果和对抗。

David Manheim现在有助于将我的分类系统写在这些机制上的更多细节：“对古德哈特法的分类变体。“结论：

本文代表了一种试图对用于优化的任何算法系统中的任何算法系统中的一种简单统计错位进行分类，以及依赖于度量的许多人类系统。金宝博官方强调的动态有望解释在机器学习中的政策设计中许多兴趣的情况，以及关于AI对齐的具体问题。

在政策中，通常遇到这些动态，但也很少讨论。在机器学习中，这些错误包括由于使用有限的数据并选择过度定义的模型，因此由于近视对系统中的因果关系而导致的近视思想而发生的错误而产生的极端卓越效果。金宝博官方最后，在AI对齐中，这些问题对于将系统对准，并确保系统开始优化它们后，系统的指标对系统的指标没有反向效应。金宝博官方

让V.参考真正的目标，而你指的是与观察到的目标相关的代理V.它在某种程度上被优化了。那么古德哈特定律的四个子类型如下:

及古德哈特- 选择代理度量时，不仅选择真实目标，而且为代理和目标之间的区别选择。

模型:当你等于V.+X，在哪里X有些噪音，一个很大的点你价值可能有很大的V.价值，但也是一个大的X价值。因此,当你是大，你能期待吗V.可预测小于你．
示例：高度与篮球能力相关，实际上直接帮助，但最好的球员只有6'3“，20多岁时的一个随机7'人可能不会那么好。

极值古特哈特- 从普通世界中，代理占极值的世界可能与普通世界不同，其中观察到代理与目标之间的相关性。

模型：图案倾向于在简单的关节中突破。世界上的一个简单的世界是那些世界的你非常大。因此，之间的强烈相关性你和V.观察到自然而然的你值可能不会转移到世界上的世界你非常大。此外，由于可能相对较少地实现了世界你非常大，非常大你可能一致小V.不破坏统计相关的值。
示例：Robert Wadlow的最高人物，罗伯特Wadlow是8'11“（2.72米）。由于垂体障碍，他越来越高昂;他会努力打篮球，因为他“需要腿部腿部走路，腿部和脚有很小的感觉。”

因果关系- 当代理与目标之间存在非因果关系时，在代理上干预可能会在目标上进行干预。

模型：如果V.原因你(或者,如果V.和你两者都是由第三种因素引起的)，那么两者之间有关联吗V.和你可以观察到。但是，当你介入增加时你通过一些不涉及的机制V.，你将无法增加V.．
示例：希望更高的人可能会观察到高度与篮球技巧相关并决定开始练习篮球。

对抗的好的- 当您优化代理时，您可以为对手提供与您的代理相关联的对手的激励，从而摧毁与您的目标相关联的相关性。

模型：考虑代理人一种有不同的目标W.．由于它们依赖于共同的资源，W.和V.自然而然地反对。如果你优化你作为代理V.,一种知道这一点,一种被激励制作大你值与大量重合W.值，从而阻止它们与大的重合V.价值观。
示例：有抱负的NBA球员可能只是犹豫他们的身高。

有关此主题的更多信息，请参阅Eliezer Yudkowsky的撰写，古德哈特的诅咒．

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。

2018年7月通讯

新论文：“使用不完整模型预测”

注册以获取新的Miri技术结果的更新

2018年6月通讯

2018年5月通讯

挑战Christiano的能力放大提案

2018年4月通讯

2018年金宝博娱乐研究计划和预测

新论文：“古特哈尔法的分类变种”

注册以获取新的Miri技术结果的更新

搜索

浏览

订阅