新论文:“形式化聚合工具目标”

||论文

收敛Tsvi Benson-Tilsen是MIRI的一名合伙人,也是加州大学伯克利分校的博士候选人,他写了一篇由MIRI执行董事Nate Soares撰写的关于有助于实现大多数可能目标的策略的论文:形式化聚合的工具目标这篇论文将作为海报在AAAI-16上展示人工智能,伦理和社会车间。

Steve Omohundro认为,具有几乎任何目标的人工智能智能体都会汇聚到一组“基本驱动”上,比如资源获取,这往往会增加智能体的总体影响力和行动自由。这个想法,尼克·博斯特罗姆称之为仪器收敛的论文,对人工智能的未来发展具有重要意义。它表明,即使没有任何反社会目标,高能力的决策系统也可能构成关键风险。金宝博官方仅仅由于对人类操作者的目标漠不关心,这种系统就可能有操纵、剥削或与操作者竞争的动机。金宝博官方

这篇新论文为Omohundro和Bostrom的论点增加了精确性,同时测试了这些论点在简单环境下的适用性。Benson-Tilsen和Soares写道:

在本文中,我们将讨论在非常普遍的假设下,智能理性行动者倾向于攫取所有可用的资源。我们使用第4节中描述的模型来实现这一点,该模型考虑代理执行一系列需要并可能产生资源的操作。第四节中证明的定理在数学上并不困难,对于那些认为Omohundro的论证在直觉上显而易见的人来说,我们的定理也将显得微不足道。这个模型并不出人意料;相反,我们的目标是给出“工具聚合目标”的正式概念,并证明这个概念抓住了Omohundro直觉的相关方面。

我们的模型预测,智能理性的行动者将参与贸易和合作,但前提是贸易和合作的收益高于行动者通过武力或其他手段获取资源所获得的收益。该模型进一步预测,主体实际上不会“离开人类”,除非他们的效用函数将内在效用放在人类占据的区域的状态上:如果没有这样的效用函数,该模型表明,强大的主体将有激励来重塑人类占据的空间。

本森-蒂尔森和苏亚雷斯将宇宙划分为不同的区域,这些区域可能会根据个体的行为以不同的方式发生变化。代理希望使某些区域进入某些状态,可能会收集区域的资源到此目的。该模型可以说明,只要资源的有用性大于提取成本,高能力的代理几乎总是试图从它们不关心的区域提取资源。

相关的模型很简单,并且很少对高级人工智能系统的特定架构做出假设。金宝博官方这使得我们有可能得出一些关于安全研究有用路线的一般性结论,即使我们在很大程度上不知道如何或何时开发高度先进的决策系统。金宝博娱乐金宝博官方避免有害目标最明显的方法是将人类价值纳入人工智能系统的实用功能中,这是《人工智能》中概述的一个项目。金宝博官方价值学习问题或者(或者作为补充措施),我们可以尝试指定违反Benson-Tilsen和Soares假设的高能力代理,在缺乏正确目标的情况下避免危险行为。本文对此进行了探讨。可订正”。


注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。