新纸:“定量ilizers”

||文件

定量司人Miri研金宝博娱乐究员Jessica Taylor在软件代理商的耐堵塞框架上写了一篇新的论文,“定量器:最大限度的替代品,可用于有限优化。“泰勒的论文将在AAAI-16上呈现AI,道德和社会作坊。摘要读:

在ai的领域,预期效用最大化器常被用作理想agent的模型。然而,当效用函数没有量化经营者关心的所有事情时,预期效用最大化可能会导致意想不到的解决方案:例如,想象一下,一个预期效用最大化者的任务是在股票市场上赢钱,而不考虑它是否会意外地导致市场崩溃。一旦AI系统变得金宝博官方足够智能和强大,这些意想不到的解决方案可能会变得相当危险。在本文中,我们描述了一个强大的人工智能系统的期望效用最大化的替代方案,我们称之为金宝博官方预期效用量化。这可能允许建造一个不一定落入奇怪和意外的快捷方式和边缘案件的AI系统的构建,以追金宝博官方求其目标。

预期的效用量化是在顶部选择随机动作的方法N某种分布γ的动作百分比,按预期实用程序排序。例如,分布γ可以是人类如何执行它们的可能性的一组动作。基于这种分布的量化器将表现在人和预期的公用事业最大化器之间的折衷。代理商的实用程序职能将其直观地以新颖的方式直观理想的结果,使其可能比数字化人类更有用;虽然γ指示它朝向更安全和更可预测的策略。

量化是“满意“或选择实现预期实用程序的一些最小阈值的操作。试图挑选良好策略的代理商,但不是最大限度地好的,似乎不太可能提出非凡和非常规的策略,从而减少了令人智能的益处和风险的风险。金宝博官方设计AI系统以满足对避免有金宝博官方害的看似尤其有用收敛乐器目标经常实例化终端目标:

  • If we design an AI system to cure cancer, and γ labels it bizarre to reduce cancer rates by increasing the rate of some other terminal illness, them a quantilizer will be less likely to adopt this perverse strategy even if our imperfect specification of the system’s goals gave this strategy high expected utility.
  • 如果SuperIntelligent AI系统金宝博官方具有默认激励措施来抓住对资源的控制,但γ标记这些政策奇异,那么量程器将不太可能收敛这些策略。

泰勒指出,通过指定量化器具有低撞击的一些限制结构,甚至可以允许我们不成比例地消除最大化的益处,而不会产生比例的域。量化。

对令人满意的一个明显反对意见是令人满意的代理人可能建造预期的效用最大化器。毕竟,最大化可能是满足的极有效的方法。量化可能避免这种反对意见:最大化和定量可能既可以满足的好方法,但最大化不一定是定量的有效方法。认为授权到最大化剂“奇异”的量化器将避免将其决定委托给予代理商,即使该代理人将最大化定量化器的预期效用。

泰勒表明,依赖0.1定量的成本(从前10%的行动中选择一个随机动作),期望不超过其分布γ的推荐的10倍;依赖于0.01定量的预期成本(从前1%的动作选择)不超过依赖于γ的100倍;等等。量化在这方面的一系列策略中是最佳的。

但是,预期的效用量化不是魔法子弹。它强烈依赖于我们如何指定动作分配γ,泰勒表明,普通的量化器在重复的游戏中表现不佳,在“普通”在γ中的行动往往具有非常高或非常低的预期效用。需要进一步调查以确定定量il(或定量il上的一些变体)是否可以解决这些问题。


注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。