提交奥斯特普AI成果 - 机器智能研究所金宝博娱乐

白宫科技政策办公室最近推出了一个请求的信息“（1）AI的法律和治理影响;（2）利用AI公共利益;（3）AI的安全和控制问题;（4）AI的社会和经济影响;“以及各种相关主题。我已经将Miri提交到了RFI以下：

I.审查安全和控制问题

AI专家在很大程度上同意AI研究最终将导金宝博娱乐致AI系统的发展超越了一般推理和决策能力。金宝博官方毕竟，这是该领域的目标。然而，对跨越该阈值的时间有很多普遍的分歧，相关的AI系统可能看起来像什么（自主代理，广泛分布的决策支持系统，人类/ AI团队等）。金宝博官方

尽管存在不确定性，研究界的日益增长的子集预计，先进的AI系统将产生许多可预见的安全性和控制困难，并金宝博娱乐且这些困难可以通过今天技术研究抢先地解决。金宝博官方斯图尔特罗素，AI和U.C的教授领先本科教科书的共同作者。伯克利，写：

主要关注的是不是幽灵突然意识，但只是制造的能力高质量的决策．在这里，质量是指采取的行动的预期结果效用，其中utility函数由人工设计师指定。现在我们有一个问题：

1.效用函数可能与人类的价值观不完全一致，而人类的价值观(充其量)很难确定。

2.任何有足够能力的智能系统都会倾向于确保自己的继续存在，并获取物理和计算资源金宝博官方——不是为了它们自己，而是为了成功完成所分配的任务。

优化金宝博官方某一功能的系统N变量，其中目标取决于子集的大小K.<N，通常会将剩余的无约束变量设置为极值;如果这些无约束变量中有一个是我们真正关心的，那么找到的解决方案可能是非常不可取的。这本质上是关于灯里的精灵，巫师的学徒，或迈达斯国王的古老故事:你得到了你想要的，而不是你想要的。

金宝博娱乐研究人员担心AI在长期内的影响与世界末日情景的关系很少，最常见于好莱坞电影中的最常见的情况，其中“紧急意识”允许机器抛弃他们编程目标和反叛的束缚。关切的是，这种系统可能会追求他们的编程目标，并且程序的目标可能与金宝博官方预期目标不符，或者预期目标可能会产生意外的负面后果。

这些挑战并不完全是新的。我们可以将它们与其他委托代理问题进行比较，在这些问题中，激励结构的设计是希望对这些激励的盲目追求能促进良好的结果。从历史上看，委托代理问题一直难以解决，即使是在那些设计激励结构的人可以依赖于一定程度的人类善意和常识的领域。考虑设计税法以可靠地产生有益结果的问题，或设计可靠地减少企业外部性的法规的问题。为了优化某些目标功能而设金宝博官方计的高级人工智能系统可能会在数字时间尺度上产生意想不到的后果，但没有善意和常识来减弱这种影响。

鉴于研究人员不知道何时金宝博娱乐会发生突破，并鉴于今天有多条开放式技术研究，可以追求这些问题来解决这些问题，我们认为这是对这些技术障碍开始认真的工作是谨慎的改善社区的准备。

2安全与控制技术研究方金宝博娱乐向

有几条有希望的技术研究线可以帮助确保未来的AI系统具有积极的社会影响。金宝博娱乐金宝博官方我们将这项研究划分为三大类：金宝博娱乐

价值规范（VS）：研金宝博娱乐究辅助在捕捉运营商的意图的客观函数设计，和/或描述社会有益目标的目标职能。例子:合作逆钢筋学习是一个正式模型的AI代理，无论是学习其他代理人的目标（例如，人工人员）。

高可靠性(HR):帮金宝博娱乐助设计可靠、可靠、可验证地追求既定目标的人工智能系统的研究。金宝博官方例子:PAC学习框架，对某些分类问题的解决方案的正确性提供了统计上的保证。这个框架是一个很好的例子，在开发先进的人工智能系统之前就已经进行了研究，金宝博娱乐但这些研究可能有助于设计健壮可靠的系统。金宝博官方

错误宽容（et）：研金宝博娱乐究辅助设计的AI系统的设计，这是故障安全和强大的设计错误。金宝博官方示例：研究允许关闭金宝博娱乐代理的客观函数的设计，但不要给代理激励措施导致或阻止关机．

我们的 ”用于将机智与人类兴趣的代理基础报告深入讨论了这三个目标，并概述了一些被忽视的技术研究主题，这些主题可能与未来的设计有益的人工智能系统相关，而不管它们的具体架构如何。金宝博娱乐金宝博官方我们的 ”高级机器学习系统对齐金宝博官方该报告讨论了与这些问题相关的技术研究主题，并基于一个更强的金宝博娱乐假设，即未来的先进系统将在质量上与现代机器学习(ML)系统相似。金宝博官方我们也推荐谷歌Brain的Dario A金宝博娱乐modei和Chris Olah领导的研究计划。”AI安全的具体问题这些技术研究问题适用于不久的将来的金宝博娱乐人工智能系统，并有可能在未来应用于更先进的系统。金宝博官方在这些议程中讨论的可行金宝博娱乐动的研究方向包括(在许多其他主题中):

- - - - - -强大的逆钢筋学习：设计基于奖励的代理商，以学习观察到的行为可能揭示偏见或无知代替真正的偏好的情况。（vs）

- - - - - -安全探索:设计强化学习主体，在不进行高风险实验的情况下，有效地了解环境。(等)

- - - - - -低碰撞代理:指定有意避免对环境产生重大影响(或好或坏)的决策系统。金宝博官方(等)

还有一些研究领域可能会帮助开发安全的人工智能系统，但它金宝博娱乐们没有很好地融入现有的人工智能社区。金宝博官方例如，许多技术在使用中被程序验证和高保证软件社区不能应用于现代ML算法。促进这些社区之间的更多合作可能使我们更容易设计适用于安全关键情况的AI系统。金宝博官方ML分析和验证的可操作金宝博娱乐研究方向包括：

- - - - - -算法的透明度:开发更正式的工具来分析ML算法的运行方式和原因。(人力资源)

- - - - - -用于节目验证的类型理论:开发高保证技术，以在新环境中重用已验证代码。(人力资源)

- - - - - -增量重新验证:确认自适应系统安全特性的持久性。金宝博官方(人力资源)

人工智能可靠性的另一个重要研究范畴是为形式化建模智能主体开发金宝博娱乐基本理论工具。例如，考虑概率论(建模不确定推理者的理论工具)与现代机器学习算法的相互作用。虽然现代毫升系统没有严格遵循概率金宝博官方理论的公理,许多理论保证可以应用于probability-theoretic,采取形式”这个代理将汇聚的政策非常接近最优政策,有很高的概率。”概率论是一个远远超前于现代ML技术发展的基础研究的例子，但已被证明对获得ML系统行为金宝博娱乐的强(统计)保证很重要。金宝博官方我们相信，这类更多的基础研究是可以完成的，而且它可能被金宝博娱乐证明是同样有价值的。

有许多其他方面良好的推理缺乏类似的基础,如人工智能系统的情况下分配关注有限的计算资源,或预测计算的行为过于昂贵,或分析潜在的影响改变他们的硬件或软件。金宝博官方对理想推理的基本金宝博娱乐理论模型的进一步研究(包括对有限理性的研究)可能会产生有助于获得对人工智能系统行为更有力的理论保证的工具。金宝博官方可操作的研究方向包括金宝博娱乐：

- - - - - -决策理论:在“设置”中，主体必须从事元认知、反思、自我修正或关于违反主体/环境边界的推理。(人力资源)

- - - - - -逻辑不确定性:将贝叶斯概率论推广到行为人对数学(例如计算)事实不确定的情况。(人力资源)

我们相信有许多承诺的基本途径的研究,如果成功,可以得到很强的保证先进的人工智能系统的行为——比许多目前认为是可能的,在当时最成功的机器学习金宝博娱乐技术往往知之甚少。金宝博官方我们相信，将机器学习、程序验证和正式代理的数学研究方面的研究人员聚集金宝博娱乐在一起，将是确保高度先进的人工智能系统对社会产生强有力的有益影响的一大步。金宝博官方

III。协调前景

关于人工智能的长期影响，很难有信心地说得太多。目前，我们认为上述技术研究是解决人们对先进人工智能系统的担忧，以及了解更多需要做的事情的最佳工具金宝博娱乐。金宝博官方

展望未来，我们预计，如果这种系统的设计者(无论是私营部门、公共部门，还是某些国际合作的一部分)在过度的时间压力下行动，那么从长远来看，与变金宝博官方革性人工智能系统相关的风险将会加剧。我们相信，任何旨在确保人工智能的社会影响是有益的政策，都应该首先确保革命性的人工智能系统的部署是经过仔细考虑的，而不是出于恐惧或匆忙。金宝博官方如果科学家和工程师担心输掉一场赛跑，他们就会有更多的动机在安全和控制方面偷工减料，从而避免了安全意识工作的好处。

长期以来，我们建议政策制定者利用激励措施来鼓励AI系统的设计师协同工作，也许通过跨国和多金属公司合作，以劝阻赛马动力学的发展。金宝博官方鉴于专家中AI未来的高度不确定性，鉴于AI研究的巨大潜力，以拯救生命，解决社会问题，在不久的将来服务共同的良好，我们建议采取广泛的监管干预措施金宝博娱乐这个空间。我们建议将努力鼓励跨学科技术研究进入我们上面概述的AI安全性和控制挑战。金宝博娱乐

向OSTP提交人工智能成果

搜索

浏览

订阅