安全关键系统透明度 - 机器智能研究所金宝博娱乐金宝博官方

在这篇文章中，我打算总结一个关于AI透明度和AI可靠性的常见观点。很难确定该领域对人工智能透明度和可靠性的“共识”，所以我将取而代之一种常见观点使我可以使用它来引入许多并发症和打开的问题（我认为）担保进一步调查。

以下是我汇总的简短版本：

黑盒测试可以提供一些信心，系统将按预期行为，但如果建立系统，使其对人机检查是透金宝博官方明的，则可以使用其他可靠性验证方法。不幸的是，许多AI最有用的方法是其最不透明的。基于逻辑的系统通常比统计金宝博官方方法更透明，但统计方法更广泛地使用。这项一般规则有例外，有些人正在努力使统计方法更加透明。

透明度在系统设计中的价值金宝博官方

NURSER（2009）写道：

...在安全相关的应用领域，必须提供可以通过域专家验证的透明解决方案。“黑匣子”方法，如人工神经网络，被认为是怀疑 - 即使它们对可用数据显示了非常高的准确性 - 因为证明他们将在所有可能的输入组合上表现出良好的性能是不可行的。

不幸的是，AI功能与AI透明度之间通常存在紧张。许多人的最强大的方法也是其最不透明的方法：

已知达到高预测性能的方法 - 例如支持向量机（SVM）或人工神经网络（ANNS） - 通常很难解释。另一方面，已知是可解释的方法 - 例如（模糊）规则系统，决策树或线性模型 - 通常有于它们的预测性能。金宝博官方¹

但对于安全至上的系统金宝博官方-尤其对于美国国际集团将系统可靠性优先于性能是很重要的。金宝博官方再次,这是NURSER（2009）：

严格要求[系统透明度]是必要的，因为一个与安全相关金宝博官方的系统，其故障或故障可能导致严重的后果——例如环境损害、设备的损失或严重损坏、人员的伤害或严重伤害，甚至死亡。通常，在这个领域中不可能纠正错误的决定。

许多其他人都强调了艾美透明度的特殊需求，²包括博登（1977）：

人工智能社区的成员与……有不祥的相似之处魔法师的学徒．学徒学会了足够的魔力......拯救自己是表演繁重的任务的麻烦，但不太可能阻止咒语桶和扫帚淹没城堡......

[一个问题我要问是]是否有任何书面编写计划的方法，这些程序将倾向于在人类的手中保持控制... [一件事，]计划应该是可理解和明确的，因此“发生了什么”没有埋葬在代码中或隐含地体现在宗旨和效果模糊的程序中。

黑匣子的光谱透明

非透明系统有时被称为“黑匣子”：金宝博官方

黑盒是一种可以根据其输入、输出和传输特性来查看的设金宝博官方备、系统或对象对其内部运作一无所知．其实施是“不透明”（黑色）。几乎任何东西都可能被称为黑色盒子：晶体管，算法或人类思维。

(而且)实际上，一些(技术上透明的)系统非常复杂，(它们)也可能是(黑匣子)。金宝博官方^3.

人的大脑大多是一个黑匣子。We can observe its inputs (light, sound, etc.), its outputs (behavior), and some of its transfer characteristics (swinging a bat at someone’s eyes often results in ducking or blocking behavior), but we don’t know very much about如何大脑的工作方式。我们已经开始从算法上理解一些它的功能(特别是愿景），但只几乎没有。^4.

许多当代AI方法都是有效的黑盒方法。作为惠特比(1996)解释，在“GOFAI” (e.g. search-based problem solvers and knowledge-based systems) “are as nothing compared to the [safety] problems which must be faced by newer approaches to AI… Software that uses some sort of neural net or genetic algorithm must face the further problem that it seems, often almost by definition, to be ‘inscrutable’. By this, I mean that… we can know that it works and test it over a number of cases but we will not in the typical case ever be able to know exactly how.”

然而，其他方法相对透明，正如我们在下面的那样。

这篇文章无法调查所有AI方法的透明度;太多了。相反，我将专注于AI方法的三大“家庭”。

检查AI方法三个家庭的透明度

机器学习

机器学习也许是AI中最大，最活跃的子场，包含各种各样的方法，通过该方法从数据中学习。有关该领域的概述，请参阅Flach (2012)．有关简短的视频介绍，请参阅这里．

不幸的是，机器学习方法往往不是最透明的方法。^5.NURSER（2009）解释：

机器学习方法被安全相关的应用领域的域专家疑似，因为它往往是不可行的，可以充分解释和验证学习的解决方案。

目前，让我们考虑一个流行的机器学习方法：人工神经网络(人工神经网络)。(有关简要的视频介绍，请参见这里。）作为Rodvold (1999)解释，Anns通常是黑匣子：

神经网络的智能包含在数值突触权重，连接，传递函数和其他网络定义参数的集合中。通常，对这些数量的检查产生很少的明确信息，以开发开发人员为什么正在制作某种结果。

同时,库尔德人(2005)：

典型的人工神经网络通常被视为黑盒，因为人工神经网络的行为分散在其权重和链接上，对观察者来说没有什么意义。由于这种非结构化和无组织的行为表现，通常不可能完全理解和预测它们的功能和操作……^6.

深度学习是另一种流行的机器学习技术。它也趋向于不透明——就像ann一样，深度学习方法的灵感来自于大脑的某些部分是如何工作的，特别是视觉系统。金宝博官方^7.

一些机器学习方法比其他机器更透明。Bostrom & Yudkowsky (2013)解释:

如果一个机器学习算法是基于一个复杂的神经网络……那么它可能被证明是几乎不可能理解为什么，甚至是如何做出判断的。另一方面，基于决策树或贝叶斯网络的机器学习对程序员的检查更加透明(Hastie等人。2001年），可以使审计员能够发现[为什么算法使其做出的判断]。^8.

此外，最近的工作已经尝试使一些机器学习方法更加透明，因此可能更适合安全关键应用。例如，泰勒(2005)建议从神经网络提取规则（这是指人们直观概念）的方法，以便研究人员能够对提取的规则进行正式的安全分析。金宝博娱乐这些方法仍然是最重要的，并且尚未广泛适用或广泛使用，但进一步的研究可以使这些方法更有用和流行。金宝博娱乐^9.

进化算法

进化算法（EAS）通常被归类为机器学习方法，但在这里它们将被分开考虑。EA EAS使用Evolution启发的方法来生产候选解决方案问题。例如,看这个视频软件机器人能快速“行走”。

因为进化算法使用半随机的突变和重组过程来产生候选方案，复杂的候选方案往往不是透明的——就像进化产生的大脑一样。米切尔（1998），p。40写道：

了解[遗传算法]演进的结果是一般问题 - 通常，[遗传算法]被要求找到实现高适合但是如何达到高适应性的[候选解决方案]。人们可以说，这与难度的生物学家在理解自然演化（例如，美国）的产品中......在许多情况下......很难完全理解进化的高健身[候选解决方案]作品。例如，在遗传编程中，演进程序通常很长，复杂，许多不相关的组件连接到执行所需计算的核心程序。这通常是很多工作 - 有时几乎是不可能的 - 用手弄清楚核心计划是什么。

弗莱明与purhouse (2002)添加：

由于进化算法的随机性，最初，未出现关键任务和安全关键应用程序不会出现对EA使用。不提供保证，结果将在线使用足够的质量。

逻辑方法

人工智能中的逻辑方法被广泛应用于安全关键领域(例如医学)，但与机器学习方法相比，总体上的应用要少得多。

在基于逻辑的AI中，AI的知识和推理系统是用逻辑语句写出来的。金宝博官方这些语句通常是手工编码的，每个语句的含义由所使用的逻辑系统的公理确定(例如，一阶逻辑)。金宝博官方罗素＆诺维格（2009年）是领先的AI教科书，描述了AI的逻辑方法第七章．它描述了逻辑人工智能的一个流行应用，称为“经典规划”第10章．还要看看Thomason（2012）和貂(2000)．

Galliers (1988年，p。88-89）解释了AI中基于逻辑的方法的透明度优势：

一种表达为一套逻辑公理的理论是显而易见的;它可以接受检查。这有助于确定理论的任何部分是否不一致，逻辑是具有精确语义的语言[因此]不存在解释上的歧义…通过将行为人的属性表达为逻辑公理和定理…理论是透明的;属性、相互关系和推论是开放考试……这与使用计算机代码,它经常是计算机系统关心…解决问题实际上是这样的属性代理交互设计是整个系统的隐式属性,金宝博官方而且不可能调查任何单个方面的作用或影响。^10.

AI中逻辑方法的另一个透明度优势来自逻辑语言的能力来代表不同种类的机器，包括可以反思自己的机器以及他们信仰的原因。例如，它们可以通过每个数据来传递周围的假设。例如。查看“Domino”代理商《狐狸与Das》(2000)．

此外，一些基于逻辑的方法是可行的正式的方法，例如正式验证:数学上证明一个系统将按照正式规格书正确运行。金宝博官方^11.形式方法补充经验测试对于软件，例如通过识别“角落错误”，这些错误在使用经验方法时很难发现密特拉2008．

正式验证可能是最为罕见的验证硬件组件(尤其是自FDIV错误，但它也被用于验证各种软件程序(部分或全部)，包括飞行控制系统(金宝博官方Miller等人。2005年)、轨道控制系统(金宝博官方Platzer＆Quesel 2009)、心脏起搏器(Tuan等人。2010年),编译器(Leroy 2009.），操作系统内核（金宝博官方Andronick 2011），多代理系统（金宝博官方Raimondi 2006)、户外机器人(Proetzsch等人。2007年）和群体机器人学（dixon等人。2012年）．

不幸的是，形式化方法面临着严重的限制。福克斯（1993）解释：

正式设计技术完全防止危险情况发生的能力受到严重限制。目前的形式化设计方法难以使用和耗时，可能只适用于相对有限的应用。即使我们保留正式系统的安全性至关重要的元素的技术我们已经看到的可靠性保证技术只能说明符的能力一样好预测的条件和可能的危害,可以持有的时候使用…这些问题足够金宝博官方困难的“封闭系统”不幸的是，所有的系统或多或少都是“开放的”;金宝博官方它们在一种不能完全监测的环境中运作，在这种环境中会发生不可预测的事件。此外，对规范和验证方法的依赖假定操作环境不会影响软件的正确执行。事实上，软件错误可以由导致数据丢失或损坏的瞬时故障引起;用户错误;与外部系统(如数据库和工具)的接口问题;金宝博官方软件版本不兼容; and so on.^12.

Bowen＆Hinchey（1995）同意:

有许多......虽然可能，形式化的区域不实际，但是从资源，时间或财务方面都不实用。最成功的正式方法项目涉及将正式方法应用于系统开发的关键部分。金宝博官方仅仅是正式的方法，而且仅适用于系统开发的各个方面的正式方法。金宝博官方即使在CICS项目中，它通常被引用为正式方法的主要应用......只有大约十分之一的整个系统实际上都经过正式的技术......金宝博官方

[我们建议]以下格言:金宝博官方系统开发应尽可能正式，但不更正式。

有关人工智能安全的正式方法使用的更多信息，请参阅Rushby＆Whitehurst（1989）;Bowen & Stavridou (1993);哈珀（2000）;枪(2006);Fischer等人（2013）．^13.

一些并发症和开放性问题

上述关于透明度和人工智能安全性的共同观点表明，这是一个机会差动技术发展．为了增加未来AI系统是安全可靠的赔率，我们可以在透明的AI方法中不成比例金宝博官方地投资，以及用于提高通常不透明AI方法的透明度的技术。

但这种共同点具有一些严重的警告，以及一些困难的开放问题。例如：

方法的透明度如何随比例变化?一个有200个规则的逻辑AI可能比一个有200个节点的贝叶斯网络更透明，但是如果我们比较10万个规则和10万个节点呢?至少我们可以查询而对于基于逻辑的系统，我们就不能这样做了。金宝博官方
真的是上面的类别“在关节上雕刻现实“关于透明度?”一个系统作为一金宝博官方个基于逻辑的系统或一个贝叶斯网络的状态是否可靠地预测了它的透明度，假定我们可以用其中之一来表示世界的概率模型?
系统的透明度是一个“内在”到金宝博官方系统的“内在”，其中多少取决于用于检查它的用户界面的质量？有多少“透明度提升”可以不同种类的系统从精彩设计的用户界面获取？金宝博官方^14.

确认

我感谢John Fox，Jacob Steinhardt，Paul Christiano，Carl Shulman，Eliezer Yudkowsky等人的有用反馈。

引用NURSER（2009）．重点补充。原始文本包含许多已在此帖子中删除的引用以进行可读性。还要看看舒尔茨与克罗宁(2003)，通过沿着鲁棒性和透明度两个轴绘制4种人工智能方法来说明这一点。他们的图表是可用的这里．在他们的术语中，一种方法的“鲁棒性”达到了在各种各样的问题和数据集上灵活和有用的程度。在图中，GA意为“遗传算法”，NN意为“神经网络”，PCA意为“主成分分析”，PLS意为“偏最小二乘”，而MLR意为“多元线性回归”。在这个人工智能方法样本中，趋势很明显:最稳健的方法往往是最不透明的。舒尔茨和克罗宁只绘制了一小部分人工智能方法的样本，但这一趋势适用于更广泛的领域。↩
我将分享一些关于智能系统透明度的重要性的报价。金宝博官方Kröske等。（2009）他写道，要信任机器智能，“人类操作员需要能够理解(它的)推理过程和促成某些行动的因素。”同样的,福克斯（1993）写道：“工程的许多分支已经超越了纯粹的经验测试[安全] ......因为它们已经建立了强大的设计理论......结果是设计人员可以自信地预测失败模式，性能边界条件等在实施系统之前金宝博官方......对[在AI中获得这些福利的有希望的方法可能是使用明确定义的规格语言和验证程序。范米伦和哈尔德（1992年）[列出一些]使用正式语言的优势...... [包括]拆除模糊性... [和]在没有实施的情况下导出设计的属性。“在他们的序言中，《狐狸与Das》(2000)写道：“我们的第一个义务是尝试确保我们的系统的设计是声音。金宝博官方We need to ask not only ‘do they work?’ but also ‘do they work for good reasons?’ Unfortunately, conventional software design is frequently ad hoc, and AI software design is little better and possibly worse… Consequently, we place great emphasis on clear design principles, strong mathematical foundations for these principles, and effective development tools that support and verify the integrity of the system… We are creating a powerful technology [AI], possibly more quickly than we think, that has unprecedented potential to create havoc as well as benefit. We urge the community to embark on a vigorous discussion of the issues and the creation of an explicit ‘safety culture’ in the field.”↩
重点补充。第一段是来自维基百科的黑盒子页面;第二段来自于它白盒子页。术语“灰色盒子”有时用于指“完全黑匣子”和“完全透明”方法之间的透明度中间的方法：参见例如。Sohlberg (2003)．↩
因此，如果我们可以建立一个整个大脑模拟今天，它也是一个黑色盒子系统，即使所有信息都将存储在计算机中并可访问数据库搜索工具等。金宝博官方但在WBE之前，我们可能会在认知神经科学中取得很多进展实际上建造，一个也可以在认知神经科学中能够快速进步，因此人类大脑会对我们迅速变得更加透明。↩
对于更多关于机器学习如何用于相对“透明”的讨论，例如用于了解贝叶斯网络的结构，请参阅墨菲（2012），ch。26。↩
李鹏(2006)制作相同的点：“传统的神经网络......缺乏透明度，因为它们的激活功能（AFS）及其相关的神经参数非常少的物理意义。”另请参阅伍德曼等人(2012)在个人机器人的背景下对这个问题的评论：“自治机器人的要求......是一定的鲁棒性。这意味着能够处理错误并在异常条件下继续操作......在动态环境中，机器人经常在广泛的未经过看不见的情况下发现自己。迄今为止，这方面的大多数研究通过使用学习算法解决了金宝博娱乐这个问题，通常实施为人工神经网络（ANNS）...然而，如Nehmzow等人。（2004）这些实现虽然看起来很有效，但由于基于连接的算法固有的不透明性，很难进行分析。这意味着很难产生一个可用于安全分析的可理解的系统结构模型。”金宝博官方↩
墨菲（2012）在第995页中，他写道:“当我们观察大脑时，我们似乎在进行不同层次的处理。人们相信，每个层次都在不断提高的抽象层次上学习特性或表示。“比如，视觉皮层的标准模型……表明(粗略地说)大脑首先提取边缘，然后是补丁，然后是表面，然后是物体，等等……这一观察启发了被称为深度学习(deep learning)的机器学习最近的一个趋势……它试图在计算机中复制这种结构。”↩
普遍认为，贝叶斯网络比ANN更透明，但这只是真实的直到一点。贝叶斯网络与数百个与人直觉概念无关的节点不一定比大号更透明。↩
有关这项工作的概述，请参阅NURSER（2009），第2.2.3节。还要看看Pulina＆Tacchella（2011年）．最后，NG（2011）第4节提到，我们可以通过询问哪些输入可以最大限度地激活特定节点，来了解神经网络学习了什么功能。在他的例子中，Ng使用这种技术来可视化哪些视觉特征是由经过图像数据训练的稀疏自动编码器学会的。↩
里奇(2003)同意，写出“透明度是逻辑方法的另一个优势”。“↩
近来概述正式方法一般，见Bozzano＆Villafiorita（2010年）那Woodcock等人(2009);Gogolla（2006）;Bowen＆Hinchey（2006）．有关安全工程理论在人工智能中的一般应用的更多信息，请参见福克斯（1993）;Yampolskiy & Fox (2013);yampolskiy（2013）．↩
Another good point Fox makes is that normal AI safety engineering techniques rely on the design team’s ability to predict all circumstances that might hold in the future: “…one might conclude that using a basket of safety methods (hazard analysis, formal specification and verification, rigorous empirical testing, fault tolerant design) will significantly decrease the likelihood of hazards and disasters. However, there is at least one weakness common to all these methods. They rely on the design team being able to make long-range predictions about all the… circumstances that may hold when the system is in use. This is unrealistic, if only because of the countless interactions that can occur… [and] the scope for unforseeable interactions is vast.”↩
另请参阅这个程序在布里斯托尔大学。↩
除此之外，我将简要介绍用户界面混淆是否有助于过去许多与计算机相关的失败。例如，Neumann（1994）关于案件的报告伊朗航空航班655由于美国航空母舰的用户界面不清晰，这架飞机被美国军队击落文森地区”Aegis导弹系统。金宝博官方随后推荐对接口的更改。对于其他与UI相关的灾难，请参阅Neumann的广泛页面说明使用电脑系统及相关技术给公众带来的风险金宝博官方．↩

你喜欢这个帖子吗?你可以享受我们的其他分析帖子，包括：

安全关键系统中的透明度金宝博官方