戴安娜(Diana)长矛对自适应剂的安全性

||对话

戴安娜·斯皮尔斯肖像戴安娜长矛是所有者和研究科学家金宝博娱乐Swarmotics,LLC。以前,她曾在美国政府实验室工作(戈达德,,,,nist,,,,NRL)之后,她是计算机科学副教授怀俄明大学。她从马里兰大学,大学公园

Spears博士的研究兴趣金宝博娱乐包括机器学习,自适应群体机器人传感网络/网格,基于计算流体动力学的算法,用于多机器人化学/生物羽毛羽流和羽流图和羽毛映射以及行为鉴定的自适应和机器学习系统。金宝博官方Spears博士以其屡获殊荣的(2001年NRL Alan Berman Research Publication Award)出版物率先开创了安全自适应代理领域。金宝博娱乐“ Asimovian自适应代理商。”Most recently she and her husband co-edited the book物理学:基于物理的蜂群智能,”published by Springer-Verlag in 2012.

卢克·穆尔豪瑟(Luke Muehlhauser): 在Spears(2006)和其他出版物,您讨论了确保适应性(学习)代理人安全的挑战:

设计师不可能预见到代理商将遇到的所有情况。因此,除了为代理提供计划外,还必须使代理商能够学习和修改其计划以适应不可预见的情况。但是,学习的引入通常会使代理商的行为更加难以预测。这项研究的目的是验证自适应剂的行为金宝博娱乐。特别是,我们的目标是开发有效的方法来确定学习剂的行为是否保持在预定约束的范围内……在学习之后……

…我们的结果包括……关于重要的财产类别的证据……如果[安全]财产在学习之前为代理商的计划保留,那么在学习后可以保证它仍然存在。如果代理使用这些“安全”的学习操作员,则可以保证不需要恢复资产即可保留属性。这是在迅速响应时间至关重要的在线情况下可以希望的最好的。对于其他学习运营商和财产类别,我们的先验结果为负。但是,在这些情况下,我们开发了增量的恢复算法,可以节省从头开始的总静止化时间。

就像我引用的最后一句话中,“增量”恢复算法是什么意思?


戴安娜长矛:验证(尤其是模型检查)包括证明计算机程序满足理想的属性/约束,如果不提供反例。在我的工作中,我认为该程序是(多)行动计划。在大多数实际应用中,计划通常是巨大的,因此验证可能很耗时。假设必须始终服从代理A的安全性/约束是“代理A应该始终远离代理B的单位”(以防止碰撞)。假设最初的验证证明了整个计划(由代理A可能采取的所有动作序列组成)可以保证在所有情况下遵守该属性。此外,让我们假设在对代理进行派发后需要进行适应,在该适应器中包括应用机器学习操作员修改计划。例如,假设计划的特定部分指出,代理A应该“如果3和4之间有清晰的路径,则应从位置3移动到位置4,则地面是相当级别的(例如,没有任何地方高于x或低于y。在位置3和4)之间,如果时间表允许此时的运动。”然后,基于有关正在执行的任务的新信息,机器学习操作员可能会将“ 4”更改为“ 6”。

请注意,该学习操作员仅在整个计划的一个微小部分中修改一个条件。因此,为什么在学习后重新验证整个计划仍然满足所需的财产呢?为什么不仅重新验证已修改的计划的特定部分以及依赖于修改部分的计划的任何部分?这就是“增量重新验证”的作用。它本地将适应后验证定位为仅重新验证的计划的那些部分。这样一来,它改善了重新验证的时间复杂性。对于在线系统,时间复杂性是非常重要且实用的考虑因素,尤其是那些在实时或至关重要的情况下运行的系统。金宝博官方在我的研究中金宝博娱乐,我进行了许多实验,比较了CPU在学习后重新验证整个计划与计划的局部增量重新验证的时间。我的结果显示了使用增量重新验证的速度高达1/2亿倍的速度!与代理商在现实世界中通常使用的计划相比,这是一个很小的计划。


卢克: With what kinds of agent programs have you explored this issue? What do the agents do, in what environment, and what kinds of safety properties do you prove about them?


戴安娜:由于该主题“安全适应”与航空航天应用具有很强的相关性,因此我选择着重于NASA相关的(多)代理程序。我描绘了一种场景,其中一个航天器已降落在另一个星球上,例如火星,并从中出现了多个移动流浪者。航天器着陆器以及行星漫游者的计划(程序)用于收集,检索和传输/传输/传递/或从地球表面的样品和/或样品。我证明了“安全”和“ Livices”属性。“安全性”的一个例子是,“始终是代理R在代理L传输的同时交付的情况。”在这里,L是Lander,R是流浪者之一。该属性/约束可以防止登录器同时接收新数据时可能引起的问题,同时将旧数据传输到地球。“ Livices”的一个例子是,“如果代理R执行“交付”诉讼,那么最终代理L将执行“接收”诉讼。”


卢克:自2006年以来,您或其他任何人都建立在这一特定工作之上吗?对于这一特定的研究,有哪些自然的“下一步”是什么?金宝博娱乐


戴安娜:我知道我的研究的三个主要分支 - 来自NASA AMES,SRI和USC。金宝博娱乐我将从NASA Ames分支开始。在2000年,我在NASA Ames发表了关于“ Asimovian自适应代理商”的演讲。我对这项工作与NASA的强烈相关性以及更普遍的航空航天的直觉被证明是正确的。(此外,它似乎与任何自动运输,包括自动化汽车/高速公路。)NASA Ames的研究人员迅速而热切地跟进了我与一系列相关工作(包括研究和出版物)的演讲。金宝博娱乐这些研究人员金宝博娱乐专注于“参考模型”,这些模型用于在线运行时I/O检查。他们没有使用时间逻辑属性来验证,而是使用控制理论属性,例如“稳定”和“性能”。珀金斯和巴托还使用Lyapunov稳定性作为感兴趣的财产1。有关NASA AMES研究和其他相关工作的示例,请参阅NIP金宝博娱乐S’04在“学习系统验证,验证和测试”研讨会中出现的论文。金宝博官方2。Dietterich在NIPS’06就此主题进行了后续演讲3。NASA AMES分支在2006年后继续活跃,这是舒曼2010年的许多撰稿论文的例证4。此外,NASA AMES的Vahram Stepanyan和其他人一直在研究一个名为“综合弹性飞机控制”(IRAC)的项目,其目标是验证多学科的集成飞机控制设计工具和技术,该工具和技术将在尽管出乎意料的不良条件下能够实现安全飞行5

在我的艾姆斯(Ames)谈到后不久,SRI International的John Rushby发起了第二次分支。SRI后续研究继续专注于模型检查的正金宝博娱乐式方法,这是我最初与之合作的。但是最近,这项工作朝着与艾姆斯(Ames)的方向更加相似6。例如,在本文中,Rushby介绍了使用导致在线性能监视器的“安全案例”的想法。甚至最近,在IRAC项目的背景下,SRI的Ashish Tiwari致力于自适应神经网络的有限验证7

Next, consider a third offshoot. This is the research at the University of Southern California (USC) by Milind Tambe and others. These USC researchers built on my specific line of work, but they decided to address the important issue of mixed-initiative situations (also called “adjustable autonomy”), where humans and artificial agents collaborate to achieve a goal. Their multiagent plans are in the form of Partially Observable Markov Decision Processes (POMDPs) and they check safety constraints in this context. The first paper of theirs that I’m aware of on the topic of Asimovian adaptive (multi)agents appeared in 20068。2007年,内森·舒尔(Nathan Schurr)获得了博士学位。关于这个话题9。米林德·坦贝(Milind Tambe)继续教授关于“人工智能和科幻小说”的非常受欢迎的课程,他在其中讨论了他对阿西莫维亚多人的研究。金宝博娱乐

最后,我将提到2006年后的杂项研究,该研究继续以我较早的工作为基础。金宝博娱乐首先,在2006年至2008年期间,我是DARPA综合学习计划的一部分,该计划的重点是空域反应的方法。我的两名研究生Antons Rebguns和Derek Green,以及Geoffrey Levine(伊利诺伊州U)和Ugur Kuter(马里兰州U),将安全限制应用于计划者10。Their work was inspired by my earlier research on Asimovian agents. There are also researchers currently building on the NASA Ames work: an international group11,张和密歇根州立大学的其他研究人员金宝博娱乐12,以及基于张的工作的意大利研金宝博娱乐究人员13。另外,Musliner和Pelican(Honeywell Labs)以及Goldman(Sift,LLC)开始在我的增加的特别是重新验证工作 - 2005年14,显然是平纹网仍在对自适应系统进行验证和验证(V&V)。金宝博官方

现在,我将回答有关此特定研究线的第二个关于自然“下一步”的问题。金宝博娱乐我相信上述所有研究都是令人兴奋的,并表现出了希望。金宝博娱乐但是我要特别强调NASA/SRI方向对未来有可能富有成果。这是基于我在机器学习,正式方法,V&V和AI的个人经历的基础上。我一直发现,出于计算原因,正式的方法和其他基于逻辑的方法很难扩展到复杂的现实世界问题。在整个职业生涯中,我更倾向于用于机器学习的随机方法,并检查V&V的运行时间。因此,我希望航空航天研究人员将继续朝着他们采用的方向发展。金宝博娱乐但是,我也相信他们应该扩大视野。目前有许多用于运行时监视和检查的技术15,,,,or the run-time monitoring and checking of Insup Lee and Oleg Sokolsky16我相信,探索多少可用的监控和检查技术适用于自适应系统的行为保证,这可能是非常有成果的。金宝博官方

但是,最重要的是,有一个主题对于建立可信赖的自适应系统的未来至关重要,需要深入探索。金宝博官方这就是自我恢复/维修的问题。自1998年至1999年以来,我和我的同事一直在群体机器人的背景下解决自我修复1718。我们的研金宝博娱乐究主要集中于基于物理approaches to controlling swarm robotic formations – because physics naturally obeys the “principle of least action,” i.e., if a formation is disturbed then it will automatically perform the minimal actions required to repair the disturbance. This repair is locally optimal but is not necessarily globally optimal. In other words, we have dropped the requirement of global optimality, focusing on “satisficing” behavior instead. Organic and natural physical systems are not perfect, but their lack of perfection often makes them more robust. There are systems where we need precise guarantees of behavior (e.g., the dynamic control of an airplane wing, to ensure that the plane does not stall and crash). But for other tasks, perfection and optimality are not even relevant (e.g., the Internet). We have demonstrated the feasibility of our research both in simulation and on real robots on numerous tasks, including uniform coverage, chain formations, surveillance, the movement of formations through environments with obstacles, and chemical source localization19。希望其他研究人员还将探索基于物理金宝博娱乐的系统。金宝博官方我认为,出色的“安全自适应(多)代理”体系结构将由较低级别的基于物理的控制器组成,并在更高层的层中使用监视器/检查器,以便在需要时提供严格的行为保证。特别是,我们在[[17] would be quite promising.

总而言之,我衷心希望,上述研究能够继续以其已经采取的富有成果的方向进行,我也希望学生和研究人员能够沿着这些界金宝博娱乐限进行其他新颖的研究。在我看来,“安全适应”的话题是“低悬挂的水果”。达帕20其他资金机构也向我表示,他们希望为该主题提供研究的愿望 - 因为如果我们要拥有可以信任的可部署的自适应系统,则必须令人满意地解决。金宝博娱乐金宝博官方


卢克:在您上面概述的工作线中,代码部分中包含哪些类型的AI样功能?例如。经过验证的代码是否包括经典规划算法,现代计划算法,逻辑代理体系结构,甚至在某些情况下是机器学习算法?


戴安娜: The code that gets verified consists of reactive, “anytime” plans, which are plans that get continually executed in response to internal and external environmental conditions. Each agent’s plan is a finite-state automaton (FSA), which consists of states and state-to-state transitions. Each state in the FSA corresponds to a subtask of the overall task (which is represented by the entire FSA). And each transition corresponds to an action taken by the agent. In general, there are multiple transitions exiting each state, corresponding to the choice of action taken by the agent. For example, consider the scenario I described in one of my previous answers in this interview, i.e., that of a planetary lander along with rovers. Two possible states for a planetary lander L might be “TRANSMITTING DATA” and “RECEIVING DATA.” Suppose the lander is in the former state. If it takes the action “PAUSE” then it will stay in its current state, but if it takes the action “TRANSMIT” then after this action has completed the lander will transition to the latter state. Furthermore, the conditions for transitioning from one state to the next depend not only on what action the agent takes, but also on what’s going on in the environment, including what this agent observes the other agents (e.g., the rovers) doing. For this reason, I call the plans “reactive.”

Every FSA has an initial state, but no final state. The philosophy is that the agents are indefinitely reactive to environmental conditions subsequent to task initiation, and their task is continually ongoing. FSAs are internally represented as finite graphs, with vertices (nodes) corresponding to behavioral states and directed edges corresponding to state-to-state transitions.

机器学习(ML)应用于FSA计划,以进行代理初始化和适应。使用传统的概括和专业操作员,使用进化算法(EAS)进行学习。这些操作员添加,删除,移动或修改顶点和边缘以及与边缘相关的操作。For example, suppose the lander’s transition from its “TRANSMITTING DATA” to its “RECEIVING DATA” state depends not only on its own “TRANSMIT” action, but it also requires that rover R1 successfully received the data transmitted by lander L before the lander can make this state-to-state transition in its FSA. This is a very reasonable requirement. Now suppose that R1’s communication apparatus has catastrophically failed. Then L will need to adapt its FSA by modifying the requirement of checking R1’s receipt of the transmission before it can transition to its “RECEIVING DATA” state. One possibility is that it replaces “R1” with “R2” in its FSA. Many other alternative learning operators are of course also possible, depending on the circumstances.

假定机器学习分为两个阶段:离线然后在线。在离线初始化阶段,每个代理都从候选FSA计划的随机初始化群体开始,然后使用进化算法进化。EA的主要循环是从人口中选择父母计划,应用ML操作员生产后代,评估后代的适应性,然后将后代返回到人口,如果他们足够“合适”。在不断发展良好的候选计划之后,该代理商从其人口中选择了“最佳”(根据其健身标准)。然后,如果需要,将对该计划进行验证以及维修。在在线阶段,代理人进行了范围,计划执行与学习(适应环境变化,例如代理硬件故障),重新验证和根据需要进行计划维修。

我的“ Asimovian自适应代理商”论文的重点是,通过知道代理商所做的适应性,即将什么机器学习操作员应用于FSA,我们可以大量简化重新验证过程。


卢克:AI系统金宝博官方在运行中变得越来越自主:自动驾驶汽车,机器人导航灾难网站,,,,hft迅速交易股票的计划以至于Flash崩溃” the market or几乎破产大型股票交易者等

当前的AI安全方法如何(正式验证和恢复,程序合成,单纯形架构,混合系统控制,金宝博官方分层体系结构等等。)扩展以应对未来在未知,连续,动态环境中运行的高度自主系统将提出的安全挑战?金宝博官方您是否认为我们使系统更自动和能力的能力会超过我们对这些系统获得安全保金宝博官方证的能力?


戴安娜:我对您的第一个问题的回答是问题和上下文依赖性的。我知道许多围绕单个算法建立的AI社区,这些社区的研究人员试图将该算法应用于尽可能多的问题。金宝博娱乐我相信这是一种误导研究的方法。金宝博娱乐相反,我一直试图采用问题驱动的方法进行研究。金宝博娱乐科学解决问题的最佳方法是深入研究它,并基于先验问题/任务分析选择最合适的解决方案 - 包括计划者或问题解决方案,要验证的属性/约束,适应方法等。这将需要一套不同的AI安全/验证方法的大型套件选择。我不能预见该套房的性质;它必须根据经验构建。当我们处理更复杂的自主系统时,我们的验证技术曲目将相应地增长。金宝博官方

卢克(Luke),关于自主权是否会超过安全空间的第二个问题。根据您在第一段中列出的应用程序,我看到您的担忧扩展到安全性。实际上,您的安全问题也适用于“物联网”包括电子,互连,可远程接近的自动驾驶设备,例如洗衣机,烤箱和恒温器,这些设备将安装在未来的“智能家居”中。企业通常缺乏安装安全和保障措施的动力,而无需进行激励。例如,领先的软件公司发布其程序的Beta版本,希望公众能够找到并报告错误。这是不可接受的,因为我们过渡到日益强大且潜在的危险自治系统。金宝博官方我认为,主要的激励措施将是政府法规。但是,我们迫不及待地想到灾难出现,然后将这些规定制定到位!相反,我们需要积极主动。

在2008年至2009年,我成为美国人工智能促进协会(AAAI)总统小组研究这些问题。这是一个神话般的小组,它为AI研究人员社区带来了认识。金宝博娱乐然而,现在是时候提高AI研究人员社区的意识了。金宝博娱乐我有一个建议是分配新的或现有成员United States President’s Council of Advisors on Science and Technology研究和评估自治系统安全和安全的任务。金宝博官方该理事会成员应咨询以下人员:

  1. 在开发金宝博娱乐自主系统方面拥有丰富经验的AI研究人员金宝博官方
  2. Engineers from aerospace, transportation, and other applications where safety is paramount
  3. 意识到可能出现的法律问题的律师和立法者
  4. 网络安全专家。

我认为该理事会成员会研究该主题,咨询其他人,举行会议,并通过报告和建议金宝博娱乐结束。此外,我坚信应尽快分配此类任务。我们是已经在一个自主权超过安全和保障的状态下,特别是在运输行业以外的商业部门。


卢克:鉴于“自主权超过了安全性和安全性”,您还为增加未来自治系统可靠良好结果的几率还有什么其他想法?金宝博官方

顺便说一句,我只看过一个“临时”报告从那个AAAI面板。是否应该在某个时候有一份后续报告?


戴安娜: I haven’t heard about any follow-up or final report for the AAAI panel, unfortunately.

一个想法是,根据既定的行业/政府标准,我们应该在产品发布前进行广泛的安全和保障测试。我们可能无法执行100%的合规性,但是像“安全可靠的自主产品”认证之类的东西可以激励消费者偏爱购买经过测试和认证的产品而不是缺乏合规性的其他人。这就像现有的UL产品认证

另一个想法是具有与自主设备相关的监视,安全关闭,自我恢复和自我修复功能。此外,出于安全原因,应将这些机制与自主系统的控制脱钩,并且还应将它们与通信(例如,不连接到互联网)分离,以避免恶意篡改。金宝博官方

我不相信这是可能的,以确保完整的年代afety and security at all times with autonomous systems. As you stated above, the best we can do is to increase “the odds of reliably good outcomes.” Nevertheless, I believe that substantial progress can be made if there is financial, technical, legal and programmatic support in this direction.


卢克:谢谢,戴安娜!


  1. 珀金斯(T.)和巴托(Barto),A。Lyapunov设计用于安全加固学习控制。” AAAI’02的会议记录。
  2. Margineantu,Schumann,Gupta,Drumheller和Fresnedo(联合主席)。关于“Verification, validation, and testing of learning systems.” nips’04。
  3. Dietterich,T。”金宝博娱乐部署自适应系统中的研究问题。金宝博官方” nips’06。
  4. 舒曼,J。神经网络在高保证系统中的应用。金宝博官方” Springer-Verlag,2010年。
  5. Stepanyan,V。等,“”自适应飞行控制的稳定性和性能指标。” AIAA’09.
  6. Rushby,J。”一种用于认证自适应系统的安全案例方法。金宝博官方” AIAA’09.
  7. Tiwari,A。”自适应飞行控制系统的有限验证。金宝博官方” aiaa’10。
  8. Schurr,N。等。“Asimovian Multiagents:对人类和代理商团队的机器人法则。” 2006年。
  9. Schurr,N。”朝向人类的团队。” USC Ph.D. dissertation, 2007.
  10. Levine,G。等。“在知识破裂系统中,学习和验证计划者的安全限制。金宝博官方” Computational Intelligence 28 (3), 2012.
  11. Tamura,G。等。“实现自适应软件系统的实际运行时验证和验证。金宝博官方”自适应系统,LNCS 7475金宝博官方,Springer-Verlag,2013年。
  12. 张等。“动态自适应系统的模块化验证。金宝博官方” AOSD’09.
  13. Sharifloo,A。和Spoletini,P。”LOVER: Light-weight formal verification of adaptive systems at run time.”组件软件的正式方面。计算机科学第7684卷中的讲义,第170-187页,2013年。
  14. Musliner,D。等。“即时控制器合成的增量验证。” Mochart’05。
  15. Rubinfeld,R。检查
  16. Sokolsky,O。按主题选择了最近的出版物
  17. Gordon,D。al。“分布式空间控制,移动物理代理的全球监测和转向。” ICIIS’99。
  18. Spears,W。和Spears,D。(编辑)”物理学:基于物理的群智能。” Springer-Verlag,2012年。
  19. Spears,W。和Spears,D。(编辑)2012。
  20. DARPA赞助的ISAT在2006年在SRI举行的“可信赖的自适应系统”会议。金宝博官方