劳伦·奥索(Laurent Orseau)《人工通用智能》

||对话

Laurent Orseau.是副教授(管家德会议),于2007年起Agroparistech.,巴黎,法国。2003年,他毕业于计算机科学专业硕士国家应用科学研究所在雷恩和人工智能中的研究大师金宝博娱乐雷恩大学.他获得了他博士学位在2007年。他的目标是建立一个实际理论人工一般智能。和他的合著者马克·林,他们被授予所罗门诺夫AGI理论奖在Agi'2011和Kurzweil奖获得最好的主意在美国国际集团2012年。

卢克·穆罕沃斯在过去的几年里,你写了一些有趣的论文,通常是和马克戒指,使用AIXI类模型来分析不同类型的高级理论agent的一些有趣的特征。例如在戒指&orseau(2011)您认为,某些类型的高级代理商将通过直接控制其输入刺激的奖励,如科学家们向他们的奖励电路直接控制输入刺激(Olds&Milner 1954)。与此同时,您展示至少有一种代理商,“基于知识的”代理,不是线头。你能试图向我们提供直观的意识,为什么有些代理人会有幂息,而基于知识的代理人则不会?


Laurent Orseau.:你从一个非常有趣的问题开始!

这是因为寻求知识有一个基本的独特属性:与奖励相反,知识不能通过操纵环境来伪造。主体本身不能在环境中引入新知识,因为它已经知道要引入什么,所以这不是新知识。相反,奖励很容易被伪造。

我不是100%肯定,但在我看来,知识寻求可能是具有这种非伪造性财产的唯一的非琐碎实用程序。在强化学习,有一个称为探索/剥削困境的全能问题:代理必须兼而有之开发它的环境知识来收集奖励,还有探索它的学习环境是否有比它已知的更好的回报。这通常意味着代理不能收集到更多的奖励作为它想要

但对于知识寻求而言,agent的目标是探索,即探索开发。因此,上述困境崩溃只做探索,这是对这种困境的唯一有意义的统一解决方案(仅限剥削的解决方案导致到非常低的奖励,或者只有在代理已经了解其环境中,就像动态编程一样)。在更哲学的话语中,这统一认知理性和工具理性

请注意,代理商介绍Orseau&Ring(2011),并更好地发展Orseau(2011)在给出收敛证据的情况下,实际上只适用于确定性环境。它的问题是它可以将噪声视为信息,并沉迷于它,即,它可能永远盯着棘手的电视屏幕。人们可以将这一点视为“自我妄想”。

幸运的是,有托拉蒂摩尔马库斯休假,我们正在完成一篇论文alt 2013.我们考虑了所有可计算的随机环境。这个新主体没有2011年主体的缺陷行为,我认为它甚至在确定性环境下也会有更好的行为。例如,它不会在同一信息来源上花太长时间,在最终回到原始来源之前可能会时不时地返回去探索环境的其他部分;也就是说,它不是一个偏执狂。

答:如果您(错误地)了解寻求学习预测所有可能的期货,那么一种自我妄想可能是可能的:代理人可能只是跳入陷阱,所有观察都会相同它的行为,因此它将融合到最佳预测。但我们表明,寻求知识代理人不会对这些行动提供价值。


路加福音:在其他在论文中,你和Mark Ring解决了AI中一个长期存在的问题:无所不在的代理-环境框架的天真笛卡尔二元论。你能解释一下为什么主体-环境框架是笛卡尔式的,以及你在那两篇论文中做了什么工作吗?


机器人agent环境模型劳伦: 在里面传统的代理框架,我们认为该代理相互作用通过在每个互动周期发送环境,在每个互动周期中都会考虑到生成观察的动作,代理可以依次考虑到开始下一个交互周期并输出新动作。此框架在实践中非常有用,因为它避免了现实生活的许多并发症。那些并发症正是我们想要解决的问题。因为在某些时候,你需要将头部拉出沙子并开始处理复杂但重要的问题。但肯定很多人,特别是与机器人一起使用的人,非常意识到现实世界不是二元框架。因此,从某种意义上说,这是一个很明显的事情,特别是因为它似乎没有人在这个角度之前完成了它,至少是我们的知识。

传统的框架是二元论者在这个意义上,它认为主体的“心智”(主体选择其行动的过程)位于环境之外。但我们都知道,如果我们在计算机上编写一个智能代理程序,这个程序和过程不会在世界之外,它们将成为世界的一部分,更重要的是,计算通过它。这让我们定义了时空嵌入式智能框架和等式。

简而言之,这个想法是考虑(现实)的环境,以及一些计算机或机器人的一定长度的内存块在这种环境下.那么根据预期未来历史上的一些实用的度量,这个内存块上的位的最佳初始配置是什么?

有些人担心这太笼统了(特别是如果你只考虑环境中的一些比特块,而不一定是在计算机上),我们会失去代理的本质,即处理输入和输出。但是他们忘了)这个系统框架还允许定义石头(简单地忽略了输入金宝博官方和输出恒定值)和b)这就是真实的世界是:如果美国国际集团也能自我复制和分裂本身在很多地区在许多计算机、机器人和机器,我们怎样才能真正确定该代理作为一个系统性的实体?

还有一些人担心这个框架在实践中如何使用,而且它太难以处理。我们的目标不是定义一个框架,其中定理证明简单,算法编写简单,而是为AGI定义一个更接近真实世界的框架。如果后者很难处理,那就顺其自然吧。但不要怪框架,要怪现实世界。不管怎样,我们相信这个框架还有很多有趣的事情要做。我相信,它至少对帮助人们不要忘记现实世界不同于通常教科书上的简化仍然有用。这对于应用机器学习和狭窄的AI研究可能不是很相关,但我相信这对AGI研究非常重要。金宝博娱乐

但是,让我直截了当:即使在传统框架中,代理人仍然可以预测它可能是“杀死”(在某种意义上),例如如果铁砧落在它身上.这是可能的,如果身体的代理,不包括大脑但包括传感器和效应器,被认为是环境的一部分:代理可以预测,砧将摧毁他们,它将无法得到任何信息和奖励和执行任何操作环境。每当我们把我们的头骨(或者更确切地说,机器人的头骨)和大脑联系起来总是无可抗拒,不衰老,不受药物,酒精和外部事件,如热,加速和磁波,我们可以非常安全地使用传统框架。

但是如果去掉其中一个假设,那么智能体的计算方式可能会与它所假设的不同,从而导致不同的行动选择方案。至于人工代理,篡改源代码甚至比人脑更容易。未来的agi可能会面临大量的破解和修改尝试,代理本身和它的设计者应该很清楚,源代码和内存并不是在一个安全的二元论空间中。在“智能代理的内存问题“纸张,我们考虑了提供环境读写互动历史记忆的可能性的各种后果。代理人似乎难以了解一般的这种修改。我们一定不要忘记的是人们发生的事情,也可能发生机器人,例如,它可能会发生。碰撞后。并且通过混淆的安全性只能延迟内存黑客,即使在考虑一个天然的大脑时.另一个有趣的结果是确定性政策不能始终是最佳的,相反,与最佳和确定性相反AIXI在二元框架中。


路加福音你认为AIXI框架,包括有限但易于处理的近似,如MC-AIXI,为现实世界提供合理的路径美国国际集团?如果不是,您认为它在AGI研究中的作用是什么?金宝博娱乐


劳伦:近似AIXI可以在很多方面完成。主要想法是建立/找到好的和简单的模型环境,并对这些模型执行一些计划;也就是说,它是一种基于模型的方法(相对于Q-Learning.例如,这是无模型的:它确实模拟环境,但只学会预测每个行动/状态的预期奖励)。这是一个很常见的方法在强化学习中,因为有些人可能会认为无模型方法是“盲目的”,从某种意义上说,他们不了解他们的环境,他们只是“知道”要做什么。AIXI的另一个重要组成部分是交互历史(而不是基于状态的观察),近似可能需要适当地处理压缩这个历史,可能会有损失。Hutter正在这方面工作特征RL.,结果很好。所以是的,近似艾西可以被视为对现实世界的一种非常合理的方式。

找到计算效率高的近似值并不是一件容易的事情,而且它很可能需要一些巧妙的想法来使其可行,但这无疑是一条值得研究的道路。金宝博娱乐然而,就我个人而言,我更倾向于认为代理人必须学习如何对其环境进行建模,这比基于模型的方法更深入。

即使没有考虑AIXI近似,AIXI仍然是非常重要的AGI研究,因为它统一了所有重要的认知属性,如代理(与环境的互动),知识表示和记忆,理解,推理,目标,问题解决,计划金宝博娱乐和行动选择,抽象,泛化而没有过度装箱,多个假设,创造力,探索和好奇心,优化和效用最大化,预测,不确定性,与增量在线,终身,持续的学习在任意复杂的环境中,如果没有重启状态,则不需要I.I.D.或者平稳性的假设等等,并且用一个非常简单的,优雅严谨的态度.我相信,如果一个人不明白哪个巡回赛,艾西是什么,一个人不能认真地希望解决AGI问题。人们倾向于认为简单的想法很容易找到,因为它们很容易读或口头解释。但他们倾向于忘记易于阅读并不意味着易于格鲁克,当然不容易找到!最简单的想法是最好的想法,特别是在研究中。金宝博娱乐


路加福音:您将艾西西有关的工作作为一个相当丰富的子场,与许多有趣的研究追求与普遍代理商有关。金宝博娱乐您认为还有其他相关的AGI相关的探究线,作为与AIXI相关的工作有前途或有效的疑问吗?例如Schmidhuber的哥特机器, 这SOAR建筑, 等等。?


劳伦关于认知架构我不能说太多。看起来很难判断这样的设计是否能在几十年内正确地自动工作。这是一个有趣的工作,有很好的想法,但我看不出当考虑长期AGI时,我对这样的设计有什么样的信心。这就是为什么我更喜欢简单和一般的方法,用一些收敛证明或另一个重要性质的证明形式化,这可以让您相信您的设计可以在未来的几天内继续工作。

关于Gödel机器(GM),我确实认为它是一个非常好的设计,但我有两个遗憾。第一,它目前还不够形式化,所以很难说明它是否以及如何工作。第二个原因是因为它依赖于自动化定理验证.寻找证明是极其复杂的:做一个与莱文搜索(LS),其中给定一个目标输出字符串(GM中的改进),您枚举程序(GM中的命题)并运行它们,以查看它们是否输出目标字符串(搜索GM中改进的证明)。这最后一部分就是问题所在:在LS中,程序运行得很快,而在GM中,每个命题都有一个额外的搜索步骤,所以看起来是这样的非常大致就像从指数(LS)到双指数(GM)。LS已经不实用了。

当您需要证明系统有所改善时,定理证明是更复杂的金宝博官方在未知的未来步骤.也许它会更好,如果证明的类型被限制在某些类,例如使用模拟未来的步骤到某个地平线给定一个模型的世界。这些类型的证明更容易检查,并且有一个保证的终止,例如,如果环境的模型类是基于Schmidhuber的之前的速度.但这一开始看起来很像艾西西的近似,不是吗?

一般来说,加强学习非常有前途的AGI:尽管这个领域的大多数研究人员对AGI没有直接感兴趣,但他们仍然试图找到最多金宝博娱乐一般可能的方法,同时保持实际.这在RL中比在机器学习的其他部分中明显得多。

但我认为有很多研究可以被推向某种AGI水平。金宝博娱乐在机器学习中,有些领域像遗传规划归纳逻辑编程语法归纳我们加粗,为什么不是经常性的深神经网络(可能还带有某种额外的短期记忆机制),以及其他研究领域,都是基于一些强大的归纳机制,如果这些领域的研究人员愿意,这些机制很可能会催生出会思考的机器。金宝博娱乐Schmidhuber的哎呀基于Levin Search,也是一个非常有趣的设计。它有限的是,它无法真正达到学习到学习的级别,而是可以通过在程序上具有真正的概率分布来扩展,如上所述Solomonoff..当然也有神经科学的方法来尝试理解或者至少大脑模型


卢克:谢谢,劳伦!