对克里斯汀诺能力增强方案的挑战

||分析

以下是我在3月16日所写的关于我对Paul Christiano的AGI对齐方法的基本未经编辑的摘要(见“阿尔巴”和“重复蒸馏和放大”)。在Paul有评论和回复的地方,我把它们包括在下面。


我看到很多自由变量都和保罗的想法有关。我有时试图向保罗提出我的反对意见,然后他以一种本地的方式回答我的一些问题,但我认为这会使其他困难更糟。因此,我的总体反对意见是,“我没有看到任何具体的设置和一致的同时设置整个方案的变量。”这些困难并非微不足道或技术性的;在我看来,他们相当严厉。下面我将详细介绍这些细节。

任何时候都应该明白,我不能说我能超越保罗ITT.这是我在批评我自己的观点,潜在的误解,我认为保罗可能主张。

保罗global

总的来说:我认为我的提案所面临的所有合法困难以及在很大程度上我同意Eliezer对这些问题的叙述(虽然不是他对当前信仰的说明)。

我不明白以利以谢到底认为这些问题有多难;我的印象是“就像从头开始解决对齐一样困难”,但我不清楚为什么。

在某种程度上,我们可能对替代方案存在分歧。从我的角度来看,我的方法所遇到的困难(例如更好地理解导致麻烦的优化形式,或者如何避免像您这样聪明的系统中的优化守护进程,或者如何处理x -且仅x -)也是替代对齐方法所面临的问题。金宝博官方我认为这是一个错误的想法瓷砖代理,或决策理论,或归化归纳,或逻辑不确定性,将使情况在质量上更好地解决这些问题,所以在我看来,解决这些问题就像是在拖延关键的困难。我同意代理基金会议程的进展“应该是可能的”这一直觉,我同意它至少会帮助一点但是总的来说,代理基金会似乎比直接攻击问题更没有希望(考虑到我们还没有尝试过直接攻击,以至于没有放弃)。通过上下文中的哲学问题具体的对齐策略通常比试图对我来说似乎更有前途的思考他们的抽象,我认为这是证明的事实最核心的困难在我的方法也会影响研究基于代理的基础。金宝博娱乐

我认为代理基金会的研究有助于解决这些问题,而不是仅仅推迟它们,主要的方式是我们是否计划金宝博娱乐完全避免大规模的ML。在我看来,这是一种非常严重的障碍,所以只有当我对解决这些问题相当悲观时,我才会选择这个方向。我的主观经验是不断取得显著的进步,而不是停滞不前。我同意,有明确的证据表明,这些问题是“困难的”,因为我们必须取得进展才能解决这些问题,但不是,他们是“困难”,P与NP甚至是典型的开放问题在CS可能是困难的(甚至如果你的选择是“证明P ! = NP”或“试图打败谷歌建立AGI通讯社不使用大规模ML,“我不认为这是显而易见的选择应该考虑更有前途)。


首先也是最重要的,我不明白在这种情况下“保持对齐同时放大能力”是如何工作的,以一种与我理解Paul所说的其他事情相一致的方式。

我想首先讨论一个我和Paul都同意的明显的观点:并不是每个局部对齐的系统都有全局对齐的输出,需要一些除了“部分是对齐的”之外的额外假设才能得出“全局行为是对齐的”的结论。金宝博官方吸管断言“对齐部分的集合是对齐的”与之相反论点Searle用来让我们想象一个(不朽的)谁只讲的英语,他们已经训练了有许多实例化的纸张的东西,这不能成为理解中国人的整个系统的一部分金宝博官方,因为系统的各个碎片和步骤并不是本地充满了解中文。金宝博官方在这里,合成的不保留的财产是“缺乏对中文”的;除了进一步的假设之外,我们无法期望“对齐”比这更有必要的保留。

第二至最后一次保罗和我倾向于长度,我一直致力于探索保罗,因为实践中的非压实逐个培训版本的小总结剂看起来像。他描述了人们,生活一天,围绕其他代理商的电话号码,没有任何概念全球图片。我使用了“中国房间官僚机构”一词来描述这一点。保罗似乎认为这是一个有趣,但也许不合适的术语。

如果在中国房间官僚机构中没有一个代理机构对哪些行为会产生哪些后果以及原因有完整的看法,这就切断了一个最明显的路径,即任何代理的一致性可以应用于整体的一致性。我通常想象事物的方式,一个主体的一致性适用于它所理解的事物。如果你有一个大的代理聚合,它能理解小的本地代理不能理解的东西,那么大的聚合就不会继承小代理的对齐。Searle’s Chinese Room可以理解中文,即使里面的人不懂中文,这也相应地意味着,默认情况下,在Chinese Room里面的人没有能力在餐厅点单时表达自己的品味。

我不理解Paul的模型,即一大堆不太聪明的代理如何以一种方式产生强大的理解,而不是有效地由它们运行它们不理解的AGI代码组成。

保罗global

对齐的论点不是“由对齐的神经元制成的系统对齐。”金宝博官方unalignment不是神奇地发生的事情;这是系统中产生麻烦的特定优化压力的结果。金宝博官方我的目标是(a)首先构建没有内部做出问题优化的较弱代理,(b)以改善能力的方式将它们放在一起,而不会做其他有问题的优化,(c)迭代该过程。

Paul之前曾向我提出一个我认为基督教式系统无法通过的瓶颈。金宝博官方这很难,因为(a)我不确定我是否理解Paul的系统,(b)如果我命名一个任务,而我们目前还没有明确的算法,这是最清楚金宝博官方的。但是:

我在与Paul的最后一次讨论中提到的瓶颈是,“我们有一个初始代理的副本,在终止之前最多只能运行一天,这个主体之前没有学过很多数学但是很聪明,可以在一天结束的时候理解代数尽管这个主体一开始只知道具体的算术。一个这样的代理系统,不金宝博官方只是操作一个运行AGI的图灵机,怎么能在神经网络中发明无hessian优化?”

这个例子有点过时,因为没有人再使用Hessian-free优化了。但我想找到一个例子,一个代理需要做一些事情,而不是简单的人类隐喻。我们可以用加速这样的比喻来理解二阶导数。"无黑森优化"是一种没有明显的隐喻来解释它的东西,不足以在工程设计中使用它,对于那些没有数学知识的人来说而不仅仅是对微积分的隐喻性理解。即使有这样一个比喻,不懂微积分的人还是不太可能发明这个比喻。

我看不出保罗是如何期望很多能在一天内学会代数的小代理,按照顺序运行,聚集成可以用无黑森优化来构建设计的东西,没有这些小代理人实际上扮演了一条永生的狗,经过训练可以操作图灵机。所以我也不明白保罗是如何期望这些假定的小代理通过这种神秘的理解聚合形式,进入理解无黑森优化的系统的对齐。金宝博官方

我希望大家已经理解了这一点,但我要说的是一个明显的事实,即对齐通常不是认知系统的一种组合保存属性:金宝博官方如果你训练一群善良有道德的人来操作图灵机,而没有人对发生了什么有全面的认识,他们的善良和道德不会传递给图灵机。即使我们让善和道德人的自由裁量权,当写一个不同的符号比通常的规则要求,他们仍不能有效地调整全球体系,因为他们不单独理解Hessian-free优化是否被用于善或恶,金宝博官方因为他们不理解无黑森优化或包含它的思想。所以我们不希望将系统建立在错误的假设上“任何由对齐子代理组成的系统金宝博官方都是对齐的”,因为这个反例,我们知道这个假设通常是错误的。相反,我们希望有一些更狭窄的假设,也许有额外的前提,这实际上是正确的,系统的校准依赖于此。金宝博官方我不知道保罗想用哪个更狭义的假设。


保罗要求我们考虑一下AlphaGo作为能力放大的模型。

我对AlphaGo的看法是:我们理解蒙特卡罗树搜索。MCTS是一种可迭代的算法,它的中间输出可以插入到算法的进一步迭代中。所以我们可以使用监督学习,我们的梯度下降系统可以捕捉并缩短短MCTS显示的一些但不是所有金宝博官方获胜步法细节的计算,将学习到的输出插入到MCTS中,得到一个伪版本的“运行更长的和更宽的MCTS”,它比一个实际上更宽更深的MCTS更弱,但比之前运行的原始MCTS更强大。该系统的对准是由MCTS末端的清晰的形式损失金宝博官方函数提供的。

这里有一个替代的情况,就我所知,一个幼稚的稻草版本的能力放大显然不会起作用。假设我们有一个玩围棋的RNN。它是这样构建的,如果我们迭代RNN更长的时间,围棋的移动会变得更好。“啊哈,”吸管能力放大器说,“显然,我们可以用这个RNN,训练另一个网络,从初始的Go位置开始,经过100次迭代后,使其接近其内部状态;我们在开始时将这个内部状态输入RNN,然后训练放大网络在再运行200次迭代后接近RNN的内部状态。结果显然会继续尝试“在围棋上赢”,因为最初的RNN试图在围棋上赢;放大后的系统保留了原作的价值金宝博官方。”这行不通,因为,假设RNN不能在围棋上变得更好如果你继续迭代它;能力放大设置的性质不允许任何外部损失函数,可以告诉放大的RNN是否在围棋中做得更好或更差。

保罗global

我绝对同意,放大并不比“让人类任意长时间地思考”更有效。我不认为这是一个强烈的反对,因为我认为人类(即使是只有很短一段时间的人类)最终会为我们面临的问题找到足够好的答案。

RNN只有它收敛的观点,或者它发散的观点,来告诉自己它做得有多好。这就是能力放大的作用来保持对齐;但这反过来意味着,能力放大只能在一定程度上起作用,即我们所放大的东西本身具有在极限下非常聪明的能力。

如果我们能有效地构建一个长寿的保罗·克里斯提诺的文明,那么这个困难就会有所缓解。作为一种文明,这种文明仍然有可能出问题(甚至除了我后来提到的反对意见,即我们是否能够安全而现实地这样做)。然而,我确实相信保罗的文明可以做一些好事。

但保罗故事的其他部分不允许这样,至少这是保罗上次说的;保罗的监督学习设置只允许模拟组件人员操作一天,因为如果每个人都要运行一个月,我们就无法得到足够的标记案例。

此外,据我所知,“现实”版本的任务应该从比保罗还蠢的探员开始。根据我对保罗在回答后来的一个反对意见时所说的话的理解,系统中的代理被认为比普通人还要笨(但是一致的)。金宝博官方我是不明显的,任意大型系统的代理与智商90,每只活一天,可以实现多智能代理的方式类似于内部代理实现理解,他们在全球金宝博官方范围内有效的方法可以应用他们的对齐,而不是盲目地执行一个他们不理解的更大的算法。

我不确定一个智商为90的只有一金宝博官方天生命的人类系统是否能够发明火或轮子。

如果Paul有一种直觉说"当然,他们最终开始做无hessian优化以使他们的理解有效地建立全局对齐;我不知道如何说服你,如果你不知道,“我不太确定从那里去哪里,除了我的其他挑战。”

保罗global

好吧,我可以看到一个很明显的方法来说服你:实际去做实验。但在此之前,我想更精确地说明您期望的工作和不工作,因为我不打算字面上做HF优化的例子(开发新算法远远超出了现有ML的范围)。我认为我们可以做一些看起来(在我看来)比发明高频优化更难的事情。但我不知道我是否有一个足够好的模型来知道你会考虑什么更困难。

当然,除非在(未压缩的)聚合中有如此多的代理,以至于该聚合实现了一个更智能的遗传算法,该算法最大限度地提高了内部代理的批准。如果你拿一个比90智商的人活一天还要聪明得多的东西,训练它让90智商的人输出大量表示赞同的数字,我会默认地期望它能黑进一天90智商的人,因为他们不是安全系统。金宝博官方我们又回到了全球体系,在某种程度上比个体个体更聪明金宝博官方,而不是保持一致。

保罗global

绝对同意,即使代理是一致的,它们也可以实现非一致的优化,然后我们又回到了起点。只有当我们能够提高能力而不进行非对齐优化时,放大才能起作用。我认为这是一个关于认知工作可分解性的分歧。我希望我们能找到具体的,简单的任务来解决这个问题我们有不同的直觉,然后做实证测试。

对我来说能力放大的核心有趣的观点是完全模仿人类,我们可以绕过通常的强化学习的厄运。如果arguendo你可以构建一个完全模仿人类的模型,它具有完全相同的对齐属性;这在某种程度上是正确的,但如果我们让强化型学习者最大化来自人类的认可信号,那就不是正确的。(如果主题是保罗·克里斯蒂安诺或卡尔·舒尔曼,我愿意说这些人是合理的同盟;如果有人把通往宇宙的钥匙交给他们,然后期望着钥匙以后会再交还给他们,我也不会介意。)

对我来说,并不明显的是,随着模仿的准确性被削弱,对齐保存退化的速度有多快。这很重要,因为保罗所说的在我听来他并不是在提倡完美的模仿,这是对我所提出的关于完美模仿是多么昂贵的挑战的回应。也就是说,他对一个关于完美代价的挑战的回答使得"当我们远离完美时,我们失去一致性保证的速度有多快"变得非常重要。

我认为标准强化学习的一个失败的例子就是我所说的“x -and-仅x”问题。不幸的是,我还没有把它写下来,所以我将在这里简要地总结一下。

X-and-only-X就是我所说的问题属性很容易验证和火车是X,但你想要的属性是“这是优化的,只有X和不包含很多微妙的坏y可能很难检测运作系统的最终输出”。金宝博官方

例如,假设X是“给我一个能解魔方的程序”。你可以运行程序,验证它是否解决了魔方,并在其平均性能上使用损失函数,这也考虑到程序的解决方案需要多少步。

Y的特性是,AI给你的程序也调制RAM来发送GSM手机信号。

也就是说:验证“这是一个至少解决了魔方的程序”比验证“这是一个为解决魔方而优化的程序,而且只针对那个而没有针对其他任何方面进行优化”要容易得多。

如果我是要讲想做对齐播洒下标准毫升范例,我谈谈这将创建一个微分易于开发之间“建立一个系统,X”和“构建一个系统,只有X和Y在一些微妙的方式”。金宝博官方如果你只是想要X,不管多么不安全,你可以构建X分类器,并使用它作为一个损失函数,让强化学习与梯度下降或其他通用优化方法的等价,未来使用。如果您想要的安全属性是优化为X- just-X- not-any- possible-numberofhidden - ys,那么您就不能像针对X那样编写一个简单的损失函数。

保罗global

根据我对优化/语言使用的理解:RL产生的agent只针对X进行了优化,而针对X的优化容易产生y优化器。所以代理的动作是x优化和y优化的。

正在构建不太安全的AGI的团队可以插入X-evaluator,然后放手,想要构建安全的AGI的团队不能用简单的方法做事情,必须解决新的基本问题,以获得一个值得信赖的系统。金宝博官方它不是不可解决的,但它是阶级的一个元素,增加了结盟的困难,这样整个阶级都很有可能加起来额外的两年发展。

在保罗的能力放大场景中,如果我们能得到精确的模仿,我们就真正地完全绕过了产生x -且仅是x问题的整个范式。如果你能得到一个人的精确模仿,那么输出就只具有人类已经拥有的任何属性。这种真正不同的观点是为什么我一直对保罗的想法感到兴奋。

保罗global

我同意完美的模仿将是一种绕过x和仅x问题的方法。然而,我不认为这是合理的,这不是我的方法希望绕过x和仅x问题的方式。

我将用两步解决x和仅x:

首先,给定代理和一项针对不良后果而优化的动作,我们希望能够判断该行动具有这种不良副作用。我认为我们可以通过使一个聪明的代理人作为监督者来实现这一目标,并使智慧的代理商合适地洞察较弱的药剂的认知(例如,通过在弱药物和解释产生剂之间分享重量)。这就是我所呼吁的知情监督。

第二,给定一个代理,确定它特别可能产生坏结果的情况,或证明它不会产生坏结果,或对其内部结构有足够的理解,从而明白为什么不会。这在"优化最坏情况性能的技术”。

(这显然还需要一种更聪明的手段,你希望通过诱导+放大得到它)。

我认为这两个都是困难的问题,除了放大的假设是可行的。但我还没有理由对他们中的任何一个超级悲观。

另一方面,假设我们没有完全的模仿。我们多快会失去对x和唯一x的防御?这取决于模仿的不精确性;在什么样的距离度量下,不完全模仿与原始的“接近”?比如,如果我们讨论输出中的欧几里得距离,我估计你很快就会在面对聪明的对抗性扰动时失去x和仅x的保证。

另一方面,假设模仿的不精确性是“这个代理的行为和保罗·克里斯汀诺一样,但智商比他低5分。”如果这只是产生的不精确的形式,而且我们知道这是肯定的,那么我想说,我们有一个相当好的保证,防止有点笨的保罗产生类似于魔方的解算器,内含隐藏的GSM信号。

另一方面,假设模仿的不精确是“该代理商通过图灵测试;人类不能与人类分开。”然后X-and-oisp-x被抛出窗口。我们无法保证任何人类无法检测到的任何人,这涵盖了巨大数量的致命领土,这就是为什么我们不能通过让人类检查产出来消除不受信任的过度智能化的产出看看他们是否有任何人类明显的不良后果。


说到不精确的模仿:在我看来,拥有一个AI输出是一种高保真度对人类行为的模仿,足够高的保真度,以保持“聪明”和“做一个好人”,以及“在一些奇怪的条件下,比如被组装到一个巨大的中国房间官僚机构中,仍然是一个好人”,这是一个相当大的要求。

在我看来,这似乎是显而易见的,尽管这是我对别人认为不明显的事情感到惊讶的那种点,一般来说,准确的模仿比优越的能力更重要。造一个能模仿秀作下围棋的棋手,以至于一个学者都分辨不出两者的区别,这比造一个能在比赛中击败秀作的棋手要困难得多。人类要比袖珍计算器聪明得多,但如果不用纸和笔,人类还是无法模仿计算器;要模仿袖珍计算器,你需要所有的袖珍计算器的能力,除了你自己。

相应地,一个现实的ai我们构建,字面上通过了强大版本的图灵测试可能必须比其他人在测试中更聪明,可能比地球上的任何人更聪明,因为它必须拥有所有的人类能力除了自己的。或者至少所有人类能力,可以在然而,在历史上的过程中可以在另一个人身上展出。(请注意,在我听到的能力放大版本上,可以在一天的过程中展出的能力是我们所允许放大的唯一能力。)

保罗global

完全同意,因此我同意你不能依赖完美模仿来解决X-and-x的问题,因此需要其他解决方案。如果你说服我,无论是知情的监督还是可靠性都是不可能的,那么我将在很大程度上相信我注定了。

一位学会恰好模仿人类,而不仅仅是将图灵测试传递给人类检查人类歧视的限制,但完美的模仿与所有额外的坏细微属性都被排除在外,必须如此认知强大的是,其被学习的假设空间包括系统等同的系统金宝博官方整个人的大脑。我看不到我们没有谈论这里的过度智能化。

所以要假设完美的模仿,我们首先会遇到以下问题:

(a) AGI需要学习这个模仿是这可能意味着一个危险的延迟,当我们可以建立任何危险的AGI之间,当我们可以建立AGIs,将工作校准使用完美模仿能力放大。

(b)因为我们不能在一开始就调用完美模仿能力放大设置来获得这个非常强大的AGI(因为它已经是我们可以用来开始完美模仿能力放大的最小AGI),我们已经有了一个非常危险的非同盟的超级智能,我们正试图利用它来实施我们的同盟计划。

现在,我们或许会回答说,模仿并不完美,可以用更笨、更危险的人工智能来完成;也许甚至愚蠢到没有超级聪明的程度。但是,我们正在调整“模仿的完美性”设置,这可能会迅速打破我们的对齐保证,使我们无法对抗标准机器学习范式的标准厄运。

我担心你必须降级模仿的水平很多在它小于an之前巨大的问,以至于被模仿的东西不是很聪明,不是人类,并且/或不知道是一致的。

具体特定:如果你想模仿IQ-90的人类,那么模仿他们,特别是模仿通常是智能的,即使在被汇总到怪异的官僚主义的限制中也是本地对齐的。在足够强大的AGI中,可以思考整个系统,与IQ-90人类松散地思考。金宝博官方

保罗global

很重要的一点是,我关于放大对齐的观点得到了证实做的有问题的优化。因此,如果我们将其与一个足够好的解决方案结合起来,以实现有信息的监督和可靠性(以及放大和归纳迄今为止的工作……),那么我们就可以继续训练不完美的模仿,这些模仿绝对不会做有问题的优化。它们会到处乱作一团,因此可能无法胜任(这是放大需要处理的另一个问题),但我们的目标是设置好一些内容,这样即使更笨也不会破坏对齐。

我认为这是一个非常强大的AGI。除非您使用的方法,否则我认为这AGI足够聪明,足以防止所有的Shenanigans过去,除非您使用的方法可以从未对准的AGIS产生忠实的模仿。我认为这是一个可以做强大的工程壮举的AGI,除非有人能够模拟现有工程强大的工程壮举,没有自己能够强大的工程壮举。

此外,能力放大图式要求AGI足够强大来学习模仿放大金宝博官方也是人类的系统!

如果您没有降低AI远低于过度智能化程度,我们需要极其强大的法拉德 - 笼式保存 - 忠诚的盒子,典先宗教信仰。所以我们不能例如让不受信任的超智力起源起源可以用于学习人类行为的查询;必须严格无监督的基于示例的学习而不是查询模型。这与关于下面的样本复杂性的担忧互动。

保罗global

我很欣赏你们为了对我作“无罪推定”而不得不在这里对歧义进行反驳的频率。

您需要假定AGI的一些预先对齐,以使您能够健壮而安全地将其导向模拟问题。然后(a)你的对齐模式依赖于一个未指定的先前对齐模式,该模式已经可以让非常强大的agi做一些事情。和(b)你可能不允许无限制的情报爆炸,可能之间引入了一个巨大的不可避免的延迟第一点非常强大的美国国际集团在技术上是可行的,和后来的点,您可以构建和安全地对齐功能极其强大的美国国际集团,你使用你模仿的基本单位。


最后我检查了保罗,他的计划在使用强大的智能危险单位来模仿人类的子弹。保罗的计划绕过这一点,因为当时我听到并理解,那么涉及一个计划:

  • 训练了一百万个具有足够多样性的智能预测者,至少有一个预测者最终会以忠实预测为唯一的简单目标;
  • 将预测因子相互比较,发现它们的预测充分发散的情况;
  • 用现实检验他们;
  • 有足够的采样能力执行足够的测试,即使超智巧妙地延迟时间当它开始试图在糟糕的预测,我们可以暂停系统和运行实验测试和产生新的样品和踢出不忠的预测。金宝博官方

如果我没理解错的话,这是性能损失的一百万倍。

如果这只是一个具体的例子来帮助我理解正在发生的事情,实际上应该有一些明显的不那么天真的更有效的方案来利用大部分不可信的超级智能,没有巨大的性能损失,那么我还没有看到它。

保罗global

有几种可能的技术可以减少这种性能损失,例如,含蓄地表示一个大的集合或使用一个复杂的蒸馏过程。我完全同意,如果你有百万倍的减速,那么你就不走运了。

当我们讨论这个问题时,我同意“培养一个可靠的系统”是一个重要的子问题。金宝博官方训练隐式集成是解决这个问题的一种可能的方法。在我们讨论的时候,我列出了3种技术。从那以后,我对隐性集合训练变得相当悲观,而对核查和透明度变得更加乐观。(我对这个问题的思考通常也更加尖锐。)我认为目前最流行的三种方法是优化最坏情况性能的技术”。

(和往常一样,所有这些都需要放大+归纳。)

(在最初的讨论中,我列出了“大型集合”作为一种可能的方法,以回应您“您如何可能解决这个问题?”的问题,而不是作为必要的成分。)


在一个无监督的学习范式下,我也难以看到如何踢出不忠的预测因子,这实际上并没有实际允许超级截止。

存在的问题:人类的确切输出总是会非常不可能。即使代理商只能发送互相发短信,没有插言(进一步降低了他们在一天内可读的专业智能的集体智能和能力),但短信仍然是一个巨大的可能性空间。如果我们要求高层会员向我们提供他们的预测,他们接下来的确实是什么,他们的预测不可能实际上包括人类所有可能的输出旁边的巨大查找表。

我想我知道如何用超级计算和大量的样本来“解决”这个问题了:我要求超级智能为我提供其巨大的概率查找表,并计算概率表之间的总距离(KL散度或其他),如果距离足够大,我便会对人类进行采样并进行贝叶斯更新。我放弃所有先验概率足够低的超级智能。我一直这么做直到只有一致同意的超级智能存在。

在这个系统下,它就像你金宝博官方需要一个很多这些样本是为了赶走那些试图偷带进来坏建议的超级智能。让我们假设一个未压缩的中文房间官僚机构正在做的事情相当于发送了大约一千亿条信息,而输出可能会被针对十亿条这样的信息的对抗性攻击所破坏\(\ FRAC {1} {1,000,000} \)输出对付对付这些亿条消息中的每个替代的替代的可能性。嗯,SuperIntelligeence可以分配给那些假消息的唯一方法可以分配给那些假消息的概率,是窃取可能输出的所有其他消息的0.0001%的概率质量。So each time we check against a real human, we update by \(\log_{2}\) \(\frac{999,999}{1,000,000}\) bits, and after taking a million samples we’ve driven down the relative odds of this naughty superintelligence by \(\frac{1}{e}\).

我们需要一百万个样本才能做到这一点,而每个样本都需要一个人思考一天。这让我们很为难\(e \):1证据,所以我们必须花费一百万个样品7次以达到1000:1对超人心灵的赔偿。如果我们在分发中拥有一百万的高度,其中一些人可以使倾斜赌注s1a预测唱歌,其中一千人将能够获得1000:1的优势,所以你实际上你需要花费1400万样本可以牢记击败任何糟糕的预测师类,共同尝试该方案。

我记得上次我和保罗谈论这个的时候,保罗说,“当然,我们谈论的是一个庞大的政府项目,它可以采集数百万个样本。”

我不确定,我可能是错的,但我认为每个坏预测器需要1400万样本才能从分布中剔除。

即使我错了,我们需要数以百万计的人他们足够聪明,足够整齐,从他们的数字中随机抽样可以聚集成一个聪明整齐的中国房间官僚机构。

我也没有看到这样做的方法,而无需比较巨型查找表的使用超支算法,但我可能只是缺少数学技巧。

保罗global

我最好的猜测是,这可以通过每个糟糕预测器的O(1)样本的合理假设来完成。这很棘手,但我们擅长棘手的数学问题,所以相对于我们面临的其他问题并不是很可怕。

(不幸的是,我认为一个庞大的隐式集合可能会卡住,部分原因是一百万个预测器是不够的。但我对此没有信心。)

(如果你想甘斯,那么据我所知,鉴别器必须至少像发电机一样聪明,你必须信任鉴别器,和没有任何简单的问题关于你如何找到一个信任的集体内的超智不可信的作为你的鉴频器)。

(编辑:实际上,在考虑了另外五分钟后,也许我确实看到了如何使用gan和更低的示例复杂性来实现它。)

一个更大的问题是我没有看到任何明显的方法来实施这样的计划在所有关于不完全的模仿。(上面我想到的GANs方案也会失败。)

保罗global

我想我们也可以克服这个,这是另一个棘手的数学问题。我认为这种问题要么是不可能的,要么是不可能的从根本上比我们一起处理的其他事情都要简单。

(虽然我赞同大隐式融合注定的整体直觉。)


我认为这些争论是一个关键。也就是说,除非我在快速写下这篇文章的过程中错过了自己的一个思维过程,或者假设了一个实际上并不共享的背景假设。

假设D是某些能力放大系统允许的不完善程度,并将D称为不完善模仿D模仿。金宝博官方d模仿的放大系统的重复d模仿将被称为d模仿。金宝博官方如果我相信以下几点,我就会开始对我所理解的能力放大感兴趣:

  • 我们可以在世界其他未对准的AIS结束之前,让AIS足够强大,以学习D-IMITATION和DD-IMITATIONS;
  • 尽管模仿的不完美,D-Imitations和DD-Imitations强烈保留了被模仿的人民的善良;
  • 模仿聚集到足够的认知能力,以一种方式执行关键的行为,导致对齐的组件是有效的对齐整体;不完全DD-imitation保留了这个性质;
  • 我们可以找到任何一种方式:
    • 个人信任一个强大的AI忠实地执行D-imitation任务(但为什么我们不能在一开始就使用这个方案来对齐一个强大的AGI ?)
    • 找到一种方案来凝聚大部分不可信的强大智能:
      • 不需要巨大的查询表,不需要GAN和可信的鉴别器,除非你知道如何产生可信的鉴别器,并且可以使用真实的人类样本作为燃料来区分不可信的生成器之间的可信度的D-imitations
      • 是极其效率的(让我们说你可以清除100人值得信赖的人成为一个放大能力系统的一部分,这对我来说已经听起来像是一个巨大的诅咒);金宝博官方可以表现出我一个社会模式聚集大多不可信的人到中国房间官僚主义,我们相信执行关键任务,和一个你信任的政治模式,做事情涉及数以百万计的人,在这种情况下,你可以把数以百万计的样品而不是数十亿美元。老实说,我现在不相信人工智能的场景,即良好和值得信赖的政府实施复杂的人工智能校准模式,涉及数百万人,所以如果你沿着这条路走下去,我们最终会遇到不同的难题;但如果你能把其他问题都说出来,我会很惊讶的。
      • 不是过于计算的;更像是20-1减速超过1,000,000-1。因为我不认为你可以在世界其他地方的其他AGI项目中获得后一度的优势。除非您正在提出不摧毁人类未来的大规模全球完善监视计划,除了过度主管,超强信赖的大国,否则与国际大众值深入承诺 - 非常不同于目前大国的观察到的特征,并未备p由任何其他主要政府。再次,如果我们下降这个挑战的分支,那么我们不再处于原始症状。

我担心挑战的最后两个分支可能会造成政治分歧的假象,而在之前的分支中,我似乎有强烈的技术异议。我希望先考虑技术上的问题。如果保罗回答了所有其他的技术难题,并提出了一个与一个适度乌托邦世界的政府合作的能力放大方案,我早就感到惊讶了。我不会真的去尝试因为你不可能得到一个温和的乌托邦世界的政府,但是保罗会赢得很多分数我也会有兴趣去进一步完善这个方案因为它已经比我想象的更完善了。在我现在看来,这样的事情应该就是没有开始(如果你等来满足极端的计算需求和抽样力量在继续之前),只是普通的失败(如果你使用弱AIs试图模仿人类),或仅仅是杀了你(如果你使用一个超智)。

保罗global

我认为分歧几乎完全是技术上的。我认为,如果我们真的需要100万员工,这不会成为交易的障碍,但那是因为技术上的分歧,而不是政治上的分歧(关于这些人需要做什么)。我同意100万倍的减速是不可接受的(我认为即使是10倍的减速也几乎是注定的)。

我重申,这些反对意见似乎对我来说为了统称到“这根本不是一种方法,除非你已经有一个对齐的超级化,否则你可以得到一个对齐的强大的AGI”,而不是“在实践中工作需要一些进一步的见解”。但谁知道进一步的见解可能会带来什么?思想空间的运动包括更好的理解,而不是巧妙的工具。

我继续为保罗对这个问题的思考而兴奋;我只是觉得在目前的情况下行不通。

保罗global

在这一点上,我们同意。我认为没有人会声称已经解决了对齐问题,主要的问题是什么方向最有希望取得进展。

在我看来,这不是一个不寻常的心态,在对齐研究方面。金宝博娱乐我不能指出任何MIRI论文可以对齐一个AGI。其他人似乎认为他们目前应该有一个非常可行的方案来对齐AGI,我认为这是一个奇怪的期望。我认为理智的观点应该是解决一些问题,这些问题会产生更多需要解决的困难,而不是解决大多数其他问题;一幅你认为是未解决的大区域的地图。能够有一个思想真正直接攻击任何对齐困难尽管有其他困难,但在我看来,这已经是一个巨大而不寻常的成就了。“对人类外部行为的可靠模仿将避免许多默认的厄运,因为它们表现在不同于人类行为的外部行为中”这一见解可能在某些时候被证明是至关重要的。我继续建议尽可能多地向保罗投钱,因为他说他可以使用,我希望他说他知道如何使用更多的钱。

你喜欢这个帖子吗?你可以享受我们的另一个分析的帖子,包括: