新闻  |   论坛  |   博客  |   在线研讨会
图灵奖得主杨立昆:GPT模式五年就不会有人用了,世界模型才是AGI未来(2)
AI科技大本营 | 2023-06-20 20:54:00    阅读:146   发布文章

机器学习的未来挑战


那么,我们要如何做到这一点呢?事实上,我已经有点确定了未来几年人工智能的三大挑战:

学习世界表征及预测的模型。最好是使用自我监督学习。

学习推理:这与心理学的想法相对应,例如丹尼尔-卡汉曼的想法,即系统2与系统1。因此,系统1是对应于潜意识计算的人类行动或行为,是你不假思索做的事情。然后系统2是你有意识地做的事情,你使用你的全部思维能力。而自回归模型基本上只做系统1,根本就不太聪明。

最后一件事是通过将复杂的任务分解成简单的任务,分层地推进和规划复杂的行动序列。

图片

然后,大约一年前,我写了一篇愿景论文,我把它放在公开评论中,请你们看看。这基本上是我对我认为人工智能研究在未来10年应该走向的建议。它是围绕着这样一个想法,我们可以把各种模块组织到所谓的认知架构中,在这个系统中的核心是世界模型。

世界模型:通往AGI之路

世界模型是系统可以用来基本上想象一个场景的东西,想象将会发生什么,也许是其行为的后果。因此,整个系统的目的是根据它自己的预测,使用它的文字模型,找出一连串的行动,以最小化一系列的成本。成本你可以认为是衡量这个代理人的不适程度的标准。顺便说一下,这些模块中的许多在大脑中都有相应的子系统。成本模块是我们(大脑里)的世界模型——前额叶皮层,短期记忆对应着海马体;行为者可能是前运动区;感知系统是大脑的后部,所有传感器的感知分析都在这里进行。

图片这个系统的运作方式是通过它可能被储存在记忆中的以前对世界的想法,去处理当前世界的状态。然后你用世界模型来预测如果世界接着运转继会发生什么,或者它作为代理将采取的行动的后果是什么。这是在这个黄色的行动模块里面。行动模块提出一连串的行动。世界模型模拟世界并计算出这些行动的后果会发生什么。然后计算出一个成本。然后将要发生的是,系统将优化行动序列,以便使世界模型最小化。

所以我应该说的是,每当你看到一个箭头朝向一个方向时,你也有梯度在向后移动。所以我假设所有这些模块都是可分的,我们可以通过反向传播梯度来推断行动序列,从而使成本最小化。这不是关于参数的最小化——这将是关于行动的最小化。这是对潜在变量的最小化。而这是在推理时进行的。

因此,有两种真正的方式来使用该系统。它类似于系统1,我在这里称之为模式1,基本上它是反应性的。系统观察世界的状态,通过感知编码器来运行它,生成一个世界状态的概念,然后直接通过策略网络来运行它,而行为者只是直接产生一个行动。

模式2是你观察世界并提取世界状态的表征为0。然后,系统想象出从a[0]到一个很长T(时间)的一系列行动。这些预测的状态被送入一个成本函数,而系统的整个目的基本上是找出行动的序列,根据预测使成本最小。因此,这里的世界模型在每个时间步骤中重复应用,本质上是从时间T的世界表征中预测出时间T+1的世界状态,并想象出一个拟议的行动。这个想法非常类似于优化控制领域的人们所说的模型预测优化。在深度学习的背景下,有许多使用这个想法来规划轨迹工作的模型被提出来过。

图片这里的问题是我们到底如何学习这个世界模型?如果你跳过这个问题,我们期望做的是一些更复杂的版本,我们有一个分层系统,通过一连串的编码器,提取世界状态的更多和更抽象的表示,并使用不同层次预测器的世界模型,在不同的扰动水平预测世界的状态,并在不同的时间尺度上进行预测。在这里的较高层次是指举例来说,如果我想从纽约去北京,我需要做的第一件事就是去机场,然后搭飞机去北京。因此,这将是计划的一种高层次的表示。最终的成本函数可以代表我与北京的距离,比如说。然后,第一个行动将是:去机场,我的状态将是,我在机场吗?然后第二个行动将是,搭飞机去北京。我怎么去机场呢?从,比方说,我在纽约的办公室。我需要做的第一件事是,到街上去拦一辆出租车,并告诉他去机场。我如何走到街上去?我需要从椅子上站起来,我去出口处,打开门,走到街上,等等。然后你可以这样想象,把这个任务一直分解到毫秒级,按毫秒级控制,你需要做的就是完成这个规模。

因此,所有复杂的任务都是以这种方式分层完成的,这是一个大问题,我们今天不知道如何用机器学习来解决。所以,我在这里展示的这个架构,还没有人建立它。没有人证明你可以使它发挥作用。所以我认为这是一个很大的挑战,分层规划。

成本函数可以由两组成本模块组成,并将由系统调制以决定在任何时候完成什么任务。所以在成本中有两个子模块。有些是那种内在的成本,是硬性规定的、不可改变的。你可以想象,那些成本函数将实施安全护栏,以确保系统行为正常,不危险,无毒等等。这是这些架构的一个巨大优势,即你可以在推理的时候把成本进行优化。

图片


你可以保证那些标准,那些目标将被强制执行,并将被系统的输出所满足。这与自回归LLM非常不同,后者基本上没有办法确保其输出是好的、无毒的和安全的。


图片

杨立昆 X 朱军 QA 环节


朱军:

你好,LeCun教授。很高兴再次见到你。那么我将主持问答环节。首先再次感谢你这么早起来做了这个富含思想的研讨会报告,并提供了这么多见解。考虑到时间的限制,我选择了几个问题来问你。

正如你在演讲中讨论到生成型模型有很多问题,大多数我都同意你的看法,但是关于这些生成式模型的基本原则方面,我还是有一个问题要问你。生成模型就其定义来说,就是会输出多种的选择。另外,当我们应用生成模型的多样性时,创造性是一个理想的属性。所以我们经常乐见用模型来输出多样化的结果。这是否意味着实际上像事实错误或不合逻辑的错误,不一致的地方,对于这样的模型来说是不可避免的?因为在很多情况下,即使你有数据,数据也可能包含了矛盾的事实。你也提到了预测的不确定性。所以这是我的第一个问题。那么你对此有什么想法?

杨立昆:

没错。所以我不认为自回归预测模型、生成模型的问题是可以通过保留自回归生成来解决的。我认为这些系统本质上是不可控的。因此,我认为它们必须被我提出的那种架构所取代,即在推理中包含时间,有一个系统去最优化成本和某些标准。这是使它们可控、可引导、可计划的唯一方法,即系统将能够计划出它们的答案。你知道当你在做一个像我刚才那样的演讲时,你会计划演讲的过程,对吗?你从一个点讲到另一个点,你解释每个点。当你设计演讲时,你在脑子里会计划这些,而并不是(像大语言模型一样)一个字接一个字地即兴演讲。也许在较低的(行为)水平上,你是即兴创作,但在较高的(行为)水平上,你是在计划。所以,计划的必要性真的很明显。而人类和许多动物有能力进行规划的事实,我认为这是智力的一个内在属性。所以我的预测是,在相对较短的几年内--当然是在5年内--没有脑子正常的人会接着用自回归LLM。这些系统将很快被抛弃。因为它们是无法被修复的。

朱军:

好的。我想另一个关于控制的问题:在你的设计和框架中,一个关键部分是内在成本模块,对吗?所以它的设计基本上是为了决定代理人行为的性质。看了你的工作文件中的开放性观点后,我和网上的一个评论有共同的担忧。这个评论说,主要是这个模块没有按照规定工作。也许代理最后[屏幕冻结]了。

杨立昆:

保证系统安全的成本模块不会是一个微不足道的任务,但我认为这将是一个相当明确的任务。它需要大量仔细的工程和微调,其中一些成本可能要通过训练获得,而非仅仅通过设计。这与强化学习中的策略评估(Actor-Crtic结构中的Ctric,对作为语言模型的行为者产出的结果进行评估)或LLM背景下的所谓奖励模型是非常相同的,是一个会整体考量系统的内部状态到成本全程的事情。你可以训练一个神经网络来预测成本,你可以通过让它接触大量的——让它产生大量的输出,然后让某人或某物对这些输出进行评价来训练它。这给了你一个成本函数的目标。你可以对它进行训练,让它计算出一个小的成本,然后在得到成本之后通过它进行反向传播,以保证这个成本函数得到满足。所以,我认为设计成本这事儿,我认为我们将不得不从设计架构和设计LLM的成本转向设计成本函数。因为这些成本函数将推动系统的性质和行为。与我的一些对未来比较悲观同事相反,我认为设计与人类的价值观相一致的成本(函数)是非常可行的。这不是说如果你做错一次,就会出现人工智能系统逃脱控制和接管世界的情况。而且我们在部署这些东西之前,会有很多方法把它们设计得很好。

朱军:

我同意这一点。那么另一个与此相关的技术问题是,我注意到你通过分层的JEPA设计来模型,这其中几乎所有的模块都是可微的,对吗?也许你可以用反向传播的方法来训练。但是你知道还有另外一个领域,比如说符号逻辑,它代表着不可微的部分,也许在内在成本模块中能以某种形式制定我们喜欢的约束条件,那么,你是否有一些特别的考虑来连接这两个领域,或者干脆就忽略符号逻辑的领域?

杨立昆:

对。所以我认为是的,现实中是有一个神经+符号架构的子领域,试图将可训练的神经网络与符号操作或类似的东西结合在一起。我对这些方法非常怀疑,因为事实上符号操作是不可微的。所以它基本上与深度学习和基于梯度的学习不兼容,当然也与我所描述的那种基于梯度的推理不兼容。所以我认为我们应该尽一切努力在任何地方使用可微分的模块,包括成本函数。现在可能有一定数量的情况下,我们可以实现的成本(函数)是不可微的。对于这一点,执行推理的优化程序可能必须使用组合型的优化,而不是基于梯度的优化。但我认为这应该是最后的手段,因为零阶无梯度优化比基于梯度的优化要少很多。因此,如果你能对你的成本函数进行可微调的近似,你应该尽可能地使用它。在某种程度上,我们已经这样做了。当我们训练一个分类器时,我们想要最小化的成本函数并不完全准确。但这是不可微分的,所以我们使用的是一个可微分的成本代理。是系统输出的成本熵与所需的输出分布,或像e平方或铰链损失的东西。这些基本上都是不可微分的二进制法则的上界,我们对它不能轻易优化。因此还是用老办法,我们必须使用成本函数,它是我们实际想要最小化的成本的可微调近似值。

朱军:

我的下一个问题是,我的灵感来自于我们的下一位演讲者Tegmark教授,他将在你之后做一个现场演讲。实际上我们听说你将参加一场关于AGI的现状和未来的辩论。由于我们大多数人可能无法参加,你能否分享一些关键点给我们一些启发?我们想听到一些关于这方面的见解。

杨立昆:

好的,这将是一场有四位参与者的辩论。辩论将围绕一个问题展开,即人工智能系统是否会对人类造成生存风险。因此,马克斯和约书亚本吉奥将站在 "是的,强大的人工智能系统有可能对人类构成生存风险 "的一方。然后站在 "不"的一方的将是我和来自圣菲研究所的梅兰妮-米切尔。而我们的论点不会是AI没有风险。我们的论点是,这些风险虽然存在,但通过仔细的工程设计,很容易减轻或抑制。我对此的论点是,你知道在今天问人们,我们是否能保证超级智能系统对人类而言是安全,这是个无法回答的问题。因为我们没有对超级智能系统的设计。因此,在你有基本的设计之前,你不能使一件东西安全。这就像你在1930年问航空工程师,你能使涡轮喷气机安全和可靠吗?而工程师会说,"什么是涡轮喷气机?" 因为涡轮喷气机在1930年还没有被发明出来。所以我们有点处于同样的情况。声称我们不能使这些系统安全,因为我们还没有发明它们,这有点为时过早。一旦我们发明了它们--也许它们会与我提出的蓝图相似,那么就值得讨论。"我们如何使它们安全?",在我看来,这将是通过设计那些使推理时间最小化的目标。这就是使系统安全的方法。显然,如果你想象未来的超级智能人工智能系统将是自回归的LLM,那么我们当然应该害怕,因为这些系统是不可控制的。他们可能会逃脱我们的控制,胡言乱语。但我所描述的那种类型的系统,我认为是可以做到安全的。而且我非常肯定它们会。这将需要仔细的工程设计。这并不容易,就像在过去七十年里,使涡轮喷气机变得可靠并不容易一样。涡轮喷气机现在令人难以置信的可靠。你可以用双引擎飞机跨越大洋,而且基本上具有这难以置信的安全性。因此,这需要谨慎的工程。而且这真的很困难。我们大多数人都不知道涡轮喷气机是如何设计成安全的。因此,想象一下这事情这并不疯狂。弄清楚如何使一个超级智能的人工智能系统安全,也是很难想象的。

朱军:

好的。谢谢你的洞察和回答。同样作为工程师,我也再次感谢你。非常感谢。

杨立昆:

非常感谢你。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客