图灵奖得主杨立昆：GPT模式五年就不会有人用了，世界模型才是AGI未来（1）

AI科技大本营 | 2023-06-20 20:53:18 阅读：372

本文经授权转自公众号腾讯科技（ID:qqtech）

2023年6月9日的北京智源大会上开幕式上，机器学习三巨头之一杨立昆（Yann Lecun）进行了远程致辞，发表了名为《朝向能学习，思考和计划的机器进发》（ Towards Machines that can Learn, Reason, and Plan）的演讲。

作为一个从ChatGPT诞生之日起就对它嘲讽连连，认为它没有什么新意。在今天的讲座中，身处凌晨4点巴黎的杨立昆依然斗志满溢，在演讲中拿出了他反击GPT的逻辑：自回归模型根本不行，因为它们没有规划，推理的能力。单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉，错误的问题。在输入文本增大的时候，错误的几率也会成指数增加。

目前流行的AutoGPT，LOT之类看起来可以拆解任务，分步解释复杂问题的语言拓展模型让大语言模型看起来有了规划能力。对此杨立昆也反唇相讥，认为那不过是它们在借助搜索和其他工具来让自己看起来可以做到规划和推理而已，完全不是靠自身对世界的理解。

性能惊人，但使用范围狭窄。完全不如人类智能，而且存在着无法解决的Bug。这就是杨立昆对当前人工智能的判断。

那想要通向AGI，人工智能的下一步在哪里呢？

杨立昆给出的答案是世界模型。一个不光是在神经水平上模仿人脑的模型，而是在认知模块上也完全贴合人脑分区的世界模型。它与大语言模型最大的差别在于可以有规划和预测能力（世界模型），成本核算能力（成本模块）。

通过世界模型，它可以真正的理解这个世界，并预测和规划未来。通过成本核算模块，结合一个简单的需求（一定按照最节约行动成本的逻辑去规划未来），它就可以杜绝一切潜在的毒害和不可靠性。

但这个未来如何实现？世界模型如何学习？杨立昆只给了一些规划性的想法，比如还是采用自监督模型去训练，比如一定要建立多层级的思维模式。他也承认之前并没有深度学习的训练做到了这些，也没人知道怎么做。

来自清华大学的朱军教授看着这个模型估计是有点发懵，这个架构太像传统人工智能的那种符号学派的理想模型了。在问答环节还问了一句有没有考虑符号学派和深度学习结合的可能。

这个曾经挑战明斯克符号主义统治十几年，在无人认可之时仍坚持机器学习之路的杨立昆的回答很简单：“符号逻辑不可微，两个系统不兼容”。

以下为腾讯新闻编辑整理的杨立昆报告核心发言及与朱军教授全部QA的实录：

机器学习的缺陷

我要说的第一件事是：与人类和动物相比，机器学习不是特别好。几十年来，我们一直在使用监督式学习，这需要太多的标签。强化学习效果不错，但需要大量的训练来学习任何东西。当然，近年来，我们一直在使用大量的自我监督学习。但结果是，这些系统在某个地方不太专精，而且很脆弱，它们会犯愚蠢的错误，它们不会真正地推理，也不会计划。当然它们的反应确实非常快。而当我们与动物和人类进行比较时，动物和人类可以极其迅速地做新的任务，并理解世界是如何运作的，可以推理和计划，他们有某种程度的常识，而机器仍然没有。而这是在人工智能的早期就发现的问题。

这部分是由于目前的机器学习系统在输入和输出之间基本上有恒定数量的计算步骤。这就是为什么它们真的不能像人类和一些动物那样推理和计划。那么，我们如何让机器理解世界是如何运作的，并像动物和人类那样预测其行为的后果，可以进行无限步数的推理链，或者可以通过将其分解为子任务序列来计划复杂的任务？

这就是我想问的问题。但在说这个问题之前，我先谈一下自我监督学习，以及在过去几年里它确实已经占领了机器学习的世界。这一点已经被倡导了相当长的时间，有七八年了，而且真的发生了，我们今天看到的机器学习的很多结果和成功都是由于自监督学习，特别是在自然语言处理和文本理解和生成方面。

那么，什么是自监督学习？自监督学习是捕获输入中的依赖关系的想法。因此，我们不是要把输入映射到输出。我们只是被提供了一个输入。在最常见的范式中，我们盖住一部分输入，并将其提供给机器学习系统，然后我们揭示输入的其余部分，然后训练系统来捕捉我们看到的部分和我们尚未看到的部分之间的依赖关系。有时是通过预测缺失的部分来完成，有时不完全是预测。

而这一点在几分钟内就能解释清楚。

这就是自我监督学习的理念。它被称为自我监督，因为我们基本上使用监督学习方法，但我们将它们应用于输入本身，而不是与人类提供的单独输出相匹配。因此，我在这里展示的例子是一个视频预测，你向一个系统展示一小段视频，然后你训练它来预测视频中接下来会发生什么。但这不仅仅是预测未来。它可能是预测中间的那种数据。这种类型的方法在自然语言处理方面取得了惊人的成功，我们最近在大型语言模型中看到的所有成功都是这个想法的一个版本。

好的，所以我说，这种自我监督的学习技术包括输入一段文本，删除该文本中的一些单词，然后训练一个非常大的神经网络来预测缺失的那个单词。在这样做的过程中，神经网络学会了一个良好的内部表征，可用于随后的一些监督任务，如翻译或文本分类或类似的东西。因此它已经取得了令人难以置信的成功。同样成功的是生成式人工智能系统，用于生成图像、视频或文本。在文本的情况下，这些系统是自回归的。们使用自我监督学习的训练方式不是预测随机缺失的单词，而是只预测最后一个单词。因此，你拿出一个词的序列，遮住最后一个词，然后训练系统预测最后一个词。

它们不一定是词，而是子词单位。一旦系统在大量的数据上进行了训练，你就可以使用所谓的自回归预测，这包括预测下一个标记，然后将该标记转移到输入端，然后再预测下一个标记，然后将其转移到输入，然后重复这个过程。因此，这就是自回归LLMs，这就是我们在过去几个月或几年中看到的流行模型所做的。其中一些来自我在Meta的同事，在FAIR、BlenderBot、Galactica和Lama，这是开源的。斯坦福大学的Alpaca，是在Lama基础上的改进。Lambda，谷歌的Bard，DeepMind的Chinchilla，当然还有OpenAI的Chet、JVT和JVT4。如果你在类似一万亿文本或两万亿文本上训练它们，这些系统的性能是惊人的。

但最终，他们会犯非常愚蠢的错误。他们会犯事实错误、逻辑错误、不一致的问题。他们的推理能力有限，会使用毒化的内容，他们对潜在的现实没有知识，因为他们纯粹是在文本上训练的，这意味着人类知识的很大一部分是他们完全无法接触到的。而且他们无法真正规划他们的答案。关于这一点有很多研究。然而，这些系统对于写作辅助工具以及生成代码，帮助程序员编写代码，效果都惊人的好。

所以你可以要求他们用各种语言写代码，而且效果很好。它会给你一个很不错的起点。你可以要求他们生成文本，他们同样可以阐释或说明故事，但这使得该系统作为信息检索系统或作为搜索引擎或如果你只是想要事实性的信息，并不是那么好。因此，它们对于写作帮助、初稿的生成、统计数字方面是很有帮助的，特别是如果你不是你所写语言的母语者。考虑到最近发生的事儿，他们不适合制作事实性和一致性的答案，因此他们必须为此进行再训练。而他们在训练集中可能会有相关的内容，这就保证了他们会有正确的行为。

然后还有一些问题，如推理、计划、做算术和诸如此类的事情（他们都不擅长），为此他们会使用一些工具，如搜索引擎计算器数据库查询。因此，这是目前一个非常热门的研究课题，即如何从本质上让这些系统调用工具（来完成他们不擅长的事情），这就是所谓的扩展语言模型。而我和我在FAIR的一些同事共同撰写了一篇关于这个话题的评论文章，关于正在提出的各种扩展语言模型的技术：我们很容易被它们的流畅性所迷惑，以为它们很聪明，但它们其实并不那么聪明。他们在检索记忆方面非常出色，大约是这样。但同样，他们对世界如何运作没有任何了解。自回归模型还有一种重大缺陷。如果我们想象所有可能的答案的集合：所以输入词组的序列，是一棵树，在这里用一个圆圈表示。但它实际上是一棵包含所有可能的输入序列的树。在这棵巨大的树中，有一个小的子树，对应着对所给提示的正确答案。如果我们设想有一个平均概率e，即任何产生的标记都会把我们带到正确答案的集合之外，而产生的错误是独立的。那么xn的答案正确的概率是1-e的n次方。

这意味着有一个指数级发散的过程会把我们带出正确答案的序列树。而这是由于自回归预测过程造成的。除了让e尽可能的小之外，没有办法解决这个问题。因此，我们必须重新设计系统，使其不会这样做。而事实上，其他人已经指出了其中一些系统的局限性。因此，我与我的同事吉格多-布朗宁共同写了一篇论文，这实际上是一篇哲学论文，他是一位哲学家，这篇论文是关于只使用语言训练人工智能系统的局限性。

事实上，这些系统没有物理世界的经验，这使得它们（的能力）非常有限。有一些论文，或者是由认知科学家撰写的，比如左边这个来自麻省理工学院小组的论文，基本上说与我们在人类和动物身上观察到的相比，系统拥有的智能是非常有限的。还有一些来自传统人工智能的研究者的论文，他们没有什么机器学习的背景。他们试图分析这些机器学习系统的规划能力，并基本上得出结论，这些系统不能真正规划和推理，至少不是以人们在传统人工智能所理解的那种方式搜索和规划。那么，人类和动物是如何能够如此迅速地学习的呢？我们看到的是，婴儿在出生后的头几个月里学习了大量的关于世界如何运作的背景知识。他们学习非常基本的概念，如物体的永久性，世界是三维的这一事实，有生命和无生命物体之间的区别，稳定性的概念，自然类别的学习。以及学习非常基本的东西，如重力，当一个物体没有得到支撑，它就会掉下来。根据我的同事埃马纽埃尔-杜普绘制的图表，婴儿大约在九个月大的时候就学会了这个。

因此，如果你给一个五个月大的婴儿看，这里左下方的场景，一辆小车在平台上，你把小车从平台上推下来，它似乎漂浮在空中，五个月大的婴儿不会感到惊讶。但是10个月大的婴儿会非常惊讶，像底部的小女孩一样看着这一幕，因为在此期间，他们已经知道物体不应该停留在空中。他们应该在重力作用下坠落。因此，这些基本概念是在生命的头几个月学到的，我认为我们应该用机器来复制这种能力，通过观察世界的发展或体验世界来学习世界如何运作。那么，为什么任何青少年都可以在20个小时的练习中学会开车，而我们仍然至少在没有大量的工程和地图以及激光雷达和各种传感器的情况下，不会有完全可靠的5级自动驾驶。所以很明显，自回归系统缺少一些很重要的东西。为什么我们有流畅的系统，可以通过法律考试或医学考试，但我们却没有可以清理餐桌和装满洗碗机的家用机器人，对吗？这是任何10岁的孩子都可以在几分钟内学会的事情，而我们仍然没有机器可以近似的做这些事。因此，我们显然缺少一些极其重要的东西。在我们目前拥有的人工智能系统中，我们远远没有达到人类水平的智能。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。