万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现(3)

AI科技大本营 | 2023-04-18 21:02:56 阅读：510

AGI初现曙光

人类对智能化的追求可谓孜孜不倦，自远古时期对智能化的想象，比如三国演义中诸葛亮的木牛流马，到每一次人工智能蓬勃发展时期，都会对通用人工智能进行想象和期待。但直至去年年底ChatGPT出现之前，所有的人工智能产品都局限于某一特定领域。比如：

用于实体抽取的系统，无法用于对话。
用于问答的系统可以在SQuAD2.0获得高分，但在没有进行微调等重新训练模型的情况下，在命名实体识别或翻译的评测中就表现得很差劲。
AlphaZero在围棋上打遍天下无敌手，但没法用来做其他事情，比如人脸识别或者事件分析等。
AlphaFold2能够解决蛋白质折叠这种专业大学教授都难以搞定的超级难的问题，但面对幼儿园小朋友也能很好地解决的“12+23”等算术问题则显得无能为力。
有一些试图以通用智能助手形式提供的人工智能产品则经常被戏称为“人工智障”。

当我们细数过去种种人工智能产品的优势和不足的时候，就容易看出 ChatGPT 所展现出来的“超能力”。图18是ChatGPT超能力的一个实例展示，不仅能够流畅地进行对话，还能够在这个过程中完成多项自然语言处理任务，包括基于提示的情感分析、编写代码、翻译、报告撰写和摘要等。更进一步的，论文《ChatGPT: The End of Online Exam Integrity？》认为，ChatGPT能够展现批判性思维能力，并以最少的输入生成高度逼真的文本，潜在威胁了在线考试的诚信。其本质是：ChatGPT展现出了超强的能力，这个能力在前面提过的ChatGP能够通过沃顿商学院的工商管理硕士课程也展现过。这种“超能力”恰如人类的大脑一样，能在许多领域进行推理，并以接近或超越人类的水平完成多项认知任务。这正是人们所说的通用人工智能（Artificial General Intelligence，AGI）。图18 ChatGPT多才多艺的超能力实例支撑起ChatGPT 超能力的，正是自然语言处理技术奋进五载的大综合。从技术角度，就是在无监督大规模预训练语言模型的基础上，使用标注语料进行有监督的训练。在此基础之上，通过训练一个奖励预测模型，以及使用近端策略优化来训练强化学习策略。并在面向用户的应用中使用了人类反馈强化学习技术来实现对话理解和文本生成。图19展示了ChatGPT所使用的方法，可以看出，ChatGPT 涵盖了机器学习的三大范式——有监督学习、无监督学习和强化学习。这也许和人类大脑的行为类似：

无监督学习——婴儿期人类大脑，遗传和3岁以下认知世界的模式；
有监督学习——从幼儿园开始不断学习各类技能和知识；
强化学习——从现实环境的反馈中学习。

图19 训练ChatGPT的过程示意图[14]正是这些技术的总和所展现出的强大能力，ChatGPT 为通用人工智能带来了曙光。许多业内大佬也纷纷为此站台，比如：

微软联合创始人比尔·盖茨在2023年1月11日的Reddit AMA（Ask Me Anything）的问答帖中对一些热门科技概念发表了看法，他表示自己不太看好Web3和元宇宙，但认为人工智能是“革命性”的，对OpenAI的ChatGPT印象深刻[15]。微软也准备再向OpenAI投资100亿美元，并表示旗下全部产品都接入ChatGPT以提供智能服务。
此前力推元宇宙的Meta的态度也有所改变，扎克伯格在2022年度报告投资者电话会议上表示“我们的目标是成为生成式人工智能的领导者（Our Goal is to be Leader in Generative AI）”[16]。面对投资者对元宇宙是否被抛弃的疑问，扎克伯格的回答是“今天专注于人工智能，长期则是元宇宙（AI today and over the longer term the metaverse）”（想想经济学家凯恩斯那句名言“长期来看，我们都死了”吧）。
Google创始人回归并全力支持类似 ChatGPT产品的开发，同时向Anthropic投资3亿美元。Anthropic由OpenAI的多名资深研究人员创立，其产品与OpenAI的类似，如Claude（ChatGPT）和（GPT-3）。
许多学者认为，通用人工智能到来的时间会加速，也许，2035年就是一个通用人工智能的“奇点”时刻。

也许有人认为夸大其词或危言耸听。毕竟，ChatGPT也仅仅展现了语言方面的能力，对其他诸如视觉、语音等完全不涉及。而即使在语言方面，ChatGPT表现弱智的地方也很多，图20就是一个例子（这个问题流传最广的回答是：贾母）,深度学习的代表性人物Yann LeCun也激烈批评大语言模型的问题“人们严厉批评大语言模型是因为它的胡说八道，ChatGPT 做了（与语言大模型）同样的事（People crucified it because it could generate nonsense.ChatGPT does the same thing.）”。事实上，这个表现有点像幼儿园的小朋友的“童言无忌”，而这不也正是“智能”的表现么？而解决这个问题有现成的人工智能方法——知识图谱[6]等符号人工智能方法和基于知识的人工智能方法。这些方法在这几年也发展迅速。一旦ChatGPT拥有一个知识图谱来支撑“常识”，其下限将极大地提升[17]，“童言无忌”变得成熟，那么语言领域的通用人工智能可谓来临。图20 ChatGPT关于“贾宝玉娶老婆”的例子进一步的，跳出自然语言处理，从更广泛的人工智能视角来看，这几年的进展也非常大。比如通过文本提示生成视频的扩散模型（Diffusion Model，DM），在图像生成上提升了视觉保真度，同样引发了视觉领域的爆火出圈；语音合成方面，VALL-E模型支持通过语音提示，合成符合输入语音音色和情绪的逼真声音。特别地，这些不同领域的人工智能，包括视觉、图像处理、语音识别、语音合成、知识图谱、时间序列分析等等，也全部都在采用变换器网络来实现[18]。这使得ChatGPT或类似系统加入语音、视觉等变得容易，进而构建出跨模态的，多才多艺的通用人工智能。

结语

可以想象，未来五年到十年，融合语言、视觉和语音等多模态的超大模型将极大地增强推理和生成的能力，同时通过超大规模知识图谱和知识计算引擎融入人类的先验知识，极大提升人工智能推理决策的准确性。这样的人工智能系统既能够像人一样适应现实世界的不同模态的绝大多数任务，完成任务的水平甚至超越绝大多数的普通人，又可以在各种富有想象力和创造性的任务上有效地辅助人类。这样的系统正是人们想象和期待了数千年的智能系统，而这也会被称为真正的通用人工智能。进一步，随着人形机器人、模拟人类的外皮肤合成技术等等各类技术的发展，这些技术互相融合，科学幻想中的超人工智能的来临也将成为现实。而在通用人工智能如灿烂阳光洒满每一个角落时，蓦然回顾，会发现AGI的第一道曙光是2022年底的ChatGPT。正所谓“虎越雄关，NLP奋发五载；兔临春境，AGI初现曙光。”

参考文献

[1] ChatGPT将代替搜索引擎？谷歌内部发红色警报. 澎湃新闻. https://www.thepaper.cn/newsDetail_forward_21282873[2] How ChatGPT Suddenly Became Google’s Code Red, Prompting Return Of Page And Brin. Forbes. https://www.forbes.com/sites/davidphelan/2023/01/23/how-chatgpt-suddenly-became-googles-code-red-prompting-return-of-page-and-brin/. 2023.[3] With Bing and ChatGPT, Google is about to face competition in search for the first time in 20 years. Insider. https://www.businessinsider.com/bing-chatgpt-google-faces-first-real-competition-in-20-years-2023-1[4] ChatGPT sets record for fastest-growing user base - analyst note。Reuters. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/. 2023.[5] Joseph Weizenbaum. ELIZA--A Computer Program for the Study of Natural Language Communication Between Man and Machine.[J]// Communications of the ACM. Vol9. P36–45.[6] 王文广. 知识图谱：认知智能理论与实战[M] //电子工业出版社, 2022[7] Ashish Vaswani, Noam Shazeer, Niki Parmar et al. Attention is all you need.[C] //In advances in neural information processing systems. 2017. P5998-6008[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.[C] // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P4171–4186.[9] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving language understanding with unsupervised learning. //OpenAI Technical Report. 2018.[10] Yu Sun, Shuohuan Wang, Shikun Feng et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2107.02137. 2021.[11] Tom Brown, Benjamin Mann, Nick Ryder et al. Language Models are Few-Shot Learners.[C] // In Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020. P1877—1901[12] ChatGPT passes MBA exam given by a Wharton professor. NBC News. https://www.nbcnews.com/tech/tech-news/chatgpt-passes-mba-exam-wharton-professor-rcna67036. 2023.[13] Tiffany Kung, Morgan Cheatham, ChatGPT et al. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models. doi:10.1101/2022.12.19.22283643. 2022.[14] ChatGPT: Optimizing Language Models for Dialogue. OpenAI. https://openai.com/blog/chatgpt/. 2022[15] 比尔·盖茨看好 AI，而非 Web3 和元宇宙. 新浪网. http://vr.sina.com.cn/news/hot/2023-01-13/doc-imxzzfmr4911664.shtml. 2023[16] Meta Platforms (NASDAQ: META) CEO Mark Zuckerberg: “Our Goal is to be Leader in Generative AI”. Wall Street Reporter. https://www.wallstreetreporter.com/2023/02/02/meta-platforms-nasdaq-meta-q4-2022-earnings-call/. 2023.[17] Wolfram|Alpha as the Way to Bring Computational Knowledge Superpowers to ChatGPT. StephenWolfram. https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/. 2023.[18] 学习ChatGPT和扩散模型Diffusion的基础架构Transformer，看完这些论文就够了.走向未来. https://mp.weixin.qq.com/s/3bOFfODR7rpnyzrpocHlfQ. 2023.

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。