新闻  |   论坛  |   博客  |   在线研讨会
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现(2)
AI科技大本营 | 2023-04-18 21:02:06    阅读:359   发布文章

图片NLP奋发五载

由于变换器网络的出现,大语言模型的兴起,以及多种机器学习范式的融合,近五年自然语言处理有了极大的发展。从现在来看,这个起点当属2018年ELMo、GPT和BERT的出现。特别是,BERT通过巨量语料所学习出来的大规模预训练模型,不仅学会了上下文信息,还学会了语法、语义和语用等,乃至很好地学会部分领域知识。BERT在预训练模型之上,针对特定任务进行微调训练,在十多个自然语言处理任务的评测中遥遥领先,并在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人成绩,两个衡量指标上都首次并全面超越人类。由于BERT的惊人表现,自然语言处理由此开启了新时代,在此后的五年中奋发进取,不断增强语言理解与生成的能力,最终出现了去年年底爆火出圈的ChatGPT,并引发了通用人工智能即将到来的激烈探讨。下面从三个维度来介绍自然语言处理的奋进五年——大模型的突飞猛进,算法的融会贯通,以及应用的百花齐放。

大模型的突飞猛进

图10展示了自2018年至今具有一定影响力的大模型,其中横轴是模型发布时间(论文发表时间或模型发布时间的较早者),纵轴是模型参数的数量(单位是百万,坐标轴是底为10的对数坐标轴),名字为黑色字体的是国外机构发布的大模型,红色字体的是国内机构发布的大模型。从图10可以看到,这五年,预训练大语言模型的参数规模从1亿到1万亿的“野蛮”增长,增长速度几乎是每年翻10倍。这个每年翻10倍的模型增长规律,被称为“智能时代的摩尔定律”。深入分析大模型的情况,总结有两方面内容:图片图10 自然语言大模型的奋进五载

  • 机构方面,Google和Deepmind发布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型,模型的参数规模从1亿增长到1万亿;OpenAI和微软则发布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型,模型的参数规模从1亿增长到5000亿;百度发布了文心(ERNIE)系列,包括 ERNIE,ERNIE2.0,ERNIE3.0,ERNIE 3.0-Titan,参数规模从3亿增长到2600亿。总体来说,随着模型的增长,有能力训练和发布大模型的在减少。除了上面提到的几家之外,其他的还有芯片大厂Nvidia靠充足的算力,大力出奇迹,国内的智源研究院和鹏程实验室等机构也发布了悟道、盘古等大模型,表现不俗。
  • 大模型成本高昂,时间成本和经济成本都巨大。以模型参数为1750亿的GPT-3为例,用于训练模型的原始语料文本超过100TB(压缩包为45TB),包含了网页、书籍、英文维基百科等。原始语料文本经过处理后,形成了超过5000亿个词元(西方语言的词,中文的字等)的训练语料。GPT-3模型的训练和评估采用的算力是微软和OpenAI一起打造的超级计算集群,集群有28.5万核CPU,1万个V100 GPU,以及400Gbps的网络带宽。建造这个超级计算集群的费用超过20亿元。如果租用微软或其他云厂商的集群来训练GPT-3,训练一次GPT-3需要耗费估计从280万到540万美元不等(价格因不同云厂商而有所不同)。因训练花费不菲,在 GPT-3的论文《Language Models are Few-Shot Learners》中提到“发现了bug但由于训练费用问题而没有重新训练模型(Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.)”[11]。

算法的融会贯通

自然语言处理在这五年的高速发展,除了模型越来越大,训练语料越来越多之外,核心还是多种不同类型的人工智能技术的高速发展,以及在自然语言处理领域将对这些技术的融会贯通。这些人工智能技术包括但不限于语言模型、对话系统(Conversational AI)、思维链(Chain of Thoughts)、强化学习(Reinforcement Learning)和人类反馈强化学习 (Reinforcement Learning from Human Feedback,RLHF)、情境学习(In-context learning)、无监督学习(Unsupervised Learning)等等。除此之外,算力的增长、大数据处理技术的发展也提供了必不可少的支撑。

语言模型

这里简要介绍三类代表性的语言模型,分别为BERT所使用的掩码语言模型、GPT系列所使用的自回归语言模型以及ERNIE系列所使用的引入了知识图谱等专家知识的语言模型。掩码语言模型(Masked language model,MLM)是一种双向语言模型[6][8],模拟了人类对语言的认知的双向语言模型。一个例子是,人们快速读阅时,些许的字文错误并不会影响理解,这是由于人们会自动补全。掩码语言模型正是模拟了这一特点,比如对于“一枝红杏出墙来”这句话,将其一部分掩盖住后,原句变为“一枝红⬛出墙来”,如何判断“⬛”掩盖的部分?人们能够自然地意识到“⬛”掩盖的是“杏”。而掩码语言模型则是为了让模型能够像人一样“猜出”被掩盖的部分。BERT通过变换器网络的编码器来实现掩码语言模型。同时,如图11所示,BERT使用了多任务学习方法来从大规模语料中训练出模型,并在具体任务中进行微调(Fine-Tuning)。图片图11 BERT的预训练和具体任务的微调示意图[8]与BERT不一样的是,GPT系列则通过变换器网络的****实现了自回归语言模型(Autoregressive language model)[9],采用多任务训练的方法训练模型,模型如图12所示。自回归在时间序列分析中非常常见,比如ARMA,GARCH等都是典型的自回归模型。在语言模型中,自回归模型每次都是根据给定的上下文从一组词元中预测下一个词元,并且限定了一个方向(通常是正向,即在一个句子中从前往后依次猜下一个字/词)。同样以“一枝红杏出墙来”为例,自回归语言模型中,给定“一枝红”的上下文来预测下一个 “杏”字,紧接着给定“一枝红杏”来预测下一个“出”字,然后是根据给定的“一枝红杏出”来预测“墙”字,如此循环,直到完成整个序列的预测并输出。有多种不同的方案来选择模型预测的输出标记序列,例如贪婪解码、集束搜索(Beam Search)、Top-K采样、核采样(Nucleus Sampling)、温度采样(Temperature Sampling)等。除了 GPT 系列之外,Transformer-XL、XLNet等大模型也采用了自回归语言模型。图片图12 GPT模型架构及多任务训练示意图[9]ERNIE在采用了 BERT 类似的模型架构之上,加入了知识图谱[6],使得模型能够用先验知识来更好地理解语义,其架构如图13所示[10]。还是以“一枝红杏出墙来”为例,ERNIE能够更好地理解“红杏”,并知道它是一种“植物”。也因此,相比于BERT和GPT,ERNIE能够在更小的模型下获得相对更好的效果。尤其值得一提的是,这点在中文场景中更加明显。图片图13 ERNIE模型架构及嵌入知识图谱的示意图[10]

情境学习

情境学习(In-context Learning)是随着GPT-3而流行起来。在GPT-3中,通过给出仅仅几个示例就能够很好地完成许多自然语言处理任务的方法,被称为情境学习。图14是一个直观的例子,使用了ChatGPT的情境学习来实现情感分析任务。直观地说,情境学习就是给模型一些包含任务输入和输出的提示,并在提示的末尾附加一个用于预测的输入,模型根据提示和预测输入来预测任务的结果并输出。也因此,情境学习有时候也被称为基于提示的学习(Prompt-based learning)。图片图14 情境学习实例,使用了ChatGPT从图15可以看出,情境学习的预测结果在大模型的情况下效果表现得非常好,但在小模型的情况下表现糟糕。简单地说,大模型使得情境学习变得有用。这是由于情境学习依赖于语言模型所学习到的概念语义和隐含的贝叶斯推理,而这依赖于大规模预训练模型对潜在概念的学习,从文档级语料学习了长距离依赖并保持长距离的连贯性、思维链和复杂推理等等。也因此,情境学习在大模型之前罕见,可谓连实验室的玩具都谈不上。而在大模型的支撑下,在许多自然语言处理任务的基准测试(如LAMBADA文本理解测试集和TriviaQA问答测试集)中,情境学习相比其他模型也非常具有竞争力。图片图15 情境学习效果曲线[11]从应用来看,情境学习最为津津乐道的两个特点是:

  • 情境学习能够有效地使模型即时适应输入分布与训练分布有显著差异的新任务,这相当于在推理期间通过“学习”范例来实现对特定任务的学习,进而允许用户通过新的用例快速构建模型,而不需要为每个任务进行微调训练。
  • 构建于大语言模型之上的情境学习通常只需要很少的提示示例即可正常工作,这对于非自然语言处理和人工智能领域的专家来说非常直观且有用。

这两个特点使得人们能够使用一个模型来实现不同的任务,为类似ChatGPT这样的准AGI提供了技术基础。也正因此,人工智能领域念叨多年的通用人工智能终于露出了一丝曙光。

人类反馈强化学习

人类反馈强化学习是一种人工智能模型在进行预测(推断)的过程中通过人的反馈来实现模型学习,使得模型输出与人类的意图和偏好保持一致,并在连续的反馈循环中持续优化,进而产生更好的结果。事实上,人工智能发展过程中,模型训练阶段一直都有人的交互,这也被称为人在圈内(Human-in-the-loop, HITL),但预测阶段则更多的是无人参与,即人在圈外(Human-out-of-the-loop, HOOTL)。在这五年的奋进中,通过人类反馈强化学习使得自然语言处理在推断阶段能够从人的反馈中学习。这在自然语言处理领域是一个新创举,可谓人与模型手拉手,共建美好新AI。从技术上看,人类反馈强化学习是强化学习的一种,适用于那些难以定义明确的用于优化模型损失函数,但却容易判断模型预测效果好坏的场景,即评估行为比生成行为更容易。在强化学习的思想中,智能体(Agent)通过与它所处环境的交互中进行学习,常见在各类游戏AI中。比如,鼎鼎大名的 AlphaGo,在2017年乌镇互联网大会上打败了围棋世界冠军柯洁,其核心技术就是强化学习。人类反馈强化学习并非从自然语言处理开始的,比如2017年OpenAI和DeepMind合作探索人类反馈强化学习系统与真实世界是否能够有效地交互,实验的场景是Atari游戏、模拟机器人运动等。这些成果随后被OpenAI和DeepMind应用到大语言模型上,通过人类反馈来优化语言模型,进而使得模型的输出与预期目标趋于一致,比如InstructionGPT、FLAN等。这些成果表明,加入人类反馈强化学习使得生成文本的质量明显优于未使用人类反馈强化学习的基线,同时能更好地泛化到新领域。图16是人类反馈强化学习的框架图,奖励预测器是学习出来的,这点与传统强化学习有所不同。在传统强化学习中,奖励函数是人工设定的。在InstructionGPT中,强化学习算法使用了近端策略优化(Proximal Policy Optimization,PPO)来优化GPT-3生成摘要的策略。图片图16 人类反馈强化学习框架图应用的百花齐放

近年来,所有自然语言处理的任务都有了长足进步,效果飙升,许多任务都超越了人类专家的水平。在斯坦福问答数据集2.0(SQuAD2.0)评测中,最新的模型EM 分数和F1分数分别为90.939和93.214,相比人类专家86.831和89.452高了4.73%和4.21%。在斯坦福对话问答CoQA数据集的评测中,最佳模型的分数达到90.7,相比人类专家的分数88.8,高出了2%。在机器翻译中,自2017年至今,WMT2014英译德评测集的 BLEU分数从26增长到35以上,德译英则从23增长到35以上。在其他诸如文本分类、文档分类、对话生成、数据到文本(Data-to-Text)、看图说话(Visual Storytelling)、视觉问答、情感分析、实体抽取、关系抽取、事件抽取、自动摘要、OCR等等任务中的效果增长都非常显著。在这五年中,行业应用也愈加广泛。金融、医疗、司法、制造、营销、媒体等各行各业都是使用自然语言处理技术提升效率,降低风险。基于自然语言处理最新技术的综合性平台智能文档处理系统(Intelligence Document Process System,IDPS)开始流行,比如图17所示的达观数据IDPS。中国信息通信研究院(信通院)等机构组织了标准编制和评测,万千企业开始使用智能文档处理系统进行文档智能比对、关键要素抽取、银行流水识别、风险审核、文档写作等,实现了诸多脑力劳动的智能化。图片图17 达观智能文档处理系统同时,依托自然语言处理进行实体、关系、事件等知识的抽取,构建出领域专业知识图谱,并以语义检索、智能问答、归因分析、知识推理等为各行提供了丰富的应用,比如赋能智能制造的故障排查,金融行业的智能投研和智能投顾,政府和企业的舆情分析,营销和售后的智能客服和智能运营,媒体的资讯分类、自动摘要和事实校验等。随着近五年自然语言处理技术的发展,许多原来无法完善服务的场景也有了切实可见的应用,影响着三百六十行的亿万工作者。由OpenAI的Codex大语言模型提供支撑的GitHub CoPilot为数千万的程序员提供效率工具。最新的ChatGPT参与沃顿商学院的工商管理硕士课程的期末考试并获得了B档成绩,展现出了非凡的能力[12]。同样的场景出现在许多大学中,比如北密歇根大学有学生使用 ChatGPT写课程论文获得了全班最高分。更有甚者,ChatGPT已经成为了许多科学论文或出版书籍的共同作者,比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》这篇12个作者中的第三位[13],Gautier Marti则在其出版的书籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中将ChatGPT列为共同作者。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客