复旦大学教授肖仰华：ChatGPT 浪潮下，面向大模型如何做数据治理？（2）

AI科技大本营 | 2023-03-19 10:38:43 阅读：1014

认知增强技术
肖仰华表示，预训练语言模型虽已具备初级认知能力，但仍缺乏高级认知能力。可从概念、类比、幽默、价值认知等角度探索如何增强模型的高级认知能力。增强通用大模型的高级认知能力会是未来重要的研究方向，需要人工智能与人文学科的深度交叉融合，这既是巨大挑战，也是重大机遇。我们需要倡导人工智能与人文社科的深度交叉与融合的研究环境。概念认知增强对于人类来说，概念和实体间的知识可以互相迁移，以帮助我们理解新的陌生实体。语言模型虽然对语料库中频繁出现的概念和实体有一定了解，但它们仍对出现较少的冷门实体理解不足。现有工作将实体知识、知识图谱中的关系知识、句法知识、语义知识、外部文本知识用到预训练语言模型的学习中。然而，它们忽略了概念知识，一种对人类来说最为重要的知识。于是，一种全新的概念增强的预训练任务——实体概念预测（Entity Concept Prediction, ECP）诞生。对于语料中的提及的实体，ECP旨在预测出实体相应的概念。实体将以一定概率被遮盖住，即要求PLM仅基于上下文预测概念。类比认知增强类比是人类认知中最丰富和活跃的思维方式，类比是人类认知的核心，也是人类智能的核心。通过类比，人们可以证明日常的推理和发现新的见解，如老师用鸡蛋来类比地球的构造，学生很快理解了。类比推理是把两个或者两类事物或者情形进行比较，找出它们在某一抽象层面上的相似关系。并以这种关系为依据，将有关知识加以适当整理，对应到另一事物或情况，从而获得求解另一事物或情形的知识，类比推理是人类高级认知能力的重要体现。类比推理需要基于关系结构来实现源域到目标域的映射，从而帮助人类去学习和理解新的知识。现如今缺少大规模数据集让机器具备类比推离能力。通过更丰富的类比数据集，模型可以使用显式类比进行推理和解释，甚至训练专门的类比模型。2022年，复旦大学、字节跳动人工智能实验室等机构的研究者提出首个可解释的知识密集型类比推理数据集——E-KAR 数据集，由1,655个（中文）和1,251个（英文）来自中国公务员考试的问题组成，并提出了类比推理问题的两个基准任务，用于教会和验证模型学习类比的能力。隐喻认知增强隐喻本质是从源域概念到目标域概念的映射，基于相似性，反映了人类的认知过程。如在“今晚天空中有一团火”这句话中，通过“火红”这一特点将晚霞和火焰之间建立联系。让机器具备隐喻认知能力，便能让机器掌握事物间的内在联系。让机器具备隐喻相关推理的能力是实现类人智能非常关键的一个环节。大模型可以生成一些文本描述，但要做到优雅地生成很困难，为此复旦大学知识工场实验室建立了一些相关的数据集和知识库，在明喻解释上，取得一些研究成果：（1）明喻推理与解释：复旦大学知识工场实验室在《Can Pre-trained Language Models Interpret Similes as Smart as Human?》中，提出明喻属性探测任务(Simile Property Probing)，也即让预训练语言模型推断明喻中的共同属性。此工作从通用语料文本、人工构造题目两个数据源构建明喻属性探测数据集，规模为1,633个题目，涵盖七个主要类别。（2）大规模明喻知识库构建：构建大规模明喻知识库的系统 MAPS-KB，一个百万级别的明喻概率化知识库，规模为430万个明喻三元组，覆盖70GB的语料库。（3）面向明喻生成任务的自动评估指标：为明喻改写任务设计全面、高效且可靠的评估系统。设计了五个评估准则：relevance、logical consistency、sentiment consistency、creativity、informativeness，并为每个评估准则设计评估指标。幽默认知增强科学家认为，随着机器变得越来越聪明，幽默感也许是使人类区别于机器的最后一项特征。肖仰华表示，未来让大模型参与吐槽大会或说脱口秀也是有可能的。其中关键是增强大模型的能力，来检测幽默的笑点，甚至改写生成这些幽默段子。然而，幽默计算有以下挑战性：尚未建立完善的幽默理论，幽默难以形式化定义，当前研究只能处理一些简单形式的幽默。据肖仰华分析，预训练语言模型的幽默理解的第一个工作主要从预训练语言模型的幽默判定、识别、可解释三个方面来研究。随着人机交互系统和应用的发展，能否让机器具有幽默感可能预示着人机交互的通天塔能否建成。对此，肖仰华团队发布了中文幽默评估数据集。预训练语言模型的幽默理解的第二个工作主要从预训练语言模型的幽默改写、生成两个方面来研究。当前的语言模型在给出幽默响应方面表现不佳，预训练语言模型的幽默回复是自然语言处理中的一项挑战任务。缺乏大规模的幽默回复数据集和定制化的知识来提高预训练语言模型的幽默回复能力。对此，肖仰华团队发布了一个中文幽默回复数据集，定制化知识库和幽默回复辅助任务相关的数据集。共情认知增强在许多真实对话场景中，共情是十分重要的。如使用大模型诊断病人，医生在和病人交流的过程中，不单有医学知识，还需要共情能力，安慰病人等，共情能力非常重要。如何评测大模型与人类共情的水平？如何提升大模型与人类共情的能力？最近的一些报道称，在最新版本的GPT-3.5中，通过心智理论测试，大幅超越之前的版本，其正确率逼近人类九岁孩子的水平。总体而言这方面的研究仍需巨大努力。信念认知增强在研究的过程中，可能会发现这样一个问题：模型的信念容易受输入影响，对同一问题的回答摇摆不定。如何让模型拥有稳定的，正确的信念，以及更新特定信念？需要对信念检测、信念更新、信念强化等工作。
推理增强技术
肖仰华表示，预训练语言模型的推理能力有待加强，可从数值、逻辑、常识推理等角度探索如何增强模型的推理能力。数值推理增强大模型在不同领域应用时，需具备理解数值的能力。数值推理本质上是对自然语言文本中的数值实体进行区别与一般文本的特殊处理，包括将数值映射到数字线上的近似大小的量级化能力，以及对数值实体之间进行分析、思考以及符号化运算和推理的过程，反映了人脑具备的高级认知功能。对此，肖仰华表示，可通过构建量纲知识库、半自动化数量数据集构建、量纲认知的预训练增强、基于CoT的大模型数值推理等手段来增强数值推理能力。逻辑推理增强逻辑有“与或非”这三个原则，然而大模型在否定事实的生成上往往会犯错。因为否定事实是开放的，关于人不能做什么在语料中的描述是极度稀缺的。大模型的否定事实生成与理解能力因而大打折扣。肖仰华团队借助Chain-of-Thought，开展了一些研究工作，相关成果已经提交到学术会议。除此之外，还有常识推理增强、反事实推理增强、多模态推理增强、多跳推理增强等方法。目前科技巨头均在积极布局大模型，以国内为例，华为云发布盘古大模型，北京智源研究院发布“悟道”，浪潮发布中文巨量模型“源1.0”，阿里达摩院发布巨模型M6，百度联合鹏城实验室发布大模型“鹏城-百度•文心”，复旦大学知识工场团队也与超对称技术公司发布金融预训练语言模型BigBang Transformer 乾元等。值得一提的是，在我们关注这些大模型的最新发展的同时，为充分发挥大模型的价值，保障大模型的质量，欢迎各位开发者和肖仰华博士一起，积极关注大模型背后的数据治理。嘉宾简介：肖仰华博士，复旦大学教授、博导、上海市数据科学重点实验室主任、复旦大学知识工场实验室负责人、复旦-爱数认知智能联合研究中心主任。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。