复旦大学教授肖仰华：ChatGPT 浪潮下，面向大模型如何做数据治理？（1）

AI科技大本营 | 2023-03-19 10:37:37 阅读：495

由 ChatGPT 引起的大模型热潮正席卷当下。众所周知，大模型的建立离不开海量数据，且大模型的最终效果取决于数据的质量，数据越丰富、质量越高，大模型表现效果越好。那么该如何针对大模型做数据的治理？

2月26日，由CSDN、《新程序员》、上海市人工智能行业协会主办，百度飞桨、达观数据、智源人工智能研究院协办的全球人工智能开发者先锋大会（GAIDC）“新程序员：人工智能新十年”论坛，复旦大学教授肖仰华以“面向大模型的数据治理”为主题，分享前瞻洞察与思考。肖仰华以下为肖仰华演讲内容，CSDN在不改变原意的基础上进行编辑：语言模型成为人工智能发展新底座，预训练的语言模型极大推动了自然语言处理（NLP）技术发展，成为语言智能的新范式、认知智能新底座。然而，大模型仍存在诸多问题：如隐私泄露，训练大型语言模型的数据集通常很大，并且数据源较丰富，它们可能涉及名称、电话号码、地址等敏感个人数据，即使以公开数据训练也是如此，这可能导致语言模型输出里涵盖某些隐私细节。还可能会出现事实错误、逻辑错误等问题。肖仰华表示，大模型要发挥价值，需要构建从数据产生、数据整理、模型训练、模型适配到实际部署的完整生态系统。大模型的数据治理是保障大模型质量的关键步骤，是当前国内在大模型研究方面极为稀缺的内容，是突破国外巨头对国内技术封锁的关键。基于此，面向大规模的数据治理研究，可从以下三层架构来思考：最底层是基于大模型的知识质量评估体系、人在环中的大模型训练优化机制、复杂数据的预训练机制等基础理论，往上为样本纠偏、样本优化、多模融合、知识注入、事实编辑、领域适配、价值对齐、认知提升等关键技术，最上层是认知增强和推理增强，研究顺序逐层推进。下面我们逐一分析具体的理论与技术。
基础理论层
从上图中观察到，我们需重点建立大模型的知识质量评估体系，突破人在环中的大模型训练优化方法，探索序列、日志、图等复杂数据的预训练机制，提升大模型在特定领域与任务中的质量与性能。1、大模型的质量评估体系。目前国内的模型评估体系大部分关注语言层面，然而今天的大模型不单是语言智能的载体，在国外一些研究中，将大模型当做具备初级认知能力的智能体。因此在大模型质量评估上，不能仅仅停留语言处理层面进行评测，更多地，更为迫切是需要从人类认知的角度借鉴思路建立大模型的完整的评测体系，比如从认知发育理论借鉴理论指引，大模型是否具有可逆思维、创造思维、抽象思维、数值思维等能力，大模型是否存在认知偏见、是否存在认知障碍。大模型的评测关系到我们是否有资格成为裁判员。我们不能满足于只做运动员，我们更要成为裁判员，才能掌握大模型研究与应用的主动权。2、人在环中的大模型训练优化机制如今 ChatGPT 成功的重要原因是把对人类的反馈，通过强化学习的方式注入到大模型中。在ChatGPT中，人主要在以下两个方面发挥作用：一是利用人类的标注数据对GPT进行有监督训练，二是收集多个不同的监督模型（SFT）输出，由人类对这些输出进行排序并用来训练奖赏模型。那么这里面的基于排序的反馈是不是最佳的方式？有否更好的人类反馈方式？另外，如何让人以廉价成本实现高效大模型反馈？这里面仍有大量的问题需要研究和优化。3、复杂数据的预训练机制。针对代码、基因、图等复杂形态的数据，如何实现不同形态复杂数据的高效预训练？这里面存在大量的机会。
关键技术详解
在研究面向大规模预训练模型的数据治理理论与认知增强时，涉及样本纠偏、样本优化、多模融合、知识注入、事实编辑、领域适配、价值对齐、认知提升等关键技术。大模型的领域适配肖仰华表示，在 ChatGPT 赛道上，国内比国外发展稍晚。那么在通用大模型上，如何有机会实现弯道超车？我们不能被人牵着鼻子走，需要开辟大模型研究与应用的新赛道，在领域赛道形成核心竞争力。大模型有非常宽的知识底座，但是垂直领域的知识密集度以及推理复杂程度远远跟不上理论专家的要求和需求，因此我们不但需要有宽度的大模型，还需要有深度的大模型，来匹配领域需求。大模型样本纠偏大模型样本纠偏是大家最早意识到的问题，大模型的效果与“喂”进去的数据息息相关。如果喂进有偏差的数据机器就学到有偏差的知识，因此我们需要纠正样本偏置，训练公平的大模型。大模型的多模融合大模型的异质多模融合是大模型实现跨模态理解的关键。目前很多大公司在做多模融合，但肖仰华建议“融合”不应局限在图片、语音、视频等，例如在工业场景，还涉及日志、传感器数据、图表等数据的融合。大模型的事实编辑大模型本质上是统计模型，对于特定事实或信念的可控编辑存在巨大挑战。需要让大模型遗忘、记住特定事实，这是需要攻克的研究点。大模型的知识注入大模型缺乏人类的知识，特别是专业知识。如何将人类的各类认知，比如领域知识、概念层级、价值观念注入到大模型？肖仰华表示，做好大模型的特定可控编辑、大模型的知识注入，是大模型往领域推广和应用重要的问题。那么数学、物理、医疗、司法等知识如何植入进去？以往知识图谱构建大量的知识库，是大模型在领域落地重要的助力工具。大模型的持续更新现有模型多是基于一次性的构建过程，缺乏持续性知识获取能力，如缺失大量新兴实体（如新型冠状肺炎），充斥过时知识等。另外，认知智能系统需要持续知识更新能力以应对现代的知识爆炸性增长，当前的大模型训练代价太大，更新成本巨大、效率低下。针对大模型的持续更新，还需要大家做很多工作。大模型的样本优化大模型训练的数据良莠不齐，需要进行精心的样本选择、样本转换、样本清洗、提示注入，才能训练得到高质量大模型。肖仰华表示，还可以通过对大模型的异质来源数据进行来源提示的增强，来显著提升大模型的质量。大模型的价值对齐肖仰华强调我们需重视大模型的价值对齐。目前现有大模型主要通过国外专家反馈训练，其价值观与国内有很大不同，通过对人类反馈的强化学习，实现大模型与人类价值的对齐，例如可通过构建匹配中式价值观的反馈训练样本，通过强化学习引导大模型生成符合伦理与价值观的回复。大模型通过感知与融合人类的反馈能够实现价值认知的对齐与增强。如在《Constitutional AI: Harmlessness from AI Feedback》提到，通过设定constitution，利用RLAIF(RL AI Feedback)&RLHF，CoT等方法让大模型不逃避回答有争议问题，输出无害回答及解释。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。