新闻  |   论坛  |   博客  |   在线研讨会
文生图关键问题探索:个性化定制和效果评价(1)
AI科技大本营 | 2023-05-22 20:24:48    阅读:201   发布文章

2021年初,OpenAI团队提出了CLIP[1]模型并开源了模型权重,其核心点有三个:通过对比学习进行图文匹配学习,开源CLIP模型权重和发布CLIP Benchmark评测。从此,文图多模态领域开始收到广泛关注并迅速发展。文生图应用最早出现的标志是OpenAI推出DALL· E[2],自此各大公司开始不断推出新的文生图模型,实际生成效果和效率相对于从前基于自回归(Auto Regressive)和对抗网络(GAN)等文生图方法均提升显著。

DALL·E的应用技术是Diffusion Model,主要用于生成图像、音频、文本等数据。它通过模拟数据的去噪过程来生成新的数据。与生成对抗网络(GAN)相比,Diffusion models的生成过程更加稳定,生成的数据也更加真实。Diffusion Model的发展如图1所示:图片图1 AIGC-Text to Image 的发展特别是从2022年5月Stable Diffusion[3]的开源开始,作为一个迅速火出圈的AI技术,Stable Diffusion以极快的速度获得了大量的开源社区关注,开始引领AIGC行业发展。那么,为什么Stable Diffusion能够这么快地火出圈?其根本还是在于生成的效果和效率非常高,极大地降低了创作的门槛,降低了创作的成本。这里列了Stable Diffusion的Discord上的几个例子(见图2),这些图片都可以在Nvidia Tesla A100机器上通过3-4s的时间生成出来。图片图2 Stable Diffusion在Discord上的案例
虽然Stable Diffusion取得了很大的成功,但其本身存在一些问题会影响生成效果。主要包括:

  • 问题一:模型的机器评价与人工评价之间缺乏一致性。通过机器评价指标,比如FID值等,评价结果往往和真实的生成效果并不一致,因此不能很好地评价不同模型的效果。而人工评价标准难以统一并有高昂的成本。
  • 问题二:如何在生成过程中实现更高效的控制。如何提高生成图像和文本输入之间的一致性,特别是在使用简短的提示句来生成图像时,目前难以有效地控制所生成图片与文本之间的相关性程度。
  • 问题三:如何进行定制个性化模型。如何定制一个文生图模型,是行业应用的关键。快速的进行新概念/风格/人物的学习,是文生图落地到各应用场景的第一个拦路虎。
  • 问题四:高质量文图数据集的缺乏。数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。


    图片
如何评价文生图模型的效果

如何评价文生图模型的效果是生成类模型面临的共性问题之一。通常,生成类模型的评价分为机器评价和人工评价两种。机器评价方法如Bleu等,人工评价如ChatGPT中的人工评价等。然而,机器评价结果不完全符合人工评价结果,因此高机器评价并不一定代表生成效果好。文生图的模型评价也面临同样的问题,现在用于文生图模型评价的机器评价指标比如FID值等指标的评价结果跟真实的图片生成效果并不是一致,因此机器评价的结果并不能够很好的评价不同的文生图模型效果。但是,由于机器评价的便利性和客观性等原因,还是有很多评价基准在采用机器评价指标。比如ArtBench,一个提供了很多不同艺术风格标注数据的数据集,也是用FID指标等机器评价方法来评价不同模型的效果。从ArtBench的评测结果中可以看到基于GAN模型生成的图片可以获得最高的FID值,说明GAN生成跟训练数据同分布图片的能力还是更强。但同时这种更强的生成能力也是一种限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像训练数据中的样本。在2021年NeurIPS上刊载的OpenAI团队的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引导的Diffusion 模型可以在各种机器评价指标上比GANs的效果更好。但就像前面提到的一样,机器评价指标好就真的会生成更高质量的图片吗?由此可以看出,人工评价可能是更加合适文生图模型的评价方式。但是人工评价没有统一的标准,成本比较高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工评价的标准。让人从三种prompts的难度以及三种不同的task维度来对比不同的文生图模型的图片生成效果(见表1),比如SD和DALL-E 2。难度的定义用论文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”图片表1  不同的文生图模型的人工评测结果论文也给出了人工评价的结果,在数量(counting)和人脸(faces)两个类别的任务上,DALL·E2占优势,而在形状(shapes)这个类型的任务上,SD占优势。从篇文章给出的结果来看,现在的文生图模型中的第一梯队水平模型,在数量和形状方面,还是明显弱于人脸的生成任务的。因此,我们可以从这篇文章中总结出现在文生图模型存在的语言理解的问题,特别是数量和形状在理解能力上偏弱。文本理解能力可以通过更大更强的语言模型来解决,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解码和超分模型中都引入文本的信息来生成具有更丰富细节的图片。为了评价文生图模型的效果,Imagen团队也同时提出了一个文生图的评价基准DrawBench。该基准主要从两个维度来评价文生图的效果:image-text alignment和sample fidelity。其实验指出,用T5作为文本编码器的Imagen模型在这两个维度上都有提升。但是,从上述实验的结果可以得出,在Image框架下将文本编码器从CLIP的文本塔换成T5,会有一定的alignment提升,但是不是特别明显。所以更大的语言模型会带来一定的alignment的提升,但是提升没有预期的高。整体来看,文生图模型的评价是AIGC继续发展的基石,急需评价体系的建立。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客