文生图关键问题探索：个性化定制和效果评价（2）

AI科技大本营 | 2023-05-22 20:25:32 阅读：417

可控生成

从上述论文对文生图的评价结果可以看出来，达到可控生成任重而道远，其中最关键的一点是alignment，还有很大的提升空间。因此，我们可以得到文生图的第二个关键问题——可控生成。通过一句prompts输入来生成图片时，生成的图片和文字之间的alignment会比较弱，比如：

同时输入多个实体不能实现完全生成；
实体之间的关系不能体现；
颜色和数量不能体现；
文字显示不出来。

在现行的一些研究中，研究者也提出引入对文本理解更好的模型来解决可控问题，比如EDiff-I[8]。这篇文章延续了Imagen的思路，既然T5文本理解对于可控生成有帮助，那就把它集成进来，发挥出1+1>2的效果。但是，从文本模型角度来改进可控生成所需资源比较多，首先需要一个更强的文本模型，然后才能训练得到更好的文生图模型。因此，有一些研究便从可控编辑的角度来解决这个问题，比如一项名为P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通过微调prompt达到可控生成的目标（见图3）。图3 通过微调prompt达到可控生成的目标InstructPix2Pix [10]这篇文章的思路跟P2P思路很像，也是通过图像编辑来实现可控生成。不一样的是，这篇文章用GPT-3来做prompt微调。从图片编辑这条线上进行研究效果的确很惊艳，但是评价偏弱，没有一个很好的评价标准和体系，还是很难继续推进。图像编辑算法Paint by Example提出了另外一种思路：将可控生成的难度降低，提供一个样本图片，结合图像修复技术来达到局部可控生成。其技术思路很直观，同时提供机器评价和人工评价的结果。总得来说，这个方向的改进可能会引发下一波文生图应用热潮，但是因为评价方法的缺失，导致进展比较难以衡量。个性化模型

本文首先从评测的角度探讨了文生图模型的关键问题：可控生成。接着从应用的角度出发，重点研究如何定制一个文生图模型，这是落地各行业应用的关键所在。在影视、动漫、漫画、游戏、媒体、广告、出版、时尚等行业使用文生图模型时，常常会遇到新概念、风格、人物缺失的问题。例如，若需要生成某位明星A的中国风肖像，但该模型并未见过此明星的肖像，也无法识别中国风，这将严重限制文生图模型的应用场景。因此，如何快速新增概念和风格，成为当前研究的重要方向之一。说到这里，大家第一时间想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美学梯度[13]。DreamBooth本身是为Imagen设计的，通过三张图就能够快速学习到新概念/风格/人物，但是现在已经迁移到了Stable Diffusion。这个技术有很多个不同的版本，其核心思想是在小样本上微调的同时尽量减少过拟合。Textual Inversion是从文本编码器的角度来解决新概念引入的问题，其提出新风格和概念的引入需要从文本理解开始，新的风格和概念如果是OOV（Out Of Vocaburary，未登录）的词汇，那我们就在文本编码器上增加这个词汇来解决概念引入的问题。其思路是整个模型的所有参数都不需要调整，只需要增加一个额外的token以及其对应的embedding就可以，即插即用。美学梯度方法跟之前inpainting的可控生成思路很类似，针对新的风格，我们先降低难度，给出一些新风格的样例（这里是embedding），然后让生成朝着与这个样例更接近的方向展开。总而言之，这条线上的研究现在也没有什么评价标准和体系，处于方兴未艾的阶段，离落地也很近，基本出来效果就可以直接创业。

高质量数据集

数据的重要性不言而喻，大量高质量的文图数据是文生图发展的血液，没有数据再好的算法也发挥不了作用。数据集不是开源一堆url提供下载就完了，其中包括了水印识别、NSFW（Not Suitable For Work）图片识别、文图匹配过滤等多种预处理操作，甚至包括说明文字的生成、改写和优化等操作。这个方向国外的LAION团队做的非常的扎实，国内也有一些公司开源了数据集。下表2列出，仅供参考。表2：国内外开源文图数据集综上，文图数据现在是英文的数据在数量和质量上都比中文和其他语言高了一截，希望未来有十亿级别的高质量中文数据集出现。结语文生图模型是当前人工智能领域最具潜力和前景的研究方向之一。未来，随着计算能力的提高和技术的进一步发展，文生图模型的应用前景将会更加广泛和深远。然而，针对其应用过程中存在的一些问题，如模型评价缺乏一致性、控制生成过程效率低下、定制个性化模型困难以及高质量文图数据集缺乏等，需要我们进一步研究探索解决方案。随着文生图模型的不断发展和完善，我们可以预见到未来人机交互方式的改变。在智能化时代的到来中，文生图模型的应用将会极大地改变人们与计算机交互的方式，让计算机更加“懂人”，进一步提升人机交互的效率和质量，也有望成为人工智能走向真正“人性化”的关键一步。总之，文生图模型作为一项研究热点，具有极其广泛的应用前景，未来也将在技术创新和产业应用中扮演越来越重要的角色。参考链接[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。