如何动动嘴皮子，让AI听懂甲方需求

北京/UX设计师/3年前/127浏览

版权

如何动动嘴皮子，让AI听懂甲方需求

AI 可以完全按照甲方意愿修图？GPT-3、Stable Diffusion 一起助攻，让模型秒变 PS 高手，改图随心所欲

AI 可以完全按照甲方意愿修图？GPT-3、Stable Diffusion 一起助攻，让模型秒变 PS 高手，改图随心所欲。
扩散模型大火之后，很多人将注意力放到了如何利用更有效的 prompt 生成自己想要的图像。在对于一些 AI 作画模型的不断尝试中，人们甚至总结出了让 AI 好好出图的关键词经验：

也就是说，如果掌握了正确的 AI 话术，作图质量提升效果将非常明显；
此外，还有一部分研究者在往另一个方向努力：如何动动嘴皮子就把一幅画改成我们想要的样子。
前段时间，我们报道了一项。只要说出你想让一幅图变成什么样子，它就能基本满足你的要求，生成照片级的图像，例如让一只小狗坐下：

这里给模型的输入描述是「一只坐下的狗」，但是按照人们的日常交流习惯，最自然的描述应该是「让这只狗坐下」。有研究者认为这是一个应该优化的问题，模型应该更符合人类的语言习惯。
最近，来自 UC 伯克利的研究团队提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix：给定输入图像和告诉模型要做什么的文本描述，模型就能遵循描述指令来编辑图像。
例如，要把画中的向日葵换成玫瑰，你只需要直接对模型说「把向日葵换成玫瑰」：

为了获得训练数据，该研究将两个大型预训练模型——语言模型 (GPT-3) 和文本到图像生成模型 (Stable Diffusion) 结合起来，生成图像编辑示例的大型成对训练数据集。研究者在这个大型数据集上训练了新模型 InstructPix2Pix，并在推理时泛化到真实图像和用户编写的指令上。
InstructPix2Pix 是一个条件扩散模型，给定一个输入图像和一个编辑图像的文本指令，它就能生成编辑后的图像。该模型直接在前向传播（forward pass）中执行图像编辑，不需要任何额外的示例图像、输入 / 输出图像的完整描述或每个示例的微调，因此该模型仅需几秒就能快速编辑图像。
尽管 InstructPix2Pix 完全是在合成示例（即 GPT-3 生成的文本描述和 Stable Diffusion 生成的图像）上进行训练的，但该模型实现了对任意真实图像和人类编写文本的零样本泛化。该模型支持直观的图像编辑，包括替换对象、更改图像风格等等。

声明

原创文章 UI

评论你的想法~

表情

喜欢TA的作品吗？喜欢就快来夸夸TA吧！

登录注册