[CVPR 2023] Zero-shot Generative Model Adaptation via Image-specific Prompt Learning

摘要

本文提出了Image-specific Prompt Learning（IPL）方法来解决风格迁移任务中生成模型从源域到目标域的适应问题。一个Latent Mapper来从源域图像中学习出包含图像特征且适应目标域的prompt，从而指导目标域生成器的训练。

This produces a more precise adaptation direction for every cross-domain image pair, endowing the target-domain generator with greatly enhanced flexibility.

训练资料是源域和目标域的文字标签以及源域的图像，并不需要目标域的图像。此外，IPL独立于生成模型，可以自由选择Diffusion Model或GAN等。

主要方法

概述

IPL方法分两个阶段。

第一阶段：训练Latent Mapper

第一阶段的主要任务是训练Lantent Mapper来为每一个训练集的源域图片生成一组prompt。Latent Mapper接收源域图像的latent representation，生成一组prompt向量。第一阶段需要解决两个问题，即在zero-shot的背景下，如何实现prompt与源域图像特征的对齐以及prompt与目标域空间的对齐，因此第一阶段的训练分两部分进行。

第一部分是Latent Mapper输出的prompt与目标域标签concat后送入来自CLIP的Text Encoder得到目标域图片prompt在CLIP空间的编码表示，并与目标域标签经过Text Encoder后的编码共同作为Domain Loss的输入来约束从源域中学习到的prompt与目标域空间对齐。

第二部分是Latent Mapper输出的prompt与源域标签concat后送入来自CLIP的Text Encoder得到源域图片prompt描述在CLIP空间的编码表示，同时源域图像再经过来自CLIP的Image Encoder后得到其在CLIP空间的编码表示。将源域的prompt文字和图像编码表示作为contrastive learning loss的输入，约束学习到的prompt与源域图像的特征对齐。

prompt产生策略

第二阶段：将Latent Mapper插入目标域生成器的训练过程

第二阶段利用Directional CLIP Loss来训练目标域生成器，使源于生成器向目标域迁移学习。需要输入源域以及目标域图像、源域以及目标域的prompt描述。源域图像的latent representation分别输入至源域生成器和目标域生成器中得到对应的图像，同时指导风格迁移方向的源域以及目标域的prompt描述由Latent Mapper接收源域图像的隐式表示后输出再分别与源域和目标域标签concat而得到。分别将源域图像、生成的目标域图像以及源域、目标域的图片prompt描述一起输入至Directional CLIP Loss，从而约束由源域图像生成器初始化的目标域图像生成器向目标域的迁移学习。

[CVPR 2023] Zero-shot Generative Model Adaptation via Image-specific Prompt Learning

摘要

相关工作

Generative Model Adaption

few-shot

zero-shot

Prompt Learning

主要方法

概述

第一阶段：训练Latent Mapper

第二阶段：将Latent Mapper插入目标域生成器的训练过程

Image-specific Prompt Learning

摘要​

相关工作​

Generative Model Adaption​

few-shot​

zero-shot​

Prompt Learning​

主要方法​

概述​

第一阶段：训练Latent Mapper​

第二阶段：将Latent Mapper插入目标域生成器的训练过程​

Image-specific Prompt Learning​

摘要

相关工作

Generative Model Adaption

few-shot

zero-shot

Prompt Learning

主要方法

概述

第一阶段：训练Latent Mapper

第二阶段：将Latent Mapper插入目标域生成器的训练过程

Image-specific Prompt Learning