图像生成模型
回顾文字生成的两种方法
在文字生成模型中根据模型的输入是否与前一时刻的输出有关可以分为自回归AR模型与非自回归NAR模型两种,这两种生成方式的利与弊在图像生成中仍然存在。
自回归方法(AR)
Transformer-based的文字生成模型有很多,如GPT模型,大多使用自回归(Autoregressive, abbr. AR)的方法逐token生成。
什么是ARM
ARM(Autoregressive Model,自回归模型)是一类用于建模时间序列数据的统计模型,其中当前时刻的观测值被认为是过去时刻观测值的线性组合,加上一个随机误差项。这类模型的核心思想是,当前时刻的数据依赖于先前时刻的数据。
若把文字生成的AR方法对应到图像生成中的使用,即一个一个像素生成图像。由于当前对高清图像像素的需求越来越高,自回归的生成方式导致速度非常缓慢,但优点是后面生成的每一个像素都考虑了之前的所有像素,从而使生成的图像更清晰、更细腻、更加符合预期。
非自回归方法(NAR)
若使用NAR非自回归的方法一次生成所有像素,各像素在生成时无法考虑之间的语义信息,生成的图像质量普遍低于自回归方法生成的图像。
目前图像生成模型的共同点
VAE、GAN以及Diffusion Model等生成模型,都不只是单独使用文字作为输入来生成图像,而是使用了从已知的随机分布(e.g. Normal Distribution)中sample出向量作为模型额外输入的方法。
大致的思想如下图所示,由于期待生成的图像并不是固定的,可以将预期输出看作是一个分布,即