Movie Gen: A Cast of Media Foundation Models
主要功 能展示
Meta Movie Gen 可以实现具有同步音频的视频生成、个性化角色的视频生成并支持视频编辑。
Movie Gen 实现的主要功能来自于提出的两个 foundation model,分别为 Movie Gen Video 以及 Movie Gen Audio。
- Movie Gen Video:30B 参数的大模型,支持 T2I 以及 T2V 的联合生成,最高可根据输入的文本提示生成 16 秒的 1080P HD 视频。
- Movie Gen Audio:13B 参数的大模型,支持 V2A 以及 T2A,最高可根据输入的视频以及文本提示生成 48kHz 的高质量同步音频。
Text-to-Video 视频生成
个性化视频
视频精确编辑
音频生成
Movie Gen Video
Joint Image and Video Generation(图像视频联合生成)
Meta 提出了 Movie Gen Video 这个统一的大模型来同时完成 T2I 以及 T2V 任务,模型将静态图像视为视频中的一帧,从而进行图像和视频生成的联合训练,即 Joint Image and Video Generation,使得模型可以同时生成图像和视频。
作者认为视频数据较为复杂,文本图像对的训练数据可以更好地帮助模型提高泛化性能。
下图展示了图像和视频联合生成的 pipeline。
多阶段训练策略
为了提高训练效率和模型的扩展能力,作者采用了多阶段的训练过程。
-
首先是 T2I 预热训练阶段。作者发现直接从头训练图像视频联合生成模型 T2I/V 会导致拟合缓慢,因此首先单独对 T2I 模型进行训练,作为预热阶段,并且在预热训练在较低分辨率(256 px)上进行,可以在相同 的计算开销上以更大的 batch size 训练更多的数据。
-
其次是图像视频联合生成模型 T2I/V 训练阶段。
为了可以成功实现联合训练,作者双倍增加了的空间位置编码层(spatial positional embedding layers)来适应更丰富的宽高比,同时增加了更多的时间位置编码层(temporal positional embedding layers)来支持多帧数图像(视频)的输入。
然后进行高分辨率的 T2I/V 联合训练。
-
在高质量的视频数据集上通过 Supervised Finetuing(监督微调,SFT)来优化生成质量。
-
最后可以后训练(Post Training)的方式来为 Movie Gen 增加个性化角色视频生成以及视频精确编辑等能力。
TAE(Temporal AutoEncoder)
为了提高效率,作者提出了 TAE 模型将像素空间的视频和图像压缩到经过学习的时空压缩隐式空间(learned spatial-temporally compreseed latent space),并且学习从隐空间中生成视频。