📝从 GAN 到 DiT:回顾 AI 视频生成模型的技术路径演进
2024-3-18
| 2024-4-1
1023  |  阅读时长 3 分钟
本文为「机器之心 Pro 2024 Week 11 业内通讯」摘抄整理

总结

  1. 视频生成和图片生成的底层技术框架较为相似,包括 GAN自回归模型扩散模型三大路径,目前扩散模型(Diffusion model)是当前主流的生成模型。
  1. 第一阶段:基于 GAN 和 VAE 的早期探索
    1. 在文生视频生成的初期,研究者主要依赖于生成式对抗网络(GAN)变分自编码器(VAE)技术。生成器将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超过 50%的准确度分辨出真实样本
    2. 通过该方法,可以自回归地形成视频帧,常见的模型结构包括单级生成网络堆叠结构
    3. 生成式对抗网络(GAN)的技术路径相比于其他路径模型参数量较少,也比较轻便,因此 GAN 擅长对单个或多个对象类进行建模。但 GAN 存在训练不稳定和生成样本大量重复相似两大问题,其中,模式坍塌被认为是应用 GAN 进行图像生成时最难解决的问题之一,会造成训练结果冗余、生成图像质量差、样本单一等问题。
  1. 第二阶段:Transformer 架构的突破
    1. 受到 GPT-3 和 DALL-E 等模型在文本和图像生成领域的成功启发,研究者开始采用 Transformer 架构来生成视频。简单来说,通过编码器将文本转化成 token 或序列,应用自回归预测经过训练好的模型解码输出图像。
    2. Transformer 整体主要分为 Encoder 和 Decoder 两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。这一阶段的模型包括谷歌的 Phenaki、微软的 NUWA 等。
    3. 与 GANs 相比,自回归模型具有明确的密度建模和稳定的训练优势,自回归模型可以通过帧与帧之间的联系,生成更为连贯且自然的视频。但自回归模型存在计算成本消耗大大量的训练数据两大局限性。自回归模型受制于计算效率与训练数据的规模,参数通常是扩散模型参数量的 10 倍以上
  1. 第三阶段:扩散模型的主流化与创新
    1. 扩散模型在图像生成领域的成功后,开始被应用于视频生成,成为当前的主流技术路径。这一阶段的模型,如 Meta 的 Make-a-video、英伟达的 Video LDM,以及 Runway 的 Runway-Gen1 和 Runway-Gen2,均采用了扩散架构。
    2. 扩散模型(Diffusion Model)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。
    3. Video Diffusion Model 的提出标志着扩散模型在视频生成领域的应用,该模型首次将扩散模型拓展到视频领域。
    4. 扩散模型生成效率更高,能够处理更复杂的视频内容,生成质量提升。但存在采样速度慢计算消耗过大两方面的局限性。扩散模型蕴含着多个(原始模型可能要上千个)前向传接播。

参考文献

机器学习
  • 机器学习
  • 科研
  • 摘抄
  • 推荐系统综述(一)——总体发展趋势图像世界模型