本文为「机器之心 Pro 2024 Week 11 业内通讯」摘抄整理
总结 视频生成和图片生成的底层技术框架较为相似,包括 GAN 、自回归模型 和扩散模型 三大路径,目前扩散模型(Diffusion model) 是当前主流的生成模型。 第一阶段 :基于 GAN 和 VAE 的早期探索在文生视频生成的初期,研究者主要依赖于生成式对抗网络(GAN) 和变分自编码器(VAE) 技术。生成器 将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器 区分。这一过程将反复进行,直到判别器无法以超过 50%的准确度分辨出真实样本 。 通过该方法,可以自回归 地形成视频帧,常见的模型结构包括单级生成网络 和堆叠结构 。 生成式对抗网络(GAN)的技术路径相比于其他路径模型参数量较少,也比较轻便 ,因此 GAN 擅长对单个或多个对象类 进行建模。但 GAN 存在训练不稳定和生成样本大量重复相似 两大问题,其中,模式坍塌 被认为是应用 GAN 进行图像生成时最难解决的问题之一,会造成训练结果冗余、生成图像质量差、样本单一 等问题。 第二阶段 :Transformer 架构的突破受到 GPT-3 和 DALL-E 等模型在文本和图像生成领域的成功启发,研究者开始采用 Transformer 架构来生成视频。简单来说,通过编码器 将文本转化成 token 或序列,应用自回归预测经过训练好的模型解码输出图像。 Transformer 整体主要分为 Encoder 和 Decoder 两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系 ,利用多头自注意力机制进行编码和解码。这一阶段的模型包括谷歌的 Phenaki、微软的 NUWA 等。 与 GANs 相比,自回归模型具有明确的密度建模和稳定的训练优势 ,自回归模型可以通过帧与帧之间的联系,生成更为连贯且自然的视频。但自回归模型存在计算成本消耗大 和大量的训练数据 两大局限性。自回归模型受制于计算效率与训练数据的规模,参数通常是扩散模型参数量的 10 倍以上 。 第三阶段 :扩散模型的主流化与创新扩散模型在图像生成领域的成功后,开始被应用于视频生成,成为当前的主流技术路径。这一阶段的模型,如 Meta 的 Make-a-video、英伟达的 Video LDM,以及 Runway 的 Runway-Gen1 和 Runway-Gen2,均采用了扩散架构。 扩散模型(Diffusion Model)是通过定义一个扩散步骤的马尔可夫链 ,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据 ,然后再学习逆扩散 的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。 Video Diffusion Model 的提出标志着扩散模型在视频生成领域的应用,该模型首次将扩散模型拓展到视频领域。 扩散模型生成效率更高 ,能够处理更复杂的视频内容 ,生成质量提升。但存在采样速度慢 和计算消耗过大 两方面的局限性。扩散模型蕴含着多个(原始模型可能要上千个)前向传接播。 参考文献