图像世界模型

type

status

date

slug

summary

Meta FAIR 团队近期发表论文《Learning and Leveraging World Models in Visual Representation Learning》[1]，提出了图像世界模型（Image World Models，IWM）的新范式，将世界模型作为预测器（predictor）进行训练，探索世界模型在视觉任务中的学习和利用。

具体来看：

IWM 是一种全新的视觉表征学习范式，通过学习预测视觉变换对数据的影响来建模世界知识。与传统的对比学习和掩码建模方法不同，IWM 不仅能够学习高质量的视觉表征，还能获得一个可复用的「世界模型」。

IWM 的架构基于此前 Yann LeCun 提出的联合嵌入预测架构（Joint Embedding Predictive Architecture， JEPA）框架[2]。在这个框架中，预测器是世界模型的实例化，IWM 的核心思想是使世界模型能够在潜在空间中应用变换，从而学习到等变（equivariant）表示。

IWM 的工作流程包括：

首先，从原始图像产生一对「源视图」和「目标视图」，两者通过数据增强（如裁剪、颜色变换等）获得。
然后，将源视图和目标视图分别输入到编码器网络，得到两个视觉特征表示。
再次，预测器网络以源视图的特征表示和变换参数为输入，目标是重建或预测目标视图的特征表示。
最后，通过最小化预测值和目标值之间的差异(最小化重构误差)来训练整个模型。
如果预测器能够很好地重建或预测目标视图的表示，即意味着学习到了一个强大的「世界模型」，能够捕捉输入数据在遭受变换时的本质特征；相反，如果预测器无法准确预测，其所学习到的「世界模型」就较为简陋。

IWM 架构的关键组成部分包括：

编码器（Encoder）：编码器 $f_{\theta}$ 负责将输入图像转换为潜在空间的表示，表示捕捉了图像的关键特征，同时忽略了不必要的信息。
指数移动平均（Exponential Moving Average， EMA）：EMA 网络 $f_{\theta}^{\textbf{EMA}}$ 是编码器的一个变体，通过计算参数的指数移动平均来提供更稳定的表示。有助于避免解决方案崩溃，即在模型参数变得非常小的情况下，导致模型无法学习。
掩蔽标记（Mask Tokens）：在 IWM 中，掩蔽标记 $m_a$ 用于表示源图像和目标图像之间的几何关系。这些标记是通过对图像进行掩蔽操作得到的，指示了在潜在空间中需要进行的变换。
预测器（Predictor）：预测器 $p_{\phi}$ 是世界模型的核心，它接收编码器输出的潜在表示、转换参数 $a_{x \rightarrow y}$ 和掩蔽标记 $m_a$ 作为输入，并尝试预测目标表示 $z_y$ 。预测器的目标是匹配 $p_{\phi}(z_x, a_{x \rightarrow y}, m_a) = \hat{z_y}$ 到 $z_y$ 。
损失函数（Loss Function）：使用的损失函数是预测值 $\hat{z_y}$ 和它们的目标 $z_y$ 之间的平方 $L_2$ 距离。

潜在空间（Latent Space）：潜在空间是模型内部的一个抽象表示空间，其中图像被转换为低维的向量。在这个空间中，模型可以更容易地学习和应用变换。
源视图（Source View） 和 目标视图（Target View）：源视图 $x$ 和目标视图 $y$ 是从同一图像 $I$ 生成的不同视图。源视图通常经过一系列增强操作，而目标视图则保持尽可能多的信息，以便预测器可以从中学习。
转换参数（Transformation Parameters）：转换参数 $a_{x \rightarrow y}$ 描述了从源视图 $x$ 到目标视图 $y$ 的转换过程。这些参数包含了颜色抖动的差异以及是否应用了破坏性增强的信息。

IWM 与 I-JEPA 有什么关系？

去年 6 月，Meta AI 研究团队发表论文，提出了首个基于 Yann LeCun 世界模型概念的图像联合嵌入预测架构 I-JEPA（Image Joint Embedding Predictive Architecture ）[3]，可通过创建外部世界的内部模型来学习、比较图像的抽象表示。

I-JEPA 的核心思路是以更类似于人类理解的抽象表征来预测缺失信息。与在像素 / token 空间中进行预测的生成方法相比，I-JEPA 使用抽象的预测目标，潜在地消除了不必要的像素级细节，从而使模型学习更多语义特征。

与 I-JEPA 相同的是，IWM 也是基于 JEPA（Joint Embedding Predictive Architecture ）架构，同样基于 Vision Transformer 的自监督学习方法，使用预测任务来学习图像的表示，且都强调了表示空间的重要性。

IWM、I-JEPA 虽然同属于 Yann LeCun 的「世界模型」系列，但两者同样存在着差异与不同：

对世界模型的学习和应用：I-JEPA 主要关注于从单个上下文块预测目标块的表示，而 IWM 则进一步学习了一个可以应用于多种任务的世界模型。

I-JEPA：专注于通过预测任务学习图像的表示，而不直接构建或利用世界模型。它通过预测图像块的表示来学习语义信息，但这些预测是在图像的潜在空间中进行的，而不是直接在像素空间或输入空间。
IWM：在 I-JEPA 的基础上，IWM 引入了世界模型的概念。它不仅学习图像的表示，还学习了一个能够预测图像在经过特定变换（如光度变换）后的潜在表示的世界模型。这种世界模型可以在预训练后通过微调来适应不同的下游任务，如图像分类和分割。

预测任务的复杂性：IWM 在 I-JEPA 的基础上增加了对全局光度变换的预测，这使得它能够处理更广泛的数据变换。

I-JEPA：其预测任务主要集中在局部图像块的表示上，通过掩蔽策略来引导模型学习语义表示。
IWM：IWM 的预测任务更加复杂，它不仅包括局部图像块的预测，还包括全局光度变换的预测。这意味着 IWM 需要理解和模拟图像在经过一系列变换后的整体变化，这要求模型具有更强的泛化能力。

表示的抽象级别控制：IWM 提供了对学习表示的抽象级别的控制，但 I-JEPA 的论文中没有明确提及。

I-JEPA：虽然 I-JEPA 能够学习高质量的图像表示，但它并不直接控制这些表示的抽象级别。它通过预测任务间接地鼓励模型学习有用的特征。
IWM：IWM 提供了对表示抽象级别的显式控制。通过调整世界模型的容量和预测任务的难度，可以学习从高度抽象的语义表示到更具体的像素级表示。这种灵活性使得 IWM 能够根据下游任务的需求调整其表示。

微调和下游任务的适应性：IWM 强调了微调世界模型的能力，这表明它可以在预训练后被重新用于多种下游任务，而 I-JEPA 则没有明确提到这一点。

I-JEPA：在 I-JEPA 中，预训练后的模型通常用于下游任务时需要进行额外的微调。这种微调过程可能涉及到对整个模型或特定部分的调整。
IWM：IWM 特别强调了世界模型的微调能力。通过微调世界模型，可以在不同的下游任务中重用预训练的知识，而不需要对整个模型进行大规模的调整。这使得 IWM 在多个任务之间具有更好的迁移能力。

IWM 与传统的自监督学习方法有何区别？

在论文《Learning and Leveraging World Models in Visual Representation Learning》[5]中，作者分别介绍了联合嵌入架构（Joint Embedding Architectures）与掩蔽图像建模（Masked Image Modeling）、等变预测目标（Equivariant Prediction Objectives）、BYOL（Bootstrap Your Own Latent）和 SimSiam 等传统自监督学习方法在视觉表示学习中的应用以及典型工作。
联合嵌入架构（Joint Embedding Architectures）：联合嵌入架构方法通过编码器将输入数据映射到一个共同的潜在空间，然后使用预测器来预测数据在该空间中的表示。关键点是其不依赖于显式的世界模型，而是通过编码器和预测器的联合训练来学习数据的变换。

例如，今年 6 月，Meta AI 提出的图像联合嵌入预测架构 I-JEPA，可通过创建外部世界的内部模型来学习、比较图像的抽象表示。I-JEPA 的核心思路是以更类似于人类理解的抽象表征来预测缺失信息。与在像素 / token 空间中进行预测的生成方法相比，I-JEPA 使用抽象的预测目标，潜在地消除了不必要的像素级细节，从而使模型学习更多语义特征。经测试，I-JEPA 可学习对象部分的高级表示，而不会丢弃其在图像中的局部位置信息，可在不使用手动视图增强的情况下学习了强大的现成语义表示。[3]

掩蔽图像建模（Masked Image Modeling）：在掩蔽图像建模方法中，图像的一部分被掩蔽（或遮蔽），网络被训练来预测这些掩蔽区域的内容。

举例来说，Hangbo Bao 等人提出的 BEIT，通过解码器网络充当生成图像世界模型的角色，学习如何从部分信息中重建整个图像。BEIT 受到自然语言处理中 BERT 模型的启发，提出了一种掩蔽图像建模（Masked Image Modeling， MIM）任务，用于预训练视觉 Transformer。BEIT 首次验证了生成式预训练可以取得比对比学习更好的微调结果，并在图像分类以及语义分割上取得了优异结果。更重要的是，通过摆脱对监督式预训练的依赖，BEIT 可以高效使用无标注图片将 Vision Transformers 扩展到巨大的模型规模。[6]

等变预测目标（Equivariant Prediction Objectives）：等变预测目标方法的核心思想为学习对特定变换群等变的表示，即当输入数据经过该群中的变换时，表示也以相应的方式变换。

例如，Sharut Gupta 等人提出了一种新的等变性对比学习框架 CARE（Contrastive Augmentation-induced Rotational Equivariance），旨在为神经网络表示空间引入额外的几何结构。CARE 通过在对比学习设置中引入等变性目标，理论上证明了其最小值迫使输入空间的变换对应于嵌入空间的简单（线性）变换。[7]

通过对比学习来训练网络：BYOL（Bootstrap Your Own Latent）和 SimSiam 通过对比学习来训练网络，使得网络能够学习到对数据变换不变的表示。

例如，Xinlei Chen 和 Kaiming He 提出的 SimSiam。SimSiam 是一种简单的孪生网络结构，用于无监督视觉表示学习。这种方法通过最大化同一图像的两个增强视图之间的相似性来学习有意义的表示，同时避免了解决方案的崩溃。SimSiam 的关键发现是，即使不使用负样本对、大批量或动量编码器，简单的孪生网络也能学习有效的表示。[8]