type
status
date
slug
summary
tags
category
icon
password
世界模型
本文为「机器之心 Pro 2024 Week 08 业内通讯」摘抄整理
SORA
- Diffusion Transformers 的技术被认为来源于 Sora 作者之一 William Peebles 的论文《Scalable diffusion models with transformers》
在该论文中,研究者提出了一种基于 transformer 架构的新型扩散模型,即 DiT。研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。然后通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。
- OpenAI 在技术报告中阐述了 Sora 的几项能力,包括:
① 3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。
② 长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。
③ 与世界互动。Sora 有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。
④ 模拟数字世界。Sora 能够模拟人工过程,例如在视频游戏中,Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。
「世界模型」:
- 2018 年,David Ha 和 Jürgen Schmidhuber 发表论文《World Models》,但并未论文中给出「世界模型」的定义,而是将心智模型的概念引入到了机器学习模型的构建中。
- 心智模型:我们头脑中关于周围世界的印象,只是一个模型;
- 我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。
- Yann LeCun 在《A Path Towards Autonomous Machine Intelligence》中,将世界模型的描述为:
① 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。
② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。
③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。
- 南京大学人工智能学院 俞扬 认为,「世界模型」的核心是反事实推理(Counterfactual reasoning),即:对于在数据中没有见过的决策,在世界模型中都能推理出决策的结果。
① Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。
② 当前 AI 研究者对于「世界模型」的追求,是试图超越数据,进行反事实推理,回答 what if 问题能力的追求。
- 未来实验室的首席专家 胡延平 认为,Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型。
① Sora 主要是基于二维视觉的压缩扩散和时空表达,而不是一个物理引擎。Sora 的技术并不是基于物理世界规律的多维表征,而是通过视频生成模型的规模扩大,尝试构建能够模拟物理世界的通用模拟器。这意味着 Sora 更多地关注于二维视觉的生成和表达,而不是深层次的物理世界模拟。
② 尽管 Sora 展现出了生成逼真视频的能力,但其背后并不是基于物理规则或内在形状的数字构建。Sora 的工作原理更多是基于像素、位置、时空信息的变化和表征,而非直接模拟物理世界的规律。这表明 Sora 的技术实现和物理引擎之间存在本质的差异。