📝SORA & 世界模型
2024-2-26
| 2024-4-1
1362  |  阅读时长 4 分钟
type
status
date
slug
summary
tags
category
icon
password
世界模型
本文为「机器之心 Pro 2024 Week 08 业内通讯」摘抄整理

SORA

  1. Diffusion Transformers 的技术被认为来源于 Sora 作者之一 William Peebles 的论文《Scalable diffusion models with transformers
    1. 在该论文中,研究者提出了一种基于 transformer 架构的新型扩散模型,即 DiT。研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。然后通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。
  1. OpenAI 在技术报告中阐述了 Sora 的几项能力,包括:
    1. 3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动
      长程一致性物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性
      与世界互动。Sora 有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。
      模拟数字世界。Sora 能够模拟人工过程,例如在视频游戏中,Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。

世界模型」:

  1. 2018 年,David Ha 和 Jürgen Schmidhuber 发表论文《World Models》,但并未论文中给出「世界模型」的定义,而是将心智模型的概念引入到了机器学习模型的构建中。
    1. 心智模型:我们头脑中关于周围世界的印象,只是一个模型;
    2. 我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。
  1. Yann LeCun 在《A Path Towards Autonomous Machine Intelligence》中,将世界模型的描述为:
    1. 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。
      ② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。
      ③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。
  1. 南京大学人工智能学院 俞扬 认为,「世界模型」的核心反事实推理(Counterfactual reasoning),即:对于在数据中没有见过的决策,在世界模型中都能推理出决策的结果。
    1. ① Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。
      ② 当前 AI 研究者对于「世界模型」的追求,是试图超越数据,进行反事实推理,回答 what if 问题能力的追求。
  1. 未来实验室的首席专家 胡延平 认为,Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型
    1. ① Sora 主要是基于二维视觉的压缩扩散和时空表达,而不是一个物理引擎。Sora 的技术并不是基于物理世界规律的多维表征,而是通过视频生成模型的规模扩大,尝试构建能够模拟物理世界的通用模拟器。这意味着 Sora 更多地关注于二维视觉的生成和表达,而不是深层次的物理世界模拟。
      ② 尽管 Sora 展现出了生成逼真视频的能力,但其背后并不是基于物理规则或内在形状的数字构建。Sora 的工作原理更多是基于像素、位置、时空信息的变化和表征,而非直接模拟物理世界的规律。这表明 Sora 的技术实现和物理引擎之间存在本质的差异。
 
机器学习
  • 机器学习
  • 科研
  • 摘抄
  • ICLR2024 | 更通俗的语言讲解FedRAP「Foundation Agent」 VS 「AI Agent」