Next Token Prediction | Something Plus

type

status

date

slug

summary

为什么 OpenAI 觉得 NTP 可以实现 AGI？NTP 技术是什么？

下一个 token 预测（Next token Prediction，简称「NTP」）是许多大型语言模型（如 GPT 系列）的基石。「NTP」由「信息论」的提出者克劳德·香农在《通信的数学原理》一书中提出。

「NTP」的核心思路是通过给定一个词序列的上下文，模型预测下一个最可能的词。这种预测能力使得语言模型能够生成连贯、逻辑性强的文本，从而在机器翻译、文本摘要、自动写作等多个应用场景中发挥重要作用。

OpenAI 首席科学家 Ilya Sutskever 坚持认为 token 预测是实现 AGI 的基石，曾多次表达对于该技术路线的肯定。Ilya 认为，token 预测足以达到超人类的智能。在一次播客访谈中，Ilya 表达了其对于 token 预测的理解：

针对「大模型只是通过像统计学一样的方式来模仿人类现有的知识和能力，没有办法超越人类」的质疑，Ilya 认为，预测下一个 token 的质量反映了其对于语言背后隐藏的语义和知识的理解程度。这不仅是统计，更是对世界本质的压缩和表达。
token 预测需要建立符号到世界的联系，如果让这样的模型去预测一个睿智、博学和能力非凡的人会有怎样的行为举止，它很可能可以通过人类数据进行推理和外推。这意味着一个足够强大的语言模型，可以模拟出超越现实的假想情况。
此外，OpenAI 的研究员 Jack Rae 曾在斯坦福的研讨会上做了报告《Compression for AGI》，详细论证了「压缩即智能」，核心观点为「压缩即泛化，泛化即智能」。

「NTP」技术的基本原理：

「NTP」技术是因果语言模型的核心任务，目标是准确预测给定文本序列中下一个令牌（如单词或字符）；token 预测过程基于自回归机制，即模型一次预测一个令牌，并以左到右的顺序进行。
token 预测大多基于 Transformer 架构，尤其是其仅解码器（Decoder-Only）变体。Transformer 通过自注意力（Self-Attention）机制，允许模型在生成每个新 token 时，考虑到之前所有 token 的上下文信息，从而生成更加准确和连贯的文本。
在进行下一个 token 预测之前，文本首先需要被 token 化，即分解成模型可以理解的最小单位（即最小 token）。这些 token 随后被转换为嵌入向量，即在模型中的数值表示。为了让模型理解 token 的顺序，每个 token 的嵌入向量会与位置嵌入向量相加，这样模型就能够捕捉到序列中的位置信息。
大型语言模型通过在大规模文本数据集上进行预训练来学习下一个 token 预测。这一过程是自监督的，意味着模型通过预测文本序列中的下一个 token 来自我训练，而无需外部标注的训练数据。通过这种方式，模型学会了理解和生成自然语言。

NPT 能做 LLM，还能训机器人？？[4]

传统机器人的运动高度往往依赖于人工输入准确的预测接触点和执行器方向等信息，机器人只能在人类规定的路径中较好地运动和控制肢体动作，但到真实环境中难以适应及泛化。

伯克利研究团队的该项工作将「NTP」技术引入到了机器人领域，以类似方式来学习强化感官、运动表示模型。简单来说，该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题:

首先，研究者把仿人机器人的感觉运动轨迹视作类似于自然语言中的单词序列，将感觉输入（如来自传感器的数据）和运动输出（如电机指令）的输入轨迹 token 化，组成轨迹的「单词」和「句子」;
然后为了处理这些轨迹，研究人员训练了一个通用的 Transformer 模型来自回归地预测移位的输入序列。但与语言模型不同的是，机器人数据是高维的，包含多个感官模态和动作;
机器人控制数据是多模态的，包含了不同类型的感觉输入和运动输出。研究者们通过将输入轨迹进行标记化，然后训练 Transformer 模型来预测这些标记，从而处理了这种多模态性。同时，模型能够预测完整的输入序列，包括感官和动作标记。研究团队在建模联合数据分布，而不是条件动作分布。

同时，研究团队发现，当轨迹是不完整的情况下，即感觉或运动信息是缺失时，可以通过预测存在的信息，并用可学习的掩码标记替换缺失的标记来从中学习。通过该方法，模型能够从不完整的数据中学习，并提高其泛化能力，使得模型在面对真实世界中常见的不完美或缺失数据时，仍然能够有效地工作:

预测现有信息：对于不完整的轨迹数据，模型会预测那些仍然存在的信息。这意味着，如果轨迹中缺少某些感觉或运动数据，模型会尽力根据可用的信息进行预测。
使用可学习的掩码标记：对于那些缺失的信息，模型不会忽略它们，而是使用特殊的标记（称为「掩码标记」）来表示这些缺失的部分。这些掩码标记是可学习的，意味着模型会在训练过程中调整它们，以更好地理解和处理缺失数据的情况。

此外，研究团队还构建了一个轨迹数据集用于训练模型，数据集包含了来自不同来源的轨迹，从而用来确保模型能够学习到丰富的感觉运动模式。数据集的数据来源自：

先前的神经网络策略：研究者们使用了通过大规模强化学习训练的神经网络策略生成的轨迹。这些轨迹是在模拟环境中收集的，包含了完整的感觉观察和动作命令;
基于模型的控制器：Agility Robotics 开发的基于模型的控制器，提供了在平坦地面上行走的轨迹，但只包括感觉观察而不包括动作命令，因为控制器输出的是关节扭矩，与研究者们的动作空间不一致;
人类运动捕捉数据：人类运动捕捉（MoCap）数据，这些数据通过光学标记跟踪在实验室环境中记录。研究者们使用这些数据中的站立、行走和跑步轨迹，并通过逆运动学优化问题将这些轨迹重新定位到机器人上;
YouTube 视频：研究者们利用了 YouTube 上的视频，这些视频中包含了人类进行各种活动的画面。通过计算机视觉算法，他们从视频中提取了 3D 人体轨迹，并使用逆运动学优化将这些轨迹重新定位到机器人上。

值得一提的是，研究者验证了「Scaling」定律在机器人控制领域同样有效。研究者经过实验发现，使用更多轨迹进行训练可以减少位置跟踪误差，表明了在更大的数据集上训练可以提高性能:

研究者同样研究了在 Transformer 的上下文窗口中使用不同数量的 tokens 对模型性能的影响。结果表明，更大的上下文窗口可以产生更好的策略，这表明生成策略在规模上进行一种上下文适应，随着规模的增加而改善。
在参数规模方面，研究结果显示，跟踪误差随着模型参数规模增大而逐渐减少。

「Next Action Prediction」的技术路线能走通吗？

将类似「NTP」技术的思路用在人形机器人的运动控制中的技术路线能否真正走通，以及是否存在一定的局限性，该项工作的技术论文中并未提及。对于该技术路线是否有效，有 Reddit、X 网友表达了质疑:

一位 Reddit 网友在阅读论文后，对「观测」和「行动」的概念感到疑惑，他表示，「文档中将动作定义为动作命令，但又提到控制器输出电机扭矩，这似乎与关节位置行动空间不一致。观测数据包括关节位置和惯性传感器信息，关节位置既是预测目标也是输入。尽管控制器理论上可以处理这些输入以运行机器人，但仍不清楚具体实现的细节。」
推特网友 Knut Jägersberg 认为，「下一个词元预测仅构建了一个有用的映射，但它并不是一个适用于更高层次机器智能的完整解决方案。就像被斩首的鸡可以飞行，但这并不意味着它具有远见。」
推特网友 Lwin Moe Aung 表示，「我好奇的是，即使是简单的行走 10 秒钟，你也需要 10,000 条轨迹。而这些轨迹很难收集。」

同时，对于「NTP」技术本身是否有效，也存在着一定的争议，包括：

存在所谓的「雪球效应」现象，即每个步骤的错误率很小，但错误可能在长序列中指数级累积，导致整体准确性显著下降。
模型可能会学习到错误的规划策略，在需要前瞻性规划的任务中表现不佳，模型可能无法有效地学习如何制定和执行长期计划。
为了模拟人类思维，需要模拟快速和慢速两种类型的思考过程。
本身存在有些下一个 token 可能很难学习，需要对未来的全局理解。

虽然，在伯克利的这项研究中，并未提到「NTP」技术在人形机器人的运动控制中存在哪些局限性。但在近期来自苏黎世联邦理工学院和谷歌研究院的研究者发表的论文《The Pitfalls of Next-token Prediction》中，全面地总结了「token 预测」技术在大语言模型中存在的问题及局限性，可以作为参考:

在该论文中，研究者指出了当前大部分争议的关键在于没有区分推理阶段的自回归（模型将自己之前的输出作为输入）和训练阶段的 teacher-forcing（模型逐个对 token 进行预测，将所有之前的真值 token 作为输入）两种类型的 token 预测方式。如果不能对这两种情况做出区分，当模型预测错误时，对复合误差的分析往往只会将问题导向至推理过程，会误以为是模型执行方面的问题。

同样，该篇论文的研究者通过实验，指出了「token 预测」技术当前存在的问题与局限性：

在自回归推理过程中，即使每个步骤的错误率很小，错误也可能在长序列中指数级累积，导致整体准确性显著下降。(雪球效应)
下一个 token 预测模型可能在需要前瞻性规划的任务中表现不佳。模型可能无法有效地学习如何制定和执行长期计划，尤其是在面对复杂的问题解决和创意写作任务时。
教师强制训练可能无法学习到准确的下一个 token 预测器。这是因为在某些任务中，模型可能会利用输入中揭示的答案前缀来生成未来的词，而不是学习如何从问题本身推导出答案。
教师强制训练可能会诱导模型使用「Clever Hans 作弊」，即模型可能会利用输入中揭示的答案前缀来生成未来的词，而不是学习如何从问题本身推导出答案。
教师强制训练可能导致早期答案词变得难以学习，因为模型在训练过程中失去了关于完整答案的监督，使得这些词成为了「难以解读的词」。
研究者设计了一个简单的规划任务，该任务在 Transformer 和 Mamba 架构上实验均失败，表明即使在简单的路径查找任务中，模型也可能失败。「token 预测」是否能够泛化到更复杂或不同类型任务，存在疑问。

通用人形机器人控制还有哪些潜在技术路线？

通用人形机器人在面对真实世界环境时，往往需要解决动作规划、路径规划、运动控制和力触觉等方面的问题，具身智能技术为人形机器人的控制实现提供了技术基础。目前，具身智能技术的发展主要有三个方向：

多模态大模型：多模态大模型利用视觉、语言等多种传感器数据，通过深度学习技术进行训练，以提高机器人在复杂环境中的感知和决策能力。多模态大模型在自动驾驶汽车、机器人抓取和交互等领域有广泛应用，能够提供强大的感知能力和泛化性，处理多种类型的数据，但需要大量的标注数据进行训练，且对于环境变化的适应性有待提高。
具身大模型：具身大模型专注于解决具身智能任务，使用具身数据进行训练，强调智能体与物理世界的直接交互。具身大模型能够直接从物理交互中学习，更好地理解环境和执行任务；缺点是数据收集和模型训练可能更加复杂和成本高昂。
自然模态世界模型：自然模态世界模型通过自然模态（如视觉、听觉）学习世界的层级化抽象，构建能够预测行动后果的动态世界模型，在提高机器人的自主性和长期规划能力方面具有潜力，特别是在需要复杂决策和预测的场景中。但就目前，构建准确的世界模型非常具有挑战性，需要对环境有深刻的认识。

针对于多模态基础大模型，斯坦福大学和普林斯顿大学等机构发表的综述论文《Foundation Models in Robotics: Applications， Challenges， and the Future 》将用于机器人领域的基础模型分为两类：

间接与机器人研究相关联的基础模型，涉及感知（perception）和具身智能（Embodied AI）方向的研究。感知方面基础模型涉及处理开放词汇对象检测和 3D 分类、开放词汇语义分割、开放词汇 3D 场景表示和可供性（affordances）；具身智能方面的基础模型则有 Statler、EmbodiedGPT、Voyage、ELLM 等代表性工作;
直接用于机器人领域的基础模型，面向五类机器人任务，分别为机器人策略学习、语言-图像目标条件价值学习、高级任务规划、基于 LLM 的代码生成和 Robot Transformer。其中，基于 Robot Transformer 的基础模型能够基于一个整合感知、决策制定和动作生成的框架，用于机器人的端到端控制。[6]

GenAI 走了多远才带来 Sora 和 Suno？

以 Sora 和 Suno 为代表的生成模型发展至今经历了多个阶段，衍生了不同的技术范式和代表性方法。综合服务网络国家重点实验室、西安电子科技大学和上海人工智能实验室等机构的研究者近期发布综述，梳理了长视频生成技术的进展。Emulation AI、字节新加坡 AI 实验室和平安科技等机构的研究者则在 2023 年 9 月发布综述，讨论了大型语言模型应用于音频信号处理领域的最新进展和挑战。

视频生成模型发展至今，经历了多个阶段，期间出现了许多流行的方法。在「长视频生成综述」中，研究者对此进行了总结：

空间自回归模型 （Spatial Auto-regressive Models）：最早追溯到 2013 年左右，由 Alex Graves 等人提出，他们使用递归神经网络生成序列，特别是空间自回归模型来生成视频内容。
生成对抗网络 （GAN）：在 2014 年首次提出，通过对抗过程生成数据。在视频生成领域，GANs 被用来从简单的噪声模式生成逼真的视频帧序列。
扩散模型 （Diffusion Models）：最初是为静态图像设计的，但随着时间的推移，这些技术被适应和扩展到了视频生成领域，从随机噪声序列开始，通过迭代细化过程生成连贯的视频序列。
掩码建模 （Mask Modeling）：通过在训练期间对视频帧的某些部分应用掩码，迫使模型基于可见上下文和视频的时间流动预测这些被掩码的部分。
视频生成的质量和资源优化：随着长期视频生成技术的发展，研究人员开始关注生成过程中的质量和资源优化问题，在时空一致性、内容连续性、长视频多样性方面提出了多种方法。

研究者在综述中还总结了长视频生成领域中的两种主要范式，分别为分而治之 （Divide and Conquer）范式和时间自回归 （Temporal Autoregressive）范式：

分而治之范式将长期视频生成任务分解为更小、更易于管理的子任务，专注于创建关键帧或短片段，然后将它们逻辑性地组装起来形成完整的长视频。
时间自回归范式基于时间序列分析的原理，通过迭代预测机制来生成视频，其中每个时间步骤的输出作为下一个时间步骤的输入，侧重于直接生成详细的视频片段，这些片段是基于先前帧的信息。

音频/音乐生成方面，与传统的自然语言处理相比，音频处理需要应对更多的挑战，因为音频信号具有多种不同的表示形式和广泛的来源。相比传统的音频处理方法，基于 Transformer 架构的大型音频模型已经在自动语音识别、文本到语音转换以及音乐生成等多种音频任务中展现出优异的性能。

传统音频处理方法：在深度学习出现之前，音频处理主要依赖于精心设计的手工特征和丰富的语言学知识。这些方法虽然有效，但往往缺乏可扩展性，并且在处理音频信号的变异性和复杂性方面存在挑战。
基于深度学习的音频处理：随着深度学习技术的兴起，特别是卷积神经网络（CNNs）的应用，音频处理开始向数据驱动的方法转变。这些方法通过从原始数据中学习复杂的音频模式，提高了处理能力。
序列到序列（seq2seq）架构：为了更好地处理序列数据，研究者们开发了 seq2seq 架构，如循环神经网络（RNNs）和长短期记忆网络（LSTMs）。这些模型能够处理长序列数据，但仍然存在梯度消失或爆炸的问题。
Transformer 架构的引入：Transformer 模型通过自注意力机制解决了长期依赖问题，能够更有效地捕捉输入序列中的远距离关系。这种架构在自然语言处理领域取得了巨大成功，并逐渐被应用于音频处理。
大型音频模型（Large Audio Models）：随着模型规模的扩大，音频领域也开始发展大型音频模型。这些模型通过在大量数据上进行预训练，如 SpeechGPT、AudioPaLM、AudioLM 等。
多模态和跨领域应用：最新的发展趋势是将音频模型与其他模态（如文本和图像）结合，以及开发能够处理多种任务的通用模型。例如，SeamlessM4T 是一个多模态翻译模型，能够处理多达 100 种语言的翻译任务。

GenAI 走向商业化还有什么问题要解决？

生成式 AI 所面临的版权问题长期受到关注，从模型训练所采用的数据，到生成内容与艺术家或作品风格的相似性，乃至 AI 在艺术创作中的角色和伦理责任均需要得到明确的处理和规范。

AI 模型的算力成本是实现商业化中无法绕过的问题。Factorial Funds 在分析文章中为 Sora 算了一笔账，发现：

Sora 的训练对算力规模的要求巨大，可能需要在 4200-10500 张 Nvidia H100 上训练 1 个月。
随着类似 Sora 的模型得到广泛部署，模型的推理成本将成为主要消耗。其临界点在于生产 1530 万到 3810 万分钟的视频后，模型推理的计算量将超过原始训练的计算量。
在上述推断下，当前 TikTok 用户每天上传的视频为 1700 万分钟，YouTube 则为 4300 万分钟；假设 TikTok 和 YouTube 等流行平台上大量采用人工智能来生成视频，并考虑到硬件利用率和使用模式，估计 Nvidia H100 的峰值需求约为 72 万用于推理的 GPU。