Hierarchical Sequential Transduction Unit

type

status

date

slug

summary

一 Scaling Law

Scaling Law 是 OpenAI 在 2020 年针对大模型提出的一个概念[3]，当前也被认为是 AI 领域的一种第一性原理。

第一性原理

第一性原理（First Principles）是指从基本的物理定律出发，不依赖于经验数据或假设，通过数学推导来描述和预测物质的性质和行为的理论。

在物理学和化学中，第一性原理通常指的是量子力学的基本方程，如薛定谔方程，以及统计力学的基本原理。通过解这些方程，可以得到关于原子、分子和材料的精确信息。第一性原理方法在材料科学、固体物理学和计算化学等领域中非常重要，因为它们允许科学家在不依赖实验数据的情况下预测新材料和化学过程的特性。

Scaling Law 用于分析随着模型参数两规模（Model size） N 的增大，其性能（Performance）L、计算量(Compute amount) C 或数据量（Dataset size）D 等方面的变化规律，原文中存在以下核心结论：

对于基于 Transformer 中 Decoder-only的模型，有 $C \approx 6ND$ ；

对于计算量 C、模型参数量 N 和数据量 D，当不受其他两个因素制约时，模型性能与每个因素都呈现幂律关系（图 1）；

模型的最终性能 L 主要与计算量 C、模型参数量 N 和数据量 D 三者相关，而与模型的具体结构(层数/深度/宽度)基本无关（图 2）；

为了提升模型性能，模型参数量 N 和数据量 D 需要同步放大，但模型和数据分别放大的比例还存在争议:

OpenAI 认为[3]，每增加10倍的计算量，应该让数据集大小增加为约1.8倍，模型参数量增加为约5.5倍。换句话说，OpenAI认为，模型参数量更加的重要。
DeepMind 认为[4]，每增加10倍的计算量，应该让数据集大小增加为约3.16倍，模型参数量也增加为约3.16倍。换句话说，DeepMind 认为数据集大小和模型参数量一样重要。

Scaling Law 不仅适用于语言模型，还适用于其他模态以及跨模态的任务。

图 1. 随着模型大小、数据集大小和用于训练的计算量的增加，语言建模性能逐渐提高。

图 2. 当非嵌入（Non-Embedding）参数的总数 N 保持不变时，性能几乎不依赖于模型形状。

二行动胜过言语

Motivation: 传统的大规模推荐系统基于海量用户行为数据，构造海量高基数和异构特征进行深度模型训练。尽管模型规模已经很庞大了，但如果想进一步进行scaling，则非常困难。数十亿用户规模的推荐系统所面临的三类主要挑战：

特征缺乏显式结构：海量异构特征，如高基数ids、交叉特征、计数特征、比例特征等。

需要处理数十亿级别的动态词汇表：如ID/属性等。与语言模型中的10万量级静态词汇形成了鲜明对比。

这种数十亿级别的动态词汇表不断变化，给训练带来很大挑战；
且线上需要以目标感知target-aware的方式给数以万计的候选集打分，推理成本巨大。

计算成本是限制落地的最大瓶颈： GPT-3在1-2个月的时间内使用数千个GPU进行了总计300B tokens的训练。从这个规模上来看，似乎令人望而却步，但与推荐系统用户行为的规模相比就相去甚远了。最大的互联网平台每天为数十亿用户提供服务，用户每天与数十亿条内容、图片和视频进行交互。在极端情况下，用户序列的长度可能高达10^5。因此，推荐系统每天需要处理的tokens数量甚至比语言模型在1-2个月内处理的数量还要大好几个数量级。

为了解决上述挑战，实现推荐系统的scaling，Meta提出了一种新架构HSTU (Hierarchical Sequential Transduction Unit，层次化序列直推式单元) ，专为高基数、非平稳分布的流式推荐数据而设计。核心贡献如下：

统一的生成式推荐(Generative Recommendation, GR) 第一次在核心产品线替换掉了近十年推荐工业界长期使用的分层海量特征建模范式；

新的 Encoder (HSTU) 通过新架构 + 算法稀疏性加速达到了模型质量超过 Transformer + 实际训练侧效率比 FlashAttention2 (目前最快的 Transformer 实现）快15.2倍 (8192长度序列)；

通过新的推理算法 M-FALCON 达成了推理侧700倍加速（285倍复杂模型，2.48x推理QPS）；

在传统测试集 MovieLens/Amazon Reviews上，相比经典的 SASRec 在 NDCG@10 上提升 20.3%~65.8%；

实际中多产品界面上线，单特定 ranking 界面提升 12.4%，如果把召排阶段提升加起来，可达到 18.6%(排序 12.4%，召回 6.2%)；

通过新架构 HSTU +训练算法 GR，模型拥有 1.5 万亿个参数，模型总计算量达到了 1000x 级的提升，第一次达到 GPT-3 175b/LLaMa-2 70b 等LLM训练算力，且第一次在推荐模系统中观测到了类LLM的的 scaling law。

值得重点强调的是，GR 的效果经验性地以训练计算量的幂律方式进行 scaling，跨越了三个数量级，最高可达到 GPT-3/LLaMa-2 规模。如图 3 是过去几年深度学习模型的总计算量趋势图。可以看到 GR-24 已经接近 LLaMa-2 的量级了。

如何重塑推荐系统

在推荐系统问题“重塑” 上，有几个核心洞察点：

将“用户行为”当做一种新模态：传统非结构化的图片、视频、文本是模态；结构化的画像、属性也是模态；将用户行为定义为“新模态”，就能够实现海量词表所有模态间的充分交叉，无损信息输入。是这篇工作抽象出来最妙的点之一。

在给定合适的特征空间下，能够重塑推荐系统核心召回、核心排序问题：如何将传统海量的异构特征做转换，转成生成式任务输入格式也是非常基础非常重要的步骤。本文方案也有可能成为生成式推荐系统“标配”的输入范式。

在这一新范式下，能够系统性地解决传统推荐系统中的特征冗余、计算冗余、推理冗余等关键性能瓶颈问题：节省大量的计算资源和耗时，提升整体推荐系统的效率。例如，相比传统推荐系统分层架构给多个候选打分，新范式在多个候选集打分时能复用算力，实现一次推理同时预估所有候选 items。节省下来的算力给到大模型进行一次更复杂的推理。整体系统耗时不一定会上涨。这也是工业界落地所亟需的。本文方案回答了困扰我们很久的问题，即：大模型在推荐系统的性能问题该怎么解决。在传统工程架构下叠加大模型能力肯定无法落地，但在新架构新范式下，是有可能实现整体系统层面耗时的摊销。

上述3个核心洞察，能够实现推荐系统的 scaling，解决传统推荐系统海量异构特征、海量动态词表、计算瓶颈这三个方面工业级难题：

海量异构特征：通过给定适当的新特征空间， 将核心排序和检索任务转化为生成建模问题。

海量动态词表：通过自回归建模、Transformers架构定制、采样优化等实现海量动态词表间高阶信息交互和提取。

计算瓶颈：通过稀疏性优化、内存优化、算子融合、候选集算力复用和计算摊销来实现高吞吐、低时延。

HSTU 设计

在对比HSTU编码器与Transformer结构时，考虑到推荐系统的领域特点，HSTU设计中最核心的几个点包括：

稀疏性优化：推荐系统处理的数据通常是高度稀疏的，HSTU通过去除Softmax函数并采用按位点乘的方式，直接处理稀疏特征，从而优化了模型对稀疏数据的处理能力。这一点与传统Transformer中使用Softmax进行归一化的概率分布形成鲜明对比，后者在处理稀疏数据时会导致效率低下。

特征交互：HSTU利用按位点乘来实现特征间的交互，类似于PPNet或FM中的操作，这种设计特别适合捕捉推荐系统中特征间的复杂交互关系。相比之下，Transformer结构中的自注意力机制侧重于全局依赖关系，而不是特征间的直接交互。

计算效率：HSTU的设计显著提高了计算效率，特别是在长序列处理上。去除Softmax函数后，HSTU避免了昂贵的指数运算和归一化步骤，使得自注意力机制的计算复杂度从二次降低到线性，这对于处理推荐系统中的长用户行为序列至关重要。

动态词汇表适应性：推荐系统需要能够快速适应动态变化的词汇表，如新物品的加入和旧物品的移除。HSTU 的设计允许模型灵活地处理这些变化，而不需要频繁的重新训练，这一点对于保持推荐系统的最新状态和相关性非常重要。

参考文献

Zhai, Jiaqi, et al. "Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations." arXiv preprint arXiv:2402.17152 (2024).

Zhang, Buyun, et al. "Wukong: Towards a Scaling Law for Large-Scale Recommendation." arXiv preprint arXiv:2403.02545 (2024).

Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型

一 Scaling Law

二 行动胜过言语

如何重塑推荐系统

HSTU 设计

参考文献

二行动胜过言语