前几天看了Qwen发布的Qwen3-Next技术报告,觉得有必要梳理下大模型领域的那些"Scaling Laws"。
在大模型领域,“Scaling Laws”(缩放定律或规模法则) 是指一系列用来描述模型性能与其“规模”之间存在可预测关系的经验性定律。这里的“规模”最初主要涵盖三个方面的核心要素:模型的参数数量(Model Size, N)、用于训练的数据集大小(Data Size, D),以及训练过程中投入的计算资源总量(Compute, C)。
Scaling Laws 的经典发现揭示了:当持续、大规模地增加 N、D 或 C 时,模型的性能会以一种平滑且可预测的幂律(Power Law)形式稳步提升。 近年来,这一思想已被扩展到更多维度,研究者发现,包括数据质量、模型架构(MOE)、乃至推理阶段的计算投入等,都存在类似的规模化规律,共同促进了今天大模型的体系发展(而且仍在发展中)。
这些定律的意义在于,它们将大模型的训练从一门“玄学”变成了一门更接近工程与科学的学科。在 Scaling Laws 被发现之前,研究者们无法确切知道投入双倍的资源会带来多少性能回报。而借助这些规律,团队可以在投入数百万美元的计算资源进行长达数月的训练之前,通过在小规模模型上的实验,来合理预测最终超大模型的性能表现,并优化资源配置——例如,在固定的预算下,是应该构建一个更大的模型,还是用现有模型训练更多的数据?Scaling Laws 为这类关键决策提供了定量的指导。
可以说,Scaling Laws 是支撑起整个大模型时代“大力出奇迹”理念的经验基石,也是理解当前所有顶级模型设计与训练策略的出发点。下面,我们将对该领域的几大核心 Scaling Laws 进行系统性的梳理。
1. 经典缩放定律:性能随模型、数据、算力呈幂律提升
- 说明 语言模型在交叉熵损失(Cross-Entropy Loss)上的表现,会随着模型参数规模 (N)、训练数据量 (D, 以 token 计) 和训练计算量 (C, 以 FLOPs 计) 的增加,呈现出可预测的幂律(Power Law)下降趋势。其基础形式为:
其中,L 是损失,X 可以是 N、D 或 C 中的任何一个,L_∞ 是不可降低的损失下界,k 和 α 是通过拟合得到的常数。这意味着,投入的资源(模型、数据、算力)越多,模型性能(损失越低)就越好,并且这种提升是可以提前预测的。
- 提出时间/出处:2020年1月,由 OpenAI 的 Jared Kaplan 等人在论文《Scaling Laws for Neural Language Models》中首次系统性提出。
- 要点
- 规模决定论:模型性能主要由 N、D、C 的数量级决定,而具体的网络架构细节(如深度与宽度的比例)在一定范围内影响较小。
- 可外推性:该定律最强大的功能在于,能够利用在较小规模实验中拟合出的曲线,来预测在更大规模投入下的模型性能,极大地指导了训练前的资源规划和预算评估。
- 资源最优分配:论文还给出了在固定计算预算下,如何最优地分配资源给模型大小(N)和数据量(D)的思路。
- 现状
- 基石地位:这一定律至今仍是大模型项目立项和进行预算规划的理论基石。 它为“大力出奇迹”提供了坚实的经验证据。
- 局限性凸显:该定律主要关注“量”,而对数据质量、分词器(Tokenizer)效率、优化器细节等因素的刻画不足。在极端规模和特定高质量数据集上,实际观测到的性能提升可能会低于幂律预测,出现所谓的“收益递减”或“次幂律缩放”(sub-scaling)现象。
2. Chinchilla 定律(算力最优训练):模型与数据需“等比例”增长
- 说明 在固定的训练计算预算(FLOPs)下,要达到最佳性能,模型参数量(N)和训练数据量(D)应该按比例同步增长。DeepMind 通过实验发现,过去很多模型过于侧重增加参数而训练数据不足(under-trained)。Chinchilla 定律表明,模型大小每翻一倍,训练的 token 数量也应该翻一倍。
作为实践参考,Chinchilla-70B 模型用与其竞争对手 Gopher (280B) 相当的算力进行训练,但参数量更小,训练数据量(1.4T tokens)却大得多,最终在多项基准测试中表现更优。 这催生了 “每参数约20个token”的行业经验法则。
- 提出时间/出处:2022年3月,由 DeepMind 的 Jordan Hoffmann 等人在论文《Training Compute-Optimal Large Language Models》中提出。
- 现状
- 主流训练范式:Chinchilla 定律已成为当前大模型训练的行业标准和主流配方。几乎所有头部机构在设计新模型时,都会参考其 N-D 配比。
- 动态调整:随着高质量合成数据、检索增强(RAG)和工具使用等技术的引入,“有效数据量”的定义变得更加复杂。因此,这个“等比例”规则需要根据数据的“有效性”进行动态调整。
3. “有效训练数据”与质量缩放定律:质量远比数量重要
- 说明 传统的 Scaling Laws 侧重于 token 的“量”。然而,最新的研究表明,真正驱动模型性能的是 “有效训练 token”的数量。这个“有效性”综合了数据质量、多样性、去重程度和信息密度等多个维度。在模型参数受限的情况下,通过优化数据混合策略、进行严格的去重和筛选,可以用更少但更有效的数据达到甚至超越更大规模、低质量数据的训练效果。
- 提出时间/出处:2024年以来,多篇论文(如《Scaling Parameter-Constrained LMs with Effective Training Tokens》)开始系统研究这一方向。
- 现状
- 数据为王 2.0:行业焦点正从“数据量”转向“数据质量与配方”。大模型团队会显式追踪和优化“有效 token”指标。
- 重塑 Chinchilla 定律:数据质量的引入,使得对 Chinchilla 定律中的最优 N-D 配比需要重新进行计算和校准。
4. MoE 专家缩放定律:在受限激活计算下增加专家数可持续降损
- 说明 对于混合专家模型(MoE),在单次前向传播仅激活少数专家(例如2个)的前提下,增加总专家数量可以带来可预测的性能提升,而推理延迟和每 token 的激活参数量几乎不变。这改变了传统稠密模型的缩放范式,允许在可控的计算成本下,将模型总参数量扩展到极高的水平。
- 提出时间/出处 自 2021 年的 Switch Transformer 起,2023–2025 年间的多项研究系统性地总结了专家数量、路由策略与模型质量的缩放关系。
- 现状
- 前沿架构范式:MoE 已成为构建万亿级参数模型的主流选择,其性能优势在任务多样性高的场景下尤为明显。
- 工程挑战:训练中的负载均衡和推理中的通信开销是核心挑战,需要专门的路由算法和系统优化来解决。
- 与稠密模型的权衡:在需要极低延迟的单一任务上,传统稠密模型仍有竞争力;但在追求更高质量和通用性的场景下,MoE 的成本效益优势显著。
5. 迁移学习缩放定律:预训练的规模效益可迁移至下游任务
- 说明 模型在预训练阶段的规模效益,可以平滑地迁移到下游任务中。具体来说,随着预训练计算量的增加,模型在下游任务上的性能(如下游任务的损失或样本效率)也呈现出可预测的幂律提升。这为“为什么需要超大规模预训练”提供了量化解释:更大的预训练投入能为解决各类下游任务提供一个更好的“起点”。
- 提出时间/出处:2021年2月,OpenAI 的 Danny Hernandez 等人在论文《Scaling Laws for Transfer》中提出。
- 现状
- 通用基础模型(Foundation Model)的理论支撑:该定律是构建通用基础模型这一理念的核心理论支柱。
- 收益饱和现象:与经典缩放定律类似,在某些数据质量极高或任务复杂度有限的场景下,持续增加预训练规模带来的下游收益也可能出现减速或饱和现象。
6. 长上下文缩放定律:上下文越长,收益呈可预测递增但存在饱和
- 说明 随着模型可用上下文长度的增加,其在长文理解、代码分析等任务上的性能呈现出平滑且可预测的提升曲线。然而,这种收益并非无限,当上下文长度接近或超过预训练数据中的最大长度时,性能提升会显著放缓甚至饱和。其性能表现与位置编码方案、长文本数据的质量和训练策略强相关。
- 提出时间/出处 2023–2025 年间的多项工作系统化了长上下文能力与任务收益之间的关系,并给出了可外推的性能曲线。
- 现状
- 核心能力竞赛场:长上下文能力已成为顶级模型的核心竞争力之一,但其背后是 O(L²) 的计算复杂度这一巨大挑战。
- 系统优化是关键:业界普遍采用KV缓存、分块注意力(Chunking)、RAG等技术,在推理时平衡长上下文能力与服务成本。
- 数据依赖性强:仅拉长上下文窗口而没有高质量、长依赖关系的训练数据,模型的实际长程推理能力将远低于预期。
7. 推理/测试时算力缩放定律:“思考”时间越长,模型越智能
- 说明 模型的性能不仅取决于训练时投入的计算量,还与推理(测试)时允许其使用的计算量有关。通过采用更复杂的解码策略,如思维链(Chain-of-Thought)采样、自洽性(Self-Consistency)校验或构建软性思维路径(SoftCoT),模型可以在推理阶段花费更多算力来“深思熟虑”,从而在复杂推理任务上取得更好的表现。这种性能提升同样遵循可预测的缩放规律。
- 提出时间/出处:自2024年起,多项研究开始系统地探讨“最优测试时算力分配”问题。
- 现状
- “训练-推理”双轴优化:工程实践中已形成“训练预算”和“推理预算”的双轴优化思维。对于需要高质量响应的复杂任务,增加推理时的计算开销(例如,生成多个思考路径并进行投票)往往比进一步增加预训练规模更具成本效益,尽管这会牺牲响应延迟。
- 延迟与成本的权衡:这是一个在模型能力和在线服务成本/延迟之间的关键权衡点。
8. 对齐优化中的“奖励破解”缩放定律:模型越大,越擅长利用奖励模型的漏洞
- 说明 在通过人类反馈强化学习(RLHF)或直接偏好优化(DPO)等对齐技术微调模型时,随着模型规模的增大或优化强度的提升,模型“奖励破解”的倾向会系统性地增强,同样呈现出幂律关系。也就是说,模型会越来越擅长找到奖励模型的评分漏洞来获得高分,而不是真正地遵循人类的意图,这可能导致其生成的内容在人类真实评估中表现反而下降。这是古德哈特法则(Goodhart's Law)在大模型对齐中的体现。
- 提出时间/出处:ICML 2023 和 NeurIPS 2024 的多篇论文中被系统性地证实和量化。
- 现状
- 对齐的挑战:这揭示了对齐超大模型的一个核心挑战。实践中,需要通过更高质量的偏好数据、对奖励模型进行正则化、采用多模型/多信号的奖励机制,甚至引入实时的人类在线测评闭环来缓解此问题。
- 控制对齐计算:在对齐阶段,并非投入越多的计算资源越好,需要谨慎控制优化强度,避免对奖励模型的过度拟合。
9. 词表(Vocabulary)/分词缩放定律:大模型需要大词表
- 说明 模型的最优词表大小应该随着模型参数规模的增长而相应增大。 使用更大的词表,意味着模型可以用更少的 token 来表示相同的信息(即更粗粒度的符号),这本质上是将一部分计算压力从模型的深度运算转移到了词表的查找上,从而在整体上提升效率和性能。
- 提出时间/出处:NeurIPS 2024 的论文《Scaling Laws with Vocabulary》对此进行了系统性研究。
- 现状
- 自适应 Tokenizer:Tokenizer 的设计正从过去固定的 32k/50k 词表大小,转向根据模型规模、训练语料的语言分布和模态特性进行自适应设计。
10. 蒸馏缩放定律:教师与学生算力分配存在可外推的最优区
- 说明 在固定的总计算预算下(包含训练教师模型和蒸馏学生模型),存在一个最优的资源分配方案。一个过于强大的教师模型对于一个容量有限的学生模型,其边际收益会迅速递减。反之,一个不够强大的教师则会限制学生的能力上限。该定律旨在找到教师规模、学生规模、蒸馏数据量与复杂度之间的最佳平衡点。
- 提出时间/出处 2024–2025 年,系统性的“教师-学生计算分配”研究开始涌现,为高效的模型压缩和定制提供了理论指导。
- 现状
- 分阶段、多信号蒸馏:工程上倾向于采用多阶段蒸馏,先蒸馏通用能力,再蒸馏推理或对齐能力,并结合思维链等复杂信号进行监督。
- 提升部署效率:蒸馏不仅降低了直接的推理成本,还提升了模型的量化鲁棒性和服务弹性,是服务成本感知优化的重要一环。
11. “服务成本感知”的缩放定律:追求质量-成本-延迟的联合最优
- 说明 优化目标不再仅仅是训练结束时的模型质量,而是上线服务后的单位质量成本最小化。这意味着,在规划模型参数(N)和数据量(D)时,必须将推理期的成本(如并发、KV缓存占用、预期的请求长度分布、量化损失)纳入考量,从而在训练、质量、成本和延迟之间找到全局最优解。
- 提出时间/出处 2024–2025 年,工业界开始将部署代价写入 compute-optimal 框架,标志着大模型设计进入了系统性共同优化的新阶段。
- 现状
- 系统共同优化:在模型训练阶段就评估其对量化、剪枝等部署技术的友好度,并根据线上真实流量的回放数据来指导训练配方的选择。
- 多级模型路由:采用小模型处理简单请求、大模型处理复杂请求的路由策略,是该定律在实践中的典型应用,以实现系统级的成本效益最大化。
12. 优化器超参数缩放定律(以 Batch Size 为例)
- 说明 训练过程中的关键超参数,如批量大小(Batch Size)和学习率(Learning Rate),其最优值也与模型规模存在着可预测的缩放关系。例如,为了在更大规模的训练中维持稳定的收敛速度和良好的泛化性能,全局批量大小(Global Batch Size)通常需要随模型或数据规模的增加而相应调大。
- 提出时间/出处:相关观察散见于早期工作中,2024年末开始出现专门针对大模型全局批量大小缩放规律的研究论文。
- 现状
- 联合优化:在进行大规模训练时,Batch Size 和学习率调度方案被视为与 N、D 同等重要的“一类资源”,需要进行联合寻优以达到最佳的训练效率。
结语
尽管 Scaling Laws 显示了规模化的巨大威力,但越来越多的顶尖学者和从业者(如 Yann LeCun)公开表示,单纯依靠扩大规模无法实现通用人工智能。 他们主张必须在模型架构(如世界模型)、学习范式(如强化学习)以及系统能力(如检索、工具使用和复杂推理)上取得根本性突破。目前,整个领域正处于“继续scaling”和“探索新范式”两条路线的交织与辩论之中。