Skip to content

大家可能对模型预训练的时候,一个参数平均需要多少Token感到好奇;例如训练一个32B的模型,究竟应该用多少Token的数据量?要回答这个问题,通过分析不同时期的训练数据与参数比,即“Token/参数”比,可以看到,这并非一个静止的数字,而是随着实践认知、经济目标和技术能力上在不断变化。

第一阶段:探索期(约2020-2021年)

当时的行业(其实主要也就是OpenAI)共识深受OpenAI在2020年提出的“缩放定律”(Scaling Laws)的影响。该定律同时分析了模型参数(N)和数据量(D)对性能的贡献,但其核心结论指出,在当时的研究尺度下,模型参数是更主要的性能瓶颈。研究者相信,只要模型的“大脑”足够大,它就能从相对有限的数据中自行归纳和学习到世界的复杂规律。因此,所有的资源和智慧都倾注于如何突破参数量的天花板,而数据量只要“足够”即可,其重要性被排在了参数规模之后。

此外,在当时成功训练一个千亿级别的模型,甚至搭建一个万卡集群本身就是一项巨大的工程挑战(OpenAI训练GPT-3用的集群是微软专门支持搭建的,当时排名全球超算中心前五)。无论是GPU算力(NVIDIA A100尚未完全普及)、集群互联技术,还是分布式训练框架,都处于探索和完善阶段,所以首要目标是“先让模型成功跑出来”。因此,在有限的算力和时间内,研究团队不得不在数据量上做出妥协。同时,能够有效处理和清洗数万亿级别Token的高质量数据工程管线也远未成熟。

  • 时代特征比例:~1.7 Token / 参数
  • 标志性模型:OpenAI的 GPT-3,拥有惊人的1750亿(在当时那个时期是个天文数字)参数,但其训练数据量仅为约3000亿(300B)Tokens。

在“参数为王”的信仰和技术能力的双重制约下,GPT-3的“数据轻、参数重”的配比应运而生。然而,后来的研究证明,这头巨兽实际上处于“饥饿”状态,其潜力远未被发掘。


第二阶段:Chinchilla定律与“计算最优”(约2022-2023年)

2022年,DeepMind发表的关于Chinchilla模型的研究,成为了大模型发展史上的一个决定性转折点,它为行业带来了全新的“度量衡”。

Chinchilla定律通过严谨的实验颠覆了过去的认知。它明确指出:在给定的计算预算下,为了达到最佳模型性能,资源不应只投入到扩大模型规模上,而应在增加参数量和增加数据量之间取得平衡。这个最优平衡点,就是大约每参数20个Token。这一发现让业界认识到:过去的大模型普遍“没吃饱”,性能受到了数据量的严重拖累。“计算最优”(Compute-Optimal)成为了新的行业金标准。

此外,同时期的算力方面,随着NVIDIA A100 GPU的大规模部署、更高速的互联技术和日益成熟的分布式训练框架,头部机构已经具备了在合理时间内处理和训练万亿级别Token数据集的能力。数据工程的进步也使得构建更大规模的高质量语料库成为现实。这为践行Chinchilla定律提供了坚实的物质基础。

  • 时代特征比例:~20 Token / 参数
  • 标志性模型:
    • Chinchilla (70B)以约1.4万亿(1.4T)Tokens训练,精准地踩在了 20:1 的黄金比例上。
    • Meta LLaMA-1 (65B)使用了1.4T Tokens,比例约为 21.5:1,是该定律的忠实践行者。
    • Meta Llama-2 (70B)数据量提升至2T Tokens,比例增长到 28.6:1,已显现出超越基准、向更多数据倾斜的苗头。

在这一阶段,行业的目标是追求“效率”。


第三阶段:“数据为王”与推理效率(约2024年至今)

当大模型训练技术逐渐成熟,模型智能逐渐提升,从实验室走向广泛的商业应用,模型推理需求开始快速落地,新的经济账本被打开,行业的焦点也随之再次转移。

大模型的应用意味着每天数十亿甚至上万亿次的调用,长期、持续的推理成本成为了总拥有成本(TCO)的大头。业界算了一笔新账:是否可以通过增加一次性的训练成本(即用远超20:1的海量数据进行“过训练”),来换取一个参数更少、但性能同样强大、推理更便宜的模型?经过不断试验,答案是肯定的。一个32B模型的部署和运行成本远低于175B模型。这种“用训练换推理”的策略,在商业上极具吸引力。

同时期的研究也进一步发现,即使远超Chinchilla的“计算最优点”,继续用高质量数据喂养模型,其性能(尤其是在代码、数学、长上下文等复杂推理任务上)依然能够持续提升。性能的天花板比之前预想的要高得多,只要你愿意投入足够的优质数据和算力。

  • 时代特征比例:50 ~ 1000+ Token / 参数
  • 标志性模型:
    • Llama-3 (70B)宣称使用超过15T的高质量Tokens,比例达到了 ~214:1
    • Qwen3 (32B)使用约36T Tokens,比例高达 ~1125:1

总结

演进阶段特征比例 (Token/参数)核心驱动力与原因
第一阶段 (Pre-Chinchilla)~1.7 : 1参数为王;算力稀缺,训练成本高昂,目标是“能做出来”。
第二阶段 (Chinchilla)~20 : 1参数与数据并重,追求“计算最优”;算力成熟,目标是“高效训练”。
第三阶段 (Post-Chinchilla)50 ~ 1000+ : 1关注长期推理成本,用训练换效率;突破性能极限。

返回专题 · AI 工程落地上一篇:领域加速芯片软件栈的复杂性分析下一篇:混合异构算力集群:大模型时代的趋势和挑战

持续沉淀企业 AI 技术内容。