Skip to content

当前大模型的发展主线已从早期的暴力美学 (Scaling Law),转向效率与推理能力的精细化协同进化。当前及未来的竞争焦点不再是单一的参数规模,而是将模型能力、系统优化与成本控制融为一体,通过稀疏化架构、过程监督、以及系统级的推理预算与路由,实现更强的复杂推理、更长的实用上下文、更无缝的多模态交互,以及更经济、可控的部署方案。

一、 阶段性里程碑:技术演进过程

  • 2017–2020:奠基与标准化 (Transformer & Scaling Law)
  • 里程碑:Google 的 Transformer 架构成为主流。OpenAI 的 GPT 系列和 Google 的 BERT/T5 验证了预训练-微调范式,并揭示了缩放定律
  • 工程含义:业界确立了以密集 Transformer 为核心的技术栈,进入“大力出奇迹”的军备竞赛。
  • 2021–2022:对齐与能力涌现 (Instruction Tuning & RLHF)
  • 里程碑Chinchilla Scaling Laws 指明了数据与参数的最优配比。指令微调 (SFT) 与基于人类反馈的强化学习 (RLHF) 成为激发模型遵循指令的关键,以 InstructGPT 和 ChatGPT 为代表。
  • 工程含义:模型的“可用性”和“可控性”成为焦点,SFT + RLHF 的对齐流程成为行业标配。
  • 2023:效率与开源的拐点 (MoE & QLoRA)
  • 里程碑:Mistral AI 的 Mixtral 8x7B 将稀疏混合专家 (Sparse MoE) 架构带入主流并开源。QLoRA 等参数高效微调 (PEFT) 技术极大降低了微调门槛。
  • 工程含义:模型设计转向“又大又好用”,开源社区能力显著提升。
  • 2024–2025:多模态、长上下文与“推理优先”范式确立

里程碑

  • GPT-4o (2024年5月13日):OpenAI 发布,实现了端到端、低延迟的音视文多模态 I/O,确立了多模态产品的标杆形态。
  • Llama 3.1 405B (2024年7月23日):Meta 发布,以开放权重和社区许可形式为生态提供了前沿级稠密模型选项 (注意:并非 OSI 开源,商用受其许可条款约束)。
  • DeepSeek-R1 (2025年1月):DeepSeek AI 发布,通过大规模强化学习直接激励模型的推理能力,正式开启了“推理优先 (Reasoning-First)”的新范式。
  • OpenAI o3 / o4-mini (2025年4月16日):OpenAI 发布,作为“推理优先”理念的工程化落地,强调通过可调节的推理预算 (reasoning effort) 来提升复杂任务性能。
  • Gemini 2.5 Pro (2025年3月25日宣布,3月28日 GA):Google 宣布,将 100万 Token 上下文窗口正式商用 (GA),并规划了 200万 Token 路线图,强化了 Agentic (智能体) 能力。
  • Qwen3 (2025年5月技术报告,8月开源 1M 版本):阿里巴巴发布,覆盖 0.6B-235B 的密集与 MoE 模型系列,并在后续开源版本中实现了100万 Token 的长上下文支持,为开源生态的长文本处理提供了重要选项。
  • Kimi K2 (2025年7月28日):月之暗面 (Moonshot AI) 发布,这是一款总参数约 1T 的开放权重 MoE 模型,其架构和训练方式 (如 MuonClip) 专为提升推理、编码与工具使用能力而设计,明确指向 Agentic AI 方向。
  • 2025 (Q3):统一系统与推理一体化 (GPT-5 系列)

里程碑

  • GPT-5 (2025年8月7日):OpenAI 将其定义为“统一系统”,由快速主模型 (main)深度推理模型 (thinking) 和实时路由器协同工作。ChatGPT 默认按任务动态路由,“需要时再深想”;API 则通过 reasoning.effort 参数控制“思考强度”。
  • 关键规格 (API):提供 400K 输入上下文窗口及 128K 最大输出 Token
  • 扩展:发布 GPT-5-Codex,强化代理式编码 (agentic coding) 与代码审查能力。
  • 工程含义:推理能力不再是“另一个型号”,而是系统内置的可伸缩能力。“思考预算 × 动态路由 × 成本/延迟”成为模型服务设计的新三角。

二、 核心技术演进剖析

1. 架构演进:从“密集”到“稀疏”与“混合”

  • Dense Transformer → Sparse MoE:MoE 架构通过门控网络激活一小部分“专家”网络,在降低推理计算量的同时大幅提升模型总容量。
  • 代表作:Gemini、DeepSeek-V3、Qwen3-235B-A22B、Kimi K2。
  • 单模态 → 多模态一体化:新一代模型趋向于在底层统一多模态信息的表示,实现端到端处理。
  • 代表作GPT-4o,其实现了实时、无缝的多模态输入输出,是该方向的标杆性产品。

2. 训练范式:从“对齐结果”到“对齐过程与预算”

  • 偏好对齐技术演进DPO 家族 (包括 ORPO, IPO 等变体) 已被广泛采用,以其稳定性和简洁性替代了部分复杂的 RLHF 环节。强化学习 (RL),特别是结合 AI 反馈的 RLAIF,在后训练、高级推理能力激发和安全对齐中仍然扮演着核心且不可或缺的角色。
  • “推理优先”范式的实现路径:行业焦点已转向激励和优化模型的“思考过程”。
  • 早期探索 (o3 / o4-mini & DeepSeek-R1):这些模型是“推理优先”范式的探路者。DeepSeek-R1 主要通过基于最终结果的强化学习和验证器 (Verifiers) 来激励推理能力的提升,而非依赖大规模逐步的过程标注。OpenAI 的 o3 / o4-mini 则展示了在推理和安全方面的高级对齐成果。
  • 统一推理接口与可调“思考预算” (GPT-5):GPT-5 将此范式完全产品化。其 API 提供了统一的 reasoning.effort 接口,包含 minimal / low / medium / high 四个档位,允许开发者为不同任务精确分配“思考 Token”预算。这使得同一个模型端点可以灵活地在延迟、成本和准确性之间进行权衡,覆盖从快速问答到深度分析的全部场景。

高级安全对齐:从硬性拒答到安全补全

  • GPT-5 引入了安全补全 (Safe-completions) 机制,这是一种以输出为中心的安全训练方法。在处理敏感或双用途查询时,模型不再简单地硬性拒答,而是倾向于提供高层次、安全的替代性输出并承认自身局限。其核心目标是在提升有用性的同时,降低残余安全失败的严重性。尽管外部评测表明该机制并非万无一失,但它代表了安全对齐思路的一次重要进化。

三、 评测体系演进:迈向多维度的能力评估

传统基准已不足以区分前沿模型。行业正转向更严格、更贴近真实场景的新一代评测体系:

  • 新一代锚点基准:采用 AIME-2025 (数学推理)、SWE-bench Verified (真实代码修复)、MMMU (大规模多模态理解) 作为对齐 GPT-5 等顶级模型的公开锚点。
  • 多维度权衡评估:评估时不仅要看准确率,还必须同步记录 reasoning.effort 与 Token 成本,以反映模型在“质量 / 费用 / 延迟”三个维度上的权衡。

四、 2026–2028 关键趋势展望

  1. 推理优先 (Reasoning-First) 范式标准化:除了过程奖励模型 (PRM) 和测试时计算 (TTC),统一路由 + 可调思考预算将成为模型交付的默认形态,以 GPT-5 为代表。

  2. 大规模稀疏化与混合架构主流化:MoE 和 Transformer × SSM 等混合架构将成为常态,以应对多样化的计算与任务需求。

  3. 多模态 Agentic AI 进入实用阶段:模型将深度集成操作系统与应用,执行规划、调用工具、与 UI 交互,完成复杂的多步骤任务。

  4. 原生与高效长上下文:全新的位置编码和状态压缩技术将取代 RoPE 扩展,实现更原生、更高效的长上下文处理。

  5. 端云协同生态成熟:端侧小模型 (SLM) 与云端大模型 (LLM) 将无缝协同,形成强大的分布式智能网络。

  6. 系统与模型的深度协同设计:模型架构将深度考虑硬件特性,特别是对推理 Token 并行计算与缓存占用的原生支持 (如 Blackwell + TensorRT-LLM 的演进方向)。

五、 工程落地建议

模型选型

  • 闭源上限与蒸馏源:将 GPT-5 (含 mini/nano) 作为能力上限的基准和蒸馏、对比评测的标准选项。对于代理式工作流,优先评估 GPT-5-Codex
  • 开放生态基座:将 Qwen、GLM 等作为可控微调、数据注入和本地化部署的优选基座。

训练与对齐

  • 保留推理元信息:在构造过程监督数据或进行模型蒸馏时,记录并复现推理预算 (例如,将 reasoning.effort 等级纳入数据或 Prompt 的元信息中),以便在线下训练时保留模型的“深思”风格。

推理与部署

  • 成本与延迟治理:建立策略层,根据任务类型和预算,动态切换 GPT-5 ↔ GPT-5 mini/nano,并精细控制“思考开关/强度”。
  • 底层吞吐优化:采用 权重/KV量化 + vLLM +投机性解码 的组合,最大化基础设施的吞吐效率。
返回专题 · AI 技术基础上一篇:计算机视觉模型发展历程下一篇:多模态模型架构演进过程

持续沉淀企业 AI 技术内容。