人工智能领域在多模态理解与生成上的探索,其架构演进在短短数年内经历了数次范式转移。了解其中的变化过程,可以对整体技术发展有个认识,例如看到一个模型的技术报告时,可以看出一些门道;此外,对模型选型等也有帮助(是否先进、是否还可以降低延迟)。
以下是各代际模型的详细剖析。
第一代(约2021年):双塔对齐
- 背景与动机:在这一阶段,核心挑战是基础的“跨模态语义对齐”。即,如何让模型理解一张狗的图片和“一只狗”这段文字指向的是同一个概念?研究者们需要找到一种方法,将像素和文字这两种截然不同的数据格式,映射到同一个统一的数学空间中。
核心架构与实现
- 双塔架构 (代表: CLIP, ALIGN):这是当时最具影响力的范式。它构建两个独立的编码器(“塔”),一个用于图像(通常是ViT),一个用于文本(通常是Transformer)。通过对比学习,模型被要求在向量空间中,将匹配的图文对向量“拉近”,将不匹配的“推远”。
- 单流/双流融合架构 (代表: VisualBERT, ViLBERT):这类模型尝试进行更深度的融合,将图像块视为一种特殊的“视觉词元”,与文本词元拼接在一起,送入一个统一的Transformer编码器中进行跨模态的注意力计算。
- 核心贡献:奠定了跨模态预训练的基础,并解锁了强大的零样本(Zero-Shot)泛化能力。
- 结果与局限:在图文检索、零样本分类上取得巨大成功,但本质上是“理解”和“匹配”模型,无法进行复杂的生成或对话(可以做检索)。
第二代(约2022年):冻结LLM + 桥接器
- 背景与动机:随着大语言模型(LLM)能力的爆发,研究者们萌生了一个“务实而巧妙”的想法:利用现成的强大LLM,只为它装上一个“视觉接口”,从而以较低成本将LLM的推理能力迁移到多模态领域。
核心架构与实现
- “拼接式”架构:由三部分组成:一个冻结的视觉编码器 + 一个可训练的轻量级连接器 + 一个基本冻结的LLM。
- 桥接机制是关键:连接器(如Flamingo的Perceiver Resampler, BLIP-2的Q-Former)负责将海量视觉特征压缩和转译成少量LLM能够高效处理的“软提示”词元。
- 核心贡献:开创了“LLM+X”的参数高效型多模态研究范式,成功将LLM的少样本学习和思维链推理能力赋予了多模态模型。
- 结果与局限:模型能够生成详细、连贯的图像描述。但存在信息瓶颈,且由于LLM基本被冻结,模型难以遵循复杂的用户指令,更像一个“看图说话工具”。
第三代(2023–2024年):指令对齐
- 背景与动机:第二代模型“能看、能说”,但“说不好、不听话”。第三代的目标,是在拼接式架构的基础上,通过系统性的数据工程和对齐技术,打造一个真正好用、可靠的视觉对话助手。
核心架构与实现
- 架构延续与数据革命:其定义的飞跃并非架构本身,而是以数据和对齐为中心的训练哲学。
精细化的阶段式训练
阶段一:连接器预训练。冻结视觉编码器和LLM,只训练中间的连接器,初步对齐视觉和语言空间。
阶段二:多模态指令微调(核心)。使用大规模、高质量的视觉指令数据进行监督式微调(SFT),教会模型如何“遵循指令”。
阶段三(可选):偏好优化。采用DPO、RLAIF等多模态偏好对齐技术,减少幻觉,提升有用性和安全性。
灵活的模块训练策略
- 语言模型 (LLM):与第二代的最大不同在于,LLM在此阶段通常会被微调(全参数或LoRA),以更深度地适应多模态输入。
- 视觉编码器 (ViT):可以完全冻结(成本低),也可以部分或全部解冻(提升细节理解能力,但增加成本)。
- 核心贡献:确立了“预训练-指令微调-对齐”的黄金范式,并催生了以LLaVA为代表的强大开源VLM生态。
- 结果与局限:模型能力得到巨大提升,能够进行流畅的多轮对话和复杂推理。但拼接式架构的高延迟和非原生融合的根本性瓶颈依然存在。
第四代(2024–2025年):原生多模态
- 背景:市场需求转向了能够实时语音对话、察言观色的AI助理,拼接式架构的延迟成为不可逾越的障碍。技术上的终极愿景——构建一个统一处理所有模态的单一神经网络——在巨大的算力支持下成为可能。
核心架构与实现
- 范式颠覆——单一端到端模型:抛弃模块化的拼接思路,采用一个统一的神经网络(如GPT-4o, Gemini)直接处理文本、视觉、音频的输入和输出,通常需要对整个骨干网络进行联合训练。
核心贡献
- 实现了革命性的低延迟:将语音交互延迟降低到人类反应级别(约200-300毫秒),使自然对话成为现实。
- 实现了更深度的模态融合:模型在统一的表示空间内进行“多模态思维”,能够协同理解和生成。
- 结果与未来:诞生了真正意义上的“多模态AI助理”,具备前所未有的交互能力。未来挑战在于极高的训练成本和模型安全性。
关于“世界模型”
在理解和交互之外,AI的另一个终极目标是创造。从生成静态内容,到模拟一个可交互的、遵循物理规律的动态虚拟世界,这是通往通用人工智能(AGI)的重要路径。
“世界模型”更像是大脑的“内部模拟与预测系统” ,或者说“想象力”。它在“感知”的基础上,更进一步,试图学习并内化这个世界的运行规律(物理规则、因果关系),从而能够预测未来或者模拟一个不存在但符合规律的世界。“世界模型”可以说是多模态能力发展到极致后的一个演进方向。但是相关的技术还在发展初期。
相关架构
- 视频生成 (Sora, Veo):采用扩散-Transformer (DiT) 架构,在时空潜在空间上进行去噪,学习世界的动态规律。
- 可交互世界模型 (Genie 3):这是一个范式飞跃。它采用动作条件的自回归模型,通过对海量无标签视频的学习,掌握了一个“潜在动作空间”,从而根据用户的实时动作输入来渲染世界的下一帧。
最后:模型如何真正处理多模态“文件”
实践中,有个需要说明的地方:大模型原生支持的是模态(Modalities),即原始的信号流(如像素、声波、文本字符),而不是承载这些信号的无数种文件格式(File Formats)。
当用户上传一个PDF或MP4文件时,模型并非“天生”就能理解这些文件容器。实际上,一个复杂而高效的预处理管线在后端工作,这个过程通常对用户是透明的:
- 图像 (PNG/JPEG): 被解码为像素网格,然后通过视觉Tokenizer(如ViT)切分成图像块(Patches),转换为视觉Token。
- 音频 (MP3/WAV): 通过神经音频编解码器(如EnCodec)或特征提取器,被转换为一系列离散的音频Token。
- 视频 (MP4): 被拆解为按时间戳采样的图像帧序列和独立的音轨。图像帧和音轨再分别通过上述流程转换为对应的Token序列。
- PDF文档: 通常有两条处理路径:
视觉路径:将每一页渲染成一张高分辨率图片,然后按图像模态处理。
文本/结构路径:使用专门的解析器提取文本内容、表格、版面布局信息,转换为结构化的文本Token。
- 复杂格式 (DOCX, PSD, CAD): 依赖更专业的外部解析器,先抽取出其中的文本、元数据、图层信息,或直接将其渲染为图像,再送入模型。
大模型的“原生多模态”能力指的是其核心架构能够统一处理不同类型的模态信号。而它能否“支持某种文件”,则完全取决于其前端的数据处理管线是否能将该文件格式成功地解析和转码为模型可以理解的模态Token流。