Skip to content

深度学习的浪潮推动了计算机视觉(CV)和视觉语言(VL)领域的飞速发展。这一进程并非仅由新模型驱动,更深层次上,是由一系列经典且强大的“结构”或“算子”(Operators)的创新所引领。这些构件如同乐高积木,通过巧妙组合,构筑起日益复杂和强大的模型。

在 CV 领域,发展脉络清晰地展现了从局部到全局、从静态到动态的特征提取范式变迁。早期以卷积为核心,通过1x1卷积进行通道融合、深度可分离卷积实现效率革命、空洞卷积扩大感受野。随后,为了捕捉长距离依赖关系,自注意力机制被引入,并演化出如 Swin Transformer 的窗口化注意力等高效变体。而残差连接和特征金字塔(FPN)则分别解决了深度网络的优化难题和多尺度目标的检测问题,至今仍是现代模型的基础。

在 VL 领域,核心挑战在于如何有效“对齐”和“融合”视觉与语言这两种异构模态。早期的双编码器范式(如CLIP)通过对比学习将图像和文本映射到共享的嵌入空间,奠定了跨模态检索和零样本学习的基础。进而,为了实现更深层次的交互,交叉注意力(Cross-Attention)机制成为主流,它允许语言模型直接“读取”视觉特征。为了解决视觉信息冗余带来的计算难题,Q-Former 和 Perceiver Resampler 等查询式摘要模块应运而生,它们能高效地从海量视觉Token中提取与文本最相关的精华信息。

进入2024-2025年,随着对长序列建模需求的增长,以 Mamba 为代表的状态空间模型(SSM)开始在CV和VL领域崭露头角,它们以线性时间复杂度的优势,为处理高分辨率图像和长视频等任务提供了新的高效解决方案。

当前,工业界应用呈现出经典与前沿并存的局面。高效的卷积结构依然是移动端和边缘设备的首选;残差连接与FPN是检测、分割等任务的标配。而在需要强大全局理解和生成能力的场景,基于Transformer和交叉注意力的结构已成为主流。视觉语言模型正从理解走向与世界交互,成为多模态智能体的核心。

一、 计算机视觉(CV)的经典结构与算子

CV模型的核心在于如何有效地提取、整合和利用图像中的信息。以下是推动其发展的关键结构。

1. 感受野与卷积家族:构建视觉层次的基础

卷积神经网络(CNN)通过堆叠卷积层来构建从低级边缘到高级语义的特征层次。卷积算子的演进主要围绕着如何更高效、更灵活地捕捉空间信息。

  • 1x1 卷积 (Pointwise Convolution):在《Network-in-Network》首次提出,其核心作用并非空间滤波,而是:
  • 通道降维与升维:以极低的计算成本改变特征图的通道数,是GoogLeNet中Inception模块和ResNet中“瓶颈”结构的关键。
  • 通道信息融合:在不改变空间维度的情况下,实现跨通道的特征交互与重组。
  • 深度可分离卷积 (Depthwise Separable Convolution):MobileNet和Xception的基石,将标准卷积分解为两步,极大降低了计算量和参数量:
  • 逐通道卷积 (Depthwise Convolution):每个输入通道由一个独立的卷积核进行空间滤波,不进行通道间信息交换。
  • 逐点卷积 (Pointwise Convolution):即1x1卷积,负责将前一步的输出进行通道融合。
  • 空洞/膨胀卷积 (Dilated/Atrous Convolution):为语义分割等密集预测任务而生,它在不增加计算量或降低空间分辨率的前提下,感受野随膨胀率线性增大。通过在卷积核元素之间插入空洞(零),使得卷积核可以覆盖更大的区域。DeepLab系列模型中的ASPP (Atrous Spatial Pyramid Pooling)模块通过并联不同膨胀率的空洞卷积,有效捕捉多尺度上下文信息。
  • 可变形卷积 (Deformable Convolution, DCN):针对目标的几何形变,DCN为卷积核的每个采样点增加了可学习的二维偏移量。这使得卷积的感受野能够根据图像内容动态调整,更好地适应物体的不同形状、姿态和尺度,显著提升了目标检测和分割的精度。

2. 全局上下文与注意力:从局部到全局的跨越

传统CNN的感受野有限,难以直接建模长距离依赖。注意力机制的引入打破了这一局限。

  • Non-Local 模块:以‘非局部运算’形式系统性地把自注意力思想引入视觉。它计算图像中任意两个位置之间的特征相似度,并将所有位置的特征进行加权求和,从而直接捕捉全局依赖关系。这是从CNN局部操作到Transformer全局建模的关键过渡。
  • 窗口化自注意力 (Windowed Self-Attention):标准ViT的全局自注意力计算量与图像尺寸的平方成正比,处理高分辨率图像时难以承受。Swin Transformer 提出的移位窗口(Shifted Windows)机制巧妙地解决了这个问题:
  • 在不重叠的局部窗口内计算自注意力,大幅降低计算量。
  • 通过移窗在层级堆叠后逐步获得全局感受野与跨区域交互(非单层即全局),从而达到全局建模的效果。
  • 可变形注意力 (Deformable Attention):借鉴DCN的思想,Deformable DETR将其应用于Transformer。它不再计算所有位置的注意力,而是让每个查询(Query)只关注参考点周围的一小组可学习的采样点,极大地稀疏了注意力计算,加速了DETR类模型的收敛,并提升了对小目标的检测性能。
  • FlashAttention:一种IO感知的精确注意力算法内核。它通过分块计算和利用GPU片上SRAM高速缓存,最大限度地减少了高带宽内存(HBM)的读写次数,从而在不牺牲精度的情况下,显著加速了注意力计算并降低了显存占用,已在中大型 Transformer 的训练/推理中被广泛采用。
  • 位置编码 (Positional Encoding):由于自注意力机制本身是位置无关的,需要额外引入位置信息。从最初的绝对位置编码(ViT),到更灵活的相对位置编码,再到旋转位置编码 (Rotary Position Embedding, RoPE),后者通过将位置信息编码为旋转矩阵作用于Query和Key,巧妙地引入了相对位置依赖,并具有良好的外推性,在视觉和语言模型中都得到了广泛应用。

3. 残差/跳连与多尺度融合:优化信息流动

  • 残差连接 (Residual/Skip Connection):由ResNet提出,是深度学习史上最重要的结构之一。它通过“恒等映射”的捷径,允许信息和梯度直接跨层流动,极大地缓解了深度网络训练中的梯度消失和退化问题,使得训练数百甚至上千层的网络成为可能。
  • 特征金字塔网络 (Feature Pyramid Networks, FPN):针对目标检测和分割中的多尺度问题,FPN提出了一种高效融合多层特征的“颈部”结构。它结合了自底向上的主干网络和一条自顶向下的通路,通过横向连接将高层的强语义特征与底层的精细空间信息进行融合,为不同大小的目标生成高质量的特征表示。

4. 通道注意力:让网络关注“什么”更重要

  • SE (Squeeze-and-Excitation) 模块:一种轻量级的“即插即用”通道注意力模块。它通过“Squeeze”(全局平均池化)操作获取每个通道的全局信息,然后通过“Excitation”(两个全连接层)学习通道间的非线性依赖关系,生成一组通道权重,最后将这些权重乘以原始特征图,从而动态地增强有用特征通道、抑制无关通道。
  • CBAM (Convolutional Block Attention Module):在SE的基础上,CBAM进一步引入了空间注意力。它依次应用通道注意力模块和空间注意力模块,让网络不仅学习“什么”通道更重要,还学习“哪里”的空间位置更重要。

5. 归一化、激活与稳定化训练

  • 归一化:BN(批归一化)、LN(层归一化)、GN(组归一化)、RMSNorm(只用均方根缩放)。用法经验:
  • BN:大多数 CNN 训练的默认;小批量/分布式同步时要小心。
  • LN:与序列/注意力天然契合,是 Transformer 家族标配。
  • GN:批小/显存紧时常替代 BN。
  • RMSNorm:更轻的归一化,近年在大模型里常见。
  • 激活函数:ReLU(简单高效)、GELU(Transformer常用)、SiLU/Swish(在很多视觉骨干里表现稳)。
  • 正则/稳训技巧:Dropout、Stochastic Depth(Drop-Path)在深网络/ViT里都常用;MixUp、CutMix 等“数据级算子”对泛化很有帮助。

6. 分割/检测头部与解码常用件

  • ASPP / PSP-Pooling:语义分割尾部的两大“多尺度上下文”模块(DeepLab、PSPNet)。
  • DETR 系列的“集合预测 + 匈牙利匹配”:把检测改写成端到端集合预测,去掉手工 NMS/锚框;其后的Deformable-DETR用稀疏采样注意力加速收敛、小目标更强。

二、 视觉-语言(VL)的典型结构与连接方式

VL模型的核心在于如何让视觉和语言两个模态进行有效的交互与融合。

1. 模态交互范式:从对齐到深度融合

  • 双编码器 + 对比学习 (CLIP 范式):CLIP开创性地使用了该范式。它包含一个图像编码器和一个文本编码器,分别将图文对映到同一个高维特征空间。通过对比损失函数 (InfoNCE),模型在训练中拉近匹配的图文对的特征向量,推远不匹配的图文对。这种方式学到的特征具有强大的泛化能力,尤其适用于零样本图像分类和跨模态检索任务。
  • 融合编码器 / 交叉注意力 (Fusion-Encoder / Cross-Attention):为了实现更深度的图文交互,这类模型通常在语言模型中插入交叉注意力层。在这些层中,文本的Token作为Query,去“查询”和“关注”由视觉编码器产生的视觉Token序列,从而将视觉信息深度融入到文本的生成或理解过程中。
  • 查询器式视觉摘要 (Querying Transformer / Q-Former):直接将大量的视觉Token(例如ViT输出的数百个Token)输入大语言模型(LLM)计算成本高昂。BLIP-2提出的Q-Former结构解决了这个问题。它使用一小组可学习的查询向量(Latent Queries),通过交叉注意力机制从冻结的图像编码器中“提取”与文本相关的、摘要性的视觉信息。这个固定长度的、信息浓缩后的视觉特征再被送入LLM,实现了在冻结大模型参数情况下的高效图文对齐。
  • Perceiver Resampler:与Q-Former类似,Flamingo模型中使用的Perceiver Resampler也是一种Token压缩模块。它同样使用一组固定的可学习查询向量,通过交叉注意力将变长的视觉特征序列(如图、视频帧)压缩成固定数量的“摘要Token”,有效降低了后续交叉注意力层的计算复杂度,尤其适用于处理多图或视频输入。

2. 新兴结构:面向长序列与高效率

  • 状态空间模型 (State Space Models, SSM / Mamba):Mamba作为一种新兴的序列模型,其计算和显存复杂度随序列长度线性增长,远优于Transformer的二次方复杂度。Vision Mamba (ViM) 等工作尝试将其应用于视觉任务,通过将图像展平为序列,利用SSM的双向扫描能力来捕捉全局上下文。在处理超高分辨率图像或长视频等长序列任务上,展现出巨大潜力,被视为Transformer的有力竞争者或补充。

三、 发展脉络(简明时间线)

  • 2012–2015:深度学习在CV领域取得突破。AlexNet开启了深度CNN时代;GoogLeNet的1x1卷积和ResNet的残差连接成为里程碑式的设计。
  • 2016–2018:网络结构设计进入“精细化”阶段。MobileNet的深度可分离卷积引领了高效模型设计;空洞卷积在语义分割中大放异彩;Non-Local将自注意力引入CV;SE模块展示了通道注意力的威力。
  • 2020–2021:Transformer架构开始主导CV领域。DETR将目标检测重塑为集合预测问题;Swin Transformer通过窗口化注意力实现了效率与性能的双赢;CLIP双编码器+对比学习范式统一了视觉和语言的表示空间,成为VL领域的基石。
  • 2022–2023:效率和与大模型结合成为焦点。FlashAttention成为训练和推理Transformer的标准内核;BLIP-2通过Q-Former为如何高效地将视觉信息接入冻结的LLM提供了范本。
  • 2024–2025:追求更长的上下文和更高的效率。Vision Mamba状态空间模型开始在视觉任务中挑战Transformer的地位,特别是在需要处理长序列的场景。VL模型向着多模态智能体、视频理解等更复杂的方向发展。

四、 当前应用现状与选型建议

计算机视觉 (CV)

  • 工业界主力:在大多数落地场景中,基于残差连接的CNN架构(如ResNet系列)依然是中流砥柱。在目标检测和分割任务中,FPN或其变体是标准的颈部结构。
  • 效率优先场景:在移动端、边缘计算等对功耗和延迟敏感的场景,以深度可分离卷积为核心的轻量化网络(如MobileNet系列)是首选。
  • 高性能需求:对于追求极致精度的云端任务或处理高分辨率图像,Swin Transformer及其变体,或者CNN-Transformer混合架构是常用选择。训练和推理时,使用FlashAttention内核已是共识。
  • 前沿探索Vision Mamba等SSM模型因其处理长序列的潜力,在医学影像、遥感图像分析和视频理解等领域正受到越来越多的关注。

视觉-语言 (VL)

  • 跨模态检索与零样本分类CLIP及其改进模型的双编码器结构仍然是该领域最基础和核心的技术。
  • 多模态对话与生成:在构建视觉问答、图像描述生成等多模态大模型时,“冻结的视觉编码器 + 查询器式摘要模块(如Q-Former) + 冻结的LLM”已成为最主流、最高效的技术路线。
  • 长视频/多图理解:对于需要处理大量视觉输入的任务,Perceiver Resampler等Token压缩技术是关键,而SSM/Mamba也因其线性复杂度优势,正被积极探索用于此类场景。

五、 实操选型速查

  • 任务:常规图像分类/检测/分割,性能与效率均衡
  • 推荐组合ResNet/ConvNeXt Backbone + Residual Connection + FPN (检测/分割) + SE/CBAM (可选增强)。
  • 任务:移动端/边缘设备部署
  • 推荐组合MobileNet/ShuffleNet Backbone (核心是Depthwise Separable Conv) + SE
  • 任务:高分辨率图像处理或追求SOTA性能
  • 推荐组合Swin Transformer Backbone (核心是Windowed Attention) + FlashAttention 内核。
  • 任务:构建多模态大模型(VLM)
  • 检索/分类CLIP-style Dual Encoder + Contrastive Loss
  • 对话/生成Frozen ViT + Q-Former/Perceiver Resampler + Frozen LLM
  • 任务:超长视频理解/高分辨率医学影像分析
  • 前沿选择:探索基于Vision Mamba (SSM)的架构。
返回专题 · AI 技术基础上一篇:基石之上1:一文读懂FFT下一篇:扩散模型:从混沌到有序的生成艺术

持续沉淀企业 AI 技术内容。